“不要被大@@数据@@@@(Big Data)的@@‘Big’误导@@,大@@数据@@更强调的@@不是数据大@@@@,而是数据挖掘@@。”在日前举行的@@第十届国家@@信息化专家@@论坛上@@,中国工程院院士@@、中国互联网协会理事长邬贺铨@@指出@@@@,大@@数据@@需要更强调数据挖掘利用@@@@,而针对目前@@存在的@@技术应用@@@@、人才@@、安全隐私@@等问题@@,最关键的@@是要有国家@@大@@数据@@战略@@,使其成为转变经济增长方式的@@有效抓手@@。

  大@@数据@@的@@价值好似沙里淘金@@

  NBA从上世纪@@80年@@代开始将球员在赛场上的@@表现数据化@@,经过@@30多年@@的@@积累已经达到可辨别每一个球员在场上的@@弱点@@,方便教练进行针对性战术安排@@。目前@@30家@@NBA球队俱乐部已有半数聘请了数据分析师@@,他们的@@平均胜率达到@@59.3%,而没有进行数据分析的@@球队仅有平均@@40.7%的@@胜率@@。这就是大@@数据@@的@@价值体现@@。

  大@@数据@@的@@价值究竟从何而来@@?邬贺铨@@认为@@,数据大@@与价值大@@未必成正比@@。例如将一个人每分钟的@@身体数据记录下来@@,对了解该人的@@身体状况是有用@@的@@@@,但@@如果将他的@@每毫秒的@@身体数据都记录下来@@,数据量将较前者高@@6万@@倍@@,与按每分钟记录的@@数据相比@@,其价值并不能增加@@。大@@数据@@的@@价值在于样本数的@@普遍性@@。统计一个人每分钟的@@身体状况数据与统计@@60个人每小时的@@身体状况数据相比@@,可能后者在统计上更有意义@@。大@@数据@@往往是低价值密度@@。大@@数据@@中多数数据可能是重复的@@@@,忽略其中@@一些数据并不影响对其挖掘的@@效果@@。因此可以说大@@数据@@的@@价值好似沙里淘金@@和@@海底捞针@@。

  微软的@@研究发现@@,Facebook90%的@@Hadoop任务数据集在@@100GB以下@@,Yahoo平均为@@12.5GB。北京公交一卡通乘客每天刷卡@@4000万@@次@@@@、地铁@@1000万@@人@@次@@@@,每天累计的@@数据是@@MB级@@,一年@@下来也不到@@TB级@@,充其量只是中数据@@,但@@对这一数据量的@@挖掘显然就能得出北京人群使用@@公交的@@出行规律@@,对于优化北京公交线路的@@设置有足够的@@价值@@。因此邬贺铨@@指出@@@@,事实上小数据也值得重视@@,对未到@@TB级@@规模的@@数据的@@挖掘也有价值@@。

  网络的@@数据并非都可信@@

  Google的@@流感指数在@@2008年@@H7N1流感爆发时给出的@@预测比美国疾控中心早两周发布@@,与其数据相似度@@0.9。美国纽约州@@2013年@@1月流感流行状况十分严峻@@,政府发布了@@“公共健康紧急状态@@”的@@通告@@,大@@众媒体的@@广泛报道@@,影响了谷歌用@@户的@@搜索@@因为@@,导致@@Google的@@流感指数估值出现了假阳性@@,远高于疾控中心的@@统计数值@@。在谷歌流感指数的@@启@@

  发下@@,纽约罗切斯特大@@学利用@@@@Twitter的@@数据进行了尝试@@,可以提前@@8天预报流感对人体的@@侵袭状况@@,而且准确率高达@@90%,不过@@Twitter的@@使用@@者大@@部分是年@@轻人@@,而季节性流感的@@袭扰对象多为抵抗力较弱的@@老年@@人和@@儿童@@,因此基于@@Twitter的@@微博判断流感有片面性@@。

  邬贺铨@@由此指出@@,网络的@@数据并非都可信@@。网络数据中真伪混杂@@,特别是微博传播不实消息散布很快@@,而微信圈子内的@@消息不易监控@@,对信息内容管理提出挑战@@。过去往往认为@@“有图有真相@@”,事实上图片可以移花接木@@、张冠李戴@@、时空错乱@@,或者照片是对的@@@@,可是文字解释是捏造的@@@@,这样的@@事情已经屡见不鲜@@。鉴于@@“谣言转发@@500次@@就是传谣@@”,一些网站规定所有帖子不论是否真实一律对转发自动封顶不超过@@499次@@,从舆情收集效果看@@,人为的@@截尾导致@@失去真实性@@。

  他也指出@@,传感器收集的@@数据并非都是可信的@@@@,特别是历史上该传感器的@@数据与同类的@@其他传感器报出的@@数据差异很大@@时@@,该数据就应弃用@@@@。既然数据会有重复而且并非都是全部有用@@的@@@@,因此需要进行数据过滤@@,这对简化存储和@@提高可信性都是有意义的@@@@。还可以利用@@异构多源数据来提高可信性@@,收集多源异构的@@数据有利于对数据的@@理解@@。例如通过城市交通监控系统可以实时掌握交通流量@@,如果加上政府数据和@@网络数据@@,就可能知道发生交通拥堵的@@原因@@。

[page]

  要重视数据的@@挖掘利用@@@@

  大@@数据@@的@@挖掘深化了信息技术的@@应用@@@@,催生新的@@应用@@和@@新业态出现@@,大@@数据@@提升了管理和@@决策的@@智能化水平@@,邬贺铨@@提出要重视数据的@@挖掘利用@@@@@@,不仅是大@@数据@@@@,中小数据的@@挖掘也有意义@@。

  大@@数据@@的@@量越大@@处理难度越大@@@@,但@@仅仅是需要更多@@的@@服务器或者说需要更高速的@@服务器@@。邬贺铨@@认为@@,大@@数据@@的@@主要挑战是实时性数据变化快@@。对于静态的@@数据@@,可以将数据带进程序来处理@@@@,但@@对于动态的@@数据@@,需要带程序进数据@@。大@@数据@@更大@@的@@挑战是品种多@@,特别是非结构化@@。对于结构化数据可以使用@@关系数据库技术来处理@@@@,对于非结构化数据则要用@@@@NoSQL来处理@@。针对结构化数据的@@虚拟存储平台@@采用@@了动态分层技术@@,根据数据被调用@@的@@频率@@,自动将常用@@的@@数据搬到最高层@@。针对非结构化数据使用@@内容归档平台@@@@,把结构化和@@非结构化数据集成到一个单一的@@动态归档架构中@@,设计一套软件和@@元数据库规则@@,通过给数据加标签@@的@@方式@@,建立不同维度@@,从而具有模糊查询功能@@。

 

  邬贺铨@@指出@@,“大@@”仅仅是大@@数据@@的@@特征之一@@,大@@数据@@包括@@ABC三个要素@@:大@@分析@@(Analytic)、高带宽@@(Bandwidth)、大@@内容@@(Content)。实时性是大@@数据@@挖掘的@@挑战@@,而非结构化是大@@数据@@挖掘的@@主要挑战@@。目前@@国际上大@@数据@@处理技术主要还是结构性数据@@,据说大@@数据@@中@@80%以上都是非结构性数据@@。2012年@@斯坦福大@@学与@@Google合作建立深度学习网络@@,对来自@@YouTube的@@上千万@@幅视频帧自主学习@@,用@@10天学会了识别猫的@@脸孔@@,然后从@@2万@@张未见过的@@照片中找猫@@,准确率仅达到@@15.8%。可见非结构性数据的@@挖掘技术到实用@@还有相当距离@@。目前@@国内外都有很多大@@数据@@应用@@成功例子@@,但@@基本上还是结构性数据@@,对结构性数据的@@挖掘是大@@数据@@应用@@的@@切入点@@。

  大@@数据@@的@@挑战最终是战略问题@@

  邬贺铨@@指出@@,当前大@@数据@@面临的@@问题主要表现在技术和@@应用@@@@、人才@@、安全隐私@@、发展战略等方面@@。

  首先是技术和@@应用@@问题@@。中国人口居世界首位@@,但@@2010年@@中国新存储的@@数据为@@250PB,仅为日本的@@@@60%和@@北美的@@@@7%。我国一些部门和@@机构拥有大@@量数据但@@以邻为壑@@,宁愿自己不用@@也不愿提供给有关部门共享@@,导致@@信息不完整或重复投资@@。2012年@@中国的@@数据存储量达到@@364EB,其中@@55%(200EB)的@@数据需要一定程度的@@保护@@,然而目前@@只有不到一半@@(44%,即@@96EB)的@@数据得到保护@@。我国在自主可控的@@大@@数据@@分析技术与产品方面与发达国家@@相比有不少差距@@。国内企业在数据库@@、数据仓库@@、商业智能分析软件等领域基础薄弱@@,尤其是大@@数据@@方面已经远远落后于国外先进企业@@。

  其次@@是人才@@问题@@。500年@@前达@@·芬奇可以同时是画家@@@@、音乐家@@@@、工程师@@、科学家@@@@,100年@@前的@@医生可以了解医学领域的@@所有分支@@,今天一名初级@@医生必须同时了解大@@约一万@@种疾病和@@综合征@@、3000种药物和@@@@1100种检验方法@@。估计一个专业的@@医生也需要每天学习@@21小时才能跟得上学科的@@发展@@。Gartner咨询@@公司预测大@@数据@@将为全球带来@@440万@@个@@IT新岗位@@和@@上千万@@个@@非@@IT岗位@@,麦肯锡公司预计美国到@@2018年@@深度数据分析人才@@缺口达@@14万@@~19万@@人@@,还需要数据需求和@@技术及应用@@的@@管理者@@150万@@人@@。中国能理解与应用@@大@@数据@@的@@创新人才@@更是稀缺资源@@。

  然后是安全与隐私问题@@。大@@数据@@的@@利用@@首先要求政府数据原则上该公开的@@必须公开@@。大@@数据@@的@@挖掘与利用@@需要有法可依@@。我国需要尽快制定@@“信息保护法@@”和@@“信息公开法@@”,既要鼓励面向群体而且服务于社会的@@数据挖掘@@,又要防止针对个体侵犯隐私的@@行为@@,提倡数据共享又要防止数据被滥用@@@@。安全与隐私保护的@@隐患仍大@@量存在@@,重要的@@数据存储和@@应用@@不能过分依赖大@@数据@@分析技术与平台@@@@,需要重视信息泄密的@@风险@@。

  最后是发展战略问题@@。信息化要从重视硬件到重视软件@@,再到重视数据的@@利用@@@@,不仅大@@数据@@@@,中小数据的@@挖掘也有意义@@。需要制定国家@@大@@数据@@发展战略@@,大@@数据@@是一个应用@@驱动性很强的@@服务@@,其标准和@@产业格局尚未形成@@,这是我国跨越发展的@@机会@@,但@@切忌一哄而起在目的@@不明情况下到处建设大@@数据@@中心@@,到处搞@@“数据房地产@@”,而是需要从战略上重视大@@数据@@的@@开发利用@@@@,将它作为转变经济增长方式的@@有效抓手@@。

责任编辑@@:admin