4月@@27日@@至@@28日@@,由工业和@@信息化部指导@@、中国信息通信研究院主办的@@"2016大数据@@@@产业@@峰会@@"在北京国际会议中心盛大召开@@。会上中国工程院院士邬贺铨@@@@跟与会人员分享@@了大数据@@@@技术@@发展的趋势@@。

 
中国工程院院士邬贺铨@@@@
 
  以下是钨贺铨@@演讲实录@@:
 
  钨贺铨@@:很高兴来到@@大数据@@@@产业@@峰会@@@@,我想就大数据@@@@技术@@与产业@@及影响谈一下我的看法@@。我们先看一下数据@@挖掘@@的过程@@,从数据@@资源@@、数据@@采集@@@@、数据@@存储@@@@、数据@@传送到@@数据@@分享@@@@、数据@@挖掘@@、数据@@呈现@@、数据@@应用@@,产业@@、安全@@、法规人才@@。这并不是所有@@的数据@@都要拿来挖掘的@@,首先要进行取样分析@@,首先在选择数据@@的时候要进行提取@@,标签@@化@@。对一些非结构化的@@数据@@还要进行变换处理@@,然后分类收集@@,最后@@抽取出原数据@@@@,然后把原数据@@再融合@@,这个@@过程还是要反馈的@@。我们首先看数据@@融合@@,传感器的数据@@是物理空间@@的数据@@@@,网络空间@@的细分空间@@@@,还有@@@@政府企业收集的相关数据@@@@。
 
  2013年@@,全世界来自消费企业的数据@@占三分之一@@,当然数据@@里头很多国家安全@@@@、个@@人隐私的这些数据@@不能开放的@@。大数据@@@@里头有@@一部分的数据@@是开放的@@,当然数据@@本身有@@结构化的@@、非结构化的@@、半结构化的@@。我们再来看大数据@@@@分析的流程@@,实际上所谓大数据@@@@很多时候既很难说它什么时候开始@@,也很难说它什么时候会结束@@@@。在整个@@数据@@获取的过程中是不断的流进来的@@,我们要通过分析模型来引导和@@收集@@。过去我们的收据是代数据@@进行@@,现在@@数据@@是活的@@,我们只能带程序进数据@@@@。我以阿里云@@的大数据@@@@平台@@为例@@,它底层有@@计算引擎@@,上面有@@数据@@的开发和@@加速@@,有@@数据@@管理@@、数据@@资料保障@@,数据@@监控@@。当然用到@@机器学习@@,在上层是应用开发@@,这里面可能根据你需要的选择规则@@,准备分析@@,还有@@@@评价或者是推荐优选@@,可视化@@、具体人群@@,识别文字@@、识别语音@@。最后@@是面向解决方案的@@,究竟是面向智能支付@@,还是企业的精准营销@@,还有@@@@交通@@路况预测@@,以及我们监控的安全@@预警等@@。
 
  我们再看@@,大数据@@@@需要实时抽取@@,这里面左边的照片@@在罗马@@,这是@@拍到@@的古罗马的移植@@。如果我希望凝了解当时古罗马的样子@@,可以把分散的照片@@以及留下来的一些照片@@聚合起来@@,可以形成一个@@古罗马的最后@@的全貌@@。这是@@用到@@信息融合技术@@@@。它把分散的数据@@集合成一个@@全集的数据@@@@。以下的两张图是一样的@@,右边的屏蔽掉我所不关注的部分@@,然后抽取我所关注的部分@@。在繁杂的大数据@@@@中@@,我需要信息抽取来抽取我所感兴趣的数据@@@@。
 
  大数据@@@@还要做到@@可视化@@@@,这是@@交通@@数据@@的可视化@@@@,也是以色列的克拉维夫@@,它有@@很多摄像头@@,传统的摄像头是分散的@@,孤立的@@,现在@@通过大数据@@@@的可视化@@的技术@@把它组合成一张图@@,不同的十年@@@@,路上的状况不一样@@,用不同的颜色标注交通@@管制@@,等等@@。
 
  我们再看@@北京@@PM2.5,去年@@@@PM2.5超标@@,有@@些人怀疑自己肺有@@毛病@@,到@@医院做了几个@@@@CT,医生看分散的@@CP照片@@是很难的@@,希望通过虚拟化把它还原成一个@@肺@@,再看看有@@没有@@纤维化@@。甚至可以用@@AR和@@ER的技术@@深入的研究@@,身上有@@没有@@病灶和@@毛病@@,等等@@。还有@@@@交通@@的路矿预测@@,以及我们监控的安全@@预警等@@等@@,当然了@@,面向媒体@@、能源@@、交通@@,所以@@大数据@@@@里头主要的有@@计算引擎@@、数据@@开发和@@运用开发加速@@。
 
  我们再看@@看数据@@挖掘@@的算法@@,首先要通过合并压缩转换@@,然后是统计分析@@、支持发现可视化@@@@,最后@@是规则@@、分论@@、绪论@@、序列@@、路径@@,涉及到@@一大堆的算法@@,我们可以看到@@这里面有@@数据@@获取@@,然后转化与存储@@@@,然后数据@@虚拟化和@@摘要@@,最后@@是决策分析@@。需要用到@@一些软件@@。大数据@@@@首先是计算问题@@,是不是所有@@数据@@都可以计算呢@@?不一定@@,有@@些数据@@是可以判定的@@,它是容易解释的@@,可以有@@多项算法来解释@@,但是有@@些数据@@是比较难解的@@,这里头有@@一类是不可近似的@@,有@@一类是可近似的@@,我们可以看到@@我们首先要探索数据@@复杂性的规律@@和@@关系的生成机理@@,建立数据@@复杂性的理论和@@模型@@,这里面包括数据@@的结构和@@学习@@,最后@@还要把数据@@简化@@。所以@@,美国加州大学图像可视化@@中心已经组成了语音非结构化数据@@@@。现在@@我们高校在大数据@@@@研究上还可以@@,但是做一些数据@@分析的单位没有@@数据@@@@,而拥有@@数据@@的单位有@@些不会分析@@。
 
  大数据@@@@分布存储@@和@@冗余备份用得比较多的还是这个@@@@,它把数据@@通过冗余配置来提高可靠性@@,这样的话@@,简易服务器仍然可以在一个@@低的价钱下@@,低的成本@@下得到@@比较可靠的服务@@。我们通过调度再分组组合@@,这是@@我们需要的结果@@。这是@@一个@@图比较形象的说明左边是数据@@的来源@@@@,当然每个@@来源@@可能都有@@各种各样的数据@@@@,需要进行认识@@,进行分类提取@@,我们可以看到@@把它分到@@不同的地方@@,这样一来@@,我们的数据@@挖掘@@才可能简化我们挖掘的工作@@。
 
  我再举个@@例子@@,这是@@在无锡@@,对太湖的污染状况传感器数据@@分析@@,它使用了很多种传感器@@,有@@硝酸盐@@、有@@氨氮的@@、溶解氧的@@、水温的@@,但是并不是所有@@的传感器获得的数据@@都是等同对待的@@。我们可以看到@@各类数据@@都一样@@。但是太湖的蓝藻爆发强度有@@关的@@,首先是溶解氧@@,然后是水温@@,基于氨氮@@、硝酸盐的关联没那么大@@,所有@@的数据@@是需要加权处理的@@,根据它的影响角度不同@@,我们给它的值也不一样@@,只有@@这样才可以反映出我们最终的分析结果@@。
 
  另外@@,还是以太湖为例@@,我们不但有@@地基系统的水质探测的传感器@@,有@@卫星探测传感器@@,还有@@@@人工采集@@传感器@@,多种数据@@要放到@@数据@@采集@@@@以后@@,要进行利用已知的湖泊模型@@,还要把历史数据@@拿出来对比@@,然后才能判断这些数据@@是不是可能产生蓝藻@@。这个@@判断后台需要用到@@@@3S技术@@,云计算@@技术@@@@,数据@@中心与数据@@挖掘@@@@,所以@@我们讲究的是要一元数据@@协同处理@@。大数据@@@@最难的是非结构化数据@@@@,图象@@、照片@@、视频是非结构化的@@@@,目前@@计算识别图象@@视频还是有@@一定难度的@@,谷歌@@前几年@@的做法是计算机识别猫@@,有@@15%—20%的识别率@@,一般的非结构化数据@@需要把它转化成结构化数据@@@@,然后再来进行处理@@。我觉得非结构化数据@@本身要进行收集@@、规律@@、组织@@,然后再解释@@,编辑@@,再通过上下文的关联增进理解@@。
 
  不过目前@@对非结构化数据@@处理已经有@@了一定的进展@@,这是@@一个@@照片@@@@,照片@@本身来计算机是看不出来是什么的@@,谷歌@@的工程师已经在照片@@旁边附加了一段文字@@,他通过一定的算法来分析@@。他说@@一群人在室外的市场上购物@@,在水果摊上有@@很多蔬菜@@,将来计算机扫描的时候只要扫描这个@@摘要就行了@@,不需要关注照片@@是什么样子@@。也就是@@说把非结构化的@@照片@@变成结构化的文字@@,那么我们再看@@如果你出差到@@俄罗斯@@,或者到@@俄罗斯旅游@@,现在@@会俄文的人不多了@@,不要紧@@,你拿手机拍下来@@,直接上到@@云端搜索@@@@,它会用英文或者中文显示@@,谷歌@@声称现在@@有@@@@@@26种语言可以显示@@,也就是@@说照片@@里面的文字通过用扫描文件还是扫描不出来的@@。实际上所有@@的非结构化数据@@都可以转成结构化数据@@来处理@@,比如说通常视频都会有@@音频和@@字幕@@,用语音识别的办法把音频抽出来可以转成文字@@,在这方面科大迅飞已经做得相当不错了@@。另外@@,很多视频里头还会嵌入文字的字幕@@。对一些照片@@@@、标语里的文字也可以扫描@@,非结构化数据@@也是可以转化为结构化数据@@处理的@@。
 
  我们再来看这是@@大数据@@@@进行的@@,右边的屏幕上打出声音翻译成了中文@@。这里面没有@@同声传译@@,它是基于微软@@掌握的大数据@@@@技术@@@@、神经网络技术@@@@、机器学习技术@@以及上百万@@素材@@,一边讲话一边翻译成中文@@,这是@@大数据@@@@应用@@@@,同时反过来大数据@@@@需要应用的人工智能@@技术@@非结构化数据@@的处理@@。
 
  这是@@医疗大数据@@@@虚拟化的应用@@。大数据@@@@究竟会用到@@什么样的技术@@@@,IDC公司在去年@@@@说@@,2015年@@富媒体@@、音视频和@@图象@@的分析在未来@@5年@@会增长@@100%,在北美有@@板数公司报告在大数据@@@@分析项目里已经使用了富媒体数据@@@@。也就是@@说虽然是非结构化的@@@@,但是在大数据@@@@里头分析还是很有@@用处的@@。
 
  另外@@,数据@@即服务@@,过去有@@@@IaaS、PaaS,现在@@有@@@@DaaS,就是@@将大数据@@@@作为服务@@,现在@@DaaS已经成为云平台@@和@@大数据@@@@分析提供商的战略供应链@@。
 
  还有@@@@物联网是下一个@@数据@@分析应用的热点@@,在今后五年@@@@,物联网的数据@@分析市场会年@@增@@30%,另外@@2015年@@是@@认知和@@机器学习应用迅速增长的一年@@@@。
 
  大数据@@@@分析在企业的应用@@,目前@@来看@@,大部分企业是把大数据@@@@分析用于客户分析@@,然后是运营分析@@,然后是诚信分析@@,还有@@@@10%是新产品和@@业务创新@@,另外@@10%是企业数据@@仓库优化@@。大数据@@@@支出最大的产业@@@@,一是离散制造@@,二是银行@@,三是流程制造@@。
 
  大数据@@@@在供应链里头也有@@很好的使用@@,包括供应链的规划@@、分析和@@挖掘@@,电子数据@@交换@@,贸易管理@@、仓库与分销中心管理@@。大数据@@@@在供应链的应用场景在供应链的可视化@@数据@@@@56%,位置和@@映射数据@@@@47%,产品和@@可追溯数据@@@@42%,温度与产品流数据@@@@24%,RFID数据@@18%。
 
  数据@@挖掘@@服务@@,我这里举的是中国联通的例子@@,中国联通把他的@@BSS和@@OSS数据@@都收集起来@@,OSS数据@@包括上网流量@@、IP地址@@,BSS包括用户详单@@、资费等等@@@@,通过数据@@源处理@@、采集@@、加载@@、格式转换@@、模型转换@@、数据@@脱敏然后再进行@@,这边是数据@@的产生提取@@,这边是根据需求@@,客户有@@些什么数据@@挖掘@@的需求@@,然后他审核这个@@需求@@,然后从数据@@集里头准备@@,再通过一定的模型@@,发掘出来申请发布@@,再通过集团的审核@@,服务包装再来输出@@。
 
  中国联通已经为大众汽车提供数据@@@@,它的原始数据@@中国联通是不提供的@@,大众汽车请中国联通提供究竟购买汽车的用户对汽车有@@什么需求@@,中国联通准备了@@100页的@@PPT交给大众汽车@@,大众汽车付了@@100万@@,也就是@@说每页@@PPT值一万@@块钱@@。
 
  上下游支撑大数据@@@@的技术@@和@@产业@@有@@什么呢@@?宽带网@@、存储@@器@@、云计算@@、数据@@库@@、人工智能@@、分析软件@@,大数据@@@@支撑的产业@@就多了@@,包括建筑业@@、能源@@矿业@@、交通@@运输@@业等等@@@@。不能把存储@@@@、云计算@@全都算到@@大数据@@@@行业@@,只能说为大数据@@@@分析的产业@@@@,云计算@@和@@网络算到@@大数据@@@@产业@@@@。而广义的大数据@@@@产业@@一百于大数据@@@@信息产业@@@@,大数据@@@@本身服务业的属性大于大数据@@@@软硬件@@的制造业@@,而大数据@@@@对其他产业@@的影响是大于对信息产业@@的影响@@,大数据@@@@的社会效应大于直接经济效益@@。所以@@,大数据@@@@影响之大和@@受到@@广泛重视也是认为它的溢出效益明显@@。
 
  我们可以看到@@麦肯锡说大数据@@@@的价值@@,大家都知道@@,一年@@能给美国保健带来@@3000亿@@美元@@的潜在价值@@,能给欧洲公共管理带来@@2500亿@@欧元@@,能给服务业带来@@6000亿@@美元@@的盈余@@,能给制造业降低@@50%的成本@@,政府的数据@@开放会给全世界经济带来@@32200亿@@到@@@@54000亿@@美元@@的红利@@,教育将近一万@@亿@@@@,运输@@7000—900亿@@等等@@@@。
 
  这是@@WikiBon统计的@@,主要分为硬件@@软件的服务@@,软件占@@22%,硬件@@38%,服务占@@40%,这是@@当时的统计@@@@,2013—2017年@@。今年@@又发布了@@2011年@@到@@@@2026年@@。2014年@@,全世界大数据@@@@市场是@@273.6亿@@美元@@,到@@2020年@@是@@840亿@@美元@@,都是在增长@@,连增@@17%。
 
  IDC的统计@@,以上这个@@表是从@@2010年@@—2016年@@,他统计大概是@@什么呢@@?大概是@@238亿@@美元@@,这里面的数字是百万@@美元@@,翻成亿@@@@,就是@@238亿@@美元@@,这是@@2016年@@。2017年@@324亿@@美元@@,2019年@@是@@486亿@@美元@@,我们这里面看上去统计跟@@WikiBon的有@@点区别@@。
 
  Statista的统计@@又不一样@@,2016年@@是@@273亿@@美元@@,2020年@@是@@573亿@@美元@@,2026年@@922亿@@美元@@,也就是@@说差不多十年@@以后@@,接近一千亿@@美元@@的规模@@,当然这个@@数字还不算很大@@,估计到@@@@2026年@@华为也可能到@@这个@@水平了@@,所以@@,我们大数据@@@@这个@@值不是很大@@,大家如果把所有@@的服务器都算进去就比较大了@@。
 
  另外@@一个@@咨询@@公司@@Frost Sullivan给出的数据@@增量到@@@@2025年@@是@@到@@@@100,全数据@@大市场产生的收入@@,2025年@@是@@122亿@@美元@@,各个@@公司的估计是有@@所不一样的@@。这是@@大数据@@@@产业@@链@@,在这里面密密麻麻的看不清楚@@,分析做分析的有@@这么多企业@@,做应用的也有@@这么多@@,做交叉关联的和@@分析的有@@这么多@@。
 
  有@@个@@公司说这里面有@@一个@@中国公司@@,仅仅一个@@@@,我后来找半天找不出来@@,为什么呢@@?因为除了比较知名的以外@@,其他的不太熟悉@@,所以@@找不到@@@@。按照我们有@@公司说的@@,这里面有@@一个@@是中国公司@@,但是应该说绝大多数都不是中国公司@@,这是@@知名的大数据@@@@技术@@企业@@,IBM、英特尔@@、甲骨文@@、SAP、惠普@@、红帽@@、SAS、微软@@、谷歌@@、EMC,亚马逊@@,我加了两个@@@@,阿里云@@、百度云@@,也就是@@说我们中国的企业在这里面还是少数@@。
 
  中国各个@@地方纷纷布局大数据@@@@产业@@@@,目前@@已经有@@@@23个@@省出台了@@74项跟大数据@@@@相关的政策@@。目前@@,全国已建和@@在建的大数据@@@@产业@@超过@@10个@@,有@@个@@证券公司分析@@,他说@@2016年@@中国通信大数据@@@@市场要达到@@@@342亿@@。刚才会前放的视频说@@2015年@@我们是@@150几亿@@@@,如果这个@@数字对的话@@,这两个@@数字一比就增加@@100%。他这里说较上年@@增长@@163%。其中大数据@@@@基础设施占@@60.5%,市场规模@@207亿@@。
 
  国家在去年@@@@出台了促进大数据@@@@发展的行动纲要@@,要培育高端智能新兴产业@@的发展新生态@@,要推动大数据@@@@@@、互联网跟移动互联网的融合@@,培育新的增长点@@,形成满足大数据@@@@应用@@需求的产品系统和@@解决方案@@,要求到@@@@“十三五@@”结束@@,大数据@@@@产品和@@服务要达到@@国际先进水平@@,看来我们现在@@还有@@@@一定的差距@@。要培育一批企业@@,要形成产业@@生态@@。
 
  这是@@今年@@@@3月@@份全国人大通过的@@“十三五@@”计划@@,专门有@@一章是促进大数据@@@@产业@@健康发展@@,提到@@了深化大数据@@@@在各行业的创新应用@@,探索和@@传统行业协同发展的新业态@@、新模式@@,加快完善大数据@@@@的产业@@链@@。还有@@@@加快海量数据@@的采集@@@@、存储@@、清晰@@、可视化@@、安全@@、隐私保护等领域的关键技术@@攻关@@,促进大数据@@@@软硬件@@产业@@的发展@@,加强标准体系和@@质量技术@@基础建设@@,刚才张总都提到@@了@@。
 
  最后@@,我用习总书记的几段话来结束@@我的发言@@。习总书记在@@2013年@@考察中科院时提到@@@@,研究表明@@,工业化时期数据@@量大约每十年@@翻一番@@,现在@@数据@@量每两年@@翻一番@@,浩瀚的数据@@海洋就如同工业社会的石油资源@@,蕴含着巨大的生产力和@@商机@@,谁掌握了大数据@@@@技术@@@@,谁就掌握了发展的资源和@@主动权@@。2015年@@6月@@,在贵州调研时@@,习总书记提到@@@@,我国大数据@@@@采集@@@@应用刚刚起步@@,要加强研究@@,加大投入@@,力争走在世界前列@@。上周@@,习总书记在@@网信座谈会上讲话提到@@综合运用各方面掌握的数据@@资源@@,加强大数据@@@@的挖掘分析@@。谢谢大家@@!

责任编辑@@@@:admin