邬贺铨@@：大数据@@@@技术@@发展趋势@@@@

　　4月@@27日@@至@@28日@@，由工业和@@信息化部指导@@、中国信息通信研究院主办的@@"2016大数据@@@@产业@@峰会@@"在北京国际会议中心盛大召开@@。会上中国工程院院士邬贺铨@@@@跟与会人员分享@@了大数据@@@@技术@@发展的趋势@@。

中国工程院院士邬贺铨@@@@

　　以下是钨贺铨@@演讲实录@@：

　　钨贺铨@@：很高兴来到@@大数据@@@@产业@@峰会@@@@，我想就大数据@@@@技术@@与产业@@及影响谈一下我的看法@@。我们先看一下数据@@挖掘@@的过程@@，从数据@@资源@@、数据@@采集@@@@、数据@@存储@@@@、数据@@传送到@@数据@@分享@@@@、数据@@挖掘@@、数据@@呈现@@、数据@@应用@@，产业@@、安全@@、法规人才@@。这并不是所有@@的数据@@都要拿来挖掘的@@，首先要进行取样分析@@，首先在选择数据@@的时候要进行提取@@，标签@@化@@。对一些非结构化的@@数据@@还要进行变换处理@@，然后分类收集@@，最后@@抽取出原数据@@@@，然后把原数据@@再融合@@，这个@@过程还是要反馈的@@。我们首先看数据@@融合@@，传感器的数据@@是物理空间@@的数据@@@@，网络空间@@的细分空间@@@@，还有@@@@政府企业收集的相关数据@@@@。

　　2013年@@，全世界来自消费企业的数据@@占三分之一@@，当然数据@@里头很多国家安全@@@@、个@@人隐私的这些数据@@不能开放的@@。大数据@@@@里头有@@一部分的数据@@是开放的@@，当然数据@@本身有@@结构化的@@、非结构化的@@、半结构化的@@。我们再来看大数据@@@@分析的流程@@，实际上所谓大数据@@@@很多时候既很难说它什么时候开始@@，也很难说它什么时候会结束@@@@。在整个@@数据@@获取的过程中是不断的流进来的@@，我们要通过分析模型来引导和@@收集@@。过去我们的收据是代数据@@进行@@，现在@@数据@@是活的@@，我们只能带程序进数据@@@@。我以阿里云@@的大数据@@@@平台@@为例@@，它底层有@@计算引擎@@，上面有@@数据@@的开发和@@加速@@，有@@数据@@管理@@、数据@@资料保障@@，数据@@监控@@。当然用到@@机器学习@@，在上层是应用开发@@，这里面可能根据你需要的选择规则@@，准备分析@@，还有@@@@评价或者是推荐优选@@，可视化@@、具体人群@@，识别文字@@、识别语音@@。最后@@是面向解决方案的@@，究竟是面向智能支付@@，还是企业的精准营销@@，还有@@@@交通@@路况预测@@，以及我们监控的安全@@预警等@@。

　　我们再看@@，大数据@@@@需要实时抽取@@，这里面左边的照片@@在罗马@@，这是@@拍到@@的古罗马的移植@@。如果我希望凝了解当时古罗马的样子@@，可以把分散的照片@@以及留下来的一些照片@@聚合起来@@，可以形成一个@@古罗马的最后@@的全貌@@。这是@@用到@@信息融合技术@@@@。它把分散的数据@@集合成一个@@全集的数据@@@@。以下的两张图是一样的@@，右边的屏蔽掉我所不关注的部分@@，然后抽取我所关注的部分@@。在繁杂的大数据@@@@中@@，我需要信息抽取来抽取我所感兴趣的数据@@@@。

　　大数据@@@@还要做到@@可视化@@@@，这是@@交通@@数据@@的可视化@@@@，也是以色列的克拉维夫@@，它有@@很多摄像头@@，传统的摄像头是分散的@@，孤立的@@，现在@@通过大数据@@@@的可视化@@的技术@@把它组合成一张图@@，不同的十年@@@@，路上的状况不一样@@，用不同的颜色标注交通@@管制@@，等等@@。

　　我们再看@@北京@@PM2.5，去年@@@@PM2.5超标@@，有@@些人怀疑自己肺有@@毛病@@，到@@医院做了几个@@@@CT，医生看分散的@@CP照片@@是很难的@@，希望通过虚拟化把它还原成一个@@肺@@，再看看有@@没有@@纤维化@@。甚至可以用@@AR和@@ER的技术@@深入的研究@@，身上有@@没有@@病灶和@@毛病@@，等等@@。还有@@@@交通@@的路矿预测@@，以及我们监控的安全@@预警等@@等@@，当然了@@，面向媒体@@、能源@@、交通@@，所以@@大数据@@@@里头主要的有@@计算引擎@@、数据@@开发和@@运用开发加速@@。

　　我们再看@@看数据@@挖掘@@的算法@@，首先要通过合并压缩转换@@，然后是统计分析@@、支持发现可视化@@@@，最后@@是规则@@、分论@@、绪论@@、序列@@、路径@@，涉及到@@一大堆的算法@@，我们可以看到@@这里面有@@数据@@获取@@，然后转化与存储@@@@，然后数据@@虚拟化和@@摘要@@，最后@@是决策分析@@。需要用到@@一些软件@@。大数据@@@@首先是计算问题@@，是不是所有@@数据@@都可以计算呢@@？不一定@@，有@@些数据@@是可以判定的@@，它是容易解释的@@，可以有@@多项算法来解释@@，但是有@@些数据@@是比较难解的@@，这里头有@@一类是不可近似的@@，有@@一类是可近似的@@，我们可以看到@@我们首先要探索数据@@复杂性的规律@@和@@关系的生成机理@@，建立数据@@复杂性的理论和@@模型@@，这里面包括数据@@的结构和@@学习@@，最后@@还要把数据@@简化@@。所以@@，美国加州大学图像可视化@@中心已经组成了语音非结构化数据@@@@。现在@@我们高校在大数据@@@@研究上还可以@@，但是做一些数据@@分析的单位没有@@数据@@@@，而拥有@@数据@@的单位有@@些不会分析@@。

　　大数据@@@@分布存储@@和@@冗余备份用得比较多的还是这个@@@@，它把数据@@通过冗余配置来提高可靠性@@，这样的话@@，简易服务器仍然可以在一个@@低的价钱下@@，低的成本@@下得到@@比较可靠的服务@@。我们通过调度再分组组合@@，这是@@我们需要的结果@@。这是@@一个@@图比较形象的说明左边是数据@@的来源@@@@，当然每个@@来源@@可能都有@@各种各样的数据@@@@，需要进行认识@@，进行分类提取@@，我们可以看到@@把它分到@@不同的地方@@，这样一来@@，我们的数据@@挖掘@@才可能简化我们挖掘的工作@@。

　　我再举个@@例子@@，这是@@在无锡@@，对太湖的污染状况传感器数据@@分析@@，它使用了很多种传感器@@，有@@硝酸盐@@、有@@氨氮的@@、溶解氧的@@、水温的@@，但是并不是所有@@的传感器获得的数据@@都是等同对待的@@。我们可以看到@@各类数据@@都一样@@。但是太湖的蓝藻爆发强度有@@关的@@，首先是溶解氧@@，然后是水温@@，基于氨氮@@、硝酸盐的关联没那么大@@，所有@@的数据@@是需要加权处理的@@，根据它的影响角度不同@@，我们给它的值也不一样@@，只有@@这样才可以反映出我们最终的分析结果@@。

　　另外@@，还是以太湖为例@@，我们不但有@@地基系统的水质探测的传感器@@，有@@卫星探测传感器@@，还有@@@@人工采集@@传感器@@，多种数据@@要放到@@数据@@采集@@@@以后@@，要进行利用已知的湖泊模型@@，还要把历史数据@@拿出来对比@@，然后才能判断这些数据@@是不是可能产生蓝藻@@。这个@@判断后台需要用到@@@@3S技术@@，云计算@@技术@@@@，数据@@中心与数据@@挖掘@@@@，所以@@我们讲究的是要一元数据@@协同处理@@。大数据@@@@最难的是非结构化数据@@@@，图象@@、照片@@、视频是非结构化的@@@@，目前@@计算识别图象@@视频还是有@@一定难度的@@，谷歌@@前几年@@的做法是计算机识别猫@@，有@@15%—20%的识别率@@，一般的非结构化数据@@需要把它转化成结构化数据@@@@，然后再来进行处理@@。我觉得非结构化数据@@本身要进行收集@@、规律@@、组织@@，然后再解释@@，编辑@@，再通过上下文的关联增进理解@@。

　　不过目前@@对非结构化数据@@处理已经有@@了一定的进展@@，这是@@一个@@照片@@@@，照片@@本身来计算机是看不出来是什么的@@，谷歌@@的工程师已经在照片@@旁边附加了一段文字@@，他通过一定的算法来分析@@。他说@@一群人在室外的市场上购物@@，在水果摊上有@@很多蔬菜@@，将来计算机扫描的时候只要扫描这个@@摘要就行了@@，不需要关注照片@@是什么样子@@。也就是@@说把非结构化的@@照片@@变成结构化的文字@@，那么我们再看@@如果你出差到@@俄罗斯@@，或者到@@俄罗斯旅游@@，现在@@会俄文的人不多了@@，不要紧@@，你拿手机拍下来@@，直接上到@@云端搜索@@@@，它会用英文或者中文显示@@，谷歌@@声称现在@@有@@@@@@26种语言可以显示@@，也就是@@说照片@@里面的文字通过用扫描文件还是扫描不出来的@@。实际上所有@@的非结构化数据@@都可以转成结构化数据@@来处理@@，比如说通常视频都会有@@音频和@@字幕@@，用语音识别的办法把音频抽出来可以转成文字@@，在这方面科大迅飞已经做得相当不错了@@。另外@@，很多视频里头还会嵌入文字的字幕@@。对一些照片@@@@、标语里的文字也可以扫描@@，非结构化数据@@也是可以转化为结构化数据@@处理的@@。

　　我们再来看这是@@大数据@@@@进行的@@，右边的屏幕上打出声音翻译成了中文@@。这里面没有@@同声传译@@，它是基于微软@@掌握的大数据@@@@技术@@@@、神经网络技术@@@@、机器学习技术@@以及上百万@@素材@@，一边讲话一边翻译成中文@@，这是@@大数据@@@@应用@@@@，同时反过来大数据@@@@需要应用的人工智能@@技术@@非结构化数据@@的处理@@。

　　这是@@医疗大数据@@@@虚拟化的应用@@。大数据@@@@究竟会用到@@什么样的技术@@@@，IDC公司在去年@@@@说@@，2015年@@富媒体@@、音视频和@@图象@@的分析在未来@@5年@@会增长@@100%，在北美有@@板数公司报告在大数据@@@@分析项目里已经使用了富媒体数据@@@@。也就是@@说虽然是非结构化的@@@@，但是在大数据@@@@里头分析还是很有@@用处的@@。

　　另外@@，数据@@即服务@@，过去有@@@@IaaS、PaaS，现在@@有@@@@DaaS，就是@@将大数据@@@@作为服务@@，现在@@DaaS已经成为云平台@@和@@大数据@@@@分析提供商的战略供应链@@。

　　还有@@@@物联网是下一个@@数据@@分析应用的热点@@，在今后五年@@@@，物联网的数据@@分析市场会年@@增@@30%，另外@@2015年@@是@@认知和@@机器学习应用迅速增长的一年@@@@。

　　大数据@@@@分析在企业的应用@@，目前@@来看@@，大部分企业是把大数据@@@@分析用于客户分析@@，然后是运营分析@@，然后是诚信分析@@，还有@@@@10%是新产品和@@业务创新@@，另外@@10%是企业数据@@仓库优化@@。大数据@@@@支出最大的产业@@@@，一是离散制造@@，二是银行@@，三是流程制造@@。

　　大数据@@@@在供应链里头也有@@很好的使用@@，包括供应链的规划@@、分析和@@挖掘@@，电子数据@@交换@@，贸易管理@@、仓库与分销中心管理@@。大数据@@@@在供应链的应用场景在供应链的可视化@@数据@@@@56%，位置和@@映射数据@@@@47%，产品和@@可追溯数据@@@@42%，温度与产品流数据@@@@24%，RFID数据@@18%。

　　数据@@挖掘@@服务@@，我这里举的是中国联通的例子@@，中国联通把他的@@BSS和@@OSS数据@@都收集起来@@，OSS数据@@包括上网流量@@、IP地址@@，BSS包括用户详单@@、资费等等@@@@，通过数据@@源处理@@、采集@@、加载@@、格式转换@@、模型转换@@、数据@@脱敏然后再进行@@，这边是数据@@的产生提取@@，这边是根据需求@@，客户有@@些什么数据@@挖掘@@的需求@@，然后他审核这个@@需求@@，然后从数据@@集里头准备@@，再通过一定的模型@@，发掘出来申请发布@@，再通过集团的审核@@，服务包装再来输出@@。

　　中国联通已经为大众汽车提供数据@@@@，它的原始数据@@中国联通是不提供的@@，大众汽车请中国联通提供究竟购买汽车的用户对汽车有@@什么需求@@，中国联通准备了@@100页的@@PPT交给大众汽车@@，大众汽车付了@@100万@@，也就是@@说每页@@PPT值一万@@块钱@@。

　　上下游支撑大数据@@@@的技术@@和@@产业@@有@@什么呢@@？宽带网@@、存储@@器@@、云计算@@、数据@@库@@、人工智能@@、分析软件@@，大数据@@@@支撑的产业@@就多了@@，包括建筑业@@、能源@@矿业@@、交通@@运输@@业等等@@@@。不能把存储@@@@、云计算@@全都算到@@大数据@@@@行业@@，只能说为大数据@@@@分析的产业@@@@，云计算@@和@@网络算到@@大数据@@@@产业@@@@。而广义的大数据@@@@产业@@一百于大数据@@@@信息产业@@@@，大数据@@@@本身服务业的属性大于大数据@@@@软硬件@@的制造业@@，而大数据@@@@对其他产业@@的影响是大于对信息产业@@的影响@@，大数据@@@@的社会效应大于直接经济效益@@。所以@@，大数据@@@@影响之大和@@受到@@广泛重视也是认为它的溢出效益明显@@。

　　我们可以看到@@麦肯锡说大数据@@@@的价值@@，大家都知道@@，一年@@能给美国保健带来@@3000亿@@美元@@的潜在价值@@，能给欧洲公共管理带来@@2500亿@@欧元@@，能给服务业带来@@6000亿@@美元@@的盈余@@，能给制造业降低@@50%的成本@@，政府的数据@@开放会给全世界经济带来@@32200亿@@到@@@@54000亿@@美元@@的红利@@，教育将近一万@@亿@@@@，运输@@7000—900亿@@等等@@@@。

　　这是@@WikiBon统计的@@，主要分为硬件@@软件的服务@@，软件占@@22%，硬件@@38%，服务占@@40%，这是@@当时的统计@@@@，2013—2017年@@。今年@@又发布了@@2011年@@到@@@@2026年@@。2014年@@，全世界大数据@@@@市场是@@273.6亿@@美元@@，到@@2020年@@是@@840亿@@美元@@，都是在增长@@，连增@@17%。

　　IDC的统计@@，以上这个@@表是从@@2010年@@—2016年@@，他统计大概是@@什么呢@@？大概是@@238亿@@美元@@，这里面的数字是百万@@美元@@，翻成亿@@@@，就是@@238亿@@美元@@，这是@@2016年@@。2017年@@324亿@@美元@@，2019年@@是@@486亿@@美元@@，我们这里面看上去统计跟@@WikiBon的有@@点区别@@。

　　Statista的统计@@又不一样@@，2016年@@是@@273亿@@美元@@，2020年@@是@@573亿@@美元@@，2026年@@922亿@@美元@@，也就是@@说差不多十年@@以后@@，接近一千亿@@美元@@的规模@@，当然这个@@数字还不算很大@@，估计到@@@@2026年@@华为也可能到@@这个@@水平了@@，所以@@，我们大数据@@@@这个@@值不是很大@@，大家如果把所有@@的服务器都算进去就比较大了@@。

　　另外@@一个@@咨询@@公司@@Frost Sullivan给出的数据@@增量到@@@@2025年@@是@@到@@@@100，全数据@@大市场产生的收入@@，2025年@@是@@122亿@@美元@@，各个@@公司的估计是有@@所不一样的@@。这是@@大数据@@@@产业@@链@@，在这里面密密麻麻的看不清楚@@，分析做分析的有@@这么多企业@@，做应用的也有@@这么多@@，做交叉关联的和@@分析的有@@这么多@@。

　　有@@个@@公司说这里面有@@一个@@中国公司@@，仅仅一个@@@@，我后来找半天找不出来@@，为什么呢@@？因为除了比较知名的以外@@，其他的不太熟悉@@，所以@@找不到@@@@。按照我们有@@公司说的@@，这里面有@@一个@@是中国公司@@，但是应该说绝大多数都不是中国公司@@，这是@@知名的大数据@@@@技术@@企业@@，IBM、英特尔@@、甲骨文@@、SAP、惠普@@、红帽@@、SAS、微软@@、谷歌@@、EMC，亚马逊@@，我加了两个@@@@，阿里云@@、百度云@@，也就是@@说我们中国的企业在这里面还是少数@@。

　　中国各个@@地方纷纷布局大数据@@@@产业@@@@，目前@@已经有@@@@23个@@省出台了@@74项跟大数据@@@@相关的政策@@。目前@@，全国已建和@@在建的大数据@@@@产业@@超过@@10个@@，有@@个@@证券公司分析@@，他说@@2016年@@中国通信大数据@@@@市场要达到@@@@342亿@@。刚才会前放的视频说@@2015年@@我们是@@150几亿@@@@，如果这个@@数字对的话@@，这两个@@数字一比就增加@@100%。他这里说较上年@@增长@@163%。其中大数据@@@@基础设施占@@60.5%，市场规模@@207亿@@。

　　国家在去年@@@@出台了促进大数据@@@@发展的行动纲要@@，要培育高端智能新兴产业@@的发展新生态@@，要推动大数据@@@@@@、互联网跟移动互联网的融合@@，培育新的增长点@@，形成满足大数据@@@@应用@@需求的产品系统和@@解决方案@@，要求到@@@@“十三五@@”结束@@，大数据@@@@产品和@@服务要达到@@国际先进水平@@，看来我们现在@@还有@@@@一定的差距@@。要培育一批企业@@，要形成产业@@生态@@。

　　这是@@今年@@@@3月@@份全国人大通过的@@“十三五@@”计划@@，专门有@@一章是促进大数据@@@@产业@@健康发展@@，提到@@了深化大数据@@@@在各行业的创新应用@@，探索和@@传统行业协同发展的新业态@@、新模式@@，加快完善大数据@@@@的产业@@链@@。还有@@@@加快海量数据@@的采集@@@@、存储@@、清晰@@、可视化@@、安全@@、隐私保护等领域的关键技术@@攻关@@，促进大数据@@@@软硬件@@产业@@的发展@@，加强标准体系和@@质量技术@@基础建设@@，刚才张总都提到@@了@@。

　　最后@@，我用习总书记的几段话来结束@@我的发言@@。习总书记在@@2013年@@考察中科院时提到@@@@，研究表明@@，工业化时期数据@@量大约每十年@@翻一番@@，现在@@数据@@量每两年@@翻一番@@，浩瀚的数据@@海洋就如同工业社会的石油资源@@，蕴含着巨大的生产力和@@商机@@，谁掌握了大数据@@@@技术@@@@，谁就掌握了发展的资源和@@主动权@@。2015年@@6月@@，在贵州调研时@@，习总书记提到@@@@，我国大数据@@@@采集@@@@应用刚刚起步@@，要加强研究@@，加大投入@@，力争走在世界前列@@。上周@@，习总书记在@@网信座谈会上讲话提到@@综合运用各方面掌握的数据@@资源@@，加强大数据@@@@的挖掘分析@@。谢谢大家@@！

责任编辑@@@@：admin