张瑞飞@@：大缓存@@ 大交换@@ 大共享@@

　　6月@@2日@@上午@@，“2018数字政府@@与政务大数据@@建设高层研讨会@@”在@@北京国际展览中心召开@@，本次@@论坛由国脉数据研究院主办@@，北京国脉互联信息顾问有限公司@@、浙江蟠桃会@@网络技术有限公司承办@@，国脉海洋信息发展有限公司支持@@，来自国内政务大数据@@领域的管理者@@、研究者@@、实践者等数百人到场参会@@。

▲2018数字政府@@与政务大数据@@建设高层研讨会@@召开@@

　　会上@@，北京神州云联科技有限公司咨询@@顾问张瑞飞@@以@@“大缓存@@、大交换@@、大共享@@”为题发表演讲@@。他从政务大数据@@建设趋势出发@@，深入分析我国大数据发展战略在@@电子政务上的重点方向@@，并提出数字中国建设的核心能力是数据交换@@与共享@@；又从大数据业务应用的变化出发@@，阐述了传统大数据平台@@忽略的大数据交换@@共享问题以及现有@@ETL数据处理@@不适应数据分析业务的缺陷问题@@，他表示@@，现有业务需求的变化要求数据实时响应需求@@，因此必须采取新一@@代流数据处理@@架构@@。

　　以下是会议现场发言要点实录@@（根据现场速记和录音整理@@，未经本人审核@@）：

　　一@@、电子政务大数据@@建设趋势分析@@

　　从国家一@@些政策来看@@，2015年@@开始@@，国务院@@发布了@@《促进大数据发展行动纲要@@》，提出了开放和共享做大数据治理@@的思路@@。2016、2017年@@，国务院@@、国家发改委做了互联网@@、人工智能的强化活动@@，将人工智能和行业大数据进行结合@@。去年@@@@11月@@10日@@，中央政治局在@@进行第二@@次@@集中学习时@@，提出让信息多跑路@@，让民众少跑腿@@，实施数字中国战略@@。

　　关于数字中国的建设@@，今年@@网信办和发改委评出@@30个@@最佳实践案例@@，在@@最佳实践里的项目名称中有@@10个@@项目提到交换和共享@@，剩下的项目在@@内容里也绝对产生了交换和共享思路@@。我们@@现在@@处在@@一@@个@@大数据交换@@和共享时代@@，在@@这个@@时代@@，我们@@如何去实现数据汇聚@@？如何从数据汇聚走到数据共享@@、数据交换@@和使用@@@@？我认为这个@@过程在@@未来五年@@会不断地出现@@，不断通过数据交换@@@@、共享释放我们@@的生产力@@，通过大数据释放整个@@工作效率@@。可以看到@@交换和共享的威力@@，从一@@天时间办一@@个@@业务@@，现在@@可以缩短到@@10分钟@@。

　　二@@、大数据业务应用正在@@发生变化@@

　　传统的大数据业务面临着比较大的挑战@@，第一@@个@@是传统大数据的数据源很多@@。过去我们@@曾做过一@@个@@实验@@，大数据要服务很多商业@@、企业和政府的办公系统@@，我们@@逐渐建立了一@@些数据仓库@@，希望把数据从普通交易数据库放到数据仓进行统一@@保存和存储@@，但这一@@愿景和目标到今天还是没有实现@@，很多数据还是割裂的@@，数据仓库能够覆盖的范围很有限@@。随着大数据平台@@的出现@@，我们@@会看到越来越多的这类问题@@，更多@@的系统变得更加分散@@。大数据平台@@本身有几十个@@让我们@@去熟悉@@、使用@@，在@@传统的数据仓里我们@@又维护了一@@套数据系统@@，数据仓和大数据是很难打通的@@，在@@今天也没能实现@@。90年@@代提出用一@@个@@统一@@的方法来统计数据@@，这个@@目标目前是没办法达成的@@。

　　这里面有个@@核心问题@@：做数据忽略了数据交换@@和共享@@。这个@@问题以前很少被提到@@，第一@@次@@是@@Google在@@2014年@@提出的@@，2015年@@亚马逊提出一@@个@@设计理念@@，支持几十万个@@数据源不限量@@。举一@@个@@公安的技侦例子@@，要通过技术侦查手段把互联网信息@@、现场勘察信息@@、指纹信息@@、DNA信息进行技术分析@@，可以想象公安的数据量在@@互联网时代面临的数据压力@@。当出现这个@@压力时@@，最难的是如何解决卡口@@、网监@@、信令@@、法制@@、反恐@@、事件@@、接处警@@、询问@@、档案等服务问题@@。

　　Google在@@2014年@@提到一@@个@@观点@@@@，当时报道世界杯时需要一@@个@@新方法@@，被命名为数据流水线@@，Google正在@@给世界贡献一@@个@@全新的生态@@，这个@@生态不同于早期的@@Hadoop开源的生态@@。

　　2015年@@，亚马逊看到@@Google的动作后@@，跟进了一@@个@@策略@@，提了三个@@方向@@，既支持批量又支持实时@@，这一@@点很难@@，目前绝大部分中国企业完全不支持@@。在@@2011年@@的时候提到一@@个@@架构@@，现在@@国内@@95%左右的数据普遍采用的一@@个@@技术架构@@，可能很多数据是放在@@@@HDM，有些数据放在@@一@@个@@流水线上@@，前面做了一@@个@@缓存和@@Hadoop数据进行交互@@，大量的系统是这样的架构@@，但它有一@@个@@非常大的弱点@@，不能同时支持实时和批量@@，实时和批量是两套系统@@@@、两套数据库@@。2011年@@全球提出这个@@方向@@，那是中国大数据兴起的时候@@，第一@@基于开源系统@@，第二@@基于云服务的生态@@，第三是灵活扩展@@，指数据不限量@@，可以处理@@@@PB或更大@@，都需要一@@个@@横向扩展能力@@，对数据源也不限量@@，可以是几十个@@@@，甚至是几百@@，但在@@亚马逊看来是不够的@@，希望是几十万个@@数据源@@。

　　基于这样的架构@@，我们@@在@@国内的发展态势要弥补过去大数据的不足@@，我们@@也没办法颠覆原来的大数据架构@@，重新构造一@@套可能不现实@@，希望有一@@个@@新方法来解决它的问题@@，我们@@就提出了一@@个@@大数据前置的部分@@，希望建立一@@个@@大缓存@@@@，这个@@缓存可以基于内存@@。缓存的意思好理解@@，把它处理@@到@@PB级@@，达到这样的技术手段@@，实现特别大的缓存@@，在@@这个@@缓存上实现数据交换@@和共享的能力@@，来支撑和弥补我们@@以前在@@大数据架构上的不足@@。

　　我们@@借鉴@@Google和亚马逊的方式@@，建设了大数据共享平台@@@@，支持各种数据源实时和批量的数据交换@@@@。在@@数据源支持上@@，可以看到@@，不只支持数据库@@，数据源本身不等于数据库@@。现在@@这个@@时代@@@@，数据源也包括网络协议@@，从互联网分装下来的协议@@，包括中间件或者是各种文件@@，互联网和公共设备所传递的一@@些设备@@，所以数据源不能简单看是支撑多种数据库@@。实施数据管理@@，数据同步@@、对比验证@@、数据传输@@、数据交换@@、数据质量管理@@，将历史数据和决策数据放到一@@个@@平台@@@@，所有人都可以在@@这个@@平台@@上进行大数据处理@@@@。

　　以前的大数据来自于不同的源@@，有不同的格式@@，所以我们@@有一@@个@@人工的苦活@@，全部是通过手工编写脚本和验证的方法来实现@@，要统一@@成一@@个@@格式来进行加工@@。我们@@现在@@有方法变成自动化@@，通过数据流水线的方式来实现数据从采集到加工的一@@体化服务@@。现在@@亚马逊正跟我们@@合作@@，把它原来云上的私有云到公有云手动迁移改造成一@@个@@自动的迁移@@。这种能力在@@新的数据加工里@@，有人会叫做边缘计算@@，在@@新的架构里更强调通过统一@@的数据模式@@、一@@个@@数字形态@@，在@@数据采集的时候就开始计算@@，而不是把所有的数据汇集到一@@个@@集中的节点或者是集群上进行计算@@，所以我们@@赋予了数据计算的边缘能力@@。

　　我们@@打通跨部门的数据桥梁@@，打通的意义在@@于解决了一@@个@@问题@@，有时候我们@@建一@@个@@数据平台@@比较容易@@，但是建一@@个@@数据平台@@往往发现建了一@@套存储@@，并没有用起来@@，各个@@部门难以协调@@，它的意义在@@于我们@@没有强行要求数据上收@@，原来的数据逻辑还在@@@@，但是通过一@@个@@交换共享中心能够辅助快速处理@@@@，并且处理@@的结果还可以返回@@，通过修桥梁的方式@@，我们@@更容易实现数据的打通和上收@@。

　　如果只有海量的交换和集群@@，可能还是不够@@。比如中国人民银行总行@@，在@@未来希望把@@3000家银行@@、银保监会@@、证监会的数据汇聚到人民银行里@@，难度可想而知@@，工行一@@家的数据可能会把人民银行的数据做宕机@@，3000家银行@@的数据汇聚起来是更难的问题@@，除了有快速的交互@@，还需要有更快速的处理@@能力@@，不是两套系统@@分别写出来的@@。

　　为什么选@@DataHouse？大家觉得传统的@@Hadoop是比较慢@@，它比我们@@这套系统@@能够慢到@@600多倍@@，Hadoop早期是基于批处理@@数据@@，我们@@希望提供更快速的处理@@@@。当处理@@达到几百倍的数量级@@@@，比如在@@公共服务方面@@，公安破一@@个@@案子@@，有可能要对案件研判和推理@@，一@@个@@是一@@周的时间计算出来@@，一@@个@@是一@@分钟@@计算出来@@，这是本质的差别@@，不只是性能的差别@@。我们@@33个@@节点可以支持@@2个@@PB的数据读写@@，反馈速度是@@0.01秒来计量@@。

　　未来可以有一@@些演进@@，我们@@可以整合在@@@@datahouse架构里面@@。在@@横向就打通数据流@@，从源数据到采集@@、入库@@、处理@@，实现了完整打通@@，没有借助于很多的大数据平台@@@@，我们@@是在@@一@@个@@平台@@上用@@S来完成的@@。

　　下面是一@@些案例@@，我们@@利用了大数据的能力@@，也应用了人工智能自然语言处理@@能力@@，给公安构造了@@10套系统@@，同时我们@@也写了一@@个@@数据交换@@共享标准@@。这是在@@公安局的一@@个@@实际测试@@，对技侦大数据的测试@@，同时也在@@交通研究所@@，把全国交通卡口所有的图像上收@@，来进行一@@次@@统一@@的数据分析处理@@@@。

　　这就是我们@@刚才讲到的技侦数据处理@@@@，既有@@DPI的互联网分装的数据@@，也有通过采集和爬虫的数据@@，看到分包数据的原始状态@@，同时也有设备上的网关@@，如何把不同格式的数据汇聚到一@@起@@，最后提出一@@个@@服务@@。这是我们@@现在@@这套系统@@给大家展示的一@@种能力@@，不需要先做很多格式转换@@，做一@@个@@临时库@@、临时表@@，分别建数据集等@@，不需要这些东西@@，这些东西太浪费开发精力@@、周期也太长@@，我们@@在@@采集的同时就可以计算@@，计算的同时就可以发布@@。谢谢大家@@！

责任编辑@@：李泰民@@