6月@@2日@@上午@@,“2018数字政府@@与政务大数据@@建设高层研讨会@@”在@@北京国际展览中心召开@@,本次@@论坛由国脉数据研究院主办@@,北京国脉互联信息顾问有限公司@@、浙江蟠桃会@@网络技术有限公司承办@@,国脉海洋信息发展有限公司支持@@,来自国内政务大数据@@领域的管理者@@、研究者@@、实践者等数百人到场参会@@。

blob.png

▲2018数字政府@@与政务大数据@@建设高层研讨会@@召开@@

  会上@@,北京神州云联科技有限公司咨询@@顾问张瑞飞@@以@@“大缓存@@、大交换@@、大共享@@”为题发表演讲@@。他从政务大数据@@建设趋势出发@@,深入分析我国大数据发展战略在@@电子政务上的重点方向@@,并提出数字中国建设的核心能力是数据交换@@与共享@@;又从大数据业务应用的变化出发@@,阐述了传统大数据平台@@忽略的大数据交换@@共享问题以及现有@@ETL数据处理@@不适应数据分析业务的缺陷问题@@,他表示@@,现有业务需求的变化要求数据实时响应需求@@,因此必须采取新一@@代流数据处理@@架构@@。

  以下是会议现场发言要点实录@@(根据现场速记和录音整理@@,未经本人审核@@):

  一@@、电子政务大数据@@建设趋势分析@@

  从国家一@@些政策来看@@,2015年@@开始@@,国务院@@发布了@@《促进大数据发展行动纲要@@》,提出了开放和共享做大数据治理@@的思路@@。2016、2017年@@,国务院@@、国家发改委做了互联网@@、人工智能的强化活动@@,将人工智能和行业大数据进行结合@@。去年@@@@11月@@10日@@,中央政治局在@@进行第二@@次@@集中学习时@@,提出让信息多跑路@@,让民众少跑腿@@,实施数字中国战略@@。

  关于数字中国的建设@@,今年@@网信办和发改委评出@@30个@@最佳实践案例@@,在@@最佳实践里的项目名称中有@@10个@@项目提到交换和共享@@,剩下的项目在@@内容里也绝对产生了交换和共享思路@@。我们@@现在@@处在@@一@@个@@大数据交换@@和共享时代@@,在@@这个@@时代@@,我们@@如何去实现数据汇聚@@?如何从数据汇聚走到数据共享@@、数据交换@@和使用@@@@?我认为这个@@过程在@@未来五年@@会不断地出现@@,不断通过数据交换@@@@、共享释放我们@@的生产力@@,通过大数据释放整个@@工作效率@@。可以看到@@交换和共享的威力@@,从一@@天时间办一@@个@@业务@@,现在@@可以缩短到@@10分钟@@。

  二@@、大数据业务应用正在@@发生变化@@

  传统的大数据业务面临着比较大的挑战@@,第一@@个@@是传统大数据的数据源很多@@。过去我们@@曾做过一@@个@@实验@@,大数据要服务很多商业@@、企业和政府的办公系统@@,我们@@逐渐建立了一@@些数据仓库@@,希望把数据从普通交易数据库放到数据仓进行统一@@保存和存储@@,但这一@@愿景和目标到今天还是没有实现@@,很多数据还是割裂的@@,数据仓库能够覆盖的范围很有限@@。随着大数据平台@@的出现@@,我们@@会看到越来越多的这类问题@@,更多@@的系统变得更加分散@@。大数据平台@@本身有几十个@@让我们@@去熟悉@@、使用@@,在@@传统的数据仓里我们@@又维护了一@@套数据系统@@,数据仓和大数据是很难打通的@@,在@@今天也没能实现@@。90年@@代提出用一@@个@@统一@@的方法来统计数据@@,这个@@目标目前是没办法达成的@@。

  这里面有个@@核心问题@@:做数据忽略了数据交换@@和共享@@。这个@@问题以前很少被提到@@,第一@@次@@是@@Google在@@2014年@@提出的@@,2015年@@亚马逊提出一@@个@@设计理念@@,支持几十万个@@数据源不限量@@。举一@@个@@公安的技侦例子@@,要通过技术侦查手段把互联网信息@@、现场勘察信息@@、指纹信息@@、DNA信息进行技术分析@@,可以想象公安的数据量在@@互联网时代面临的数据压力@@。当出现这个@@压力时@@,最难的是如何解决卡口@@、网监@@、信令@@、法制@@、反恐@@、事件@@、接处警@@、询问@@、档案等服务问题@@。

  Google在@@2014年@@提到一@@个@@观点@@@@,当时报道世界杯时需要一@@个@@新方法@@,被命名为数据流水线@@,Google正在@@给世界贡献一@@个@@全新的生态@@,这个@@生态不同于早期的@@Hadoop开源的生态@@。

  2015年@@,亚马逊看到@@Google的动作后@@,跟进了一@@个@@策略@@,提了三个@@方向@@,既支持批量又支持实时@@,这一@@点很难@@,目前绝大部分中国企业完全不支持@@。在@@2011年@@的时候提到一@@个@@架构@@,现在@@国内@@95%左右的数据普遍采用的一@@个@@技术架构@@,可能很多数据是放在@@@@HDM,有些数据放在@@一@@个@@流水线上@@,前面做了一@@个@@缓存和@@Hadoop数据进行交互@@,大量的系统是这样的架构@@,但它有一@@个@@非常大的弱点@@,不能同时支持实时和批量@@,实时和批量是两套系统@@@@、两套数据库@@。2011年@@全球提出这个@@方向@@,那是中国大数据兴起的时候@@,第一@@基于开源系统@@,第二@@基于云服务的生态@@,第三是灵活扩展@@,指数据不限量@@,可以处理@@@@PB或更大@@,都需要一@@个@@横向扩展能力@@,对数据源也不限量@@,可以是几十个@@@@,甚至是几百@@,但在@@亚马逊看来是不够的@@,希望是几十万个@@数据源@@。

  基于这样的架构@@,我们@@在@@国内的发展态势要弥补过去大数据的不足@@,我们@@也没办法颠覆原来的大数据架构@@,重新构造一@@套可能不现实@@,希望有一@@个@@新方法来解决它的问题@@,我们@@就提出了一@@个@@大数据前置的部分@@,希望建立一@@个@@大缓存@@@@,这个@@缓存可以基于内存@@。缓存的意思好理解@@,把它处理@@到@@PB级@@,达到这样的技术手段@@,实现特别大的缓存@@,在@@这个@@缓存上实现数据交换@@和共享的能力@@,来支撑和弥补我们@@以前在@@大数据架构上的不足@@。

  我们@@借鉴@@Google和亚马逊的方式@@,建设了大数据共享平台@@@@,支持各种数据源实时和批量的数据交换@@@@。在@@数据源支持上@@,可以看到@@,不只支持数据库@@,数据源本身不等于数据库@@。现在@@这个@@时代@@@@,数据源也包括网络协议@@,从互联网分装下来的协议@@,包括中间件或者是各种文件@@,互联网和公共设备所传递的一@@些设备@@,所以数据源不能简单看是支撑多种数据库@@。实施数据管理@@,数据同步@@、对比验证@@、数据传输@@、数据交换@@、数据质量管理@@,将历史数据和决策数据放到一@@个@@平台@@@@,所有人都可以在@@这个@@平台@@上进行大数据处理@@@@。

  以前的大数据来自于不同的源@@,有不同的格式@@,所以我们@@有一@@个@@人工的苦活@@,全部是通过手工编写脚本和验证的方法来实现@@,要统一@@成一@@个@@格式来进行加工@@。我们@@现在@@有方法变成自动化@@,通过数据流水线的方式来实现数据从采集到加工的一@@体化服务@@。现在@@亚马逊正跟我们@@合作@@,把它原来云上的私有云到公有云手动迁移改造成一@@个@@自动的迁移@@。这种能力在@@新的数据加工里@@,有人会叫做边缘计算@@,在@@新的架构里更强调通过统一@@的数据模式@@、一@@个@@数字形态@@,在@@数据采集的时候就开始计算@@,而不是把所有的数据汇集到一@@个@@集中的节点或者是集群上进行计算@@,所以我们@@赋予了数据计算的边缘能力@@。

  我们@@打通跨部门的数据桥梁@@,打通的意义在@@于解决了一@@个@@问题@@,有时候我们@@建一@@个@@数据平台@@比较容易@@,但是建一@@个@@数据平台@@往往发现建了一@@套存储@@,并没有用起来@@,各个@@部门难以协调@@,它的意义在@@于我们@@没有强行要求数据上收@@,原来的数据逻辑还在@@@@,但是通过一@@个@@交换共享中心能够辅助快速处理@@@@,并且处理@@的结果还可以返回@@,通过修桥梁的方式@@,我们@@更容易实现数据的打通和上收@@。

  如果只有海量的交换和集群@@,可能还是不够@@。比如中国人民银行总行@@,在@@未来希望把@@3000家银行@@、银保监会@@、证监会的数据汇聚到人民银行里@@,难度可想而知@@,工行一@@家的数据可能会把人民银行的数据做宕机@@,3000家银行@@的数据汇聚起来是更难的问题@@,除了有快速的交互@@,还需要有更快速的处理@@能力@@,不是两套系统@@分别写出来的@@。

  为什么选@@DataHouse?大家觉得传统的@@Hadoop是比较慢@@,它比我们@@这套系统@@能够慢到@@600多倍@@,Hadoop早期是基于批处理@@数据@@,我们@@希望提供更快速的处理@@@@。当处理@@达到几百倍的数量级@@@@,比如在@@公共服务方面@@,公安破一@@个@@案子@@,有可能要对案件研判和推理@@,一@@个@@是一@@周的时间计算出来@@,一@@个@@是一@@分钟@@计算出来@@,这是本质的差别@@,不只是性能的差别@@。我们@@33个@@节点可以支持@@2个@@PB的数据读写@@,反馈速度是@@0.01秒来计量@@。

  未来可以有一@@些演进@@,我们@@可以整合在@@@@datahouse架构里面@@。在@@横向就打通数据流@@,从源数据到采集@@、入库@@、处理@@,实现了完整打通@@,没有借助于很多的大数据平台@@@@,我们@@是在@@一@@个@@平台@@上用@@S来完成的@@。

  下面是一@@些案例@@,我们@@利用了大数据的能力@@,也应用了人工智能自然语言处理@@能力@@,给公安构造了@@10套系统@@,同时我们@@也写了一@@个@@数据交换@@共享标准@@。这是在@@公安局的一@@个@@实际测试@@,对技侦大数据的测试@@,同时也在@@交通研究所@@,把全国交通卡口所有的图像上收@@,来进行一@@次@@统一@@的数据分析处理@@@@。

  这就是我们@@刚才讲到的技侦数据处理@@@@,既有@@DPI的互联网分装的数据@@,也有通过采集和爬虫的数据@@,看到分包数据的原始状态@@,同时也有设备上的网关@@,如何把不同格式的数据汇聚到一@@起@@,最后提出一@@个@@服务@@。这是我们@@现在@@这套系统@@给大家展示的一@@种能力@@,不需要先做很多格式转换@@,做一@@个@@临时库@@、临时表@@,分别建数据集等@@,不需要这些东西@@,这些东西太浪费开发精力@@、周期也太长@@,我们@@在@@采集的同时就可以计算@@,计算的同时就可以发布@@。谢谢大家@@!

责任编辑@@:李泰民@@