11月@@28-29日@@,由中@@国社会科学院信息化研究中@@心和@@北京@@国脉@@互联@@信息顾问@@有@@限公司联合举办的@@@@“2018智慧中@@国@@年@@会@@”在@@北京@@隆重召开@@,以@@“数据@@赋能@@ 智慧中@@国@@”为主题@@,共有@@来自@@全国@@部委@@、省@@、市@@、区县@@电子政务@@@@、智慧城市@@@@、大数据@@主管领导@@、行业专家@@、企业代表@@、主流媒体千余人参会@@。

  本文系深圳市@@华傲数据@@技术有@@限公司@@@@CEO贾西贝@@于@@11月@@29日@@上午在@@@@“2018智慧中@@国@@年@@会@@”分论坛六@@--“微服务@@与数据@@赋能@@平台@@构建与实践@@研讨会@@”上的@@演讲@@,内容通过现场速记整理@@,未经本人审核@@。

blob.png

【深圳市@@华傲数据@@技术有@@限公司@@CEO 贾西贝@@】

  今天要和@@大家分享@@的@@是@@@@“数字中@@国@@的@@@@‘三@@融五跨@@@@’数据@@治理@@体系@@”,主要从三@@个@@方面来讲@@:数据@@治理@@的@@指导思想@@、方法论@@、几大实践@@@@。因为时间关系讲得是@@简版@@,有@@些可能没法特别深入@@。

  一@@、政务@@数据@@治理@@的@@指导思想@@@@:三@@融五跨@@@@

  我会以@@问@@题的@@形式展开@@,主要还是@@引发大家的@@思考@@。

  1、数据@@是@@什么@@@@

  以@@前我在@@研究生论坛讲课及最近在@@工业大学开设的@@几个@@研究生课上@@,问@@“数据@@是@@什么@@@@”,期待的@@肯定不是@@今天这个@@答案@@,那主要探讨的@@是@@数据@@的@@科学性@@,今天我们讲的@@是@@从国家战略和@@城市@@战略的@@实操层面@@“把数据@@定位成什么去运用@@”。关于数据@@的@@定义@@,在@@国家十大战略之一@@的@@@@“国家大数据@@战略@@”中@@说得很清楚@@,数据@@是@@基础战略性资源@@。

  2、政务@@数据@@是@@什么@@@@@@

  按照工信部@@《大数据@@产业发展规划@@(2016-2020年@@)》,“政府部门@@、互联网@@企业@@、大型集团企业积累沉淀了大量的@@数据@@资源@@。我国已成为产生和@@积累数据@@量最大@@、数据@@类型最丰富的@@国家之一@@@@”,有@@人翻译过来称中@@国有@@三@@大@@“数据@@金矿@@”,其中@@政府数据@@是@@第一@@数据@@金矿@@或第一@@数据@@资源@@。

  3、政务@@数据@@面临的@@瓶颈@@(首要问@@题@@)是@@什么@@

  2016年@@,李克强总理在@@全国@@推进简政放权电视电话会议上指出@@“目前我国信息数据@@资源@@80%以@@上@@掌握在@@各级政府部门@@手里@@,‘深藏闺中@@@@’是@@极大浪费@@”,这也进一@@步印证了政府数据@@是@@第一@@数据@@资源@@,但它并没有@@像@@BAT等互联网@@企业@@发布的@@数据@@那样有@@多大价值@@、对我们生活产生多大的@@影响@@。微软首席信息官@@(后来也成为了奥巴马政府的@@@@首席信息官@@)也曾讲过@@“全球@@99.5%的@@大数据@@资源都被浪费了@@,只有@@不到@@0.5%的@@信息资源被利用了@@”。

  4、造成政务@@数据@@浪费@@的@@主要原因是@@什么@@@@

  我们看到的@@一@@个@@城市@@@@、国家的@@数据@@世界@@,说得极端点@@,其实在@@某种程度上散布了许多的@@@@“数据@@垃圾@@”。比如我们国家@@,从政府角度对数据@@的@@占有@@其实是@@高度碎片化@@、分散化的@@@@。深圳在@@@@乐动安卓app 方面做了很多创新@@,有@@个@@口号叫@@“市@@民办事不出街@@”“企业办事不出区@@”,就是@@@@市@@民办事不用出街道@@/社区@@、企业办事不用出区@@/县@@就能把事办了@@@@。我国一@@共有@@@@2500多个@@@@区@@/县@@、4万多个@@@@街道@@/乡镇@@。那我们想@@,如果办事都是@@在@@区县@@一@@级@@,一@@个@@区县@@的@@委办局一@@般在@@@@40个@@以@@上@@@@,我们调研了下深圳@@,深圳一@@个@@委办局的@@业务系统@@至少@@10个@@(多的@@有@@@@100来个@@@@),全国@@12万个@@@@部门会有@@多少业务系统@@和@@数据@@库呢@@@@?初步估计业务系统@@约@@20-120万个@@@@,数据@@库在@@@@100万个@@@@左右@@。

  分散在@@几十万个@@@@数据@@库中@@的@@数据@@@@,大家若将一@@个@@方块假设@@为一@@个@@业务系统@@@@、一@@个@@圆柱体假设@@为一@@个@@数据@@库@@,是@@一@@个@@什么状态@@?是@@“盲人摸象@@”。我们经常说一@@个@@城市@@的@@市@@长说不清所在@@城市@@的@@具体人口@@,这里指的@@是@@实际管理人口@@,不是@@户籍@@、常住人口@@,中@@国今天已不是@@用户籍把大家固定在@@户籍地@@,而是@@高度流动的@@@@,北京@@、深圳的@@流动人口占比已达@@50%以@@上@@,深圳户籍人口是@@@@400多万@@,加@@(流动人口等@@)在@@一@@起很多媒体都说深圳人口在@@@@2000万以@@上@@@@。

  数据@@的@@碎片化产生于业务的@@碎片化@@、技术的@@碎片化@@,碎片化实际是@@@@“数据@@氧化@@”的@@问@@题@@。无论是@@多么美好的@@组织@@,最后都会衍生成一@@个@@蜘蛛网结构@@,需要用一@@些办法把数据@@利用起来@@。

  5、解决政务@@数据@@开发利用问@@题的@@核心任务@@是@@什么@@@@

  “数据@@浪费@@”“数据@@碎片化@@”的@@破解之道是@@什么@@@@?我们总书记也给出了@@“数字中@@国@@”中@@“数据@@治理@@”的@@核心任务@@,在@@2017年@@12月@@8日@@的@@十九届中@@央政治局第@@2次@@集体学习会议上@@,习主席提出@@"以@@数据@@集中@@和@@共享为途径@@,推动技术融合@@、业务融合@@、数据@@融合@@""实现跨层级@@、跨地域@@、跨系统@@@@、跨部门@@、跨业务的@@协同管理和@@服务@@@@",早在@@@@2016年@@10月@@十八届中@@央政治局第@@36次@@集体学习会议上@@习总书记也曾提过@@,后来你人民日@@报和@@新华社总结为@@“三@@融五跨@@@@”。刚才我们提到全国@@保守估计@@12万个@@@@部门有@@几十万个@@@@系统@@@@,要做五跨@@数据@@融合@@@@,其实就是@@@@任务之一@@@@。

  大家都觉得数据@@就是@@@@金钱@@、能赚钱@@。就像硬币@@,正面是@@数据@@利用@@、背面是@@数据@@监管@@,数据@@价格变现必须在@@良好的@@数据@@监管和@@数据@@保护的@@前提下@@,没有@@监管@@,数据@@利用就是@@@@脱缰的@@野马@@。数据@@是@@无界@@,但数据@@的@@应用是@@有@@界的@@@@,需要自@@律也需要监管@@。结合近期的@@新闻@@,其实基因也是@@无界的@@@@,所有@@生物体都有@@@@,但对基因的@@应用也应该是@@有@@界的@@@@。

  这方面中@@央也予以@@了重视@@,习总书记在@@@@2017年@@12月@@十九届中@@央政治局第@@2次@@集体学习会议上@@就提出@@,要切实保障国家数据@@安全@@、强化国家关键数据@@资源保护能力@@。所以@@数据@@治理@@@@,主要是@@治理数据@@的@@两面@@(数据@@利用和@@数据@@监管@@)。

  二@@、政务@@数据@@治理@@的@@方法论@@@@:GLDM五跨@@模型@@

  (一@@)数据@@大发现时代@@

  从领导人@@、国家的@@层面@@,对数据@@治理@@目前有@@很好的@@政策和@@指导思想@@,但要把几百万个@@@@数据@@治理@@好@@,中@@间还需有@@个@@桥梁@@,不管是@@做咨询@@还是@@@@IT,我们在@@多地都期待能有@@一@@个@@方法论@@@@。基于我们的@@经验@@,我们总结了这样一@@个@@国情@@:今天的@@时代@@,很像达伽马@@、哥伦布那时的@@@@“地理大发现时代@@”,我们不断能看到新的@@数据@@源@@@@、新的@@数据@@处理@@手段@@、新的@@数据@@应用场景@@,所以@@我们觉得@@2016年@@国家大数据@@战略@@发布后@@,政务@@数据@@进入了一@@个@@像@@“地理大发现时代@@”一@@样的@@@@“数据@@大发现时代@@”。

  哥伦布式大航海是@@@@“走的@@时候@@,不知道去哪儿@@;到的@@时候@@,不知道在@@哪儿@@;回的@@时候@@,不知道去过哪儿@@”,我们现在@@经常是@@@@“开始的@@时候@@,不知道能做什么@@;进行的@@时候@@,不知道该做什么@@;完成的@@时候@@,还不知道做了什么@@”,我们需要一@@个@@方法论@@来避免哥伦布式的@@数据@@大航海@@@@、数据@@处理@@。

  (二@@)GLDM--政务@@(五跨@@)逻辑数据@@模型@@

  做数据@@库的@@@@,应该都熟悉@@LDM。在@@数据@@库课程上@@,我们一@@般首先会讲概念模式@@、逻辑模式@@、物理模式等@@。物理模式与系统@@相关@@、概念模式太粗略@@,所以@@实际应用最广的@@是@@易于沟通的@@逻辑模式@@@@。全球@@数仓中@@最有@@名的@@是@@@@Teradata(天睿公司@@,美国前十大上市@@软件@@公司之一@@@@),在@@数仓和@@商业智能领域驰骋多年@@@@、立于不败地位@@,微软有@@个@@操作系统@@在@@数仓里面某种程度上垄断了主要行业的@@@@LDM,金融领域@@FS-LDM目前主要用的@@是@@@@90年@@代开始沿袭的@@@@Teradata的@@那一@@套@@,电信@@、交通@@、能源@@、医疗行业都是@@一@@样@@,但是@@@@Teradata的@@LDM没有@@跨领域的@@@@LDM,主要是@@国外没有@@大规模的@@@@“三@@融五跨@@@@”实践@@,目前这方面还是@@空白@@,我们基于海外研究和@@国内实际@@,组建了@@GLDM--政务@@(五跨@@)逻辑数据@@模型@@。

  GLDM--政务@@(五跨@@)逻辑数据@@模型@@,目的@@是@@让数据@@大航海@@@@,出发前@@“知道哪个@@地方是@@小岛@@、有@@海峡@@、有@@暗沟@@、适合走@@”“有@@海图@@@@、航路@@、指南针@@、轮船@@,知道往哪个@@方向去@@,最后还能驶向彼岸@@”。①数据@@大航海@@的@@@@“海图@@”实际对应信息化背景来说@@,是@@公路系统@@和@@元数据@@@@管理系统@@@@,政府每个@@委办局@@、每个@@部门的@@数据@@从在@@哪儿@@、从哪里来等每一@@步的@@操作都可以@@集中@@展示出来@@。②“指南针@@”是@@不走弯路@@、错路@@、邪路@@,一@@个@@是@@数据@@标准@@@@化@@,减少数据@@清洗工作@@,在@@可预见的@@未来@@,数据@@清洗工作只可减少@@、不会消失@@;不走邪路@@@@,数据@@泄露方面@@,2017年@@共抓了一@@万五千多人@@、办了@@4999个@@案件@@,如果非法提供或者获取超过@@50条@@,就可以@@判三@@年@@以@@下有@@期徒刑@@@@,500条@@以@@上@@可以@@判@@3年@@以@@上@@@@7年@@以@@下有@@期徒刑@@,所以@@立法是@@很严格的@@@@。政府的@@@@数据@@监管是@@一@@条@@红线@@,如何恪守这条@@红线也是@@非常重要的@@内容@@。③“轮船@@”,需要数据@@质量治理平台@@@@(舵@@)和@@五跨@@数据@@融合@@平台@@@@(发动机@@)。

  总结起来@@,从海图@@@@、航路@@、指南针@@、轮船@@等七个@@模块构成了走出哥伦布式@@“数据@@大航海@@”的@@要件@@,当然围绕这些@@,还有@@港口@@、货物等模块@@。在@@此也要感谢政府对我们技术研发的@@重视和@@支持@@。目前我们国内外专利有@@@@290多个@@@@,并参与了深圳核心数据@@元标准@@制定等多个@@@@数据@@治理@@@@、数据@@质量相关项目@@@@。我们希望政府数据@@治理@@@@、三@@融五跨@@@@能做好@@,实际上我们也是@@国际数据@@质量管理理论的@@奠基团队之一@@@@,结合技术标准@@和@@业务@@,特别是@@实践@@@@,实战的@@技术都是@@在@@琢磨中@@产生的@@@@。我们理解的@@数据@@治理@@@@,包括对数据@@目录@@、元数据@@@@、主数据@@@@、参考数据@@@@、数据@@标准@@@@、数据@@质量的@@治理等@@,政府的@@@@“主数据@@@@治理@@@@”主要是@@基础库和@@主题库的@@治理@@。

  三@@、政务@@数据@@治理@@的@@最佳实践@@@@:四重治理网@@、六层流水线@@

  最佳实践@@方面@@,数据@@治理@@分两大门类@@,一@@类在@@我们公司内部叫数据@@治理@@@@(慢加@@工@@),另一@@个@@是@@数据@@融合@@@@(快加@@工@@)。“慢加@@工@@”和@@“快加@@工@@”达成的@@数据@@质量@@不一@@样@@,“快加@@工@@”是@@达成@@“多源一@@致@@”的@@数据@@质量@@、满足数据@@的@@分析型应用@@,“慢加@@工@@”达成的@@是@@权威确认的@@质量@@。

  “快加@@工@@”相当于给每个@@城市@@@@、每个@@区县@@@@、每个@@省@@建一@@个@@数据@@@@“炼油厂@@”,进去的@@是@@碎片化的@@数据@@@@,出来的@@是@@数据@@资源和@@数据@@资产@@,包括刚才讲的@@基础库@@、主题库等@@。怎么去建立一@@个@@@@“炼油厂@@”呢@@?汽车工业的@@流水线是@@一@@个@@很高效的@@加@@工方式@@,数据@@炼油厂@@也像富士康的@@流水线工厂@@,只不过这里有@@人类@@、机器@@,能自@@动化的@@地方让它自@@动化@@,不能自@@动化的@@地方就人来做@@。这里我们分了@@“六层流水线@@”,包括历史层@@、标准@@层@@、原子层@@、整合层@@、主题层@@、应用层@@,主要是@@对数据@@进行差错@@、改错@@,这里有@@流程再造的@@工作@@,不进行流程再造可能会持续产生一@@些错误@@,还需要改系统@@是@@因为软件@@系统@@@@bug引进的@@错误@@,更主要的@@是@@数据@@清洗等@@。

  快加@@工@@的@@原理@@是@@@@“四定五加@@工@@”,最好是@@定源定目标@@@@。像编程的@@一@@个@@函数@@,如果把输入输出定好了@@,最后无外乎算法对不对@@、中@@间是@@否优化的@@问@@题@@@@。“双调@@”是@@数据@@调研和@@业务调研@@,双调@@是@@为双融@@服务@@@@,“双融@@”是@@数据@@融合@@和@@业务融合@@@@。我们会调研清楚每一@@个@@委办局的@@业务系统@@中@@的@@数据@@模型@@有@@没有@@数据@@规范@@、数据@@标准@@@@、字段如何命名@@(尤其是@@数据@@字典遗失的@@时候@@)、数据@@源@@、每个@@数据@@的@@类型@@、数据@@元代码集是@@怎样的@@@@、是@@如何标识每个@@数据@@的@@@@,这个@@都调研清楚后@@,其实是@@信息资源目录编制和@@调研的@@内容@@。

  在@@这个@@基础上@@,我们想把委办局数据@@达到一@@种怎样的@@状态呢@@@@?目标是@@基础目录@@。基础库包括人口@@、法人等@@,如人用身份证标识@@,房屋@@、项目@@、地址用什么标识就没那么简单了@@,如何标识一@@个@@实体@@、这个@@实体每个@@属性如何定义和@@用什么类型定义@@、每个@@属性如何命名@@、这些属性最后搭建的@@模型和@@表是@@一@@个@@怎样的@@标准@@@@,由此完成定源@@、定目标@@的@@工作@@。

  但光定源@@、定目标@@还不行@@,中@@间还要定一@@个@@附@@件@@:数据@@加@@工的@@过程很像手机翻新@@,拿来@@10个@@旧手机@@、最后想翻新@@5个@@新手机@@,假设@@10个@@旧手机@@分布在@@不同的@@委办局和@@不同的@@业务系统@@中@@@@,可以@@先把@@10个@@旧手机@@拆拆成最小的@@零件@@,标识哪些零件好@@、哪些零件不好@@,好的@@取出来组合成新手机@@;后面组装的@@过程就是@@@@我这里写的@@@@“后加@@工@@”;零件的@@标准@@就是@@@@数据@@元的@@标准@@@@;把它拆掉的@@过程@@,就是@@@@“前加@@工@@”;前加@@工@@之前还得在@@共享交换平台@@进行梳理@@。尽量把目录层的@@东西全集中@@起来@@,做数据@@集中@@到归集层@@,从归集层开始走共享数据@@去融合@@、走后面六层@@。所以@@定源头@@、定部件@@、定目标@@(两类模型@@),最后给大家用还得定接口@@,就像微服务@@@@,其实它是@@数据@@的@@接口@@,中@@间的@@加@@工过程我就不细讲了@@。

  基本信息对应的@@是@@一@@张表@@或者若干张表@@@@,最后组成@@LDM的@@数据@@模型@@。模型定好后@@,我们要确定用什么原则来加@@工@@,不要因人而异@@、因时而异@@、因事而异@@,大通铺@@、新鲜度原则等都会有@@问@@题@@。分区治理@@、分层加@@工@@,比如历史层会做数据@@拉链@@、时间戳等@@,所有@@做错的@@都可以@@追溯@@,每一@@个@@版本都会进历史数据@@管理系统@@@@@@。这个@@版本我们一@@般是@@每个@@月@@做一@@个@@快照@@,有@@点像压缩软件@@压缩@@、SBN、DF原理@@,后边每一@@层做的@@操作也会进源数据@@管理系统@@@@,每一@@层建立的@@新的@@表格@@、新的@@数据@@资源等用元数据@@@@管理系统@@管理起来@@,其标准@@来自@@于标准@@治理系统@@@@(标准@@图书馆@@)。刚才说全国@@几十万数据@@库@@,每个@@数据@@架构师@@、工程师都有@@自@@己的@@定义办法@@,现有@@标准@@大家可以@@一@@起去看@@,这就需要一@@个@@参考数据@@@@管起来@@,所以@@我们看到这里的@@每一@@层都去操作统一@@的@@元数据@@@@@@、标准@@、参考数据@@@@、历史数据@@管理系统@@@@,当然标准@@层@@是@@标准@@化@@、原子层@@是@@最小颗粒化@@、组合层是@@重新组装@@,在@@主题层@@之前做的@@类似数据@@预览@@,往往是@@让大家在@@商业智能@@、政务@@智能中@@迅速取数的@@加@@工@@,后面还有@@定制加@@工@@,让数据@@能符合每个@@接口@@。一@@个@@城市@@的@@权利责任清单大概有@@@@5000多项@@,一@@个@@权责事项至少需填@@1-2张表@@、有@@一@@些审批和@@证件@@,接口有@@几万个@@@@@@,几万个@@@@接口去用这些数据@@@@,就涉及定制@@。

  我们对数据@@治理@@的@@四个@@圈层@@:第一@@个@@是@@委办局业务库@@。各委办局的@@数据@@是@@分布式@@,全国@@来说是@@跨区域@@、跨层级的@@@@。第二@@层是@@目录数据@@@@,是@@业务库中@@已经调研出来在@@信息资源目录中@@能找到的@@数据@@@@,按照现在@@国家发布的@@政策@@,有@@“不予共享@@、有@@条@@件共享@@、无条@@件共享@@”三@@类@@,目录数据@@是@@业务数据@@的@@一@@个@@子集@@,这里包括有@@条@@件共享@@@@、无条@@件共享@@的@@数据@@@@。第三@@层是@@归集数据@@@@,做了数据@@集中@@@@,把目录数据@@中@@无条@@件共享@@的@@数据@@@@放到一@@个@@大数据@@中@@心@@。第四层是@@融合数据@@@@,指在@@大数据@@中@@心做了深度加@@工融合的@@基础库@@、主题库数据@@@@。跨越圈层的@@原则@@,比如在@@编制目录时候应@@“能享尽享@@”,归集数据@@时@@“应采尽采@@”,融合数据@@时@@“以@@用促融@@”。

  我们对智慧城市@@@@@@、数字政府@@的@@数据@@治理@@@@,其实是@@三@@个@@层面的@@事@@,包括数据@@@@、系统@@、服务@@,三@@者形成政府跨部门@@数据@@加@@工的@@过程@@。

  附@@:国脉@@,是@@领先的@@大数据@@治理@@和@@数字政府@@专业提供商@@。创新提出@@“软件@@+咨询@@+平台@@+数据@@+创新业务@@”五位一@@体服务@@模型@@,拥有@@数据@@基因@@和@@水巢@@DIPS两大系列几十项软件@@产品@@,长期为中@@国智慧城市@@@@@@、智慧政府和@@智慧企业提供专业咨询@@规划和@@数据@@服务@@@@,广泛服务@@于信息中@@心@@、大数据@@局@@、行政服务@@中@@心等政府客户@@、中@@央企业和@@金融机构@@。自@@2004年@@成立以@@来@@,已在@@全国@@七大区域设立@@20余家@@分支机构@@、5大技术研发基地@@,服务@@客户@@2000余家@@,执行项目@@@@5000余个@@@@,连续多年@@开展中@@国政府网站@@@@、智慧城市@@@@、互联网@@+政务@@、营商环境@@等公益评估评选活动@@。被业界誉为中@@国信息化民间智库知名品牌@@、电子政务@@优选咨询@@机构@@,国内首倡智慧政府理念@@,首创智慧城市@@@@@@、数据@@治理@@、互联网@@+政务@@评价体系@@,首推数据@@资产普查@@、全口径数据@@资源目录@@、数据@@元标准@@化@@、数源确认与供需对接@@、最多跑一@@次@@@@事项梳理@@、营商通等产品@@,信息资源编目@@、公共数据@@普查等业务全国@@占有@@率和@@影响力名居榜首@@。

  注@@:获取更多@@会议信息及嘉宾演讲资料@@,欢迎登录@@“2018智慧中@@国@@年@@会@@官网@@”。

年@@会官网@@.png

  现场照片直播分享@@@@:

现场直播@@.png

责任编辑@@:hongqiong