站在新的历史起点和@@数字化发展创新风口@@,秉持@@“智慧报国@@”的一贯初心@@,不负连续@@17年坚持累积的良好社会影响与业界口碑@@,一年一度的改革研讨盛会@@“智慧中国年会@@”,以@@“聚焦数字化觉醒和@@数字中国再提速@@”为主题@@,于@@11月@@24日@@-25日@@通过网络直播渠道盛大开启@@。2021智慧中国年会@@由智慧中国年会@@组委会@@、北京国脉@@互联信息顾问有限公司主办@@,设置主论坛和@@专项分论坛@@,分别以@@@@“加快数字化转型@@@@ 建设美好数字中国@@”和@@“数据@@治理@@体系构建与城市运行体征管理@@”为主题@@,邀请界内决策者@@、管理者@@、建设者@@、观察者@@、思考者开展深入探讨@@、交流与合作@@。

  本文系国家信息中心原主任@@、国家信息化专家咨询@@委员会委员高新民@@于@@@@11月@@24日@@上午在@@“2021智慧中国年会@@”主论坛上的演讲@@。内容通过速记整理@@,未经本人@@审核@@。

图片@@

---以@@下为演讲内容@@---

  很高兴今天有机会参加智慧中国的年会@@,因为疫情关系就不到现场了@@,通过视频的方式与大家做交流@@。大家知道@@,现在我们在推动数字中国的过程中@@,核心问题是做数字化转型@@或者叫数字化发展@@,十四五规划中专门有一章节来讲这个问题@@。数字化转型@@、数字化发展核心问题是数据@@的问题@@,要以@@数据@@为驱动@@,加上数据@@的治理@@,产生智能化决策@@、闭环@@、控制@@,来实现智慧中国的发展应用@@@@。因此@@,现在讨论较多的@@“数据@@”作为关键要素@@,数据@@治理@@应如何推进@@,最近国家在这方面发布了很多文件@@,特别是在数据@@安全@@领域@@,实际上这也涉及了数据@@治理@@的问题@@,各个单位对数据@@治理@@也高度重视@@,特别是关于@@数据@@的质量控制@@@@、数据@@安全@@使用@@以@@及数据@@共享@@@@@@、数据@@流转@@@@等等数据@@治理@@问题@@。另外@@,讨论数据@@交易的问题也比较多@@,如何确权@@,如何定价@@,现在各个地方也在做大数据@@交易中心@@,这也是数据@@治理@@问题@@。但现在感觉到有一个问题@@,现在对数据@@治理@@基础架构@@如何构建@@,这个问题讨论不是很多@@,也不是很清楚如何做@@。在过去@@,数据@@治理@@在一个机构或部门里边@@,他的基础架构是有案例的@@,也是有解决方案的@@,这是没有问题的@@,但是现在的数据@@治理@@涉及到一个更大的空间@@@@,涉及跨部门@@@@、跨地区@@、跨层级这样一个特征@@,因此@@,数据@@治理@@架构应该什么样@@,今天围绕这一问题谈一些看法@@,供大家参考@@。

  数据@@要素重要性大家都有共识@@。简单来说@@,数据@@本身是一个基础支撑@@,比如@@“人@@”,人@@是有身份证数据@@@@,有基因数据@@@@@@,每个人@@都有一个身份@@、基本生理特征等基础数据@@的支撑@@,这些数据@@与业务相融合就能产生效益@@。比如@@,人@@的基因数据@@@@@@,人@@到医院看病@@,诊断这个人@@是什么病@@,一般下来有时候这个病跟基因是有关系的@@,因此@@,跟诊疗结合之后@@,才会提升诊断的效率和@@准确度@@。另外@@,数据@@作为要素能够流转@@@@,能够在更大范围内流通@@,那么@@,他将产生更大的价值@@。比如@@,基因数据@@@@,在国外与医院中的诊疗数据@@@@、制药企业掌握的制药数据@@@@、疗效数据@@以@@及其他有关医疗健康数据@@融合之后@@,当然数据@@要透明@@,他可以@@发现很多规律@@,这样他的价值将更大@@,数据@@这三种价值的提升越来越重要@@,这个越来越有共识@@。

  目前@@数据@@还面临一些问题@@。第一@@,数据@@质量问题@@@@,有相当一部分数据@@质量不是特别高@@,有不少问题@@,如准确性不高@@、时效性不高@@、垃圾数据@@@@,给数据@@应用@@带来一些困难@@。第二@@,数据@@流转@@@@不畅@@,如大家知道@@的信息孤岛@@、数据@@孤岛@@。第三@@,融合应用@@方面深度不够@@,用@@的还不太好@@,产生的价值不知道怎么用@@@@。这些问题怎么解决@@,都是跟数据@@治理@@密切有关系的@@,质量问题@@、流转@@问题@@、融合之后应用@@价值@@、安全@@可控问题都是和@@数据@@治理@@有关的@@。

  现在的出路是@@,怎样构建领域数据@@空间@@@@@@。用@@政策@@、制度支撑构建领域数据@@空间@@@@@@,同时用@@技术架构支撑构建领域数据@@空间@@@@@@,就刚刚讲到@@,数据@@流转@@@@、数据@@共享@@@@有困难@@,跨部门@@、跨地区@@、跨异组的@@数据@@共享@@@@有困难@@@@,困难的原因是什么呢@@,这里面有些数据@@标准不一样@@,数据@@所存储或产生的数据@@的信息也是异构的@@、异组的@@、异地的@@,也就是三异@@,这些客观上来讲对数据@@的共享@@产生困难@@,但是泛泛的说@@,把@@所有数据@@按照一个统一的标准来做@@,这个难度非常大@@,因为数据@@几乎是一个海洋@@,不可能对海洋的每一滴水进行治理@@@@,所以@@@@我的一个观点@@就是@@,首先数据@@要变成一个数据@@对象@@@@,是有边界@@@@、可识别@@、有内涵@@的@@、可定义@@的对象@@,我们叫他数据@@对象@@,数据@@要变成一个数据@@对象@@,由数据@@对象在一定的基础架构下@@,能够进入一个空间@@@@,这个空间@@里能够使数据@@对象进行互操作@@,所以@@@@,数据@@本身要进行治理@@@@,首先数据@@要变成数据@@对象@@,由数据@@对象构建基础数据@@架构@@,这个架构有制度规则@@、有技术的支撑@@,形成领域数据@@空间@@@@@@。为什么叫领域@@,因为数据@@要共享@@@@、要流转@@@@,一定跟场景@@、跟应用@@导向是相关的@@,而领域与数据@@应用@@场景比较亲切@@,应用@@需求比较清楚@@,因此@@在这种条件下@@,数据@@对象本身的关联度就比较强@@,因此@@就形成领域@@,所以@@@@符合@@领域内强关联度的数据@@形成空间@@@@,这个空间@@能够实现数据@@的互操作基础@@,大概就是这样一个概念@@,我认为这个概念就应该是数据@@治理@@的基础设施@@,没有这个基础设施就很难把@@数据@@治理@@的质量@@、流转@@、共享@@、安全@@、融合使用@@这几个要素都去做到就很难@@。最近国家出台很多关于@@数据@@安全@@的条例@@,这些数据@@安全@@条例是必要的@@,但怎样去落地@@,我认为落地的关键问题就是基础架构@@,没有这个基础架构@@,这些落地是非常困难的@@,尤其是在互联网@@的这个环境下@@,很多互联网@@平台@@企业@@,其数据@@量是非常巨大的@@,上千个@@bit,如果这些数据@@里面没有一个基础的架构@@@@,不是一个可识别@@的数据@@对象@@,那么@@如何对他进行监管@@、提出要求@@,进行治理@@,包括他自己要去流转@@@@、去管理都是很困难的@@。所以@@@@这就是我们今天说的@@,要构建一个数据@@治理@@的基础架构@@,这个基础架构我建议不是泛泛去说@@,要去建立领域数据@@空间@@@@@@。领域数据@@空间@@@@有两个支撑@@,一个是制度@@/政策支撑@@,这里引用@@@@FAIR原则@@,符合@@FAIR原则@@的标准的数据@@对象@@,就可以@@进入这个数据@@空间@@@@。另外@@,这个数据@@空间@@要用@@技术实现@@FAIR原则@@,实现这个标准的技术架构@@,也是对数字对象体系架构进行技术支撑@@。由这两个支柱@@,即@@制度支柱@@、技术支柱@@,来形成一个领域的数据@@空间@@@@,这样作为数据@@治理@@的基础设施@@,我觉的这是一个思路@@。这个思路也是最近观察到欧盟在实施一个欧盟统一数据@@空间@@的倡议或者说是一个项目@@,这里面有两个内容@@,一个是统一欧洲的@@云@@,因为数据@@都在云上@@,都是云架构@@,所以@@@@做了一个@@统一欧洲云的技术架构@@;另外@@在这个架构上@@,做了一个@@IDS,国际数据@@空间@@@@(International Data Space)。这两个东西组合成欧盟跨国数据@@基础设施@@,他甚至还有一个想法是把@@他做成国际的@@。这个想法跟我今天讲的内容还是有一些区别的@@,他没用@@运用@@@@DOA的架构@@,也没有很明确的用@@@@FAIR原则@@在做@@,那么@@我是把@@这三个内容结合起来@@,来进行的一个思路研究@@。欧盟的@@IDS和@@云空间@@这两个项目@@,国内有些单位跟他们有很多交流@@,过几天我和@@德国的一个教授也会做一些技术交流@@,我希望大家能够关注@@、能够借鉴@@,设计符合@@我国国情@@、符合@@我们实际的@@,借鉴新的理念@@,把@@领域数据@@空间@@@@作为数据@@治理@@的基础设施来推进@@。

  下面@@,我想再展开下@@,把@@FAIR原则@@、DOA的技术架构简单说说@@,供大家参考@@。

  领域数据@@空间@@@@分类@@。可以@@分为产业领域数据@@空间@@@@@@,举例有加工制造业@@、交通运输业@@、通讯产业@@、金融业等等@@,这些产业是强相关的@@,某个行业里互相有关联@@,也可以@@再细分@@,当然也不能太细了@@,还是有个领域的@@;另外@@一个是政务@@领域数据@@空间@@@@@@,比如@@政府之间的电子政务@@@@@@、政府对企业的电子政务@@@@@@,即@@G2G、G2B、G2C、G2E,G2E是指政府对本身公务员的@@,这个分类也可以@@@@;还有一种就是按照我们政务@@领域之间的分类@@,如环境保护@@、公共安全@@@@、公共卫生@@、产业宏观调控的等等也可以@@按照这个来分@@。公共领域里面有电子健康@@、科研教育@@、文旅@@、民生生活上的内容等等@@,这个是举例来讲@@,都可以@@这么分类@@。

  FAIR原则@@,实际上也是四个英文名的开头字母@@,第一@@个字可发现@@,数据@@变为数据@@对象@@,有边界@@、可识别@@、有内涵@@、可定义@@、可定价@@,在某种场景下可定价@@@@,定价一定跟场景@@关联@@,没有场景关联这个价是很难定的@@。这四个字呢@@,第一@@个是可发现@@,第二@@个字是可访问@@,第三@@个字是可互操作@@@@,第四个字是指这个数据@@对象可重用@@@@。可发现就是数据@@对象在什么位置@@,讲数据@@在什么位置是很难发现的@@,数据@@是一个很泛在的概念@@,一定是变成数据@@对象后是可发现的@@,他有标识@@、有边界@@、有地址@@;可访问是指可以@@找到@@,有一定访问权限@@,有认证@@,安全@@里面有可访问@@,包括认证权限@@、访问权限等@@;可互操作@@,包括接口@@、数据@@间的通信协议@@,这个都要标准化@@;可重用@@就是可流转@@@@,在一定的条件下面@@@@、一定的规则下面@@@@,与前面三个条件能够在需求导向@@、规则为基础下重用@@@@,就是流转@@@@。这个原则@@所有的数据@@对象@@,符合@@这个原则@@就允许进入共同体@@,就能够享受共同体的一些权益@@。符合@@FAIR原则@@是它的义务@@,不符合@@原则@@自动标准的数据@@对象是不能进入共同体@@。进入到数据@@共同体或数据@@空间@@@@,它符合@@这个原则@@就很容易在有需求@@、有场景导向的情况下@@,很容易实现互操作@@,就能够实现共享@@@@,就能够很容易组成支撑业务的需求@@,就是这么一个思路@@,当然包括各种各样的治理@@,你要去交易也好@@、你要去开放也好@@、你要去共享@@也好@@,不同的流转@@机制就能够支撑@@。

  这个原则@@因为时间关系就不详细讲了@@,对数据@@的要求大家可以@@再看看@@。目前@@FAIR原则@@在国际上@@,在科研的数据@@上发挥共享@@和@@互操作起了非常明显的作用@@@@。我刚开始举的例子@@,举了基因数据@@@@和@@临床数据@@@@、还有药物的治疗数据@@@@,这些数据@@是跨部门@@的@@、跨领域@@,有的是在制造业@@,有的是在医院里面@@,有的是在研究机构学校里面@@,他们就用@@@@FAIR原则@@把@@数据@@都进入到一个空间@@@@,然后在里面产生很多有价值的规律@@,发现很多价值@@,如某种基因缺陷会产生什么疾病或者反过来说某种疾病可能和@@某些基因的变异或者缺陷有关@@,或者某种药物对某种疾病因某种基因变异后产生的疾病能有疗效@@、有针对性@@。那么@@这样一些东西目前@@已经是实现@@,已经证明利用@@@@FAIR原则@@是指导数据@@的空间@@在发现支撑方面发挥很大作用@@@@,这已经是证实了@@。举例子讲@@,上次@@有一位荷兰过来的教授@@,曾经和@@我们交流就是用@@@@FAIR原则@@怎么实现这种跨部门@@@@、跨资源而且是跨国的数据@@共享@@@@@@,能够分析出很多有用@@的支撑规律@@,这是非常典型的一个例子@@。我认为这个事情非常重要@@,比现在局里研究的数据@@交易@@、数据@@确权更为重要@@。那个当然也是需要研究的@@,但是不把@@这些问题研究清楚@@,我们的数据@@价值@@、数据@@的流通流转@@@@,包括安全@@的可控都是很难实现@@、很难落地@@。

  这是一方面@@,FAIR原则@@是一个制度原则@@或者是一个政策原则@@@@。它的技术实现什么@@?就是刚才讲的@@,其中一个方面也不是全部@@,欧洲的@@IDS不是按照@@FAIR,但是原理和@@这个很接近@@,它是用@@另外@@一套体系@@、另外@@一套软件@@来实现的@@。那么@@现在有一种方案是利用@@@@DOA,就是数字对象体系架构来实现@@,因为体系架构就能够实现变成一个数据@@对象@@,这个数据@@可大可小@@,单个数据@@可作为一个对象@@。一个数据@@库@@、数据@@文件@@、数据@@湖@@、数据@@池@@,将来比如@@我们讲数据@@孪生都可以@@算数据@@对象@@。它一定要有边界@@@@,要把@@它定义好@@。这个对象形成之后就给它一定的赋码@@、统一的赋码@@,而且也是唯一性的@@。这个码赋完之后可注册@@,注册之后这个赋码对象还包括两个内容@@,不仅仅是码的问题@@,封装之后里面的@@元数据@@标准是一样的@@,元数据@@可以@@自己定义@@,它有一定的标准架构来定义它@@。这样就实现这些能给它提供条件@@,这些最后要访问@@,访问要有一定的条件@@,包括安全@@认证的条件加进去@@。最后信息内容能够@@,刚才讲的元数据@@和@@内涵的一些语义分析也是一部分@@,和@@数据@@对象之间的一些通信要有统一的协议@@。把@@这个架构实现起来@@,在政策下规定了一些标准化的数据@@对象进入数据@@空间@@之后@@,DOA的架构@@技术实现它的互操作@@。这就是一个完整的数据@@治理@@基础架构@@@@。

  DOA怎么实现它的支撑@@?它可发现@@,里面有标识@@、语义定义@@、全球的解析@@,怎么来实现它可发现@@的东西@@。那么@@可访问就是它的安全@@认证@@,以@@及元数据@@的定义使它可访问@@。互操作就是通信协议@@,一个是发现的协议@@,还有一个就是数据@@互相交互协议@@。还有一个重用@@要在一定的范畴之下有统一的注册@@、统一的分类@@,按照主题@@、内容数据@@对象进行分类@@,有一个分类表@@,然后就可以@@在一定场景下面@@@@、用@@户有需求的时候去访问它@@,去调用@@它都可以@@@@。重用@@的@@“用@@”有多种方式@@,也可以@@访问也可以@@汇聚也可以@@同步@@,就像我们现在讲的区块链一样是数据@@的同步@@,其实区块链是@@DOA里面的@@,区块本身是一种@@DOA,所以@@@@我们讲区块链可以@@把@@它理解为@@DOA架构下面@@一种特殊应用@@@@,而且是一种比较高级的应用@@@@。所以@@@@我认为我们用@@数据@@对象的概念@@、FAIR原则@@来构建数据@@治理@@的基础@@,实现三亿数据@@的互操作这样一个基础@@。这是数据@@治理@@非常非常重要的一个关键@@。

  我今天就讲这些供大家共同研究@@、共同探讨@@,谢谢大家@@!

更多@@精彩@@,请关注@@“官方微信@@”

11.jpg

 关于@@国脉@@@@ 

国脉@@,是大数据@@治理@@@@、数字政府@@、营商环境@@、数字经济@@、乐动安卓app 专业提供商@@。创新提出@@"软件@@+咨询@@+数据@@+平台@@+创新业务@@"五位一体服务模型@@,拥有@@超能城市@@APP营商环境@@流程再造系统@@、营商环境@@督查与考核评估系统@@、政策智能服务系统@@、数据@@基因@@、数据@@母体@@等几十项软件@@产品@@,长期为中国智慧城市@@、智慧政府和@@智慧企业提供专业咨询@@规划和@@数据@@服务@@,广泛服务于@@发改委@@、营商环境@@局@@、考核办@@、大数据@@局@@、行政审批@@局等政府客户@@、中央企业和@@高等院校@@。

责任编辑@@:wuwenfei