政务@@大数据@@@@在@@物理上@@分为@@“数据存储@@、数据计算和@@数据服务@@@@”三个重要层面@@,其物理模型@@示意图如@@下@@:

政务@@大数据@@@@的@@物理模型@@@@

  就政务@@大数据@@@@的@@物理模型@@@@整体而言@@,存储层是技术@@基础@@、计算层是核心能力@@、服务@@层是核心价值@@。立体@@、全方位@@(全面覆盖数据访问鉴权认证@@、数据安全传输和@@数据安全存储等@@全过程@@&全生命周期@@)的@@安全保障机制与体系建设是政务@@大数据@@@@提供和@@使用服务@@的@@基本前提@@。综合@@、系统化@@(充分运用系统工程思想@@,不断提升@@@@、优化整个链条的@@价值再生@@&可持续能力@@)的@@运营支撑机制与体系建设是为实现政务@@大数据@@@@@@“自治和@@自优化@@”这一最终目标做准备的@@@@。注@@:在@@《政务@@大数据@@@@的@@本质@@》一文中提到@@@@:“政务@@大数据@@@@的@@未来是数据自治@@”。

  有关政务@@大数据@@@@的@@立体@@安全保障机制与体系建设将在@@后续文章@@《政务@@大数据@@@@的@@安全@@》中具体展开@@,有关政务@@大数据@@@@的@@综合@@运营支撑机制与体系建设将在@@后续文章@@《政务@@大数据@@@@的@@运营@@》中具体展开@@,本文重点讨论政务@@大数据@@@@的@@存储@@、计算和@@服务@@三层物理模型@@@@。

  如@@同资源虚拟化是实现云计算的@@重要具体技术@@@@,大数据@@也离不开数据仓库@@、数据挖掘@@、决策支持@@、商业智能@@、分布式计算等@@传统@@IT技术@@。然而@@,大数据@@是一个更加综合@@@@、庞杂的@@生态体系@@,它需要@@IT技术@@的@@支撑但不仅仅是@@IT技术@@本身@@,其本质上@@还是数据@@,是能够资源化的@@@@、有商业价值的@@数据@@。海量数据始终存在@@@@,但以@@前将其存储起来是一个问题@@,随着存储软硬件技术@@的@@发展@@,容量已经不是问题@@,可以@@实际利用的@@海量数据就产生了@@。还有就是计算能力的@@快速发展@@,使得基于@@海量数据进行全样本的@@计算和@@分析@@由不可能变成现实@@。具体到@@政务@@大数据@@@@而言@@,很多时候其体量并不大@@,原因在@@于长期以@@来被人为的@@按照地域@@、按照职能@@、按照主题@@、按照数据类型分割了@@。这种分割的@@现状源于之前对全样本数据进行存储@@、通信和@@计算的@@能力局限@@,以@@及数据的@@价值密度过低而持有成本过高@@。随着互联网@@产业的@@快速发展@@,以@@及物联网@@、工业@@4.0以@@及机器智能技术@@的@@不断成熟@@,政务@@大数据@@@@具备了发展的@@土壤@@,也具备了发展的@@时机@@。归根到@@底@@,政务@@大数据@@@@的@@核心价值在@@于政务@@优化@@(协同@@、治理@@、服务@@和@@决策@@@@)。如@@果政务@@优化比作一个人的@@综合@@价值@@,存储层就是其记忆的@@信息和@@知识@@(记忆力和@@记忆量@@),计算层是其学和@@做的@@能力@@(智商和@@反应能力@@),服务@@层是其结果规划@@、产出能力@@(大局观@@、情商和@@效率@@)。

  政务@@大数据@@@@的@@存储层从大的@@方面来讲就是要解决好结构化和@@非结构化两类数据的@@存储问题@@。这两类数据并不孤立@@,而且需要相互转化@@:非结构化的@@数据往往需要将其属性信息结构化@@,如@@视频@@、图像@@、声音@@、文档等@@非结构化数据所表达的@@主题@@、关键词@@、人物对象等@@信息往往会以@@结构化的@@方式予以@@展现@@;同时@@,结构化的@@信息也需要转换成非结构化的@@形式@@,比如@@企业或个人信用信息往往需要形成一份可读的@@文档型的@@信用报告@@,还有类似语音导航@@@@、智能设备的@@智能控制@@,根据矢量数据进行地图绘制以@@及三维建模等@@都是在@@把结构化的@@内容进行非结构化@@。因此@@,结构化和@@非结构化数据是紧密联系的@@@@,也是可以@@相互转化的@@@@。不太认同划分出第三类数据@@“半结构化@@”,基本上@@这类数据就是结构化数据和@@非结构化数据的@@混合模式@@。

  鉴于政务@@信息资源的@@特点@@,其数据是结构化还是非结构化往往取决于其原始来源@@和@@用途目的@@的@@综合@@作用@@。如@@摄像头采集的@@是图形@@@@、图像@@信息或者音视频信息@@,在@@交通及治安执法时需要识别人物@@(人脸@@)、车牌@@,就需要把非结构化的@@图像@@转化为结构化的@@信息@@。又如@@相关物联网设备传感器采集的@@温度@@、湿度@@、pm2.5、甲醛等@@结构化数据@@,往往需要刻画出图文并茂的@@环境质量报告@@。再如@@公共资源交易信息@@,即有非结构化的@@标书@@、投标书@@、技术@@图纸等@@数据@@,也有结构化的@@交易主体@@@@、交易过程及结果信息@@、评审专家@@信息等@@数据@@。结构化和@@非结构化混合是常态@@,分别开来的@@时候往往是场景不同@@。

  从具体的@@数据库@@管理平台@@来讲@@,传统的@@数据库@@如@@@@ORACLE、SQLSERVER、DB2、SYBASE、MYSQL、POSTSQL等@@以@@及达梦@@、人大金仓@@、南大通用等@@国产数据库@@多为关系型@@数据@@(SQL数据库@@),适合存储结构化数据@@、适合事务处理@@(强调@@ACID特性@@:Atomicity、Consistency、Isolation和@@Durability)。与之对应的@@是@@NOSQL(Not only Sql)数据库@@,这个种类比较庞杂@@,广义来讲面向文档的@@@@MongoDB、CouchDB等@@,图形@@(Graph)数据库@@Neo4j、AllegroGrap、GraphDB等@@,内存数据库@@@@memcached、Redis、ROMA等@@,面向列的@@@@Cassandra、HBase等@@(强调@@CAP特性@@:Consistency、Availability和@@Partitiontolerance)。从某种程度上@@来讲@@,NOSQL是在@@分布式存储的@@飞速发展和@@日益成熟而逐渐登上@@舞台成为@@SQL数据的@@重要补充的@@@@。当然@@,分布式存储并非@@NOSQL数据的@@专属@@,传统的@@关系型@@数据库@@也同样对分布式存储有较好的@@支持@@。如@@果说分布式计算本质是在@@充分共享利用关键计算资源和@@负载分担@@,那么对应于分布式计算的@@分布式存储就是依赖于分布式文件系统@@,来提高存储能力的@@可扩展性@@。

  在@@搭建政务@@大数据@@@@的@@物理结构时@@,可以@@参考淘宝商城@@(采用阿里自主研发的@@@@Oceanbase和@@Tair),优酷@@(采用开放的@@@@HBase、MongoDB和@@Redis)等@@典型方案@@。考虑到@@结构化数据和@@非结构化数据的@@综合@@支持以@@及自主可控的@@指标@@,也可以@@采用国产数据库@@组合方案@@(DM/GBase/KingbaseES/OpenBASE/神通数据库@@等@@@@+SequoiaDB巨杉数据库@@等@@@@)或者开放的@@存储平台@@@@(Mysql+HBase、MongoDB和@@Redis)以@@及基于@@全文检索的@@@@ES(ElasticsSearch)/Apache Solr等@@。伴随着云计算的@@快速发展@@,致力于@@DaaS的@@云数据库@@也会成为搭建政务@@大数据@@@@存储层的@@重要选择@@(前提是安全@@、自主和@@可控三者的@@良好平衡@@)。

  政务@@大数据@@@@的@@计算层是围绕着政务@@业务来展开的@@@@,政务@@大体上@@可以@@分为协同@@@@(G2G:政府@@对政府@@@@)、治理@@(G2S:政府@@对社会@@)、服务@@(G2C:政府@@对公众@@&G2B:政府@@对企业@@)和@@决策@@(G2S:政府@@对社会@@)四个部分@@。其中@@,政务@@大数据@@@@的@@治理@@和@@决策@@是政府@@对社会@@的@@治理@@和@@决策@@的@@重要组成部分@@;政务@@协同@@是政府@@对外提供@@乐动安卓app 的@@基础@@,政府@@各组成部门以@@及公务员之间通过工作协同@@使政务@@数据协同@@起来@@、聚合起来形成统一的@@政务@@信息资源库@@@@。政务@@的@@治理@@过程既是政府@@对社会@@的@@监督@@、管理基础上@@的@@治理@@@@,也是对政务@@信息资源库@@的@@数据治理@@@@@@。政务@@的@@服务@@与决策是基于@@政务@@信息资源库@@的@@@@,也是以@@政务@@协同@@和@@治理@@为前提的@@@@。在@@提供服务@@和@@智慧决策的@@过程中@@,政务@@大数据@@@@的@@作用十分重要@@。因此@@,在@@政务@@活动中产生的@@政务@@大数据@@@@的@@原始信息@@——政务@@信息资源库@@,需要通过关联分析@@@@、聚类分析@@@@、分类@@、预测@@、时序模式和@@偏差分析@@等@@数据挖掘@@技术@@以@@及信息组合@@、数学建模@@、相关性分析@@等@@数据计算@@。

  政务@@大数据@@@@的@@计算层就是要把分散在@@各个原始存储单元中的@@数据进行重新组合@@、运算形成更全貌@@、综合@@或者更深层次@@@@、全新的@@数据价值@@。从政务@@的@@特点来看@@,其实时@@/准实时计算里@@既包含面向业务分析@@的@@@@OLAP(实时在@@线分析@@@@),也包含面向业务的@@@@OLTP(实时事务处理@@);非实时@@[离线@@]计算里@@,既包括面向业务分析@@的@@离线@@分析@@@@,也包括面向业务的@@离线@@处理@@。

  就政务@@大数据@@@@而言@@,其计算层主要是面向业务分析@@的@@实时@@/准实时和@@离线@@计算@@。其中@@,政务@@大数据@@@@的@@离线@@计算仍是适用数据仓库基本理论@@:如@@维度表和@@事实表的@@深度融合构成维度模型@@;基于@@数据立方体实现五种基本操作@@(consolidation/roll-up、drill-down、slice、dice和@@pivot);融合了@@ROLAP[关系型@@]和@@MOLAP[多维@@]的@@HOLAP[混合型@@]分析@@;以@@ODS[Operational Data Store]为主要存储模式等@@@@)。政务@@大数据@@@@的@@离线@@计算可以@@采用@@MapReduce分布式计算模型@@(如@@Spark集群计算环境@@)和@@Apache Hive基于@@Hadoop的@@数据仓库工具@@;实时计算可以@@采用@@Apache Storm+Redis来实现@@;日志处理方面可同时@@使用@@Flume(日志收集管道@@)和@@Kafka(分布式消息队列@@),日志流向可以@@从@@log到@@Kafka,再从@@kafka到@@Strom上@@,再由@@Flume去读取日志消息@@。

  政务@@大数据@@@@的@@服务@@层是基于@@计算层的@@支撑来实现@@的@@@@,按照计算层的@@政务@@协同@@@@、政务@@治理@@@@、乐动安卓app 和@@政务@@决策四类政务@@大数据@@@@群组@@,依次@@衍生出@@“协同@@流程@@、协同@@成效@@”,“治理@@体系@@、治理@@收益@@”,“服务@@提供@@、服务@@优化@@”和@@“政务@@研判@@、政务@@预测@@@@”等@@八大政务@@业务主题域@@。

  其中@@,协同@@流程@@重点是提供政务@@活动的@@业务流程@@、过程数据支持@@,协同@@成效@@是对政务@@活动的@@价值评估@@、衡量@@,两者共同构成政务@@大数据@@@@在@@协同@@层面提供的@@数据基础服务@@@@、增值服务@@和@@价值创新@@;治理@@体系@@是政务@@监管评价@@、综合@@治理@@在@@政务@@数据层面上@@进行具体保障的@@系统性规划以@@及工具集@@、作业集@@,治理@@收益@@是治理@@效果的@@具体量化@@、数据展现@@;服务@@提供@@和@@服务@@优化@@也是相辅相成的@@@@,前者是基础@@、后者是用于@@乐动安卓app 的@@自我改进@@、提升@@;政务@@研判@@是对政务@@活动的@@研究@@、分析@@和@@判定@@,核心目标是政务@@预测@@@@@@,即服务@@于对政务@@活动的@@未来预测@@@@、更好支撑未来的@@政务@@活动@@。从技术@@落地上@@来讲@@,政务@@大数据@@@@的@@服务@@层是需要可视化技术@@@@、机器智能技术@@进行支撑的@@@@,前者用于展现展示和@@基础互动@@,后者用于基于@@@@AI技术@@的@@虚拟@@“专家@@”智库@@/团队@@。其中@@,可视化技术@@未来必然是要和@@@@VR(Virtual Reality)、AR(Augmented Reality)、MR(Mixed Reality)、HR(Holographic Reality)、ER(Expander Reality)等@@XR技术@@相融合@@,来提高人与数据的@@互动@@。

  关于政务@@大数据@@@@在@@服务@@层的@@@@8大业务主题域@@(政务@@大数据@@@@的@@本质@@就是政务@@@@,所以@@也是政务@@的@@@@8大业务主题域@@),计划在@@漫谈政务@@大数据@@@@系统文章完稿后@@,再分别做专题讨论@@,所以@@本文就不再进一步深入阐述了@@。

  简言之@@,政务@@大数据@@@@的@@物理模型@@@@是服务@@于其概念模型@@,依据其逻辑模型进行政务@@大数据@@@@的@@实际实施@@、落地的@@@@。政务@@大数据@@@@的@@范围非常广泛@@,本文仅对整体脉络@@、通用业务@@、常用技术@@进行了说明@@。鉴于作者本人的@@学识@@、经验所限@@,相关内容难免有偏颇甚至错误之处@@,非常欢迎感兴趣的@@同仁一起研讨@@。同时@@,也会持续在@@该领域进行研究@@,并将心得@@、体会及时与大家分享@@@@。

责任编辑@@:qinpeng