“数据@@治国@@”的三个关键理念@@

——从互联网@@思维@@到未来治理图景@@
 
  【摘要@@】大数据@@@@因其规模巨大@@@@、类型复杂@@、产生速度快@@、价值密度低等@@特点@@,对现有信息技术构成巨大挑战@@。运用新理念@@、新技术@@、新方法对大数据@@@@进行全生命周期的创新管理和应用@@,是推动国民经济转型和社@@会管理创新的重要契机@@,也是提升国家综合竞争力的重要趋势@@。支撑这@@场大数据@@@@革命的底层力量@@,不仅仅是技术革命@@,更是涉及领导意识@@、组织文化和行为方式的思维革命@@。在@@国家治理层面@@,尤其需要形成@@“数据@@治国@@”的治理理念@@,掌握用数据@@思考和解决社@@会问题的新方法@@,最重要的是树立数据@@思维@@@@、互联网@@思维@@和计算思维@@这@@三种思维方式@@。
 
  大数据@@@@是因信息技术特别是@@数据@@获取技术的革命性进步而形成的信息爆炸现象@@,因其规模巨大@@、类型复杂@@、产生速度快@@、价值密度低等@@特点@@,对现有信息技术构成巨大挑战@@。运用新理念@@、新技术@@、新方法对大数据@@@@进行全生命周期的创新管理和应用@@,是推动国民经济转型和社@@会管理创新的重要契机@@,也是提升国家综合竞争力的重要趋势@@。支撑这@@场大数据@@@@革命的底层力量@@,不仅是技术革命@@,更是涉及领导意识@@、组织文化和行为方式的思维革命@@。在@@国家治理层面@@,尤其需要形成@@“数据@@治国@@”的理念@@,掌握用数据@@思考和解决社@@会问题的新方法@@,最重要的是树立三种思维方式@@。
 
  数据@@思维@@
 
  数据@@在@@经济社@@会运行中的地位从未像今天这@@样重要@@。之所以要重视大数据@@@@@@,是因为它是一种更好的工具@@,是信息时代堪比@@人@@、财@@、物要素的资源@@,是对未来具有战略意义的资产@@。但实际上@@@@,大数据@@@@的价值并不止于此@@,它正在@@@@“成为这@@个世界上@@最重要的土壤和基础@@”(涂子沛@@语@@)(1),成为一切管理和决策的依据@@。与之相应的@@,大数据@@@@治理@@首先@@要树立的是数据@@思维@@@@。
 
  量化思维@@:先有数@@,再做事@@。“一切皆可量化@@。”这@@是斯蒂芬@@@@·贝克@@(Stephen Beck)在@@《当我们变成一堆数字@@》一书中提出的观点@@@@。(2)在@@这@@本汇聚数字报告和分析的力作里@@,斯蒂芬@@·贝克@@展示了我们正在@@进入一个鲜活的量化世界@@:每一天@@,我们的身后都拖着一条由个人信息组成的长长的@@“尾巴@@”,我们点击网页@@@@、切换电视频道@@、驾车穿过自@@动收费站@@、用信用卡购物@@、使@@用手机等@@行为@@——这@@些过去完全被忽略的信息@@——都通过各种方式被数据@@化地记录下来@@。
 
  放眼宏观@@,我们看到@@物联网@@传感器数据@@@@、互联网@@用户生成@@(UGC)数据@@、业务系统运行数据@@@@、信息系统日@@志数据@@@@、科学仪器产生的数据@@@@……这@@些数据@@源源不断地产生@@,把物理@@世界的万事万物一一映射成一个数据@@世界@@,从而形成大数据@@@@时代@@的全貌@@。
 
  数据@@的延伸@@,就是管理的延伸@@。“不会量化就无法管理@@”(3)的思想已成为管理学界的共识@@。借助@@“一切皆可量化@@”的技术背景与思维方式@@,政府@@可以获得更多@@基于管理和服务对象的信息@@,做到更加精准的@@洞察和预测@@,从而大大丰富治理的手段和方式@@。
 
  美@@国政府@@已经在@@着手进行追踪恐怖分子的大数据@@@@挖掘@@计划@@@@。他们认为@@,如果恐怖分子要计划@@一次@@袭击活动@@,必定会在@@各种角落留下某种痕迹@@,通过对这@@些@@“数据@@足迹@@”进行挖掘@@,就能发现和追踪恐怖分子@@。这@@些做法@@,对于我国边疆地区@@维稳和预防暴力事件都是一种有益的启示@@。
 
  纽约市@@为了恢复哈德森河的生态@@,在@@河的沿岸都安装了传感器@@,传感器把河水的盐度@@、浊度@@、叶绿素@@、颗粒物粒径以及河面风向等@@数据@@收集起来@@,实时地传递到后台@@。在@@计算中心@@,各种数据@@汇成了一条虚拟的哈德森河@@,流水何时被污染@@,化学@@、物理@@、生物成分发生了什么变化@@,一看便知@@。(4)接下来@@,数据@@科学家便可以利用这@@些信息建立一个哈德森河的环境模型@@,评估不同的治理方案和人类干预对哈德森环境的多种影响@@,以保证在@@实际治理时的效率和效果@@。
 
  很多国家和地区@@@@,包括中国的一些地区@@@@,正在@@给数以千万计的家庭安装智能电表@@。这@@些电表每隔几秒钟或几分钟就读取一次@@用电数据@@@@,电力公司据此每个月@@向每户家庭提供一份个性化报告@@,以鼓励节约用电@@。在@@美@@国@@,智能电表工程预计每年@@能为全国消费用电节省@@@@5亿美@@元@@@@。大数据@@@@成为政府@@节能减排的千里眼@@、万只手@@,并且做到了深入每一户家庭@@、量身定制解决方案@@,这@@在@@入户抄电表的传统工作方式下根本是无法想象的事情@@!
 
  量化只是第@@一步@@。量化的目的是建设数据@@平台@@@@,涉及数据@@捕获@@、数据@@传输@@、数据@@存储@@、数据@@处理@@、数据@@分析@@、数据@@消亡等@@动态过程@@。要在@@国家和社@@会治理层面建立这@@样一个完整的数据@@生命周期@@,需要做大量的基础性工作@@,更要在@@政府@@部门普遍形成@@“先有数@@,再做事@@”的组织文化和行为风尚@@。
 
  决策思维@@:让数据@@说话@@。随着信息技术的进步@@,硬件的重要性正在@@急速下降@@,数据@@的重要性正在@@不断提升@@。以前都是先有应用后有数据@@@@,现在@@是先有数@@据再说应用@@。数据@@具有独立存在@@的价值@@,软件是为数据@@服务的@@。在@@大数据@@@@时代@@@@,我们需要树立以数据@@为中心的新思维@@。具体到政府@@层面@@,应当尽快将已有的管理决策模式变为@@“数据@@驱动@@”新模式@@,在@@领导意识@@、组织文化和工作流程上@@经历一次@@从内而外的蜕变@@。
 
  一般来说@@,决策可以由三种方式分别或混合地驱动@@:直觉@@、经验和逻辑@@。虽然有时直觉@@和经验在@@决策过程中是无可替代的@@,例如@@乔布斯对苹果产品需求的直觉@@把握@@,但经验和直觉@@往往容易产生偏差@@。比@@如@@,决策的出发点或许并不差@@,但由于缺乏民主基础和科学依据@@,其结果往往不能令民众满意@@;决策过程可能很粗放@@,完全是@@“一言堂@@”,根本不听取社@@会上@@方方面面的意见@@,结果在@@实施过程中@@,漏洞百出@@。
 
  中国领导者的决策往往更倾向于依赖经验和直觉@@@@,有时候甚至仅迫于眼前的境遇与状况@@,缺乏依靠数字管理的习惯@@@@。在@@政府@@的会议室里@@,一件似乎经过了理智讨论的事情@@,可能是在@@没有什么实际标准的情况下做出的决定@@。这@@种现象并不少见@@。个别领导干部@@把决断误认为武断和盲断@@,由于决策失误给国家和人民造成损失@@,被群众戏称为@@“三拍@@”干部@@,即@@“事前拍脑袋@@决策@@、事中拍胸脯保证@@、出事后拍屁股走人@@”。
 
  在@@过去@@,受数据@@获取以及分析的限制@@,依靠决策人的经验@@“拍脑袋@@”决策是不得已而为之@@。在@@大数据@@@@时代@@@@,各行各业都在@@学习如何利用数据@@进行预测@@、作出决策@@,政府@@领导者们如果不能与时俱进@@,做到凡事@@“心中有数@@”,很难想象如何做一个称职的@@“当家人@@”。此外@@,随着公共管理事务的日@@益复杂@@,仅凭个人感知@@,已经很难全面地了解所有正在@@发生的事情@@,并给出正确的判断@@。这@@就要求政府@@部门提高改革决策的科学性@@,把大数据@@@@技术与思维运用到管理与决策中@@,掌握决策依据@@、优化决策过程@@、跟踪决策实施@@;要求管理者改变@@“差不多先生@@”(胡适语@@)的作风@@(5),养成@@“用数据@@来说话@@、用数据@@来管理@@、用数据@@来决策@@、用数据@@来创新@@”的思维习惯@@。
 
  有志于引领组织实现大数据@@@@转型的管理者们@@,可以从两个最简单的技巧开始@@。首先@@,要养成@@问@@“数据@@怎么说@@”的习惯@@。大数据@@@@驱动@@下的管理@@,重要的不是@@“我们怎么想@@”,而应该是@@“我们知道什么@@”。遇到重大决策的时候@@,还要紧跟着这@@个问题进一步问@@:“这@@些数据@@从哪儿来的@@?”“这@@些数据@@能得出什么结论@@?”“我们对结果有多大信心@@?”决策者对于数据@@与客观证据的尊重是大数据@@@@发挥价值的重要保证@@。当管理层的思维发生了这@@样的变化@@,员工就能从中迅速接收到信息@@,得到重视数据@@的激励@@。其次@@@@,要允许数据@@做主@@。数据@@得出的结论@@,有的能够支持既有的经验@@,有些则可能与之相悖@@。当结论与经验不符时@@,数据@@说了算还是经验说了算@@?这@@将对数据@@在@@组织中的地位形成考验@@。如果决策者不愿意根据数据@@调整自@@己的经验@@,甚至有选择地@@“看到@@”那些和自@@己经验相一致的数据@@@@,那么无论搜集了多么海量的数据@@@@,无论引入了何种高深的算法@@,这@@些数据@@与算法都只是为了支持与粉饰决策者既有的决定@@,不能带来新的知识与价值@@。相反@@,如果员工用来自@@一线的大数据@@@@分析@@结果@@,让经验丰富的领导推翻了自@@己原先的直觉@@判断@@,放手让@@“大数据@@@@说话@@”,这@@将是改变组织决策文化的最大力量@@!
 
  整合思维@@:打破信息孤岛@@@@。政府@@掌握着社@@会方方面面的大数据@@@@@@,人口@@、交通@@、卫生@@、社@@保@@、税收@@、城市@@规划@@……虽然大多数政府@@部门都建成了比@@较完备的信息化平台@@@@,但是@@各个部门间的数据@@没有进行高效的整合@@,大量部门的数据@@如一个个信息孤岛@@@@,给政府@@调度和公众办事带来了不便@@,也制约了数据@@活力的激发@@。
 
  例如@@,购买@@一套住房@@,需要填报十几张表格@@,每张表格可能@@1/3以上@@的内容是重复的@@,这@@些都是政府@@@@拥有的基础数据@@@@,完全可以根据身份证号码自@@动生成@@。北漂小伙为了办一张护照@@,返乡@@6次@@,补@@5张证明@@,多跑@@3000公里@@。而只要实现了综合数据@@联网@@,这@@5张证明@@的相关信息@@(无犯罪证明@@、公司在@@职证明@@、公司营业执照@@、公司外派人员资格证明@@、本地身份证@@),完全可以由政府@@部门内部调取@@,而不必让老百姓为此急断肠@@、跑断腿@@。(6)
 
  信息孤岛@@是行业信息化的阶段性产物@@,而要打破条块分割@@,实现不同政府@@部门@@、不同层级@@之间数据@@的集中共享也非一日@@之功@@。一方面@@,需进行纵向信息系统整合@@,在@@相同的上@@下级@@政府@@部门之间@@,利用多级@@网络和中心数据@@库@@,构建统一的信息平台@@@@。例如@@,流动人口@@在@@我国@@是一个较大的问题@@。谁在@@流动@@?能不能从传统的户籍系统里找出一些规律以利于更好地管理@@?比@@如@@,能不能把劳动力输出省@@安徽的户籍数据@@与输入省@@广东的户籍数据@@整合起来@@?这@@既需要自@@上@@而下的@@部署@@,也需要自@@下而上@@的@@实验@@。另一方面@@@@,还需进行水平的@@电子政务@@信息系统整合@@,实现跨部门的政府@@信息资源共享和政务@@协同@@@@。例如@@,在@@社@@保@@@@(市@@民@@)卡办理的时候@@,以共享信息的方式使@@用二代身份证照片@@,可减少市@@民@@照相和出行成本@@;企@@业报备办理港澳商务通行证@@,通过共享国税地税相关信息@@,可以免去到市@@国地税局开设纳税额度证明步骤@@;税务@@质检登记复用工商信息@@,可以减少办事人员等@@待时间等@@@@。
 
  数据@@之网纵横交错@@,才能激发活力@@。我国财@@政部门以互联网@@门户网站建设和财@@政专网系统建设为抓手@@,全面打造财@@政政务@@公开的@@“阳光平台@@@@”,形成纵向联通国家@@、省@@、市@@、县财@@政部门@@、横向连接同级@@人民银行@@国库@@、代理银行@@@@、国地税部门以及所有预算单位的横纵结合的网络系统@@。这@@些举措不断塑造着@@“财@@—金@@—企@@—社@@”信息资源网络化的雏形@@。
 
  要彻底打破信息孤岛@@@@@@,还需要从内部管理观念和行政体制上@@着手@@。虽然说@@“信息孤岛@@”形成的表面原因是信息存储格式不一致的问题@@,但目前更深层次@@的原因其实是管理上@@的孤岛现象@@。观念和态度不变@@,即@@使@@手握利器@@,行政效率和服务质量也难提高@@。谁都知道@@“九龙@@治水@@”弊端多@@,即@@使@@现在@@大数据@@@@有办法让@@“九龙@@”成天@@“坐在@@一起@@”,但如果互相谁也不理谁@@,水还是治不好@@。
 
  互联网@@思维@@
 
  凯文@@·凯利@@指出@@,云计算时代的最大文化动向就是永远在@@线@@。(7)人与人@@、人与设备@@、设备与设备时时刻刻的连接@@,将以@@7×24小时的方式源源不断地产生数据@@@@。特别是@@web2.0之后的@@用户生成内容@@(UGC),包括社@@交网络@@(SN),是大数据@@@@形成的重要原因之一@@。因此@@,要做好大数据@@@@治理@@@@,还必须深入理解互联网@@思维@@@@。
 
  关联思维@@:万物皆相关@@。在@@气象经济学界流行这@@样一条@@“德尔菲气象定律@@”,即@@气象投入与产出比@@为@@1:98,也就是说@@,在@@气象信息方面每投入@@1元@@,就可以得到@@98元@@的经济回报@@。一个典型的例子是@@,气温每降低@@1℃,北京@@市@@燃气供暖系统日@@消耗天然气将增加约@@200万立方米@@。如果提高气象预报的精度@@,实时对供暖系统进行合理调度@@,无疑将有效降低能源消耗@@,节省@@很大一笔经费开支@@。
 
  这@@就是大数据@@@@的价值所在@@@@。通过挖掘海量数据@@@@,呈现一个充满关联的世界@@。诚如舍恩伯格@@所预言的那样@@:“将世界看作信息@@,看作可以理解的数据@@的海洋@@,为我们提供了一个从未有过的审视现实的视角@@。它是一种可以渗透到所有生活领域的世界观@@。”(8)
 
  在@@商业案例中@@,你可能听说过啤酒与尿布@@、搜索@@词与流感趋势@@、女儿怀孕与广告传单的故事@@;在@@国家与社@@会治理中@@,也有很多运用数据@@相关性的成功案例@@。例如@@,纽约市@@警方开发了一款电子数据@@地图@@——CompStat,通过分析案件发生历史与发薪日@@@@、体育赛事@@、天气变化@@、假日@@等@@变量的相关性@@,预测最可能发生罪案的@@“热点@@”地区@@,并预先在@@这@@些地区@@部署警力@@。应用这@@套系统后的次@@年@@@@,该市@@犯罪率就出现了明显的下降@@,凶杀案发生数量创下了@@50年@@来最低@@。(9)
 
  中国海关@@的@@“电子口岸@@”整合了工商@@、税务@@、海关@@、外贸@@、外汇@@、银行@@、公安@@、交通@@、铁路@@、民航@@、国检等@@十几家部门的数据@@@@。数据@@之间实时的联网分析@@,使@@“电子口岸@@”在@@加快报关速度@@、高效打击不法分子的同时@@,更成为中国经济的@@“气象预报台@@”,能够为国家宏观经济调控提供非常精细@@、全面的决策支持@@。
 
  大数据@@@@之所以能发掘规律@@、作出预测@@,靠的是对相关关系的把握@@。我们常说@@“清明时节雨纷纷@@”,这@@个结论并不是逻辑推导出来的@@,而是人们通过多年@@观察@@,发现以往每年@@这@@几天总是下雨比@@较多@@,于是总结出了这@@样一个朴素的规律@@。同样@@的道理@@,计算机可以在@@海量的数据@@上@@运用数据@@挖掘@@等@@办法@@,自@@动地发现一些相关性@@,然后通过相关关系来预测事情发生的可能性@@。例如@@,从公交车辆运行的点数据@@推断一个路段发生拥堵的可能性@@,从纳税人的异常@@数据@@特征发现偷税漏税的可能性@@,从人们上@@网检索的关键词推断流感爆发的可能性@@,等@@等@@@@。
 
  尽管因果关系是最深刻的一类联系@@,但是@@我们很多时候并不能获得@@。这@@种情况下@@,我们是无所作为呢@@,还是也可以有所作为@@?答案是明显的@@,只要我们知道一些相关关系@@,我们也可以进行预测@@。相关关系也许不能准确地告知我们某件事情为何会发生@@,但是@@它会提醒我们这@@件事情正在@@发生@@。在@@许多情况下@@,这@@种提醒的帮助已经足够大了@@。如果电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症@@,那么找出具体的致病原因就没有这@@种治疗方法本身来得重要@@。同样@@,只要我们知道什么@@时候是买机票的最佳时机@@,就算不知道机票价格疯狂变动的原因也无所谓了@@。因此@@,我们常常说在@@大数据@@@@时代@@@@@@,“是什么@@”比@@“为什么@@”更重要@@,相关关系比@@因果关系更重要@@@@。[page]
  去中心思维@@:走向网状社@@会@@。互联网@@时代最鲜明的特征是去中心化@@、平等@@化@@。因为互联网@@在@@本质上@@是反垄断的@@:开源软件社@@区的发展打破了少数大企@@业对技术的垄断@@,信息公开和开放数据@@打破了信息垄断@@,云计算等@@租赁业务的普及打破了资源垄断@@。
 
  尤其在@@传播领域@@,我们可以非常清楚地看到@@这@@样一个去中心化的@@趋势@@。在@@报刊@@、广播@@、电视流行的传统媒体时期@@,人们只能听到中心的一个声音@@。后来@@,博客的诞生使@@得每个人都可以发表自@@己的想法@@。较之于传统媒体@@,这@@是个巨大的飞跃@@。但是@@个人的想法能让多少人听到@@,却依然取决于门户网站的编辑@@(即@@自@@己发表的博客是否被精选@@)。随着微博的兴起@@,所有人可以在@@一个统一的公共讨论空间@@讨论@@,更重要@@的是这@@个讨论空间@@@@,不再依靠一个中心@@,而是靠着兴趣@@、关系的链条自@@动生成@@、壮大@@,编辑的力量被前所未有地削弱了@@。
 
  数据@@的生产@@和流动也遵循这@@样一个去中心化的@@趋势@@。涂子沛@@在@@@@《大数据@@@@》一书中指出@@(10),在@@大数据@@@@时代@@@@,基于层级@@的社@@会控制手段将不再适用@@,基于流程的管理方法也有很大局限性@@。这@@是因为@@,在@@大数据@@@@时代@@@@,信息和数据@@是最重要的资源@@,一旦信息自@@由@@、数据@@开放@@,就意味着信息和每一个公民之间都是等@@距的@@,而且中间没有层级@@的过滤@@。数据@@的开放和流动@@,就代表着知识的开放和流动@@、代表着权力的开放和流动@@,这@@种开放和流动是多中心的@@、水平的@@。在@@这@@个时代@@,社@@会的主体@@结构将从分层转向@@“结网@@”,在@@网状传播力量的不断冲击下@@,个人的主体@@价值将得到前所未有地张扬@@,集中在@@政府@@的权力将开始分散@@,权力的最终流向是社@@会@@、是大众@@、是一个个独立的公民个体@@。大数据@@@@时代@@正在@@呼唤下一波社@@会化的浪潮@@:一个更开放的社@@会@@,一个权力更分散的社@@会@@,一个网状的大社@@会@@。
 
  这@@会形成一种什么样的国家和社@@会治理图景@@?一个可以预见的前景是@@,政府@@的组织形态必将越来越开放@@,从条块分割@@、封闭的架构向开放@@、协同@@、合作的方向迈进@@。传统的决策过程是线性的@@、自@@上@@而下的@@,而伴随互联网@@和大数据@@@@浪潮而来的@@,将是一个非线性的@@、去中心化的@@、自@@下而上@@的@@、发现群体智慧的决策模式@@。
 
  美@@国一位程序员发明了一款应用软件@@——SeeClickFix,居民可以通过手机拍照@@,向该软件举报乱涂乱画@@、交通@@灯损坏或者排水管堵塞事件@@,这@@些投诉被自@@动记录在@@案@@,并被发送到公共事业部门的卡车仪表盘上@@@@,相关问题也得到了很快的解决@@。(11)SeeClickFix自@@2008年@@3月@@研发以来@@,目前已在@@美@@国@@上@@千个城市@@和社@@区中使@@用@@,其中既有旧金@@山@@、华盛顿@@、达拉斯等@@大城市@@@@,也包括麻州西部和康州的许多小镇@@。
 
  SeeClickFix是政府@@@@2.0理念的典型代表@@。在@@我国@@“社@@区网格化@@”管理系统实践中@@,类似系统也得到了普遍应用@@。“政府@@2.0”的实质@@,就是平台@@的政府@@@@、服务导向的政府@@@@、开放的政府@@@@,从以政府@@为主体@@的管治转向以协同@@共治@@、公共服务为导向的公共价值塑造@@。通过这@@种开放的平台@@@@,公众能够参与政府@@提供公共服务产品的全过程@@,包括公共服务产品的设计@@、生产@@、供给等@@各个环节@@;而政府@@也能打开更为深入和广泛了解民情民意的@@“政策窗口@@”,疏通促进社@@会和谐的民意渠道@@,找到不断优化公共决策的新机遇@@。
 
  人本思维@@:政务@@人性化@@。互联网@@思维@@的核心在@@于以用户需求为主导@@,将用户思考和用户体验做到极致是关键所在@@@@。政府@@的核心职能就是为人民服务@@,以人为本是贯彻落实科学发展观的核心要求@@。在@@这@@个层面上@@@@,我们的执政理念与互联网@@精神是非常契合的@@。
 
  以人为本的前提是全面了解与服务对象有关的情况与需求@@,只有建立在@@这@@种数据@@基础上@@的判断@@,才能保证政府@@落地的政策能实实在@@在@@地使@@每一个公民受益@@。如果搞@@“长官意志@@”,不能很好地把握民情民意@@,这@@种服务就会陷入想当然@@的境地@@。
 
  在@@大数据@@@@的辅助下@@,政府@@一方面@@能够实时@@、全面感知和预测公众所需的各类服务和信息@@,及时发现需求热点@@@@,为用户提供更加智能化的办事@@、便民服务@@;另一方面@@@@,对公民需求的多维度多层次@@细分@@,把从面上@@的需求判断变为对需求细节的感知@@,使@@政府@@服务提供更精准@@、更个性化@@。人本思维@@的树立@@,有助于使@@政府@@改变传统的@@“指令导向@@”的公共管理模式和@@“供给导向@@”的公共服务模式@@,开启@@“需求导向@@”的公共管理与服务新模式@@@@。(12)
 
  北京@@市@@公交部门于@@2013年@@9月@@推出@@“定制公交@@”平台@@。市@@民@@可在@@该平台@@上@@提出自@@己的出行需求@@。公交集团则根据乘客提出的出行需求和客流情况@@,设计商务班车线路@@,然后在@@定制公交@@平台@@上@@招募乘客@@、预订座位@@、在@@线支付@@。根据约定的时间@@、地点@@、方向开行商务班车@@,保证一人一座@@,每日@@出行费用也将远远低于自@@驾车和乘坐出租车@@。
 
  大数据@@@@的创新运用和实时分析@@,还被认为能够推动失业@@、饥饿@@、疾病爆发等@@社@@会问题的解决@@,对于发展中国家的发展而言尤其具有特殊意义@@。近些年@@全球粮食@@、能源和金@@融危机的经验告诉人们@@,尽管当今世界信息技术非常发达@@,但决策者得到有用信息并及时采取行动以保护弱势人群的速度@@,却总是滞后于危机的出现@@。为了改变这@@种状况@@,2009年@@,联合国@@启动@@“全球脉动@@”(Global Pulse)计划@@(13),旨在@@为各国提供实时数据@@分析@@@@,以便更准确地了解人类福祉状况@@,降低全球性危机对人类生活的影响@@。与传统的统计仅能有效跟踪中长期发展趋势相比@@@@,“全球脉动@@”旨在@@发现新的数字化指标@@,实时了解情况@@,并及时为决策者提供反馈@@。
 
  联合国@@秘书长潘基文说@@:“我们事实上@@是在@@一个实时信息的海洋中游泳@@,手机和数据@@服务的爆炸式增长意味着世界各地的人们在@@为全球知识库作出海量的信息贡献@@。他们还通过交流@@、购买@@、出售和其他日@@常生活活动以免费的方式提供着信息@@。私营部门正在@@研究这@@些新数据@@以便实时了解顾客@@。联合国@@也必须为自@@己的服务对象@@——全世界那些失去工作@@、生病@@、难以养活自@@己和家人的人们做同样@@的事情@@。”(14)
 
  在@@2014年@@“两会@@”上@@,“大数据@@@@”一词首次@@被写入@@《政府@@工作报告@@》。不少代表委员举起@@“数据@@治国@@”的大旗@@:小米总裁雷军呼吁将大数据@@@@上@@升为国家战略@@,百度总裁李彦宏提议用大数据@@@@解决教育资源不平等@@问题@@,还有多位代表委员提出成立国家大数据@@@@战略委员会@@,用大数据@@@@破解@@“十面霾伏@@”、“舌尖上@@的安全@@”、“人在@@证途@@”、反恐@@、房价调控等@@民生难题@@。诚如涂子沛@@在@@@@@@《数据@@之巅@@》中所言@@:“人类的地平线上@@出现了一些新方法来解决一些老问题@@,这@@些方法用的不是钢筋和水泥@@,而是软件和数据@@@@。”(15)
 
  计算思维@@
 
  “大数据@@@@”现象是由于信息技术的进步而产生的@@,大数据@@@@时代@@就是大计算时代@@,无处不在@@的计算标志着一个计算型社@@会的兴起@@。因此@@可以说@@,没有计算技术的发展@@,就没有大数据@@@@@@。但是@@,常常听到有人说@@“技术不重要@@”,这@@种轻视技术的思想对于大数据@@@@应用的良性发展只会带来伤害@@。大数据@@@@应用就是一种基于计算机信息技术的解决问题的办法@@,因此@@也需要计算思维@@@@。
 
  计算思维@@是运用计算机科学的基础概念进行问题求解@@、系统设计以及人类行为理解等@@涵盖计算机科学之广度的一系列思维活动@@。计算思维@@,简单地说是指人们利用计算机解决问题的普遍方法@@。计算思维@@的提出者周以真@@(Jeannette M. Wing)教授认为@@,计算思维@@同算术能力@@、语言能力等@@一样@@,是每一个现代人需要具备的基本能力@@。(16)从计算机解决问题的角度分析@@,我们认为以下两个方面最为重要@@:
 
  算法思维@@:把工作交给机器@@。大数据@@@@应用是一个极为复杂的系统@@,大数据@@@@系统包括数据@@采集@@、数据@@清洗@@、数据@@存储@@、数据@@传输@@、数据@@管理@@、数据@@分析@@、数据@@挖掘@@、数据@@展示等@@许多环节@@,其中任何一项工作都是人力所难以胜任的@@,一定要借助@@计算机的力量@@,通过事先编写好的程度自@@动完成@@。
 
  我们在@@日@@常工作中也常常会做些调查研究@@、数据@@统计分析等@@@@,都是手工完成的@@,最多采用一些数据@@处理@@的工具@@,例如@@excel等@@。在@@大数据@@@@时代@@@@,我们面临的是@@TB级@@、PB级@@的数据@@@@,这@@远超出了人力所能处理的范畴@@。
 
  算法思维@@的关键是要回答以下几个问题@@:我们面对的问题是否可计算@@?计算复杂度有多大@@?是否存在@@在@@合理的时间和资源条件下可完成计算任务的有效的计算算法@@?这@@些问题有些专业@@,并非管理人员能回答@@,具体答案可以交给技术人员去完成@@,但是@@管理人员在@@决策时需要考虑到这@@些问题@@。
 
  基于大数据@@@@的求解问题的算法不能太复杂@@,需要比@@较简单才可行@@。举个智能翻译的例子@@。(17)传统翻译软件设定了很多语法规则@@,用这@@些僵化的规则拆解每个句子@@,再逐字翻译生成不同的语句@@。但这@@往往使@@翻译出来的语句生硬拗口@@,甚至错误率很高@@。谷歌的翻译软件却不是这@@么做@@,他们从大量已存的翻译文章中对比@@@@,找出最合适的翻译的文字@@。事实证明虽然网上@@搜集来的翻译文章有不少是错误的@@,或者质量不高@@,但由于数据@@量极大@@,这@@些错误可以通过排序被过滤掉@@,这@@种方法大大提高了翻译的质量和准确性@@。也就是说@@,不精确的大数据@@@@用简单算法@@,比@@精确的小数据@@用复杂算法要有效得多@@!以大数据@@@@方式做翻译的另一个好处是@@,系统会随着数据@@的积累而不断改善@@。如果您看到@@某条译文不太合适@@,可以点击相关词组查看@@备选翻译结果@@。当您点击更好的备选译文时@@,Google翻译会记下您的反馈@@,并在@@日@@后继续改进@@。谷歌翻译目前能够支持@@71种语言的互译@@,2012年@@用户的使@@用次@@数达到@@2亿次@@@@。
 
  用简单的算法@@,在@@大数据@@@@上@@能够创造出复杂的人工智能@@,使@@计算机代替人类完成动态监测@@、语音咨询@@@@、作业批改乃至医疗诊断@@、法律文书处理等@@专业任务@@。这@@种处理不仅是实时的@@、大批量的@@,更是科学的@@、精准的@@。
 
  美@@国邮政@@(USPS)的计算机系统能够自@@动扫描邮件的相关数据@@@@(存放位置@@、派送路线@@、重量@@、体积等@@信息@@),通过与数据@@库中近@@4千亿条数据@@的比@@较@@,甄别出@@“邮资欺诈@@”的邮件@@。扫描一封邮件只需要@@50~100毫秒@@。一旦检测出了@@“异常@@”——比@@如@@包裹邮资不足或者邮票重复使@@用等@@情况@@,系统就会对信件实施实时拦截@@,再由分拣人员对其进行特殊处理@@。有趣的是@@,该项目竟然由此形成了@@“威慑效应@@”。自@@从@@2006年@@开始实施此计划@@起@@,“邮资欺诈@@”行为减少了很多@@。(18)
 
  把工作交给机器@@,让机器替代或辅助人工@@,不仅是科技的未来@@,更是政务@@大数据@@@@@@的未来@@。
 
  平台@@思维@@:给工作搭一个舞台@@。“平台@@”指计算机硬件或软件的操作环境@@,泛指进行某项工作所需要的环境或条件@@,包括技术平台@@@@、业务平台@@@@、数据@@平台@@等@@@@。“平台@@”不是一天就建立起来的@@,需要巨大的建设投资和长期的运行维护成本@@。我们的一切工作都需要在@@这@@个平台@@上@@进行@@。平台@@一旦建成@@,中途也很难更换@@。因此@@,平台@@的规划@@、技术选择等@@就成为开展大数据@@@@应用的重要课题之一@@。
 
  由于大数据@@@@应用种类非常繁多@@,特征各不相同@@,一种普遍被接受的观点@@是大数据@@@@平台@@应该是因应用而异的@@。例如@@,就数据@@管理@@而言@@,传统关系数据@@库管理系统@@(DBMS)秉承的@@“全能型@@”(one-size-fits-all)理念不再适用于纷繁复杂的现实应用@@:数据@@不同@@,负载不同@@,应用场景不同等@@@@,导致每一类典型应用都需要有相应的数据@@管理@@系统@@。
 
  “平台@@”的可扩展性也是一个重要的问题@@。从组织@@IT架构体系上@@来看@@,必须考虑可扩展性的问题@@:随着使@@用人数的增多@@、业务量的增加@@,系统必须具备能够及时扩展@@IT系统的能力@@。解决这@@个问题通常有两种方式@@:纵向扩容@@(Scale up)和横向扩容@@(Scale out),两种扩容的方式分别从两个维度来解决数据@@管理@@压力@@。纵向扩容@@就是将数据@@库服务器的配置提高@@,如增加硬件资源配置@@,通过硬件速度提升来解决访问压力@@。横向扩容就是将应用的数据@@拆分@@,将原来集中存储的数据@@根据一定的规则分布到不同的物理@@数据@@库服务器上@@@@。纵向扩容@@模式实施成本较高@@,压力大到一定程度之后@@,硬件可能无法满足这@@类需求@@。如果能够通过叠加相对廉价设备的方式实现存储和计算能力的扩展@@,那么这@@将是长期可扩展的有效手段@@。这@@是横向扩容的优势@@。
 
  举例来说@@,我国的群体性事件时有发生@@。政府@@为了加强对群体性事件的发现和处置能力@@,就需要有一个基于大数据@@@@的舆情分析平台@@@@,加强舆情研判能力@@,以捕捉最佳处置时机@@。这@@个平台@@需要自@@动收集各种社@@交网络上@@的信息并进行整合@@,监控社@@会舆情和公众情绪@@,并具有能对网民群体行为进行社@@会态势分析与预警的能力@@,将可能酿成重大舆情危机的不稳定苗头化解在@@萌芽状态@@。这@@个平台@@需要管理各种结构化和非结构化的数据@@@@,需要很强的横向扩展能力和实时数据@@分析@@能力@@。建设这@@个平台@@将成为政府@@一项投资巨大@@、挑战巨大的任务@@。
 
  结束@@语@@
 
  面对新一轮的大数据@@@@革命@@,由于技术的全球化和开放性@@,中国具有独特的@@“后发优势@@”,在@@很多方面甚至具备创新和超越的可能@@。
 
  当然@@,在@@科技迅猛发展的今天@@,还有相当多的农民和城市@@底层居民@@,因为各种原因而成为信息时代的缺席者@@,无法在@@网络世界表达意见和诉求@@。例如@@,用驾驶员的智能手机收集交通@@拥堵@@、路面坑洼数据@@@@,这@@固然是一个以低成本收集信息的途径@@,但是@@,这@@样收集的信息是存在@@盲区的@@,一些贫穷社@@区@@、老年@@社@@区的道路很可能会因为报告较少而得不到及时的维护@@。在@@中国@@,数字鸿沟造成的差别正在@@成为继城乡差别@@、工农差别@@、脑体差别@@“三大差别@@”之后的@@“第@@四大差别@@”,其本身已不仅仅是一个技术问题@@,而正在@@成为一个社@@会问题@@。只有确保人们能够平等@@地享用现代通信和网络基础设施@@,拥有大体平等@@的教育机会@@,才能使@@这@@些问题得到解决@@。
 
  党的十八届三中全会将@@“国家治理体系和治理能力的现代化@@”列为全面深化改革的总目标@@,大数据@@@@应当成为国家治理现代化的题中之义@@,在@@顶层设计和国家战略层面予以部署@@。大数据@@@@治理@@的内涵还很丰富@@,还有待我们进一步认识@@、进一步阐释@@,有关数据@@质量@@、数据@@隐私@@、数据@@安全@@、数据@@标准@@、数据@@溯源@@、数据@@开放@@、数据@@定价估价等@@也都是非常重要而现实的课题@@。但是@@变化正在@@发生@@,你我置身其中@@,数据@@治国@@的时代已经来临@@。
 
  (中国人民大学中国调查与数据@@中心研究人员冯启娜@@对此文亦有贡献@@)
 
  注释@@
 
  (1)涂子沛@@:《数据@@之巅@@:大数据@@@@革命的历史@@、现实与未来@@》,北京@@:中信出版@@社@@@@,2014年@@,第@@292、337页@@。
 
  (2)[美@@]斯蒂芬@@·贝克@@:《当我们变成一堆数字@@》,北京@@:中信出版@@社@@@@,2007年@@。
 
  (3)[美@@]安德鲁@@·麦卡菲@@(Andrew McAfee)、埃里克@@·布林约尔松@@(Erik Brynjolfsson):《大数据@@@@:一场管理革命@@》,《哈佛商业评论@@》,2012年@@10月@@。
 
  (4)洪黎明@@:《物联网@@:“智能城市@@@@”生长的沃土@@》,《福建日@@报@@》,2010年@@12月@@23日@@,第@@15版@@。
 
  (5)1919年@@,胡适写下了一篇着名的杂文@@《差不多先生@@传@@》,活灵活现地描绘出了中国人取道中庸@@、不肯认真@@、甘于糊涂@@、拒绝精准的@@庸碌形象@@,表达了对中国人@@“凡事差不多@@、凡事只讲大致如此@@”的习惯@@和作风的忧虑@@。
 
  (6)《北漂小伙返乡@@@@6次@@办护照@@ 补@@5张证明@@多跑@@@@3000公里@@》,“焦点访谈@@”,央视网@@,2013年@@10月@@11日@@。
 
  (7)[美@@]凯文@@·凯利@@:《技术元@@素@@》,北京@@:电子工业出版@@社@@@@,2014年@@,第@@223页@@。
 
  (8)(17)[英@@]维克托@@·迈尔@@-舍恩伯格@@(Viktor Mayer-Schnberger):《大数据@@@@时代@@》,杭州@@:浙江人民出版@@社@@@@,2013年@@,第@@53~55、73页@@。
 
  (9)(10)涂子沛@@:《大数据@@@@:正在@@到来的数据@@革命@@》,桂林@@:广西师范大学出版@@社@@@@,2012年@@,第@@77~82、313页@@。
 
  (11)[美@@]安雅@@·卡缅涅茨@@(Anya Kamenetz):《技术公民占领政府@@@@:政府@@2.0时代的凯歌@@》(How an Army of Techies Is Taking on City Hall),高成长公司@@(Fast Company),2010年@@。
 
  (12)徐继华@@、冯启娜@@、陈贞汝@@:《智慧政府@@@@:大数据@@@@治国@@时代的来临@@》,北京@@:中信出版@@社@@@@,2014年@@,第@@33~34页@@。
 
  (13)UN Global Pulse, Big Data for Development: Challenges & Opportunities, May, 2012.
 
  (14)联合国@@:《联合国@@全球脉动@@@@:分析实时数据@@@@ 增进人类福祉@@》,联合国@@新闻网@@,2011年@@11月@@8日@@。
 
  (16)Wing J M., Computational Thinking, Communications of the ACM, 2006.
 
  (18)张婷@@:《美@@国邮政@@探寻@@“大数据@@@@”生存之道@@》,新华网@@,2013年@@4月@@19日@@。


责任编辑@@:admin