大数据时代@@的来临@@,使得数据成为各领域最重要的生产资料@@,公众的数据意识和@@使用能力随之迅速提升@@。政府@@是国家最大的数据生产者和@@拥有者@@,政府@@数据共享无疑能改善公众对数据的收集与利用能力@@,最大限度地将数据的潜在价值转变为实际效益@@。与此同时@@@@,数据的开放有利于提高政府@@科学决策水平@@,增强信息民主化建设@@,创造一个@@更有责任感@@、更高效@@@@、更透明的政府@@@@。美国作为数据开放的先行者@@,已使用一套科学的运作体系进行数据的采集@@、发布@@、管理和@@维护@@,从国家战略角度将数据作为资产进行管理@@,并取得了显着成效@@,在世界范围内引发了政府@@开放数据的浪潮@@。我国国务院在@@2015年@@9月@@5日@@发布@@的@@《促进大数据发展行动纲要@@》中提出@@,将在@@2018年@@底前建成国家政府@@数据统一开放平台@@@@。在这@@一总目标下@@,本文深入分析了目前@@我国政府@@数据的开放情况@@,并以@@美国为标杆@@,分析其典型做法@@,学习其先进经验@@,结合我国实际国情@@,帮助我国政府@@进一步做好开放数据的工作@@。

  1政府@@数据开放@@概述@@

  政府@@数据开放@@是指政府@@利用现代信息技术手段@@,主动将自@@身拥有的不涉及个@@人隐私和@@公共安全的数据免费开放给所有民众@@[1]。政府@@数据开放@@一方面@@@@能帮助政府@@部门提高透明度和@@行政治理水平@@,提升公民参与民主政治的积极性@@;另一方面@@@@@@有助于实现数据资源的合理开发和@@利用@@,鼓励社会创新@@,促进经济发展@@。自@@2009年@@起@@,在全球第一个@@政府@@数据开放@@平台@@@@@@data.gov诞生之后@@,英国@@、加拿大@@、新加坡@@、韩国等@@数百个@@国家和@@地区陆续建立了自@@己的政府@@数据开放@@平台@@@@@@,政府@@数据开放@@正逐渐成为世界改革创新的发展趋势@@,成为一个@@国家取得进步和@@发展的核心竞争力@@。

  2我国政府@@数据开放@@平台@@@@现状@@

  我国政府@@数据开放@@工作从地方层面开始探索@@,目前@@尚未推出国家平台@@@@。自@@2011年@@起@@,北京@@、上海@@等@@地区在大数据的影响下率先开启了政府@@数据开放@@的工作@@,建立了各自@@的政府@@数据开放@@平台@@@@@@(见表@@1)。本文选取北京@@@@、上海@@、浙江@@、武汉@@、青岛@@、无锡@@以@@及佛山市南海区@@@@(以@@下简称南海区@@@@)这@@7个@@具有典型性和@@代表性的数据开放平台@@@@,进行深入研究@@。2.1数据的质量与规范目前@@@@,各地方政府@@开放的数据内容主要包括公共安全@@、交通@@服务@@、教育科技@@、金融服务@@、健康卫生@@、文化娱乐等@@领域@@,其中@@北京@@涉及的领域最广@@,共分为@@17个@@主题@@,其他网站涉及的主题内容都不够全面@@。各政府@@开放平台@@中@@,开放数据最多的是无锡@@@@,共有@@752个@@数据集@@,最少的是南海区@@@@,仅有@@270个@@(截至@@2015年@@10月@@,见图@@1)。对比各网站的数据下载情况可以@@看出@@@@,下载量@@排名靠前的数据多属于教育@@、交通@@、医疗@@、经济等@@与公众生活相关的领域@@,其中@@上海@@的浏览量及数据下载量@@最高@@,有多种数据下载过千次@@@@,但多数网站@@的数据无人问津@@,成为睡眠数据@@,可见各平台@@在数据数量与实用性方面@@还有所欠缺@@。

各地方数据开放平台@@建设情况@@

各地方政府@@开放数据集个@@数比较@@

  在数据格式@@@@的多样性上@@,只有青岛@@和@@南海区@@为每个@@数据集@@提供@@多种格式@@@@,以@@便不同需求的使用者对数据的增值利用@@(见表@@2)。根据数据开放标准@@,数据应符合易操作和@@可机读@@(如@@xls,而非@@pdf),并以@@开放的格式@@确保无需通过指定的应用程序才能访问@@,基于此定义@@,只有上海@@实现了数据完全可机读@@,北京@@100%提供@@了开放格式@@@@(csv)。

各地方政府@@提供@@的数据格式@@@@@@

  2.2数据的描述与使用@@

  元数据作为描述数据的数据@@,使信息的描述和@@分类实现格式@@化@@,促进数据集的高效@@利用@@。目前@@各地方均提供@@元数据@@,包括文件大小@@、文件格式@@@@、发布@@日@@期以@@及更新频率等@@@@。文件大小和@@文件格式@@@@作为描述数据最基本的信息@@,可以@@帮助用户在下载前对数据作简要了解@@。各地方都提供@@文件格式@@@@@@,但只有浙江@@@@、北京@@和@@无锡@@提供@@了数据的文件大小@@。而就发布@@日@@期和@@更新频率而言@@,武汉@@的这@@两项信息均没有被明确标记@@,南海区@@未提供@@发布@@日@@期@@,并以@@更新时间代替更新频率@@,但将其标记在数据页面@@的做法@@,更方便用户的查找@@。数据开放平台@@上的数据使用时应具有非歧视性@@,可让所有人使用而无登记要求@@[2]。目前@@只有浙江@@和@@无锡@@满足该条件@@,其他地方的数据获取都需要注册登录@@,且上海@@和@@北京@@的注册过程较为严格@@、繁琐@@,需要用户的真实姓名@@、电话@@、邮箱及身份证号@@。另外@@,在数据的使用权利上@@,未有一个@@地方明确确保使用者享有免费@@、自@@由增值利用@@、自@@由分享@@传播的权利@@。

  2.3平台@@的组织与管理@@

  数据分类是评价一个@@政府@@数据开放@@平台@@@@的重要指标@@,完善的数据分类在方便平台@@管理和@@数据维护的同时@@@@,还有利于用户对数据的使用和@@查找@@。在分类方面@@@@,多数网站@@(浙江@@,北京@@,武汉@@,无锡@@,南海区@@)采用两种方式@@,即按主题和@@提供@@机构@@进行分类@@,方式略显单一@@。上海@@在两种基本分类的基础上增加了综合评价分类@@,青岛@@则额外提供@@标签@@选项@@,使每种主题和@@提供@@机构@@有相应的标签@@与之对应@@,一定程度上缩小了数据的查找范围@@。

  除分类外@@,数据开放平台@@还应提供@@直接@@、高效@@、多样化的检索功能@@。目前@@,各个@@平台@@的检索功能均包括分类导航@@和@@关键词检索@@。上海@@、无锡@@、浙江@@在检索时允许多个@@分类交叉限定选择@@。青岛@@为每个@@数据集@@提供@@@@“相关接口@@@@”和@@“相关数据@@”这@@两项信息推荐@@,帮助用户发现其潜在数据需求@@。上海@@、武汉@@、青岛@@还支持按特定属性@@(下载量@@、更新日@@期等@@@@)进行排序检索@@。

各地方互动交流功能比较分析@@

  从表@@3可以@@看出@@,除浙江@@@@、无锡@@外@@,各平台@@都提供@@交互功能@@,并允许@@用户对数据需求提出建议@@。其中@@,关于数据集使用反馈@@,武汉@@采取星级评分方式@@,北京@@、南海区@@采用文字评论方式@@,上海@@和@@青岛@@则结合了这@@两种方式@@。在数据共享方面@@@@,只有青岛@@和@@南海区@@为该项目设立微博@@、微信账号@@,传播和@@推送政府@@数据的相关内容@@,同时@@允许用户将数据分享@@至@@相应的社会媒体@@。

  2.4数据的应用与创新@@

  在数据的社会化应用方面@@@@,青岛@@、武汉@@开放了@@API接口@@,武汉@@还在此基础上为开发者提供@@@@指导建议@@,为第三方开发建立技术基础@@。各平台@@都设定了应用频道展示数据应用@@,提供@@数据应用最多的是上海@@@@,共有@@76个@@应用@@,最少的为青岛@@@@,仅有@@5个@@(见图@@2),北京@@还公开了各应用使用的原始数据@@。目前@@除上海@@外@@,各地方都支持@@APP应用的提交@@。部分地方政府@@为鼓励社会公众基于网站的数据进行创新@@,还组织相关应用竞赛@@,这@@其中@@包括北京@@@@2004年@@5月@@的@@“应用创意@@”大赛和@@上海@@的@@“游族杯@@”创新应用大赛@@。其他地方只是增加了应用推荐栏目@@,没有实质性的行动为第三方推广牵线搭桥@@。

各地方政府@@提供@@的应用个@@数@@

  数据分析作为数据整合创新的基础环节@@,用适当的统计方法对收集来的数据进行分析@@,有助于最大化地挖掘数据资源潜力@@。目前@@,只有青岛@@提供@@简单的数据分析工具对数据进行统计和@@可视化分析@@,其他地方均未涉及这@@一领域@@。

  3我国政府@@数据开放@@存在的问题@@

  本研究将我国政府@@数据开放@@平台@@@@的现状与@@Data.gov进行对比分析@@,提出我国开放政府@@实践存在@@6个@@方面@@问题@@。

  3.1数据量少@@,实用性和@@规范性差@@

  截至@@2015年@@10月@@18日@@,美国共公布@@189434个@@数据集@@。我国公布数据集个@@数最多的无锡@@也仅是其@@0.004%。且在已开放数据中@@,数据内容与社会公众的实际需求仍有很大差距@@,无法满足社会经济与创新领域的需求@@。因此@@,在数据的实用性和@@完整性@@(即除了涉及隐私@@、安全和@@特别限制的数据以@@外@@,保证所有公共数据都是可获得的@@)方面@@,我国还有很大提升空间@@@@。

  此外@@,Data.gov上提供@@丰富的数据格式@@@@@@,如@@csv、json、xml、xls、wms、kml/kmz等@@,其中@@包括可机读格式@@@@(如@@xls)和@@开放格式@@@@(如@@csv),并且同一个@@数据集@@有多种格式@@选择@@。而我国提供@@给用户的格式@@种类单一@@,用户可选范围小@@,并未做到所有数据均提供@@可机读和@@开放格式@@@@@@,给用户对数据的增值利用增加了难度@@。

  3.2缺乏完善@@、系统的数据描述@@

  Data.gov网站的元数据体系较为完善@@,页面@@包含资源类型@@、数据格式@@@@、唯一标识符@@、机构名称@@、升级频率@@、数据字典@@、关键字@@、公共访问级别@@、使用者排序@@、分析单元@@、地理有效范围@@、与技术文件的链接@@、与源网站其他内容的链接等@@丰富的描述信息@@[3]。而我国多数网站@@的元数据不够完善@@,只是对部分信息进行简单罗列@@,缺少关键信息@@,不利于用户对数据的了解和@@使用@@。

  此外@@,Data.gov上的数据免费向所有人开放@@,无需注册登录@@。而国内多数网站@@要求用户事先进行注册@@,且注册过程繁琐@@@@,需要用户的真实信息@@,一定程度上削弱了对信息外泄较敏感用户使用数据的积极性@@。

  3.3缺乏完善@@、科学的分类体系@@

  关于数据分类@@,美国按主题@@(Topics)、主题类别@@(TopicCategories)、数据类型@@(DatasetType)、标签@@(Tags)、格式@@(Formats)、组织类型@@(OrganizationType)、组织机构@@(Organization)和@@发布@@者@@(Publisher)8个@@方面@@对数据进行组织分类@@,大大方便了用户对数据的查找@@。国内各个@@网站的数据分类方式单一@@,分类方法不够科学@@,分类体系不够完善@@。用户在对数据了解不全面@@,或数据需求不明确的情况下@@,难以@@快速有效地定位到所需数据@@。

  在数据检索方面@@@@,Data.gov提供@@分类导航@@和@@关键词检索两种方式@@。完善的分类体系为分类导航@@功能奠定了良好的基础@@。关键词检索时@@,搜索@@框支持空白搜索@@@@,并提供@@自@@动匹配和@@提示功能@@。虽然国内多数网站@@也提供@@这@@两种数据检索方式@@,但分类体系和@@搜索@@功能的不完善给用户的检索带来了不便@@。

  3.4缺乏有效@@、丰富的互动交流@@

  Data.gov提供@@6类互动交流方式@@,分别是@@:①提出请求@@;②报告问题@@;③将数据分享@@至@@Google+、Twitter和@@Facebook等@@社交平台@@@@;④为开发者提供@@@@API接口@@,并允许@@APP应用的提交@@;⑤用户通过对数据资源的评论实现数据质量的评价交流@@;⑥对用户所提问题按最新@@(Newest)、频繁度@@(Frequent)、投票多少@@(Votes)、活动中@@(Active)和@@无回答@@(Unanswered)5种方式进行组织@@。用户对已有提问进行评论和@@投票@@,其结果形成热点问题排行@@,使重要问题得到强调@@。同时@@,每个@@问题附有标签@@和@@相关问题推荐@@,方便用户找到参考从而更好地解决问题@@。

  可以@@看出@@,Data.gov的互动交流功能比较完善@@,体现了网站对用户建议和@@需求的重视@@。与之比较@@,国内各平台@@在互动交流方面@@存在很多不足@@。多数网站@@的互动交流在使用上缺乏便捷@@性@@,需要注册登录后才能提出建议或发表评论@@,并且除青岛@@和@@南海区@@外@@,都没有数据分享@@功能@@,不利于数据和@@平台@@的推广@@。总体上来看@@,国内各网站对互动交流这@@一功能还未给予足够重视@@,反馈形式@@单一@@,使用不够便捷@@,对用户意见和@@建议的回复也有待进一步落实@@。

  3.5缺乏便捷@@、良好的创新环境@@

  Data.gov上允许用户提交自@@己开发的应用@@,并为开发者提供@@@@@@API接口@@。另外@@,美国民间公益组织阳光基金会曾举办公共数据开发大赛@@,鼓励社会参与数据的创新应用@@。良好的创新环境@@使得目前@@@@Data.gov上提供@@的@@645个@@应用@@中很大一部分来自@@社会公众的开发创新@@。

  中国各平台@@在应用的数量上与美国仍有很大差距@@(见图@@3)。而在鼓励社会公众参与方面@@@@,北京@@和@@上海@@也曾举办相关竞赛@@,有一定成效但并未得到广泛关注@@@@。多数网站@@支持@@APP应用的提交@@,但只有少数开放了@@API接口@@,没有为社会公众提供@@良好的创新环境@@@@。总的来说@@,国内在数据的应用创新方面@@已有一定作为@@,但仍需改进创新环境@@,提高社会各界的参与度@@。

美国与中国各地方政府@@发布@@的应用个@@数比较@@

  3.6缺乏实时@@、有效的数据更新@@

  对数据的更新维护是政府@@数据开放@@项目的重要工作@@。Data.gov上数据的更新是实时的@@,截至@@2015年@@10月@@18日@@,网站上的最近更新时间为@@2015年@@10月@@17日@@,多数数据都能按承诺进行更新@@。国内在这@@一方面@@@@做得较好的北京@@和@@上海@@的最近更新时间分别为@@2015年@@10月@@12日@@和@@@@2015年@@10月@@16日@@。且通过一段时间的跟踪调查发现@@,这@@两个@@网站出现新数据或更新数据的周期在一周以@@内@@。其余各地的大量数据虽清晰地标明了更新频率但均未真正兑现承诺@@。

  4我国统一数据开放平台@@建设策略@@

  显然@@,与美国相比@@,我国的政府@@数据开放@@还处于探索起步阶段@@,不仅尚未建立国家层面的网站@@,各地方政府@@的数据开放平台@@也仍有很大改进空间@@@@。因此@@,本文基于国内政府@@数据开放@@的现状和@@存在的问题@@,提出了@@6条建设对策@@,以@@期快速实现@@“2018年@@底前建成国家政府@@数据统一开放平台@@@@”这@@一目标@@。

  4.1转变行政观念@@,制定顶层战略规划@@

  首先@@,政府@@应意识到开放数据的价值@@,转变保密@@、封闭的行政观念@@,将数据开放视为政府@@的基本义务@@,结合国情制定顶层战略规划@@和@@切实可行的行动计划@@,并对政府@@数据开放@@的对象@@、形式@@、边界进行严格定义@@,保证数据开放的规范化和@@制度化@@[4]。同时@@,优化法律法规的制度框架@@@@,加强对数据发布@@者和@@使用者的行为规范@@,更有效地保护国家机密和@@个@@人隐私@@。建议设立专门的数据管理机构@@,负责开放数据的整体协调@@、制度建设和@@执行监督@@,使整个@@开放数据工作可以@@有序开展@@。

  4.2考虑用户需求@@,提高数据的实用性和@@规范性@@

  在数据开放的起步阶段@@,以@@用户需求为导向@@,开放与公众密切相关领域的高价值数据@@,推动用户的参与及基于数据的商业服务的展开@@。随着网站的发展与完善@@,不断扩大数据的领域和@@范围@@,最后致力于实现开放数据的完整性@@,保证所有公共数据都是可获得的@@(涉及个@@人隐私和@@国家安全的除外@@)。同时@@,增加网站的格式@@种类@@,提高开放数据的可机读率@@,使数据尽量以@@方便用户处理的格式@@出现@@,不以@@图片@@、网页@@、pdf格式@@发布@@@@。

  4.3完善元数据体系@@,提供@@更便捷的数据获取途径@@

  目前@@国内各平台@@的元数据体系不够健全@@,缺乏统一的@@、通用的元数据标准@@。为此@@,应在参考国外元数据标准的基础上@@,对各机构所提供@@资源的数据类型@@@@、数据格式@@@@、数据所表述的深层机理@@、所对应的国家主体@@分类标准@@、国民经济行业分类标准@@、数据导出格式@@种类等@@进行定义@@,并在定义的基础上进行分类@@,制定适合自@@身发展的元数据标准@@[5]。同时@@,一方面@@@@,考虑到元数据与对象数据关联的重要性@@,选择合适的封装策略来保障它们之间紧密的联系@@[6];另一方面@@@@@@,做到数据对所有人无条件免费开放@@,无需用户注册登录和@@提供@@用户的真实信息@@,真正做到数据使用的非歧视性@@,增强用户获取数据的便捷性@@。

  4.4健全分类体系@@,提供@@更高效@@@@的数据检索功能@@

  分类和@@检索是政府@@数据开放@@平台@@@@的重要功能@@,直接关系到网站的易用性和@@用户的友好性@@。关于数据分类@@,应选取多种分类维度@@,如@@主题@@、提供@@机构@@、格式@@、标签@@等@@@@,在各个@@维度下@@,依据数据集自@@身的特点和@@分类的模式@@,选择不同的分类方法@@,对所有数据集进行科学合理的划分@@。而在检索管理方面@@@@,建议引入词引导技术并对排序技术进行改进@@[7],同时@@优化搜索@@框的检索功能@@,如@@引入高级搜索@@@@、语义搜索@@等@@功能@@,减少信息噪声@@,使用户的搜索@@行为更准确有效@@。

  4.5重视用户反馈@@,建立与公众的良好交互@@

  数据平台@@的建设需要不断完善@@,而用户的反馈对此过程起关键作用@@。因此@@,一方面@@@@应丰富平台@@上的互动方式@@,除提建议和@@数据需求的方式外@@,还可以@@借助社会化媒体的力量@@,允许用户将数据和@@对数据的评价分享@@至公众平台@@@@,实现用户间数据的交流@@,同时@@扩大数据门户的知名度和@@影响力@@;另一方面@@@@@@应落实互动交流功能的有效性@@,及时对用户的提问和@@建议进行审核和@@回应@@,并将其公开@@,为有相似疑问的用户提供@@参考@@,减少管理人员重复性工作的同时@@也显示管理者对用户反馈的重视@@。

  4.6加强宣传教育@@,调动社会各界共同参与@@

  欧美等@@国的经验表明@@,政府@@数据开放@@平台@@@@的发展离不开公众的参与@@。因此@@,应在全社会加强宣传教育@@@@,弘扬数据文化@@,引导更多@@的民众关注@@和@@使用数据开放平台@@@@。同时@@,鼓励公众@@、企业或研究机构等@@对平台@@上的数据进行增值开发@@,使政府@@数据真正造福于民@@。

  5结束@@语@@

  对我国政府@@而言@@,在数据开放这@@一国际发展趋势下@@,开展政府@@数据开放@@工作既是机遇又是挑战@@。一方面@@@@,政府@@数据的开放会带来巨大的经济效益@@、社会效益和@@政治效益@@;另一方面@@@@@@,我国数据开放步伐比较落后@@,缺少相关经验@@,各方面@@仍有很大改进空间@@@@,对今后数据开放工作的展开是一个@@不小的挑战@@。笔者通过对代表性地方政府@@开放平台@@进行调研@@,分析了我国各地方政府@@数据开放@@平台@@@@建设的现状@@,将其与美国进行比较@@@@,发现差距@@,并提出针对性策略@@,以@@帮助更好地面对挑战@@。我们坚信只要我国政府@@坚持以@@民生需求为导向@@,从意识@@、政策和@@技术@@3个@@层面全方位推进政府@@数据开放@@工作@@,必能激发政府@@数据在提升社会治理能力和@@促进社会发展中的巨大潜力@@。

  参考文献@@

  [1]周军杰@@.需求导向的中国政府@@数据开放@@研究@@[J].电子政务@@@@,2014(12):61-67.

  [2]OpenGovernmentDataWorkingGroup.Eightprinciplesofopengovernmentdata[EB/OL].[2015-06-16].http://www.open

  govdata.org/.

  [3]侯人华@@.美国政府@@开放数据的管理和@@利用分析@@---以@@www.data.gov为例@@[J].图书情报工作@@,2011(4):119-122,142.

  [4]郑磊@@,高丰@@.中国开放政府@@数据平台@@研究@@:框架@@、现状与建议@@[J].电子政务@@@@,2015(7):8-16.

  [5]陈涛@@.数据开放平台@@建设策略研究@@---以@@武汉@@市政府@@数据开放@@平台@@@@建设为例@@@@[J].电子政务@@@@,2015(7):46-52.

  [6]吴茗@@,龙伟@@,肖红@@.自@@建数字资源的元数据管理实践及启示@@---以@@国家图书馆中文图书数字化资源库为例@@@@[J].数字图书馆论坛@@,2014(3):44-48.

  [7]孙卫@@,沈娟@@.用分类主题理论调整检索功能要求@@[J].数字图书馆论坛@@,2008(4):34-38.

责任编辑@@:hongqiong