公共数据如何更开放
“实施国家大数据战略,推进数据资源开放共享”已经被纳入“十三五”规划建议。国务院印发的《促进大数据发展行动纲要》也要求,大力推动政府信息系统和公共数据互联开放共享,加快政府信息平台整合,消除信息孤岛,推进数据资源向社会开放。
在信息和知识经济时代,公共数据的开放和共享是一项基础设施,数据开放对社会经济的推动作用无法估量。在我国,公共数据开放的现状如何?实现《纲要》提出的开放共享目标还要破除哪些障碍?
获取公共数据难,导致一些科研难为“无米之炊”
上海海事大学交通运输学院副教授陈继红指导的团队,曾凭借作品《洋山深水港集装箱国际中转服务模式与对策——基于韩国釜山港的比较研究》,冲进了一项重要的大学生课外学术科技作品竞赛决赛圈。但高兴之余,陈继红忍不住感叹:“取得这些港口数据的过程实在是太艰难了。”
陈继红说起在上述课题研究中给予帮助的韩国教授,很羡慕他们能拿到釜山港的全部数据。原来,韩国教授登录韩国交通管理部门的网站,注册后获得身份认证,就能免费获得政府的公共数据。
陈继红说:“我们经常需要研究沿江沿海的港口和航运情况等,为政府和市场提供决策参考,但因为拿不到基础数据,很多时候我们是在做‘无米之炊’。比如研究需要的我国港口的股权结构、股东投资比例、港口泊位数量、货物吞吐量等数据,这些应该都算不上机密,但我们就是拿不到。因此对有些数据,研究团队只能从企业宣传册上抠,数据的及时性和准确性都无法保证。”
陈继红认为,有些数据如果暂时不便向公众开放,可以对有关专家学者实行注册制,“尤其是行业数据,光靠一省一市开放也很有限,政府应该下决心让更高级别的部门统筹。”
财政投入获得的公共数据不开放,是巨大浪费
随着大数据时代的到来,大家越来越意识到数据开放的重要性,一些政府部门开始尝试并取得初步成效,但总体来说,开放步伐仍有待提速。
复旦大学国际关系与公共事务学院副教授、数字与移动治理实验室主任郑磊认为,政府掌握的数据是国家机关履行职责时获取,采集这些数据的经费来自公共财政,因此这些数据本质是公共产品。应尽快探索公共数据逐步开放共享的途径与方式,使这些宝贵资源发挥其应有价值。
郑磊还介绍了数据公开与数据开放的区别:数据公开只是让公众看到,而数据开放则是要让公众可以直接利用,二者是完全不同的概念。“政府数据开放是政府信息公开的进一步深化和拓展。”郑磊说,信息公开以公文类信息为主,目的是保障公众的知情权、参与权和监督权。数据开放以非公文类信息为主,目的是落实对政府信息资源的使用权,实现政府公共数据资源的增值利用和价值最大化。“真正的开放是要开放数据接口,让第三方平台能够直接接入,并且同步实时更新。”
陈继红认为:“看似繁琐死板的数据,经过加工后才能产生价值。政府财政投入所获得的数据如果不开放,我们做研究还要再动用国家科研经费去采集,这是人力、财力的巨大浪费。”
我国公共数据开放步伐为何不快?郑磊分析,有些部门有数据,但不知道能不能开放;有的有数据但不愿开放,可能涉及显性或隐性的利益。还有些部门认为,数据不开放没人知道,开放了反而有可能担风险。郑磊认为,大数据毕竟是个新鲜事物,很多部门和官员还不懂怎么做,需要有针对性地加强培训。
上海等地正调查社会需求,规划和推进数据开放
世界银行能源分析师刘婕美因工作需要,经常从一些网站查询数据。据了解,2009年5月,美国政府的数据开放网站data.gov正式上线,该网发布了包含90个联邦机构近19万个数据集,涉及14个主题。
刘婕美认为,政府部门除了可以整理披露数据,还可以公开联络方式,方便答疑解惑,一些无法从公共网页查询到的数据,最好能通过电话或邮件的方式询问。据了解,美国也并非所有政府部门都有能力保证数据的完整、真实、可信。目前美国对政府机构信息披露并无统一的执行标准,数据披露情况与该部门组织运转能力和财力直接相关。以美国农业部门为例,由于水污染状况的调查费用高昂,这方面的数据就相对老旧。
在数据收费问题上,美国主张免费,而欧洲一些国家则采用部分收费的方式。“数据免费开放对社会经济的推动作用无法估量,你永远想象不出民众的创造力有多么巨大。与之相比,一些政府部门自己开发数据所赚取的利润只能算蝇头小利。”郑磊说。
目前,郑磊和他的团队正在为上海市政府做一个数据开放的新规划。“我们首先要调查社会和企业的需求,了解他们最希望获得的数据是哪些,然后配合政府尽快开放。”郑磊说。
微信名:
HadoopSummit
微信ID:
hadoopinchina
中国Hadoop技术峰会是亚太地区举办最早、规模最大、影响力最广阔的大数据盛会。
Chinahadoop.com是China Hadoop Summit的内容网站。
HadoopSummit是Chinahadoop.com的微信发布平台。