政府统计应如何应对大数据时代
“除了上帝,谁都要使用数据”。一时间,大数据几乎无所不能,甚至有观点认为,大数据时代将不再需要传统的政府统计调查工作了。面对汹涌而来的大数据时代,作为统计数据生产、管理和发布的职能部门应当如何应对,这是摆在各级政府统计部门面前的一个十分迫切的重大理论和现实课题。
一、大数据时代正在到来
(一)大数据现象和概念溯源及其特征
近年来,大数据已成为一个流行的热词。但什么是大数据?正如“文化”一词一样,到目前为止,理论界还没有给出一个让各方都能够接受的统一标准的概念。追溯大数据现象和概念,从各方面的研究情况看,大致可分为三个阶段:一是上世纪80年代至90年代中期,是大数据认知萌芽阶段。1980年,美国著名未来学家阿尔文.托夫勒在《第三次浪潮》一书中将大数据盛赞为“第三次浪潮的华彩乐章”。二是20世纪90年代中期到21世纪前10年,大数据受外界广泛关注。美国高德纳(Gartner Group)公司的分析师道格拉斯.兰尼(Douglas Laney)2001年首次从大数据的特征的角度对大数据进行了相对明确的定义。三是2010年至今,是大数据被提上日程并迅速发展的阶段。2010年,美国总统科学技术顾问委员会给奥巴马总统和国会呈报了题为《规划数字化的未来》的报告。2011年,麦肯锡公司发布了《大数据:创新、竞争和生产力的下一个前沿》的报告。2012年1月,瑞士达沃斯世界经济论坛发布报告《大数据 大影响》;3月,美国奥巴马政府颁布了《大数据的研究和发展计划》;5 月,联合国秘书长执行办公室发布了《大数据促发展:挑战与机遇》的报告;6月,经合组织OECD统计委员会第9届会议发布《使用大数据作决策》研究报告。2013年,中国统计大数据理论研究和应用探索拉开序幕。7月,“大数据时代统计学:机遇与挑战——中国统计学高端论坛”在上海财经大学举办;10月,主题为“大数据背景下的统计”的第十七次全国统计科学讨论会在杭州举行;11月,国家统计局与阿里、百度等11家企业签署了大数据战略合作框架协议。
至于大数据概念的内涵,目前有多种说法。一般认为,大数据是指所涉及的信息量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助个人、企业和经营决策更积极目的的资讯。这种概括性描述过于笼统,特点也不够突出,更不容易理解。经研究比较,笔者较为赞同国家统计局相关专家研究成果。国家统计局研究认为,大数据具有6V加1C特征。即数据体量巨大(Volume)、类型多样化(Variety),处理速度快(Velocity)、应用价值大(Value)、数据获取与发送的方式自由灵活(Vender)、准确性(Veracity)和处理和分析难度非常大(Complexity)。相对于传统数据,大数据多是自动化和半自动化生成,数据的搜集、处理、存储和分析能力都已极大提高,数据主体和来源日趋多元化,非结构化数据占绝大多数,需要大量过滤才能提取有用价值,隐私与安全也存在着巨大隐患。
(二)大数据的理论研究和应用探索
1.大数据理论研究和实际应用。
事实上,“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日。2000年以来,世界著名机构、专家学者纷纷把目光聚焦于大数据,全方位审视大数据的内涵和潜在价值,对大数据进行开发和应用。在国内,部分网络公司如阿里巴巴、百度、腾讯等已经展开了对大数据应用的研发,并对大数据应用进行了初步尝试,取得显著成绩。如阿里巴巴基于淘宝网、天猫网、支付宝等网络平台的数据编制淘宝指数和淘宝价格指数,供淘宝注册用户了解淘宝搜索热点、查询成交走势,定位消费人群,研究细分市场等;百度利用大数据开发大数据搜素引擎、绘制百度迁徙地图等。
2.大数据在中国政府统计中的研究探索和应用实践。
近两年来,面对大数据时代的机遇和挑战,国家统计局积极主动应对,深入研究探索大数据在统计工作中的应用,倾力打造统计基础数据搜集“第二轨。一是大数据在部分统计专业中探索应用取得突破。如在消费价格统计、工业品价格统计和批发零售贸易业中,采用搜索的方式收集网上交易数据,与网站合作获取交易数据的方式和方法。在农业统计中,探索利用遥感技术+移动通讯,把高铁等交通工具上照相获取的信息数据,应用于农产品的种植面积测量,等等。二是大数据理论研究和应用探索取得实质性进展。2013年10月,国家统计局在杭州成功召开“大数据背景下的统计”科学讨论会;紧接着,国家统计局马建堂局长主编出版了《大数据在政府统计中的探索和应用》专著;11月,国家统计局与阿里、百度等11家企业签署了大数据战略合作框架协议。与此同时,部分省市统计局也在积极探索应用大数据。比如,上海调查总队从2012年起开始进行网络采价试点计算CPI,浙江部分调查队利用大型超市、商场和卖场的商品结算信息,实现CPI采价。
在国内外媒体宣传方面看,大数据已经上过《纽约时报》、《华尔街日报》专栏封面,进入了国内的新华社、人民日报等主流媒体的专题讨论。一时间,大数据成为热词。可以预见,随着越来越多的学者、企业、政府部门以及国际组织机构等投入到大数据汹涌的浪潮中来,一个前所未有的全新时代——大数据时代正在快步走来。
<!–[if !supportLists]–>二、 <!–[endif]–>大数据对政府统计的冲击
大数据时代的到来,不仅将对传统统计思维产生深刻的影响,而且必将给传统的统计生产方式等多方面带来重大变革。
(一)大数据颠覆了传统的统计思维模式
多年来,政府统计部门开展统计调查工作,进行数据分析,其基本立足点主要是传统统计学原理。传统统计学比较注重的是事物之间或事件之间的因果关系,其核心就是统计推断。传统统计学认为,总体数据很难获取,人们获取的数据几乎都是样本数据。通过搜集、整理和分析样本数据推断总体的平均行为,然后利用总体的平均行为来预测事物的发展趋势或评估个体行为,它忽略了对个体偶然行为的关注。但是,在大数据条件下,“样本=总体”,总体和样本的概念逐渐模糊。人们通过大数据技术搜集到的海量数据传递出来的信息就代表着事物发展的大方向大趋势,大数据更加关注的是事物之间或事件之间的相关关系。
(二)大数据对传统统计数据产生巨大冲击
在大数据条件下,数据生产通常是由机器自动化或半自动化完成。与传统统计数据比较,大数据有如下优点:一是人为因素较少。政府统计需要调查对象配合才能收集到高质量的数据,非抽样误差较大。而大数据的生成很少涉及或不涉及与人的互动,数据更加自然,更加真实。二是数据源丰富。政府统计数据的数据源比较单一,只有报表涉及的数据。而大数据数据源较多,可以是企业收集的网络交易数据,也可以是互联网用户浏览行为的数据等。三是数据类型多样。政府部门生产的统计数据都是结构化的数据,而大数据可以是结构化的数据,也可以上文本、图片、XML、HTML、图像和音频/视频信息等非结构化数据。四是数据内容丰富。政府数据是为特定目的收集的,收集的数据仅限于设计的变量;而大数据内容数据量大、变量较多,可挖掘的内容丰富。大数据的这些优势,无疑会对传统统计数据产生巨大冲击。
(三)大数据向政府统计指标体系权威性提出挑战
统计指标体系是统计调查者根据调查目的需要,为全面准确反映统计调查对象数量特征和数量关系而设计的一套互相联系的指标。如GDP统计指标体系、工业统计指标体系等。这些指标体系数据主要以政府统计部门收集的数据为基础,经过加工处理而形成,并定期发布(以月度发布的较多)提供给社会各界使用。由于这一统计指标体系是由法定的政府统计部门根据法定的程序收集上来的,所以它具有很强的权威性。但是,随着大数据的兴起,越来越多的网络公司或研究机构有能力根据需求构建这类似的指标体系,如麻省理工学院计算的每日网上价格指数、阿里巴巴编制的淘宝CPI等。这些指标体系采用网络数据,数据多属自动化生成,计算效率快,发布周期短 ,数据质量较高,更能反映民众的生活状况。如淘宝CPI,虽然和国家CPI计算口径、方法、反映内容不同,但淘宝CPI和国家CPI反映的价格走势基本一致,而且淘宝CPI用途更具体、受众更明确、发布更及时。在大数据时代,将会有越来越多的网络公司或研究机构即时生产、发布同一指标体系的数据,这时,社会公众到底应当相信谁家发布的数据,这是摆在各级政府统计部门面前的一个非常现实的问题,因为它已威胁到政府统计数据指标体系权威性。
(四)大数据对政府统计人才提出更高要求。
与传统数据相比,大数据不仅包括结构化数据,更包括大量非结构化数据(如图片、视频、文字)。这些数据具有数量巨大、应用价值高、流转速度快、种类繁多、波动大等特点,如何将这些非结构化数据进行结构化处理,是政府统计信息化建设中要面对的一个重大课题,也是数据搜集和处理中的一个极为现实的问题。此外,利用搜索引擎,进行关键词搜索,是直接照搬后台的每一条搜索记录,还是由网络公司进行开发加工后提供半成品?这既涉及技术手段,还关乎制度方法和法律法规。当然,除了搜集、处理、存储过程中的技术手段外,设备、网络、平台等与应用大数据相适应的硬件设施及环境更是不可或缺的。大数据的实时产生、形式多样,也会推动政府统计的数据发布工作提高时效性,丰富发布的内容和形式。上述诸多种种情况,如果没有一批批既懂得数据分析解读又懂得技术开发应用的复合型人才是不可能解决的。显然,目前在各级政府统计部门中,具备这类知识和技能的人才非常紧缺,远远满足不了大数据时代的需求。
<!–[if !supportLists]–>三、 <!–[endif]–>政府统计应如何应对大数据时代
大数据是一种新兴的生产力,它正在积极引领信息开发应用技术进行大变革,是未来信息化的发展趋势。大数据的战略意义,不仅在于掌握庞大的数据信息,更重要的是体现在对海量的结构性和非结构性数据的专业化处理,并迅速获得有价值信息的能力方面。面对大数据,谁先占领先机,谁就会走在到时代前面,引领风骚。因此,对于政府统计部门来说,面对大数据带来的挑战,已经不是未雨绸缪,而是迫在眉睫了。对此,政府统计部门务必引起足够的重视,加快研究应用步伐,务必将大数据研究开发应用作为创建现代服务型统计的头等大事抓紧抓好,力争将政府统计提升到一个新的发展水平。
(一)力争将大数据提高到国家信息化战略制高点地位
近两年来,国家统计局非常重视大数据的研究开发应用探索工作。但是,鉴于大数据涉及面广、数据复杂多样、开发要求技术高等特点,笔者认为,如果仅仅依靠国家统计局自己的“摇旗呐喊”,而其它与大数据相关的政府部门没有同步行动起来,那是远远不够的。在美国,2010年12月,美国总统科学技术顾问委员会在给奥巴马总统和国会的报告《规划数字化的未来》中,将大数据列为现在科技领域面临的挑战之首,并要求联邦政府每一机构和部门,都制定一个应对大数据的战略。2013年3月奥巴马政府通过了《大数据的研究和发展计划》,该计划涉及联邦政府的6个部门,旨在推动和改善与大数据相关的搜集、组织和分析工具及技术,并主要研究对海量数据的访问、组织与信息提取。最早提出“大数据”时代到来的全球知名咨询公司麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”大数据不仅对政府统计部门是挑战,而且对国民经济各部门都将产生或大或小的影响。因此,应对大数据这个庞大的系统工程,应当力争把它提升到国家信息化战略制高点地位,由政府统计部门和其他政府部门一起应对,共同研究大数据的相关问题。只有这样,才能在大数据的软硬件技术整合、大数据信息处理技术的研究开发之中,力求在新一轮的竞争中抢得战略先机与技术制高点。
(二)不断强化政府统计数据影响力
一直以来,统计数据由政府统计部门负责公布,然后需要数据的单位和个人通过政府统计部门发布统计数据的媒介获取数据,在整个过程中,政府统计部门仅仅是数据的公布者,负责把数据“拿出来”。这是因为,过去,人们要想了解宏观经济发展情况,只能通过报纸、电视、政府网站等常规途径查找政府统计部门发布的统计指标。但是,随着信息技术的发展与普及,人们获取信息的途径越来越多样。现在,企业、研究机构甚至个人都可以利用大数据编制统计指标,利用互联网发布统计指标。人们不会再去费力查找国家发布的统计指标,而会选择自己更容易获取指标来进行决策。这样,时而久之,政府统计数据将会失去影响力,政府统计的社会地位也会受到削弱。因此,在大数据时代,政府统计部门不仅需要担负好数据公布者角色,还须要扮演好数据服务者角色。
一是要拓宽统计数据的媒体发布平台。随着移动互联网蓬勃发展,社会化媒体传播成为了未来信息传播的主要方式。近年来,微信关注度较高,政务微信成为官民沟通的全新平台。政府统计部门要及时将最新发布的数据通过微信同步群发至用户手机,使用户能够第一时间获取统计信息,提高统计数据发布的时效性和精准性,对宣传统计具有积极的作用。要积极拓宽数据的媒体发布平台,做到:民众在哪里,政府就应该在哪里,应该把政府统计信息放在民众触手可及的地方。
二是要加强对统计数据的解读。对于政府部门发布的统计数据,要加强解读,在不违反保密法的前提下,也可以适当公布计算口径、方法等,让使用者能够对统计数据了解更加深入。
三是要创新统计数据展现方式。我们常说“一表胜千言,一图胜千言”,用统计表、统计图展示统计数据更加直观、更加生动。以前,我们常用点线图、直方图等简单图表展示统计数据,现在像交互式的三维地图、动态模拟等可视化技术能够更加直观化、趣味化。对于政府统计部门,通过可视化技术可以让枯燥乏味的统计数据自己说话,化繁为简,有利于统计数据走向大众。因此,政府统计部门必须重视可视化技术,要加强对统计数据展现方式的创新。
(三)逐步转变政府统计部门职能
目前,政府统计部门的职能以生产数据为主,包括制定统计标准、核算国民经济、进行专业统计、组织各类普查以及搜集部门统计数据等。大数据时代,政府统计部门管理职能亟需转变,主要体现在以下几个方面: 一是数据质量管理职能。政府统计部门应用大数据,应用非传统数据,并以此补充或替代直接调查获取的统计指标,也要对数据质量进行监督、管理、评估和分析。因此,政府统计部门要负起数据质量管理职能。二是发布审批职能。面对不断出现的大数据,企业、机构甚至个人都可以使用大数据源生产,发布数据。企业、机构很容易利用信息的不对称性,利用大数据来误导大众,获取非法利益。对此,统计部门应尽快制定对公共领域数据收集准则,规范民间收集,发布统计数据的行为。同时需建立完善对企业和民间发布指数进行审批或者评级的机制,而目前政府部门有对地方统计制度和部门统计制度进行审批的机构和职能,但对企业和民间发布指数还没有强制审批的规定。三是隐私控制职能。政府统计部门应加快建立对大数据这类电子化数据获取、存储以及使用方面的法律保障和管理机制,以保护调查对象的隐私。
(四)调整更新政府统计调查制度设计理念
传统政府统计调查制度设计思路是,根据调查目的和任务,确定调查内容和指标体系,确定调查方式,据此设计出统计报表,然后从上往下层层向调查对象收集数据,然后层层汇总上报,完成数据的收集审核、整理汇总、分析说明,最后由国家统一对外发布。在大数据条件下,针对所拥有的数据源总体进行制度设计,依据数据的特点设计指标,尽可能多的收集相关数据,然后对数据进行预处理、评估、数据深挖掘,最后用适合的方式对外发布并解读。因此,大数据背景下,政府统计部门在统计调查制度设计、数据搜集、数据存储、数据处理、数据分析和数据发布各个环节,整个工作理念和思路均需做出相应的调整。
(五)研究建立健全大数据环境下的统计法律法规
大数据时代,一切皆为数据。因此,政府统计部门的数据范围和内涵也将发生较大扩展。随着大时代的到来,在政府统计工作中扩大对大数据的应用规模已是大势所趋。但是,大数据中包含了大量个人隐私信息。大家知道,人们在网络注册、发送邮件、浏览各种信息、发微博等活动,这就完全暴露了个人的信息、兴趣爱好、生活习惯、社交网络等内容。即使对用户个人信息等内容进行模糊化处理和匿名化处理,他人也还是可以通过不同数据源的交叉验证等方式得到个人隐私信息。特别是,大数据一旦形成,就可以长期保存,没有设置删除期限,个人失去了对信息的掌控,无法删除数据,更无法回收数据。数据在可能未被授权的情况下,随时都会被使用甚至被滥用的危险。
人类社会非常重视对个人隐私安全的保护,各国都制定法律保护个人的隐私权利。大数据公开、透明、流动性强,一些基础数据可以直接从网上直接获取,一些无法直接从网上获取,它需要有关主体的配合才能完成。因此,政府统计部门可以使用那些数据或不能使用方面的数据,这都需要现行统计法重新做出调整规范规定,同时也需要加强对信息和隐私的保护。
(六)加快大数据应用研究和人才培养
目前,大数据在政府统计部门中的理论研究与开发应用尚属起步阶段,但是很多企业、组织机构等对这方面已开展积极探索并取得显著成绩。对此,作为专事生产和管理数据的政府部门,务必抓住机遇,迎头赶超,加快推进大数据在政府统计部门的应用研究步伐。一是加强学习交流。要积极学习联合国、发达国家以及有代表性的互联网企业在大数据处理和应用方面的经验。二是加强与企业、高校的科研合作。企业、高校有较高的科研水平、丰富资源和高素质的研发人员,与它们加强科研合作,有利于资源、技术、成果共享。三是加强政府统计系统的自身队伍建设。大数据要求统计人员向数据开发处理、数据分析解读的方向转变。当前,各级政府统计人员现有的知识结构、知识水平和技术技力等远远不能满足大数据的发展要求,要加强对大数据开发应用人才的培训、引进、培养,努力建设一支既具备良好的统计思维,又有娴熟的信息技术的高素质队伍。
来源:广东统计信息网
作者:广东省统计局 冯文鹏
微信名:
HadoopSummit
微信ID:
hadoopinchina
中国Hadoop技术峰会是亚太地区举办最早、规模最大、影响力最广阔的大数据盛会。
Chinahadoop.com是China Hadoop Summit的内容网站。
HadoopSummit是Chinahadoop.com的微信发布平台。