互联网大数据在政府统计中的应用路径研究(“大数据在政府统计中的应用研究”课题组)
内容摘要:近几年,互联网变得越来越“无所不在”,由此而产生的数据越来越多,互联网大数据逐渐发展成为一门新学科、一套新学说以及一种分析与解决问题的新方法和新手段。本文以互联网大数据为背景,结合政府统计工作的特点,提出了互联网大数据在政府统计中的应用路径,并以互联网搜索数据在房价统计方面的应用进行了案例研究,提出了互联网大数据在政府统计应用中的展望。
关键词:互联网大数据;政府统计;应用路径
中图分类号:C829.2 文献标识码:A 文章编号:1004-7794(2015)09-0003-04
DOI:10.13778/j.cnki.11-3705/c.2015.09.001
大数据与互联网的发展相辅相成。一方面,互联网数据是大数据中重要的信息与资源。如新浪、搜狐网等每天有大量用户浏览信息,百度、谷歌等搜索引擎为用户检索出大量需要浏览的内容,并实时记录关键词的搜索密度。随着电子通讯和媒体技术的发展,传统媒体报纸、广播、电视也纷纷进入互联网络时代,由于互联网时代信息传播的瞬时性、广域性和互动性,使得媒体数据以更快的速度出现。另一方面,大数据为互联网的发展提供了更多支撑、服务与应用。大数据是互联网发展到现今阶段的一种表象或特征,在以云计算为代表的技术创新大幕衬托下,这些原本很难收集和使用的数据开始变得容易利用,通过各行各业的不断创新,大数据价值开发呈井喷式发展。
一、互联网大数据在政府统计中的应用路径
对于政府统计而言,互联网数据主要有社交网数据、媒体数据和搜索引擎数据三种类型。互联网大数据在政府统计诸多专业中都具有广阔的应用前景。如在宏观层面,互联网搜索数据能够为官方统计提供分析、预测与决策支持。
目前,国内最大的搜索引擎百度已与统计部门、交通运输部门、教育部门、旅游部门、工业与信息化部门等官方机构进行了很好合作。这象征着政府部门在利用互联网搜索数据把握宏观趋势、了解民生动态、推动管理创新等方面,开始迈出了实质性的步伐,正在走进大数据共赢时代。
1.经济发展。
传统官方统计按月度、季度或年度统计各项经济指标,以GDP、社会消费品零售总额、固定资产投资完成额、采购经理指数等各项数据来分析经济发展趋势;而互联网企业可以利用大数据来探索和完善各项经济指标,及时有效地反映国民经济运行状况,提高宏观经济监测的全面性和及时性,为宏观经济部门把握经济发展趋势、监控企业景气状态提供分析、预测与决策支持。
2.价格统计。
在CPI统计方面,电子商务交易数据、互联网企业数据都是价格统计的新数据源,这些数据量大、更新快,充分利用这些数据有助于减少调查成本,提高指标发布的频次。应用大数据进行价格统计的实现途径有三种:一是采用搜索方式收集网上交易价格数据;二是与电子商务企业进行合作,获取交易价格数据;三是建立商场、超市、医院等实行电子计价的采价点向统计部门报送交易记录的制度。
3.批发零售业统计。
由于网上电商交易数据的量体非常大、更新速度快,而且在全社会商品零售贸易中所占比重越来越大。因此,充分利用这些信息可以为改善传统的批发零售贸易业统计带来新的思路。
4.人口统计。
传统官方统计投入大量人力物力财力,进行人口普查,可获得数据包括全国和地区人口数量、城市和农村人口数量、人口性别比例、人口地域分布、年龄结构、出生率/死亡率等;而利用互联网,可以快速及时地统计PC端和移动端网民,统计维度包括地域、年龄、性别、学历等,将来还可以根据网民行为挖掘出群体的消费力水平、兴趣点,更立体地洞察人群特征。
5.社会就业。
传统官方统计通过毕业生人数增长情况和劳动力需求增长情况的对比研究就业形势,而互联网大数据通过网民对特定关键词的搜索趋势就可以直观地分析求职需求和就业压力。如可以从“找工作”的搜索指数变动情况来了解求职需求动向,补充人力资源与社会保障部门数据的不足,辅助了解就业趋势,把握就业需求,支持政策调整。
6.医疗卫生。
传统官方统计通过医疗机构数量、诊疗人次等线下数据分析医疗服务情况,而互联网大数据可以利用用户在线行为数据研究疾病趋势。利用网民的疾病相关搜索数据,建立科学的预测模型,动态预测特定地域未来疾病的活跃指数,并呈现每个城市多种疾病的热门医院排名。互联网搜索大数据能辅助卫生部门监测流行病发展态势,提前做好预防措施,监督管理热点医院。
7.旅游管理。
传统官方统计对旅游人数的统计属于事后统计,而基于网民出游前的网络搜索数据,得到网民选择的出行路线,可以预测旅游趋势。通过分析旅游相关关键词搜索数据与实际出游人数之间的密切关系,可以预测各旅游景点未来的人流趋势,进而辅助旅游管理部门预警景点客流,提前准备游客疏导措施。
二、利用互联网搜索数据进行房价统计案例研究
近几年来,政府统计以房地产价格为突破口研究互联网搜索数据的应用取得了初步成果。
房地产业是我国国民经济发展的重要支柱产业,房地产价格走势一直是人们关注的热点,但政府统计部门发布的数据往往具有一定的时滞,不能完全满足大众的需求。利用网络搜索数据对房地产价格走势进行预测,是一种可行而且有效的方法。
国家统计局尝试以北京、上海、广州、南京、沈阳和西安6个大中城市的二手房价格和新房价格为研究对象,以百度搜索指数为数据基础,首先选出了对二手房价格变动影响最大的12个关键词和对新房价格变动影响最大的8个关键词;然后采用交叉验证技术,运用线性回归、回归树、随机森林、Bagging、M-boosting、神经网络、支持向量机和混合线性回归8种模型分别对6个城市的二手房价格和新房价格进行了拟合和预测。
(一)数据描述、变量描述及数据预处理
1.数据描述。
百度搜索指数是以网民在百度的搜索量为数据基础,以关键词为统计对象,分析并计算出各个关键词在百度网页搜索中搜索频次的加权和。百度指数平台是当前互联网乃至整个数据时代最重要的统计分析平台之一。
对于网络搜索数据的获取与处理,主要是基于百度指数这项服务,在百度指数当中输入关键词,就能够获得该关键词自2011年以来每日的搜索量。该搜索量为相对数据,即相对于当日百度总搜索量中该关键词的搜索率。这项功能反映了某一个关键词在某段时间里的关注程度。
2.变量描述。
被解释变量分别是北京、上海、广州、南京、沈阳、西安的二手住宅销售价格指数(以下简称二手房价格)和新建商品住宅销售价格指数(以下简称新房价格),采用2012年1月到2014年7月共31个月的月度同比数据,来源于国家统计局网站。
解释变量是与二手房和新房价格相关的某些关键词的网络搜索指数。按下面三个步骤来选取关键词。
第一,根据人们在房屋购买决策中考虑的主要方面选定初始关键词。具体而言,首先考虑的是当前的宏观经济形势和房地产市场整体走势,此类关键词包括房价、房价走势等;其次由于中国房地产市场受政策的影响比较大,限购、限贷、税费或利率调整等政策变动会对人们的购买决策和行为造成直接影响,因此选取与房地产市场密切相关的政策类关键词,如公积金、房贷利率、购房政策、房产税等;最后考虑的是利用搜索引擎获取大量与房屋本身和交易细节直接相关的各类信息,如涉及房屋本身的房源、二手房、新楼盘、保障房、装修等,涉及交易细节的房产中介、房产网、二手房交易流程、二手房交易税费等。最终共选取15个初始关键词。
第二,利用百度搜索引擎的关键词自动推荐技术,得到与二手房价格相关的101个关键词,与新房价格相关的59个关键词。剔除重复和数据量较少的关键词,组成关键词库。
第三,对数据进行移动平均处理,转化成月度数据,分别计算每个关键词与二手房价格和新房价格的相关系数,检验每个关键词与二手房价格和新房价格的相关性,并据此对关键词进行筛选。
经过多次比较和筛选,对于6个城市的二手房价格预测,最终选取12个关键词,分别是:房价走势、房源、装修、房产网、公积金、房贷利率、房产税、房屋出租、房产中介、二手房、二手房交易流程、二手房交易税费。对于新房价格预测,最终选取8个关键词,分别是:房价走势、房源、装修、房产网、公积金、房贷利率、新楼盘、保障房。
可见,不论是二手房还是新房交易,人们都普遍比较关注房价走势、房源、装修、房产网、公积金、房贷利率,这6个关键词是二者都有的。同时,二手房和新房各自不同的交易特点也决定了其搜索关键词的差异,如房产税、房屋出租、房产中介、二手房、二手房交易流程、二手房交易税费等6个关键词是二手房特有的,而新楼盘和保障房这两个关键词是新房特有的。
3.数据预处理。
为了与被解释变量保持一致,对所有关键词的搜索指数做如下处理:首先根据日搜索指数计算月度平均搜索指数,然后将月度平均搜索指数转换为同比数据,最终得到6个城市所有关键词从2012年1月到2014年7月的月度同比数据。采用同比数据而不是环比数据的原因在于,同比数据更能反映随着时间推移房地产价格以及搜索指数的变动情况,而环比数据的波动相对较小,不适宜构建模型进行分析和预测。
(二)研究结论
在采用的8种模型中,支持向量机和随机森林模型的预测效果最佳,回归树模型的预测效果最差;在二手房和新房价格的网络搜索关键词中,宏观经济形势和房产政策是关注的重点。可见,网络搜索数据不但能够较好地预测房价指数,同时能够得出经济主体行为的趋势与规律,而且具有一定的时效性,预测的月度房地产价格指数能够比官方发布数据提前约两周。具体研究结论如下:
第一,通过运用交叉验证技术在8种模型中选择的最优模型成功预测了6个城市的二手房和新房价格。总体来看,最优模型和线性回归模型预测结果与实际值的走势都基本一致,但是最优模型的预测值与实际值更接近。线性回归模型对大部分城市的预测效果较好,但是对南京的二手房价格拟合度不够理想。
第二,根据6个城市二手房和新房价格的各预测模型验证集的标准化均方误差(NMSE)和均方误差(MSE)结果,在使用的8种方法中,支持向量机和随机森林表现最佳,其次是混合性线性回归、线性回归、Bagging、M-boosting、神经网络、回归树模型。支持向量机表现最好,因为它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合中。随机森林也能够得出较为准确的预测值,因为它可以产生高准确度的分类器和处理大量的输入变量,在决定类别时,评估出变量的重要性,而且在建造森林时,它可以在内部对于一般化后的误差产生不偏差的估计。
第三,在影响6个城市二手房价格的关键词搜索指数中,出现频次较高的包括装修、公积金、房屋出租、房价走势和二手房交易流程。这说明人们在购买二手房时,都非常关注当时的房地产政策和房价形势,同时也比较关注购房后房屋的装修和出租事宜。
第四,人们在进行新房交易时,通过搜索引擎搜索较多的关键词分别是装修、公积金、房价走势和房贷利率。这说明人们在购买新房时也同样比较关注宏观经济形势和房地产相关政策。
三、互联网大数据应用展望
大幅增长的网民规模和飞速发展的信息技术,使得借助网络搜索引擎对社会经济活动进行监测成为可能。一方面,网络搜索数据真实体现大众关注热点;另一方面,大众的关注热点也易受到外部环境的影响,两者间呈现出一定的对应关系。如何利用网络搜索数据使其为国家治理、企业决策乃至个人生活服务,正成为大数据的核心议题。
(一)基于互联网搜索数据构建环保投资景气指数
随着互联网的普及和大数据时代的到来,投资主体和消费主体的购买意图已经体现到互联网上。例如,在投资决策前,一般会通过互联网搜索引擎进行信息收集。而市场主体的这些网上行为与他们真实意图密切相关。如果能够提取网络中的这些有效信息,就可以通过数据间的相关性,找出网络信息行为与某个具体行业相关投资数据走势之间的关系。
因此,可以考虑选取环保产业作为主要预测研究对象,利用互联网搜索数据,联系经济社会发展热点,同时结合现有政府统计指标,构建基于互联网搜索数据的“环保投资景气指数”,并将此指数运用到我国环境管理投资的预测之中。
(二)基于互联网搜索数据构建雾霾与环保出行关联性指数
宣传低碳生活和环保出行理念,改变公众行为,对雾霾天气的改善具有一定的积极作用。如果能构建雾霾和环保出行关联性指数就可以直观看出城市居民在雾霾关注程度及环保出行行为上的表现。
因此,可以利用搜索关键词构建雾霾和环保出行指数之间的关系,揭示城市空气质量指数与公众雾霾关注度及环保出行理念之间的传导机制。首先,选取与雾霾相关的搜索词,如构成因素、形成原因、产生的危害、治理措施及预防等。然后,根据选词搜索数据与我国空气质量指数的相关性,得到选取与空气质量高度相关的关键词。以选用城市PM2.5数据的加权平均值代表全国PM2.5数据的变化趋势。权数为各城市关键词搜索量占总搜索量的比重,加权平均计算合成指数。
(三)基于互联网购物搜索数据测算居民收入水平
住户收支数据是重要的统计资源。作为需求的市场微观主体,居民的互联网购物搜索行为在互联网上有所反映,体现为网络搜索、浏览量等指标的变化。网络搜索内容反映了市场主体的关注点,搜索量则反映了关注程度,因此利用购物搜索关键词的搜索量变化可以对居民收入水平做出判断或预测。从居民家庭消费特征出发,构建出对居民收入记账记录依赖小的收入测度模型,科学辅助数据质量控制,可靠评估收入数据及预测趋势,从而科学指导政府宏微观政策。
当然,互联网搜索数据中不同关键词代表的含义不同,采用科学的方法对关键词进行筛选,选择和统计指标最相关的关键词,并建立适当的模型,还可以辅助测算其他官方统计的月度数据,如住宅成交量、消费价格指数、居民收入、居民消费支出、失业率等。
互联网大数据的应用前景是广阔的,引领政府统计变革是当代政府统计工作者肩负的重任,虽然在改革创新的道路上,会遇到多方面的问题,但是只要不断坚定地、持续地向明确的方向和目标前进,互联网大数据将在政府统计中大放异彩。
参考文献
[1]马建堂.大数据在政府统计中的应用[M].北京:中国统计出版社,2013.
[2]涂子沛.大数据:正在到来的数据革命[M].南宁:广西师范大学出版社,2012.
[3]徐继华,冯启娜,陈贞汝.智慧政府:大数据治国时代的来临[M].北京:中信出版社,2014.
[4]郭三强,郭燕锦.大数据环境下的数据安全研究[J].科技广场,2013(2):28-31.
[5]宗威.大数据时代下数据质量的挑战[J].西安交通大学学报,2013,33(5):38-43.
[6]李庆莉.大数据战略[J].中国金融电脑,2013(7).
[7]孟小峰,李勇,祝建华.社会计算:大数据时代的机遇与挑战[J].计算机研究与发展,2013(12).
[8]王元卓,靳小龙.网络大数据:现状与展望[J].计算机学报,2013(6):1126-1138.
[1]基金项目:国家社科基金项目《大数据在政府统计中的应用研究》(批准号13ATJ004阶段性成果)。
[2]课题组主持人:鲜祖德;课题组成员:万东华、潘璠、许亦频、姜澍、何强、丛雅静、董倩;执笔人:董倩、姜澍。
来源:国家统计局统计科学研究所
微信名:
HadoopSummit
微信ID:
hadoopinchina
中国Hadoop技术峰会是亚太地区举办最早、规模最大、影响力最广阔的大数据盛会。
Chinahadoop.com是China Hadoop Summit的内容网站。
HadoopSummit是Chinahadoop.com的微信发布平台。