数据交易5大挑战:能否避免数据集市沦为数据黑市
在大数据上升为国家战略的背景下,数据交易发展更是拥有了市场和政策的双重机遇。但数据交易发展的机遇与困难同在,比如对个人隐私数据泄露的恐惧、政府和企业对数据开放的态度并不总很积极等问题。我们总结出数据交易、交换和服务发展面临的五大挑战(如图所示)。
数据交易、交换及服务发展面临的五大挑战
数据商品化需要先解决标准化问题
由于数据的应用场景和价值不容易标准化,就如同挖金子的初期一样,真正赚钱的还是卖铁锹的,数据商品化还没有到真正卖金子的时候。数据与工业时代的商品有截然不同的属性,工业时代的商品是实体物品为主,基于一定成本的原料生产后,基于工厂相对标准化的大规模生产模式生产出来;而目前的数据应用水平和程度有限,数据标准化程度很低,无法按照传统的商品销售模式进行销售。同样的数据,在不同的应用场景下也体现出不同的价值。目前数据交易行业的高速发展机遇与内部壁垒的挑战并存,通过技术标准的制订,是建构行业互联互通最基础的必要条件,以此必将规范行业准则、提高产业效率、促进行业持续高速发展。因此数据商品化需要优先解决标准化的问题,否则数据商品化只是无根之木。
可喜的是相关企业已经行动起来,形成一些产业联盟,开始为数据交易制定规范标准。如2015年11月19日,中国数字化营销服务产业联盟正式发布了中国互联网行业首部程序化营销标准,为互联网营销领域的数据标准化打下了基础。
缺乏经过实践检验的有效的数据交易市场机制和运营模型
企业需要盘活数据资产,打破“数据割据”“数据孤岛”的不良发展局面,建立可靠的数据交易市场机制,构建开放的数据流动生态,探索合理的数据交易运营模型势在必行。
一般来说商业公司之间的大数据交易有下列几种:一是两家或两家以上的商业公司,他们从事的服务行业不同,拥有客户的不同方面的信息,通过数据的交易可以增加一方或双方新的价值。
二是商业公司利用爬虫技术获得互联网上的社交数据,借此期望带来新的业务增长点或实行更好的客户服务。
三是商业公司对政府部门的公开信息,进行大数据级别的整合和交互,产生新的商业模式、新业务、或改进客户服务。
四是未来可能会产生的新的外部大数据整合方式,如某商业公司进行大量的对外部弱相关的数据的整合,当总量达到一定规模之后,会产生对业务具有巨大价值的信息。
虽然第三方数据交易平台在各地陆续成立,但实际上数据流通的机制尚不成熟,这种平台目前无法成为主流,尤其是有些地方政府借此进行招商引资,借概念炒作,可能会对大数据发展起到负面作用。
当前大数据交易发展急需一个和平共生的生态环境。当前为了规范交易所成员的数据交易行为,有些大数据交易平台都颁发有相关公约或规则,试图通过自律的方式推进大数据市场的发展,但仅仅靠行业自律是远远不够的。
据了解,工信部日前指导的全国信息技术标准化委员会组建大数据产业“十三五”发展规划编制小组召开专题会议,就大数据关键技术和产业链构成、大数据安全与监管政策及立法、数据开放共享与交易交换等问题做了专题讨论,规划编制组就《大数据产业“十三五”发展规划》(讨论稿)征求专家意见并进行集中讨论和修改。期望能成国家层面有一个数据交易市场机制的顶层设计出现。
数据商品定价和数据资产估值困难
数据本身与工业时代的商品有很大的差异,工业时代的商品经历了上百年的发展之后,已经形成了大家都认同的标准化定价模式,比如基于物权的定价模式,基本上是成本加上品牌定价;而数据产生的边界成本基本为零,显然这种模式不太适用,但从数据加工的成本出发,针对源数据进行加工后再以API或数据集的方式销售给用户。数据作为商品的定价模式目前主要有以下三类:
1)物权定价,这种工业品定价法基本上是成本定价加品牌预价,由于数据产品边界成本是0,所以该方式不太适合,但目前按照数据加工的成本还是有企业在尝试,比如数据堂;
2)知识产权的定价,类似于软件的许可证模式,按照使用权定价;
3)收益定价法,按照用数据的收益来定价,由于数据边际成本为零,每一次用、不同人用数据采用不同算法,数据时间价值跟工业品不一样。
对于数据衍生产品的定价则更困难。目前大多是根据稀缺性进行定价。但这样很难实现帕累托最优和长期的利益最大化。
Intel中国研究院院长吴甘沙在“大数据技术发展的十个前沿方向”一文中将“数据有价”列为第三大前沿方向,指出数据作为未来经济的石油,自身必须有一个特性——价值。数据的物理实质是记录在介质上的比特。比特是可以低成本无限复制的,这就和物品稀缺性矛盾了。物品失去了稀缺性后,其价值也就趋近于零。所以,数据有价首先要确保数据的权利。
数据定价与估值是最具挑战性的研究方向,尚无成熟的研究成果。目前数据的定价有两个依据:一是根据效用,二是根据稀缺性。数据效用简单来说,就是数据使用的频率,也可以理解为从分析结果逆推数据的渊源(lineage),从而量化各方数据对结果的贡献度。稀缺性则是根据数据价值的密度以及历史价格的稀缺性进行定价。项目将围绕稀缺性,以现有的各种商品定价理论为基础,提出适合大数据交易的定价模型和方法,并通过相关数据产品的实践进行验证。
既然是交易,就离不开市场与价值这两个范畴。数据交易也不例外,离不开数据市场和数据价值,离不开数据的商品化和数据的资产化。从数据商品化角度来看,用于交易的对象可分为源数据、数据产品/服务/应用/数据模型、数据衍生产品等,其核心内容是数据服务产品的定价模型与方法问题。从数据资产化角度来看,随着互联网技术的不断发展,数据本身就是资产,数据资产化的主要内容包括确权、价值评估、资产运营等方面,其核心内容是数据资产化方式及数据资产价值评估与管理问题。
数据隐私保护和数据安全仍需加强
随着诸多大数据交易平台的成立,一些业内人士表示,大数据技术本身对用户个人信息保护提出了挑战,在没有相关法律规范的情况下,在更大范围开展数据交易,很有可能使数据集市沦为数据黑市。
从整个社会发展来看,互联网的用户和商家都对个人隐私保护越来越重视,用户的信息保护意识在加强,但个人信息保护相关法规、规范的不完善对于数据交易、交换的发展有很大影响。
总的来看,需要将数据隐私进行分类和分环节进行分析,从数据生命周期来看,采集的人,使用的人,以及中间的交易平台角色不同,进行的数据处理工作也有很大差异,因此应该对不同角色有不同的界定。
在个人隐私保护方面,以阿里巴巴为代表的互联网企业已经进行了很多尝试,阿里巴巴按照对数据进行了安全等级划分,以保护个人隐私数据。但目前法律和实践之间有很大空白地带,应该把企业最佳实践外化为行业自律的路径。
具体到企业不同的环节,不同的角色,应该承担什么责任,最佳实践是什么?对于数据收集者来说,可识别的个人身份信息不离开这个平台,这个是基本原则。然后,尽量最佳实践是做到系统可用和人的不可见,系统机器可以识别,可以定位为某一个人推送广告,但是,内部管理人员看不到个人信息的,也可以引入外部审计做认证确保最佳实践落实。
在数据使用的过程中,不应该加重采集端责任,而且去管使用数据的人。最好使用过程中回避一些引起用户反感的行为,确保用户互动及纠错机制,从使用端寻求最佳实践的方向。
政府与企业的数据开放与商品化动机不强
政府数据开放的进程对于大数据整个产业的发展起着举足轻重的作用,基于政府开放的数据才能使得原本没有关联的数据之间流动起来,产生化学反应,触发数据产业创新的活力。
我国在政府数据开放相关政策法律标准做了有益的尝试,但总体与国际差距比较大,国家和地方都在发力,各自为政,政府数据商业化的政策、法律、标准,需要定义清楚。政府数据产权不清晰以及政府自己数据内部还没有打通是两个问题。
内部数据打通,必须要有交换平台内部驱动力打通。现在虽然无法可依,但有一些司法案例可以参考,例如:百度向搜索“堕胎”的女子推送广告信息,百度被告上法庭,最后判百度胜诉,因为百度并无将个人负面信息泄露给第三方,贵阳大数据交易所模式只是在形成初级产业链,虽然政府开始希望合力打造生态系统,但是,附加值太低了,需要更多数据科学家和数据服务公司加入,形成更多数据价值。
政府数据生态还处在手工作坊式时代,因此有大量机会在大数据相关技术平台、商业发展、政策法规方面。
微信名:
HadoopSummit
微信ID:
hadoopinchina
中国Hadoop技术峰会是亚太地区举办最早、规模最大、影响力最广阔的大数据盛会。
Chinahadoop.com是China Hadoop Summit的内容网站。
HadoopSummit是Chinahadoop.com的微信发布平台。