百分点首席统计学家王汉生:什么是数据的商业价值?
作者:王汉生
北京大学光华管理学院商务统计与经济计量系嘉茂荣聘教授,博导,系主任;北京大学商务智能研究中心主任;美国统计学会Fellow(2014);国家杰出青年基金获得者(2016)。
在理论研究方面,主要关注同移动互联网以及量化投资相关的数据分析。在业界实践方面,王汉生教授是国内较早从统计数据分析角度关注并研究搜索引擎营销,社交网络数据,以及位置轨迹数据分析的学者。
大家好,我是王汉生
今天跟大家探讨一个问题:什么是数据的商业价值?
为什么要讨论这个问题呢?因为在数据相关的行业中我们看到了太多的困惑。
很多朋友说:“王老师,您看,我们做了一款这么棒的数据产品,数据量这么大,体验这么好,创意如此独特。可是,客户就怎么不愿意买单呢?肯定是客户太low了,数据意识太差了,跟不上大数据时代。我得好好教育教育他,如果我教育不了他,拜托王老师您能教育他。如果王老师您都教育不了他,我就只能期待这个大数据时代能够教育他。”
听到这样的困惑我是什么感受呢?最开始,也非常沮丧,我认为这东西很好啊,客户怎么就看不懂呢?但是,随着时间的推移,我的看法在慢慢改变。为什么?就像老师不能挑选学生一样,在商业实践中,我们不能挑选客户。因此,我们不能把自己数据产品的失败归咎于客户的无知。这样做没有任何建设性意义。一个更加具有建设性的思考是:为什么我的数据产品客户不认可?怎样做才能让客户认可我的数据价值?在这方面有没有可以被归纳总结的方法论?这就是我今天想跟大家分享的内容。
我们一起思考一下,企业靠什么活着?
答:收入!
即使没有现在的收入,那也得有未来可预期的收入。啥子收入都没有,您还敢开店?所以,请大家记住第一个关键词:收入。
第二,企业为了达成收入,需要做什么?
答:支出。
支出包括方方面面。例如:原材料、工资、办公场地、营销活动等等。所以,请大家记住第二个关键词,支出!收入减去支出,就是利润。但是,在资本当道的今天,利润可以暂时是负的,没有问题。
第三,没有任何企业对自己未来的收入和支出是100%确定的,因为这里面有很大的不确定性,而不确定性带来的是什么?
答:风险。
所以,第三个关键词就是风险。总结一下,关于数据的商业价值,我的理论框架非常简单,三个关键词:第一、收入;第二、支出;第三、风险。任何数据产品,如果可以帮助客户,在这三个方面中的任何一个方面,实现可以“量化”的改进,那么这个数据的商业价值就比较容易说得清楚,否则非常困难。就这三个方面,跟大家分别作一些探讨。
第一个方面:收入。
从一个数据从业者的角度,我们可以先检讨一下,咱们的数据产品能否帮助客户带来额外的收入。请注意,这里的关键词是【额外】。客户是卖豆浆的,以前没有你的数据分析,他每天卖100碗。后来呢,有了你的高大上的数据分析之后,每天卖多少?还是100碗!那您的价值在哪里?相反,如果客户开始每天豆浆销售150碗了,那么您的价值就体现出来了。这个价值有多大?就是那额外的50碗豆浆!
这是一个搞笑的案例,严肃一点。我们可以讨论一下:最理想的额外收入应该是什么?我认为是:新兴市场。
例如,五一长假,大家要开车出去玩。然后呢?然后就堵车呗。堵车多郁闷啊?咱能否出一个堵车险?每堵车1分钟,保险公司给你赔付1块钱,补偿一下你那郁闷而又心塞的心情。
这个主意怎么样?似乎不错啊。但是,为什么保险公司不做呢?因为传统的保险公司没有技术手段可以实时监控一辆车的状态。他不知道你是否堵车,更不知道你堵车堵了多久。但是,现在有了车联网数据,这个故事就变了。这就是一个很好的例子:新兴的车联网数据,催生了一个全新的保险产品,带来了一个纯粹增量的新兴市场。如果保险公司是你的客户,他能不开心吗?
再看一个例子:个性化推荐。客户是一个电商网站,他的主页上有一个推荐栏。过去这个推荐栏的转化率是2%,也不错。但是呢,通过我的数据分析,我可以把推荐栏的转化率提高到5%,直接大幅度提高了客户的销售收入。您要是客户能不认可这个价值吗?所以我说,数据商业价值的第一个关键词是:收入!
第二个方面:支出。
有朋友说,王老师,我们的数据距离市场销售端,有点远,不能给客户增加收入。但是呢,我们的数据分析,有可能给客户节约不必要的支出,也就是成本。您看这样行吗?我说当然行啊,而且更好!为什么?因为收入的增加往往具有很强的不确定性,但是成本的控制相对而言却可以做到非常准确。刚才我们说您要开辟一个新兴的堵车保险市场,但是这个新兴的市场到底能带来多少额外的收入呢?非常不确定。
另一方面,您说咱超市现有100个收银员,但是通过技术改造,数据分析,合理排班,发现20个就可以了。直接节省了80个人工成本,这是非常确定的事情。因此,如果数据分析可以节省支出,那我会说:更好。因为这事更靠谱,更加可以预期!
回过头来,看看中国的制造业,体量无比巨大。我的数字也许不是非常准确,但是给大家一个大概的概念。例如:长安福特一年要生产多少量车?百万计。那上汽呢?几百万计。这还说的是汽车呢。如果换成电视机、电冰箱、电脑,这得是一个多么巨大的产量?这么多的设备,上面的每一个功能,每一个按键,都是必须的吗?例如,我的电脑上需要那么多USB接口吗?现在的台式机、笔记本还需要光驱吗?以前我们很难做这样的一个决策,因为我们不知道用户是如何在使用这个设备。但是,现在物联网的兴起,让这样的数据分析正在变为现实,这就是物联网数据的商业价值所在。所以我说,数据商业价值的第二个关键词是:支出!
第三个方面:风险。
还有朋友说,我的数据第一不能直接增加收入,第二不能直接节省成本,但是可以控制风险。这样的数据有商业价值吗?当然有了。事实上,风险就是连接收入和支出的一个转化器。对风险的把控,或者可以增加收入,或者可以降低成本。
看一个具体的例子。很多商业银行都有网上申请系统,允许用户通过互联网直接申请信用卡,或者其他金融信贷产品。为什么要在网上做?因为:流量大、成本低、效率高。但是缺点是风险比较大。有些线下才能提供的材料无法获得。怎么办?那就只能提高在线申请的门槛,降低通过率。这样做的优点是安全,把坏人拦在外面;缺点是错杀了很多好人。而好人之于银行就是客户,就是收入啊。我们为什么错杀好人?因为我们不了解他们,缺乏信任,无法实现风险管控。这是一个非常遗憾的事情。那么机会来了。如果您能够为这家银行提供独特的数据和分析,帮助他更加准确地区分哪些线上申请者是好人,哪些是坏蛋。因此,银行可以放心大胆地给更多的人发卡、放贷,进而增加收入。
这样的数据分析,谁能否认它的价值?这样的价值是如何实现的?是把对风险的把控,转化为收入的提高。同时,因为你风控做的好,所以坏账率就低,还节省了催收成本。看到没,对风险的把控,还可以转化为对支出的节省。这样的数据价值是否清晰?所以我说,数据商业价值的第三个关键词是:风险!
跟大家简单总结一下,我认为:数据的商业价值最可能体现在三个方面。他们分别是:第一、收入;第二、支出;第三、风险。那么,这三方面是否就足够了呢?很遗憾,还不够。还缺最后临门一脚,就是:可以量化的参照系。什么叫做可以量化的参照系?
这里有两个关键词:第一、量化;第二、参照系。
再看一个例子。有人说:“王老师,我们最近给客户做一个客户流失预警模型,准确度75%!”我一听,还挺靠谱。但是,他却垂头丧气,说对方老总很不满意。说这个准确度太差,连90%都不到!我心里倒抽一口凉气,心想:“90%,你咋不上天啊?”
大家看到没,这里的困难在哪里?这里的困难在于客户对预测精度没有一个合理的预期。为什么没有?因为他没有合理的参照系。在没有参照系的情况下,客户就只好参照小学生的考试成绩:认为90%才优秀!这就是你的困惑所在,那么应该怎么做?我们应该给他树立一个合理的参照系。
为此,咱可以摸清楚:客户在没有你的情况下,他自己能做多好?在你到来之前,客户自己是有流失预警得分的,这个得分准确度如何?
你猜怎么着,很多时候,客户自己都从来没有评价过,自己都不知道。你得帮他看看,十有八九惨不忍睹。这时候,你就好回答了。你可以这么说:“某某总,您看,之前咱们这边的精度是65%,已经做得非常不错了(夸奖一下对方)。但是呢,现在咱们双方共同努力,这个精度提高到了75%。为此您可以节省多少不必要的支出,或者增加多少额外的收入,等等等等。”
你看,这样是不是就更有说服力?为什么更有说服力?因为你确立了一个可以量化的参照系。而这个参照系就是:客户现有的系统。如果没有这个参照系,而您又想说明75%的精度是有价值的,是不是无比艰难?
最后总结一下:
我认为要把数据的商业价值说清楚,应该抓住:三个关键词,一个参照系。这三个关键词是:第一、收入;第二、支出;第三、风险。这个参照系要注意必须可以量化。那么,游离在这个理论框架之外的数据价值,是不是就没法说清楚了呢?当然不是了,但是可能会非常困难。
这就是今天的核心观点,谢谢大家!
-
本文版权转载与狗熊会。
-
China HADOOP Summit 2016 上海站将于7月29日30日在上海市召开,现向业界召集演讲。有兴趣的朋友请联系我们。
-
大数据生态系统 大数据安全;存储;YARN;HDFS命名空间等;
-
大数据与工业4.0 电力、电网、能源、炼钢等;
-
大数据与电子商务 国内互联网主流电商企业应用与架构分享
-
金融大数据 银行、证券、个人征信、企业征信、量化投资与大数据
-
智慧城市与大数据 交通、医疗、安防、税务工商、旅游等
-
计算引擎与实时计算 Spark、Tez、Impala、Flink、Google Mesa、 Storm、Fafka等
-
大数据即服务 Azure、AWS、阿里云、Docker/Container、Mesos等
-
NewSQL/NoSQL ·HBase/Druid;MongoDB/CouchDB;VoltDB;SequaioDB;Hana等
-
数据挖掘与图计算 R语言、GraphLab、GraphX、OrientDB等
-
数据仓库与可视化 EBay Kylin、LinkedIn Cubert、QlikView、Tableaue等
-
大数据创业与融投资 分享大数据领域的创业团队和故事