大数据探索-大数据时代的市场研究
演讲嘉宾:张峰
速记整理:李金霏
大家好,谢谢这次会议的主办方提供给我这样一个机会与各位分享一下我们在市场研究领域的一些实践和认识。我先做一下自我介绍。我个人姓名是张峰,弓、长,张,山峰的峰。
我们做大数据的一般讲人物画像,我给自己制作的两个标签,第一个是大数据,第二个是跑步,个人比较喜欢跑步。我来自H&T慧思拓公司,慧思拓是HCR旗下的公司,专注于利用大数据的数据、技术来进行市场研究的一些探索。那么说到大数据从应用的角度讲,其实有很多的方面。那么今天我的分享主要集中在市场研究领域的分析。
在我们讲大数据的时候,大家经常会讲到大数据的技术,包括今天上午讲的很多技术方面的内容。我最近也跟一些朋友在聊,包括一些厂商、著名企业,他们在跟客户交流的时候经常会有一个问题,就是他们和客户之间没有很好的办法进行沟通。这个问题出现在哪儿呢?主要问题出现在两边的沟通的方式不一样,大数据的技术厂商很多去跟用户介绍自己的技术,比如说我有什么样的技术,我有什么样的解决方案,有什么样的处理能力,我可以多么快多么强……但对于用户来讲,其实他们不看好这些东西,最核心的问题是所有数据所有技术帮我们带来什么样的分析和动力。所以我们将的大数据时代更多的是技术与应用的结合。再回到今天我的分享,我会更多的讨论业务方面的应用,技术方面有更多的专家去做分享。
今天我的分享主要分三大块,第一块是数字时代下消费模型的变化,第二块是大数据研究与传统市场研究有哪些差异,第三块是基于我们在过去几年来做的项目给大家分享些实际的案例,希望能给大家带来一些价值。
我们传统的消费模型指导了我们传统的研究思路和模型,我们可以看到传统消费模式整个流程是这样的一种模型:客户从认知到获取知识,到购买然后使用,然后形成忠诚。所以我们对消费者研究也是基于这样一些环节展开的,希望在各个环节影响消费者。在这里我们可以想办法把我们的信息传播给客户,如何给客户在产品的各个环节影响到他,然后在用户使用中产生满意最终让用户对我们的产品、品牌产生忠诚。基于刚才讲的这些流程,我们看到传统的流程可以形成不同的研究领域,比如说传播研究、产品研究、购物研究、使用研究还有忠诚研究,它会产生很多包括产品、方法论等一些理论,我们可以通过这些方式去研究传统消费模型下用户的一些行为,一些态度。
当我们进入数字时代的时候,整个消费模式已经发生了一些改变,我们看到这种改变背后的原因其实是我们消费者在发生改变。比如说我们消费者更多的采用线上的渠道获得产品信息,再通过一些网站、社交媒体获得产品信息,大家更多的在B2C、C2C等线上网站上完成交易。我们看下进入数字时代,整个消费模型发生了怎么的变化?整个消费是从相互感知开始的,然后形成互动、建立沟通,从而产生行动购买,然后在体验的同时我们可以看到整个过程是在从分享开始,然后到分享结束,整个过程消费者一直是参与其中。那么整个过程中,企业可能会向消费者推送内容,在相互感知的同时通过各种渠道了解用户信息,设计各种触点,吸引用户,建立互动,在各种可能的渠道产生购买。比如说在线渠道、APP、微信微商等,最终让用户产生分享,从而影响其他的消费者(购买)。那么针对新的消费模型,我们基于实践、消费理论,形成了我们自己的一些产品,包括HiLife、HiCampaign、HiLife HiNCBS等,这些都是我们基于传统市场模型和对于整个大数据数据、技术分析结合而产生的这样的产品。
传统大数据研究与传统市场研究的差异。这里简单总结了五点,未必是全面的,只是个人的一些看法。这里有五个方面:一是方法论、研究思路的差异,二是数据收集方法的差异,三是数据管理的差异,四是数据分析与处理的差异,五是研究结论的差异。下面我会分别详细地给大家做介绍。
首先来看整个方法论和思路的差异。在传统研究中整个研究其实很依赖研究员,依赖他对一切项目的理解,他会进行整个问卷的设计,包括讨论的设计,因此他需要有一个非常清晰、准确的认识,这样才不会把重要信息遗漏,这对于研究员有很高要求,否则会产生很大的偏差。在我们现在所做的大数据研究中,现在常常采用的方式是会尽量避免对人的依赖。那么怎样的情况下来实现呢?就是通过采集到的文本,直接扔进系统里,直接通过自然语处理方式对文本进行分词、进行统计,形成相应的词频,通过这些再借助于研究员的经验,我们可以很快的搭建我们分析的纬度和体系。可能说的比较抽象,大家可以看一个具体的例子。比如说这是从我们找的关于“饿了么”关键词搜索出来的数据,大家都知道315央视晚会上关于“饿了么”有一些新闻,在这里可以看到相关热词,这些是系统制动处理的结果,。可以看到,跟“饿了么”关联度最高的关键词包括“315”、“药监局”、“立案”、“晚会”、“央视”、“订餐”等等。这里就是按照刚才所示的数据直接丢到系统里,系统来帮助我们做分词、统计,我们可以直观地看到关于某个讨论的主题,跟它关联度最高的都有哪些。当然我们也可以用这种方式处理一些传统的数据分析。比如说我们之前做的一个汽车项目,这个项目每个季度大致有几万条的用户满意度的数据。传统做法需要研究员去逐条地看一下,然后标签,再进行统计。而现在则可以用同样的办法先不管数据是怎样的,把它丢到机器中通过机器自然语言处理,同样可以得到包括词频、关联度等信息。这些信息直接提供给我们研究员,他可以做一些相应的纬度分析。
第二个是数据采集方面的差异。在传统研究中采集更多的是通过线下采样的方式,比如说会设计一些采样方式,如按照地域、用户年龄等各个纬度进行采集。这种采集实际上相对来讲是静态的,只能测量当下的时间点的一个数据情况。另外,这样的采集成本会比较高,尤其对于一些奢侈品,如对于一些豪华车而言,它的数据采集的成本是非常高的。比如一个豪华车车主的样本信息可能需要几千元,而且很难获得。那大数据采集则更多的通过机器的方法,更多通过探索型方式,它可以是一个持续、连续的过程。刚才讲到我们在很多情况下数据采集是个探索的过程,也就是说它并不是一下就完成的过程。比如研究某个产品或品牌,我们可能会做一些分析,但是不知道和品牌相关的因素到底有哪些。我们自己开发的系统,将我们自己采集的数据直接提供给系统,系统再传给我们,输入关键词,系统自动可以给我们提供数据,它就是这样一个探索的过程。和我们的平台和数据相关,数据在哪儿呢?另外,还做了数据的采集的自动化的工具。如我们进行汽车数据的采集工具,在这里可以选择不同的网站,不同的车型,可以自动选择需要采集什么样的数据,系统可以完成这样的数据采集。那么关于大数据中数据的连续性可以再给大家举一个例子。也是最近一个汽车项目,这个项目主要是做趋势研究的,比如说要从过去五年的数据去推断未来5-10年整个汽车行业市场的发展趋势。这时在传统研究中遇到的问题是,如果我们想要研究2012年、2013年、2014年、2015年用户对于车(微型车、小型车、中型车)有哪些满意度或是抱怨。这是在传统研究中很难获取的,因为没有人记得2012年买车时候具体哪一方面满意或者不满意。这时用大数据的采集技术可以获得完整的数据,这个项目中我们大概有几千万个数据,获得有几百万车主的信息,这个数据量是传统研究远远无法达到的。这是项目的一部分内容。我们可以看到,在看不同类别如SUV,还是其他轿车是12年、13年还是14年的问题上,都可以看到整个数据量的发展的趋势。
第三个部分是数据管理的差异。在传统研究中,更多的是从数据量上来讲是很少的,几百、几千条的数据就是比较大的数据,所以一般来讲通过单击,最多是通过一个服务器就可以实现(对数据的处理)。现在来讲,由于我们做这个大数据研究的时候,整个数据量增长是非常大的,所以我们会用到更大更强的系统来支持。
在计算处理方面,传统研究它更多是用方差、比如说均值、回归分析、交叉分析等方式,在大数据里面我们处理更多的是文本信息,所以会用到比较多的像非结构化文本的分析和处理。这里给大家一个例子。比如说这个页面是前面做汽车项目时候建立的系统,这里有2600万条数据。在这个系统中,我们把结构化和非结构化数据统一做一个示例,左边是结构化,如时间、媒体类别、频道等信息;在中间是非结构化分析,文本直接进行检索。还有这张图,是我们把所有数据打了标签,这个数据整个是一个分层的体系,可以看到外边的大圈是所有的数据,之后数据可以再去分配。比如说关于正向信息,如外观,外观还可以再细分为车头、车身等,车头里还可以再细分为大灯等。这样就把数据层次化,层次化后更好了解每一层是什么样的数据,用户到底在讨论些什么。这个是我们用的处理过程中的图,也是汽车的例子。这里有一个简单的工具,也是我们用的,我们可以选择不同的车型,如搜索动力车型,检索很快可以看到12年、13年、14年等每年关于动力大家讨论的内容分别是什么。
关于分析和结论的差异,传统模式更关注于某类行为模式它的场景数据,而大数据关注的则是基于用户个体扩展,这样更容易打通其所有行为场景。分析与结论的第二个差异呢是由于传统模式它本身样本的问题,传统可能更关注群体,大数据由于数据量大,所以相对来讲可以关注到更细的个体。第三点差异,对于大数据来讲可以告诉我们一些方向性和趋势性的东西。比如刚刚讲到的实际汽车行业未来5-10年的现象,那么传统研究更多的是特定识别的信息和结论。
大数据相比传统模式来讲有它的价值,当然它也有它自身的问题(短板)。大数据主要是解决传统研究中一些定量的问题,它更多解决“什么”的问题,解决的是现象的描述。对于“为什么”,现象背后的原因,这时候还要配合传统研究中的定性研究来加以解决。
第三块主要是做的一些案例分析。基于我们之前做的很多的项目在这里给大家简单做一个案例分享。分享之前还是讲一下数据。数据,数据,数据,现在流行说重要的事情说三遍。在我们自己实践中大数据研究基于的还是数据。所以我们在做任何工作之前,要对我们所拥有的数据做一个清晰的认识,我们每一种数据有怎么样的特点,这些数据本身会有怎样的缺陷,存在什么样的问题……这些都是需要我们去了解和分析。通过大数据为企业提供许多业务上的支持。
这里主要通过三方面来讲,分别是受众研究分析、产品态度研究分析、营销分析。
首先我们来讲受众研究分析。我们的客户都有什么样的出门习惯,他们喜好是什么……对于这些问题,基于我们的数据,我们可以做出基础统计信息,如这样的画像:性别、年龄、地区、星座等,当然更多的类似他们出门习惯或者爱好、喜欢什么电视节目等信息(都可以统计到)。第二类是产品态度分析。同样,企业也是需要了解客户对我们的产品有怎样的感受,什么样的评价。基于这些感受和评价,我们将如何去做产品的改良和改进。第一个我们来看一个汽车例子。这里我们有一个凌渡的案例,可以看到,整体正面评论大于负面评论的。正面的评论对汽车外观是非常喜欢的,尤其对汽车的前脸是非常喜欢的。负面评论中,可以看到价格是一个很明显的问题,其次是车的内部空间。第二个例子我们来看一个手机品牌。可以是某个手机特定的品牌,这个手机和同价位的其他手机的对比如何,它的各个纬度差异是怎样的。第三个例子是比如说体检卡的例子。大家对体检卡正负面的评论是怎样的,大家的关注点是在哪儿。第三类要讲的是营销分析。现在来讲,消费者在逐渐转向互联网,这时企业也会把很大的精力放在互联网上,希望通过各种改进影响消费者。这里举一个小米的案例。去年的4月23日,小米在印度发行小米4i这样一款产品,我们看整个小米4i印度发布会互联网的趋势图。4月23号发布,4月24号讨论会有一个峰值,这主要在讨论这个产品发布会本身。到4月27号大家开始讨论雷军的英文,到5月7号雷军和周鸿祎争相秀英语段子。看到大家对英文态度发生了很大的变化,大家可以从数据角度看到到底发生了怎样的故事。接下来这张图是我们整个互联网上微博的一个热点,4月24号时候,小米发布会成为当天的一个热点。这个热点在于讨论发布会本身,到4月25日Bilibili网站就开始有人在讨论雷军的英文问题。到了4月27日,这条发布会又变成当天微博的一个热点,我们看到这当中同样发生了一个变化。雷军也在自己微博中讨论自己的英文问题。到4月30日中午Bilibili网站中一个人,他发了一个Are you OK?在座的专家还有同行有谁知道Are you OK吗?能举一下手吗?建议大家看下这个(Bilibili 网站)还是蛮好玩的。在4月30日晚上8点秒拍转发了这个视频,这张图是我们做的整个微博的一个传播路径分析。可以看到它有很多的传播层级,这个是从一层到八层,可以看到一层二层合起来不到50%,到了第八层还有将近10%的(东西),可以看出微博有着非常强大的传播力。到了5月1日十点,小米公司它自己做的Are you OK 翻唱大赛。后来包括Are you OK 的宣传不断跟进,小米后来也出了两款Are you OK的鼠标垫。去年9月份整个传播量超过了1300万次,到了去年的7月份大家还在讨论这个热点话题,还是再来看Are you OK的那条链接,去年的10月2日点击量是262万,去年的10月13日是274万,这个(3月16日)是我前两天又更新的数据是372万,所以可以看到这个热点还在持续。
这次我的分享主要就是这些。我们从受众研究分析、从产品态度研究分析、从营销分析三个方面简单介绍整个大数据在市场研究中的案例,希望对大家有所帮助和启发,谢谢大家。本文相关PPT与音频下载请点击【查看】。
-
本文版权由CHINA HADOOP大数据资讯网与演讲者共同拥有,转载请保留原文来源链接及公众号信息,违者必究。
-
China HADOOP Summit 2016 上海站将于7月29日30日在上海市召开,现向业界召集演讲。有兴趣的朋友请联系我们。
-
大数据生态系统 大数据安全;存储;YARN;HDFS命名空间等;
-
大数据与工业4.0 电力、电网、能源、炼钢等;
-
大数据与电子商务 国内互联网主流电商企业应用与架构分享
-
金融大数据 银行、证券、个人征信、企业征信、量化投资与大数据
-
智慧城市与大数据 交通、医疗、安防、税务工商、旅游等
-
计算引擎与实时计算 Spark、Tez、Impala、Flink、Google Mesa、 Storm、Fafka等
-
大数据即服务 Azure、AWS、阿里云、Docker/Container、Mesos等
-
NewSQL/NoSQL ·HBase/Druid;MongoDB/CouchDB;VoltDB;SequaioDB;Hana等
-
数据挖掘与图计算 R语言、GraphLab、GraphX、OrientDB等
-
数据仓库与可视化 EBay Kylin、LinkedIn Cubert、QlikView、Tableaue等
-
大数据创业与融投资 分享大数据领域的创业团队和故事