数字可视化在中国的发展(文字版)
主讲人:帆软软件副总裁 徐研
整理人:卫柏仰
其实大家可以看到我比较年轻,相对刚才上台演讲的刘总我站的高度也许没有那么高。但是我会尽我最大的努力把中国的数据分析可视化的历程毫无保留的分享给大家。起初我在收到China Hadoop Summit峰会邀请的时候,我的心情是非常忐忑的。因为虽然在数据分析的行业,我有八年的工作历史,但是我始终还是不能很形象地描绘出Hadoop和数据分析之间的关系。当我那天收到邀请的时候,我正好和我们公司几位做研发的,做产品设计的同事一起吃饭。我当时就问他们,你们帮我去评论一下大数据分析和Hadoop到底存在一个什么样的关系,形象一点,生动一点。他们有人说数据分析是Hadoop的价值体现者,企业运用Hadoop其实就是为了更好的进行数据分析。其实我觉得这些答案都不够形象生动。直到我们公司有一个同事,他说了这样一句话:Hadoop和数据分析就好比是男人和女人的关系。没有了女人,男人即使再风流倜傥,英俊潇洒终究很难获得成功,因为每个成功男人的背后始终会站着一个女人;相反,如果没有男人,女人再有闭月羞花沉鱼落雁之貌,注定会孤芳自赏一生孤独。这是他用很形象的话描述出了Hadoop和数据分析的关系。可以发现其实两者还是相依相存共同互补的。其实今天的主题分享并不应该是我代表我们公司来做,因为平时出去对外出去演讲都是我们公司的创始人陈炎先生。想必这个发言稿其实在座的一些同仁已经听过我们公司的创始人陈炎先生讲过原稿。我只不过在他的原稿上做了一定的修改。对于我个人的介绍其实也没有太多,因为我没有在外企几年镀金的经验,我也没有世界某权威机构评出的大数据行业的领军人物或者排名前几的数据科学家,我能做到的就是在这短短的三十五分钟内把我在帆软的这八年时间所看到的数据可视化在中国发展的历程毫无保留的分享给大家。下面开始我的分享。
我今天分享的主题是数据可视化在中国的发展。下面是这两本书(《激荡三十年》《大败局》)这两本书是很好的,我推荐给大家。这两本书是近代中国比较有名的财经类作者吴晓波,吴先生写的。这两本书其实在当时非常畅销。具体畅销的原因我总结有两点:一个是读史可以预测未来,这两本书其实写了很多中国企业的发展史。第二是这两本书中还有很多中国特色的企业的干货。所以对于近期有创业打算或者是有大数据创业计划的同仁们,我建议把这两本书读一下。另外我们IT界还有一本好书,是著名作家吴军写的《浪潮之巅》。这本书确实比较好。我在这本书中更多的读到的是国外的一些巨头的发展历程,国内的巨头我只读到了BAT。自从新媒体营销开始逐渐火热,现在中国有一个B2B类的社群叫崔牛会。在坐的各位有些应该是在崔牛会的社区里面,通过崔牛会经常推送的文章我们可以看出来很多中国B2B企业的发展历程。
数据可视化发展,我大概总结为四个时代:先计算机时代、计算机读表时代、计算机读图时代、以及现在的大数据时代。这位老先生名叫陈正祥。很不幸的是这位老先生已经过世了,享年81岁。在我们来看,他其实是对于数据分析可视化行业的一个先驱。因为陈正祥老先生刚开始研究数据的时候,并没有计算机。他是研究地理的。陈正祥是中国地理学界的第一人。他一生致力于地图,绘图,主张用地图说话,用地图反应历史,用地图对各国的政治、经济、文化、生态和环境的影响进行描述。其实现在我们很多企业在分析销售,或者是分析一些分公司的经营状况的时候,也会用到对应的地图进行分析。陈正祥先生为什么喜欢用地图进行分析?因为他认为有一些长篇大论说不清楚的现象用地图说明就可以一目了然。所以公司如果涉及到全国都有分公司,如果涉及到每年年会会写一些报告之类的,建议大家可以用地图,按照热点的形式把销售额或者其他的一些指标进行全国各点的摆布。
下面是陈先生具体的两个数据可视化的应用。这一张是诗人分布图,可以看到这两个图表很好的说明了一个问题。在唐代的时候,中国的诗人大部分集中在黄河流域。但是到了宋代,中国的诗人逐渐向长江流域迁移了。主要的原因其实我们可以很好的归结为这两个:一个是当时唐宋交接的时候,长江流域开始种植了水稻,人民生活的更加滋润。同时唐宋交接的时候,尤其是唐朝末期,北方战乱频繁,所以导致诗人移居到长江流域。
另外,这是一张陈先生分析的蝗神庙。古代人建蝗神庙其实就是为了防止蝗虫的骚扰。可以看到这是两张典型的中国地图。通过散点,陈先生用两条等频率线,将散点比较密集的地方划分为两个模块,一个是A模块,一个是B模块。对于A模块来说,由于散点比较集中,在A模块等频率线范围内受蝗虫灾害侵扰的次数是比较高的,为十年会发生一次。现在这个A区域应该在中国的大连以及胶东沿海。A区域到B区域由于散点分布的比较疏散,所以陈正祥先生认为他们的蝗灾的次数大概为十年到十五年一次。
随着计算机逐渐的普及,企业的数据量逐渐的增多,越来越多的企业开始想拥有一些工具进行数据分析,意思就是从数据库进行抽数,然后进行展示,从最早的excel到现在比较专业的报表工具。我们现在先撇开excel不谈,因为现在有好多专业的报表是excel无法去制作的,我这边仅仅是说了一下一些专业的报表工具。首先登场的是水晶报表。在座的有很多技术大咖用过水晶报表,也是水晶报表在中国最早的一批试用者。随着C++在全球的兴起,水晶报表被带入了中国。但是它在刚进入中国的时候明显就发现有一些水土不服。为什么?因为水晶报表的格式是以条带状展示为主的。但中国的报表格式大多是以表头,横表头,纵表头,不固定的这样一种复杂报表为主。所以表格的形状决定了水晶报表其实是无法制作中国很复杂的报表。后来水晶报表大家也知道是被BO收购了,再过几年BO被SAP收购了。下面登场的是华表。华表是在1999年研发的。华表的研发团队要求研发人员运用C++的技术把excel重新写了一遍。其实当时这个很好的解决了复杂报表的问题。但是带来一个很大的缺陷。因为是重写代码,所以每次当报表的格式格样发生固定改变的时候,开发人员都需要写大量的代码,很不方便去进行维护。所以华表其实在中国诞生的那几年发展的速度也不是很快,后来被用友报表收购了,改名为用友华表。但是在2010年的时候已经不怎么维护了。现在华表是被并入了用友报表的UAP这样的平台中。1999年其实是一个很神奇的年代,很多报表公司都是在1999年成立的。在1999年美国两位华人从贝尔实验室离开之后,创立了一家叫思达的公司,开始做思达报表。思达是中国第一款java和web端的一个报表工具,当时也需要写大量的代码。这个公司前几年的销售业绩其实是非常好的,但是由于创始人比较技术的原因,不懂得公司人员如何分配,这个公司的人员动荡还是比较厉害的。一度退出了中国市场。但是现在思达报表在中国还是有一定的用户的。到2000年,润乾报表和帆软报表先后登场,润乾报表在座的各位其实有很多人都用过,他的创始人是清华大学的数学系高才生,国际奥林匹克数学竞赛金牌奖的获得者,姜先生创造的。润乾报表为什么很火?它当时创新性的把关系型SQL理论和excel扩展单元格绑定在了一起,是中国首款不需要写代码就可以制作复杂报表的工具。但是润乾在现在遇到一些小麻烦,现在润乾的版本是V5.0。从V5.0的时候,也就是说润乾正式的把设计器从CS端搬到BS端之后,我也没搞清楚什么原因,他们把上海的分公司和广州的分公司撤掉了。目前公司的人数,据我们了解,已经不是很多。但是从智联简历的搜索库中我们发现会润乾报表技能的人还是很多的。所以润乾报表在中国市场来说还是一股不容小觑的力量。紧随其后的就是我们的帆软报表。我们是依托南京大学和东南大学的研发力量,也是在2001年的时候快速跟进。我们主要是对于中国式复杂报表除了不用写代码,另外创新性的利用中国式填表来解决数据采集的需要,并且进行了一些控件和图标之类的改革创新,首次把中国数据可视化厂商的销售额带到了以亿为级别的这样一个公司。
计算机读表时代其实还可以演化成另外一个分支就是表格可视化分支。表格可视化分支就是为了解决左表头和右表头不固定的问题。首先看右边的这张即席报表。即席报表顾名思义就是根据向导来做一些分组报表,交叉报表和简单的统计报表。其实很多报表厂商都带有这样即席报表小功能的,就是我们常见的BS端设计器。但是当投入到市场应用当中我们发现用户不愿意用报表厂商自带的即席报表功能的。因为提出即席报表功能需求的用户大部分是企业的业务人员。他们更加熟悉excel,更想去通过excel导入明细数据,用excel透视表去做报表。所以即席报表的市场在中国并没有打开。对于OLAP分析,典型的鼻祖就是IBM的Cognos。随着大数据时代的来临,内存计算和列存储逐渐开始普及,所以近来一些本土的大数据厂商大有弯道超车的趋势。计算机读表时代结束之后,人们对于分析的表格表样的要求更高,随之而来便进入了计算机读图时代。
计算机读图时代大概分为三个循序渐进的时期。第一个时期其实还是以表格功能为主的可视化分析厂商,他们提供了收费的或者是不收费的读表插件。用户只是利用读表插件来解决最核心的基本需求,比如经常用到的饼图、柱状图、折线图和组合图。发展到第二个时期的解决方案就是以图表为主,基本上全部都是图表的图形化的厂商。比较有名的是在java时代,我们用的很多的是jfreechart,在flash时代我们用的很多的是fusioncharts。在HTML5时代,百度的echarts很受大家欢迎,当然它是一个免费的工具。由于百度的echarts在中国的占有率很高,基本上把国外的highcharts赶出了国门。到第三阶段就是以图表为主,少量的表格为辅的可视化分析工具。比较典型的就是美国的tableau,tableau的图形化主要体现在地图和很多数据可视化的效果。Tableau公司在创立的前几年他们只做了一件事情,秘密的帮美国军方开发了七年的地图管理系统。所以现在tableau的地图模块做的非常强大。当然了在中国,tableau发展的也非常快。这得益于中国传媒大学的沈浩教授。沈浩教授从tableauV3.0开始就作为tableau中国籍种子用户,一直在推广tableau。现在沈浩教授自己也在经营公司去代理tableau。所以大家以后有tableau需求可以去找沈浩沈教授。从计算机读图时代我们可以看到,对于数据可视化分析来说,图表对于数据可视化非常重要。如果把数据可视化比作一个人,那么图表至少是相当于这个人的手和脚。但是我给大家提两个建议,对于现在正在使用开源的数据可视化分析厂商,我想问的是,万一哪天开源收费了,怎么办?所以希望大家抱着对用户负责的态度。对于用flash的厂商,我也想提示大家,为什么H5时代echarts能代替fusioncharts,这是我们大家都值得去思考的问题。帆软现在专门成立了一个图表化研发小组,我们正在开发属于帆软自己的H5图表,免费的供大家进行调用。
读表时代,读图时代过去,我们就由IT时代进入了大数据时代。大数据时代其实有两个典型的可多样性的变化。一个是多样性的大数据,主要体现在,传统的数据时代其实还是属于传统企业都是小数据。那现在在大数据时代,我们可以发现传统的小数据变为传统的小数据和现代的大记录数据的结合。那对于数据化的结构或者说结构化的数据来讲,传统的时候就是纯的结构化的数据。到现在大数据时代下,结构化数据和非结构化数据共同主导的数据结构。那新的技术方案诞生了,内存计算和分布式计算取代之前的ROLAP分析和MOLAP分析。
当然了,大数据时代不仅仅是对数据量数据结构以及计算实现方式产生的变革,更多的是对企业的管理产生了变革,体现在大数据管理的多样性。大数据模式下,传统的企业管理势必会造成中央集权下的数据消化不良。领导想看一张报表或者一组数据分析,按照传统的方式,信息部分要反复的调研需求,也许要过两个星期三个星期才能拿出来。所以针对这样的现状,企业势必会下放一定的数据制作权限给到业务部分。于是管理模式也是从原来的金字塔式向现在的扁平化过渡。于是更多的业务人员或者是中层管理人员有了决策权。用人权,分配权,就产生了很多个性化的数据可视化分析。对于数据分析的报表制作也是受到了大数据时代的影响,数据可视化制作部门从原来单纯的以信息部门为中心,变成信息中心负责规划,业务部门负责制作。
大数据时代可以推荐几个厂商给大家,一个是美国的tableau,一个是大家知道的QA,左边的这幅图是gartner2016年最新的BI魔力象限报告。这边有几个很有趣的现象。第一个现象,大家可以看到在领导者象限,可以发现新型的BI工具都处于领导者象限。我看到了tableau,看到了click,这是一个比较好玩的现象。第二个现象,在2015年BI gartner发布BI魔力象限报告的时候,第二象限是有两位国际厂商的。但是在今年,在挑剔的gartner分析师的眼光中,世界上没有一款真正的数据分析可视化工具能够进入挑战者的象限。第三点,在2015年gartner发布的BI魔力象限报告当中传统的三巨头SAP的BO,Oracle的 BIEE,IBM的Cognos都是身处于第一象限的,领导者象限。但是在今年SAP和IBM还是保持住了自己的位子,但是oracle的BIEE已经完全跌出了第二象限,甚至是基本象限都没有保住。所以这张图希望能够引发大家的一些思考。传统BI会成为未来的主流还是新型BI会成为未来的主流。Tableau为什么这么受国外分析师的推崇,我总结了一下,tableau其实就是改进了水晶报表的制作方式。它采用了desktop布局,再加上很多数据可视化的分析效果,使得在大数据时代,它极简的操作效果让业务人员能够快速上手。其实click和tableau公司差不多,产品也差不多,我就不多做介绍了。在中国,百度指数是可以很好的反馈一个厂商或者一个技术在中国的受欢迎程度或者是受关注的程度。我们通过百度指数,发现tableau在百度上的指大概是在740左右,click view在百度的指数大概是在420左右。但是我们发现,我们公司的产品,不论是FineReport,还是FineBI,在百度的指数有532。所以这引发了我的一个思考,tableau七百多的指数,click view有四百多的指数,他们能够进入gartner魔力分析象限,为什么帆软不能,为什么老外眼中的所谓很成熟的数据可视化工具不能列入中国厂商的名字,所以今年我们也会全力扩大市场,继续增大市场份额,争取明年在gartner2017年发布的报告中能够拥有帆软的logo,帆软能够代表中国行业第一次站到国际的舞台上。
对于未来会处于那个时代,说实话,我自己真的也不能给出很好的建议。从刚才四个时代,大家可以发现没有出现哪个时代可以取缔哪个时代,我可以总结一条规律,在未来的时代中,必定还会出现,中层人员更倾向的是表格、更倾向的是查看;高层人员更倾向的是图表;业务人员、传统行业信息化更倾向的是IT主导;互联网行业更倾向的是业务部门的主导。最后在未来处于哪个时代当中我分享了四点,这四点是帆软从创业到现在归结的四点误区。我现在提供给大家,希望能降低大家的试错成本。
第一,大家在选数据可视化工具的时候不要考虑只为中高层服务。很多企业花大价钱只给企业最高管理层做领导价值仓。看起来很“高富帅”,但是做了之后却发现假大空,谁都不能保证数据是正确的。第二,我很反感这样一句话,“人人都是分析师“。在中国企业,百分之八十的人更多的是希望成为报表的分析者和查看者,而不是制作者。看报告的滋味当然很爽,但是作报告的滋味不是人人都能尝得到。所以这些人踏踏实实做好当下的工作其实要比天天想着改变世界要好。当然这里纯的创意公司或者纯的互联网公司可能例外。纯的互联网公司可能会发展人人都是分析师这样一个口号。第三,买工具不要贪大贪全,特别是国产工具。因为在中国知识产权的环境里面,国外开源任我翻译,国内同行任我侵权,产品便宜和功能多的奥妙就在于此。企业在上数据管理和可视化软件的时候,不要仅仅只为了管控。更多的从服务员工,为员工带来便利的角度上去思考。
前面做了很多公益广告,下面花很短的时间帮我们自己打一下广告,这些东西其实都不是很重要,因为帆软创立了十多年了。而且我们也没有投资人我们也不接纳职业经理人。大概从01年到06年正式成立我们的销售业绩大概是这样的。用一句话概括我们公司,我想用这样一句话比较好。我们是一群平均年龄只有28岁的年轻人,创造着每天100万人正在使用的数据可视化分析产品。帆软提供了两种工具,一款是FineReport,一款是FineBI。简单的来说,FineReport更多的应用于技术人员,快速上手,制作一些复杂报表,制作一些填报式报表。对于FineBI更多的是让业务人员进行自主分析探索式的BI服务,主要使用的场景是遇到大数据量,遇到业务人员自定义分析报表或者是一些OLAP分析报表。对于FineReport和FineBI,我们深刻调研了一些用户,也走访了一些CIO。如果能够使用恰当,是可以对企业的数据分析需求进行全覆盖的。
下面是一些案例,因为时间有限,我就不着重给大家分析了。总而言之,FineReport也好,FineBI也罢,都是一种工具,大家通过很短的时间就可以快速上手,大家想做什么样的分析都可以用这两个软件快速的制作出来。
光有产品也没有用,帆软也在打造自己的生态,虽然不能像小米那样做的那么火,但是帆软生态从2014年正式开始搭建,目前来说有四万多注册用户,每天大概会有5300位活跃的番薯会员。同时,2016年我们布局了四大方向,一是完善文档,二是发展完善开发者联盟的工作,三是邀请帆软的一些爱好者和图表组一起去开发新的图表计划,四是我们帆软也会设计一些大讲堂,会去重点打造一些类似于YY,虎牙直播等等比较有名的直播平台,帮助大家额外创造收益。这四点总的来说都写得比较笼统,我总结一句话,从去年的情况来看,一个核心的番薯,也就是帆软的爱好者,我们简称番薯。一个核心的番薯大概能够有五位数的收入,部分最最核心的番薯五位数的第一位数字是三或者四。所以,虽然现在不能给大家承诺更多,但是帆软就是想分出一部分利润给那些真正的去想改变数据分析进程的人。
在演讲的最后我送给大家一句话,这句话是之前帆软的一个客户送给我们的,至今我们遇到困难和挫折的时候也会这样勉励自己。艺术的大道上荆棘丛生,常人望而却步,只有意志坚强的人例外。
-
本文版权由演讲者与China HADOOP大数据资讯网共同拥有,转载请保留原文来源链接及公众号信息,违者必究。
-
China HADOOP Summit 2016 上海站将于7月29日30日在上海市召开,现向业界召集演讲。有兴趣的朋友请联系我们。
征集但不限于下列内容:
- 大数据生态系统 大数据安全;存储;YARN;HDFS命名空间等;
- 大数据与工业4.0 电力、电网、能源、炼钢等;
- 大数据与电子商务 国内互联网主流电商企业应用与架构分享
- 金融大数据 银行、证券、个人征信、企业征信、量化投资与大数据
- 智慧城市与大数据 交通、医疗、安防、税务工商、旅游等
- 计算引擎与实时计算 Spark、Tez、Impala、Flink、Google Mesa、Storm、Fafka等
- 大数据即服务 Azure、AWS、阿里云、Docker/Container、Mesos等
- NewSQL/NoSQL HBase/Druid;MongoDB/CouchDB;VoltDB;SequaioDB;Hana等
- 数据挖掘与图计算 R语言、GraphLab、GraphX、OrientDB等
- 数据仓库与可视化 EBay Kylin、LinkedIn Cubert、QlikView、Tableaue等
- 大数据创业与融投资 分享大数据领域的创业团队和故事