Doug Cutting 在Apache Hadoop诞生十周年纪念时的讲话
原文链接:http://www.cio.com/article/3027631/big-data/apache-hadoop-turns-10.html
本文由hadoopinchina翻译
关于转载授授权
China Hadoop文章,欢迎个人转发朋友圈,自媒体、媒体、机构转载务必申请授权,后台留言“机构名称+文章标题+转载”,申请过授权的不必再次申请,只要按约定转载即可,但文末需放置China Hadoop二维码。
在今年Apache Hadoop项目诞生十周年纪念日上,创始人之一Doug Cutting为我们介绍了Hadoop的起源并为我们讲解了Hadoop未来将何去何从。
祝Apache Hadoop生日快乐!
十年前,也就是2006年1月28日,Doug Cutting和Mike Cafarella从他们的开源网络爬虫项目(Apache Nutch)中分离出分布式文件系统以及MapReduce设施,把它当作一个子项目,并称其为Hadoop。这个子项目是以Doug Cutting儿子的一个大象名字来命名的。
Cutting和Cafarella自2003年以来一直致力于Nutch项目的研究。在2004年,谷歌发表的两篇论文一时间在行业激起千层浪。这两篇文章,一篇是描述分布式文件系统(GFS),一篇是介绍一个能够允许谷歌的工程师写一个只有几行代码但是却能在数千台机器上并行运行计算的执行引擎。当时Cutting和Cafarella正试图建立一个能够处理数十亿网页的分布式系统,Cutting认为谷歌的做法将使得Nutch能够有一个更可行的系统。这些工具将来或许也可以在很多其他应用中使用。
大数据的代表人物
十年后的今天,Hadoop已经是大数据的代名词了,并且帮助形形色色的企业和行业的数据及分析技术改革方面带来了帮助。Cutting目前作为Cloudera的首席架构师也从来没有想到过Hadoop会发展到今天这个盛况。
“事实上,Hadoop能够传播到世界各地这么多的企业让我也很惊讶”,Cutting说。“这只是一个我没有看完全的更大的故事的一部分。所有的行业正变的数字化。这也是公司成长和进步的动力”
Cutting说,他设想Hadoop来帮助网络公司处理大量的数据。并且在今天甚至一些完全没有数字化的企业例如铁道、航线以及医院都已经变的高度数字化。
“Hadoop已经从这一趋势中获益,”Cutting说。“就是对存储和处理这些数据的需求。”
黑客和企业世界的碰撞
Cutting说使他最吃惊的是他在过去十年看到了两种完全不同的软件传统组成。他把他们叫做“企业的传统”和“黑客的传统”。
“在企业传统中,供应商开发并且销售软件给需要的企业,这两个部门几乎没有交集,”这是Hadoop十周年庆生时Cutting写在微博里的。企业软件依赖一个关系数据库管理系统(RDBMS)来解决几乎所有的问题。用户只信赖他们自己的RDBMS来存储和处理业务数据。如果数据不再RDBMS中,那么他就算不上业务数据。
“在黑客的传统中,软件主要运用于那些开发它的同方,比如大学、研究中心和硅谷网络公司,”他写道。“开发人员编写软件来解决具体问题,比如网络流量的路径规划、创造并维护网页等等。我出身于第二种传统,专门从事搜索引擎十多年,几乎没有使用任何一个RDBMS。因为它在搜索整个网络时使用体验很不好,很慢且昂贵。”
2006年的时候,在把Hadoop分离成一个单独项目之后,Cutting加盟了雅虎,获取了十几位雅虎工程师和数千台计算机的支持。
只针对勇敢的开发人员
“十年前,它几乎无法运行,”他说。“你必须是一个非常勇敢的开发者才敢去尝试让它能够工作。”
有着雅虎资源的支持,他们能够在一个相对稳定、可靠的系统中使用经济实惠的硬件商品来处理PB级数据。也就意味着开发人员可以更快更轻松的来构建广告、拼写检查和页面布局的方法等。雅虎内部已经开始使用它,该公司之外的用户比如Facebook、Twitter和Linkedln也开始部署它。一些会成为新的Hadoop生态系统的核心项目,这些项目包括Apache Pig, ApacheHive 和Apache HBase。学术研究人员也开始使用它,Cutting说。
“我们已经达到我最初设想的目标:一个流行的开源项目,它使方便,经济实惠的存储和大量数据分析,”切割说。
被美国主流社会所认可
当然它并没有在那里止步。尽管它缺乏安全性、有着笨重的API这些客观存在的问题,但是它能够支持大批量的计算的特性也使得他能够在Web和学术界盛行,并且最后Cutting被VC看重。
“当时我以为他们疯了,”Cutting说,“因为银行、保险公司和铁路公司从来没有使用过开源软件,尤其是我以前所从事的黑客传统的软件。
Cutting拒绝了。但是VC并没有放弃。在2008年,他们出资成立 Cloudera来为传统企业引进Hadoop以及相关的技术。
“我没有想到的是这个黑客的传统软件会被美国公司以及主流机构所接受,”他补充说,“这就真的需要想Cloudera这样的公司开始填充它的一些空白部分,以便让其可以使用。”这花了Cutting一年时间来了解那些VC所看到的。
“如果我们可以让Hadoop能够被世界五百强企业所采纳,那么Hadoop将有可能改变他们的业务形式,”他说,由于公司正在适应这个技术的世界,从网站及呼叫中心到收银机和条码扫描器,越来越多的数据经过他们的手来传递。”
那些能够采集和使用数据的机构将处在一个能够更好的了解和改善他们业务的位置。这些机构使用的传统RDBMS技术并不适合这项任务。据Cutting所说,他们太过于死板无法支持不断变化和凌乱的数据,无法快速的进行实验。他们无法处理PB级数据。或许更重要的一点是,他们很昂贵,并且花销和采购过程无法匹配工程师使用数据的新思路。但是Hadoop可以解决所有这些问题。
“开源是很神奇的,”Cutting说,“这是软件开发和应用的促进剂。相比其他方式创建的软件,Hadoop为开源软件提供了不公平的优势。人们在使用开源软件的时候可以很轻松。如果公司的工程师想做一些分析,他脑子里应该是有一个实验,他能够访问的数据,或者他需要谈一谈IT方面新的数据库的部署,或者他只是想下载一些东西并且尝试它。”
展望未来
现在,企业和黑客的传统已经合并。在企业的开发软件部门和使用部门并没有明显的分界线。
Cloudera的客户与Cloudera的工程师定期进行合作,并且有的客户直接参与软件的开发。
“没有任何一个软件组件占主导地位,”他说,“Hadoop或许是最古老和最成功的组成部分,但是新的先进的技术每年都有。新的执行引擎如ApacheSpark和新的存储系统Apache Kudu表明该软件生态系统的发展迅速,并且没有控制中心点。用户可以更快的获得更好的软件。
看向未来,Cutting无法说下一个热点软件是什么,但他认为部署模型未来将有大变化。事情正在向云计算缓慢而稳步的前进,这意味着工具需要到更好的支持基于云的操作响应。像Docker这样的容器工具将改变这一切。
硬件的发展也将带来大的变化。例如,英特尔新XPOINT技术结合快闪存储器和DRAM的功能。
“如果你要从根本上改变你所部署的架构的性能和经济性,那么软件也需要改变以适应这些经济性的优势,”Cutting说,“我认为我们将看到很多工具的修改或者全新的工具出现。
China Hadoop大数据研究网:
http://chinahadoop.com/
中国hadoop技术峰会2016北京站报名参会网站:
http://www.chinahadoop.com/signup.php(也可点击阅读原文来了解详情)
微信名:
HadoopSummit
微信ID:
hadoopinchina
中国Hadoop技术峰会是亚太地区举办最早、规模最大、影响力最广阔的大数据盛会。
Chinahadoop.com是China Hadoop Summit的内容网站。
HadoopSummit是Chinahadoop.com的微信发布平台。