大数据、Hadoop和Apache Spark初学者的必读书目
要不要使用这个标题,我考虑了有一段时间了,很难坚定自己的想法。但不管怎么说,事实上它表达了数据的重要性的意思。想一想,我们怎么看自己,主要基于自己到底想成为什么样的人。我们对自己的看法,受情绪、人类记忆的新旧程度和局限性的影响。但是谷歌没有这些限制。
业界公司越来越比我们自己更了解我们的生活方式、选择、日常事务。这都是拜存储在智能手机、手环、健身追踪器、消费账单等上面的数据所赐。
但是,我的数据对这些公司有什么好处呢?在我读完下面书单中的一本书以前,我一直这样问自己。Hadoop、MaoReduce、Apache Spark等等技术已经在分析大数据的方式上带来了变革。最新的Spark更是承诺“像闪电一样地快速集群计算”。
这可能是你从事大数据行业最好的时代。我认为,要学习某种思想的核心时,直接读书是最好的途径。本文中,我列出了最适合Hadoop, Apache Spark 和大数据初学者的书籍。
这篇文章的受众人群是谁?
本文是给大数据的初学者看的,我假定读者没有关于大数据的前导经验。
· 推荐给“门外汉”的大数据书籍
· 推荐给技术员的大数据书籍
正如题目看起来那样,第一部分为普通大众介绍大数据的巨大世界。这些书虽然不能教会你一些技术以提升你开发大数据的能力,但是它能够让你理解这个领域。第二部分书是为那些希望从事大数据行业的技术人员准备的。这些书是技术知识中的瑰宝,它能点燃你的事业之火。
推荐给“门外汉”的大数据书籍
The Human Face of Big Data
这本书是Rick Smolan 和 Jennifer Erwitt写的。在这本书里面你将学到有趣的方式来使用大数据来为小孩和老人提供更健康的生活。它由业内著名的作家出版,书中包含十篇论文以及大量的信息图表。本书将人类生活的真实故事和变化与大数据联系起来。我确信,本书将大大增强你的大数据洞察力。
Big Data: A Revolution That Will Transform How We Live, Work, and Think
这本书是Kenneth Cukier 和 Viktor Mayer Schonberger写的。这本书将带你进行一场增加了全行业大数据价值观的世界之旅。这本书将帮助你在未来几年站在定义企业主要趋势的前端。首席科学家、IBM的实体分析师Jeff Jonas说:“这本书充满了对治理信息的新途径的杰出见解并且提出一个令人信服的未来远景。这对任何一个使用大数据或者受到大数据影响的人都是至关重要的。
Datacylsm: Who We Are( When We Think No One’s Looking)
这本书是Christian Rudder写的。他是纽约的一本时代畅销书。我还需要说别的吗?这里简单的说一说。这本书涉及了大数据方面最好的案例以及它对我们生活的深远影响。它介绍了这个世界主要是由数字和数据驱动而不仅仅是人类。这本书绝对是你藏书中必备的一本。
The Signal and the Noise: Why So Many Predictions Fail – But Some Don’t
这本书是Nate Silver写的。它包含一些有趣的并且由统计学,经济学,预测学驱动的案例。它也使得人们在做预测的时候避免常见的陷阱并且为预测提供丰富的知识。这是一本对于科学家,分析师,统计人员以及任何欣赏数据的魅力的人来说必读的书目。
The Second Machine Age: Work, Progress and Prosperity in a Time of Brilliant Technologies
这本书是 Erik Brynjolfsson, Andrew McAfee 和 Jeff Cummings写的。在你开始读它之前,你必须知道它是一本音频图书。这本书带来了未来的一个大的飞跃并且显示了机器和计算机对人类的顽强统治。它定义了工业革命的时代同时也定义了下一个(可能即将到来)。在人类生活的各个方面它提出了一个真实的数字进步的版本。
推荐给大数据技术人员的书籍 – Hadoop
Hadoop For Dummies
这本书是Dirk Deroos写的。这本书通俗易懂同时也是为初学者准备的(正如题目所建议)。它使得读者理解大数据和hadoop的价值。它解释了Hadoop的起源,好处,功能,应用并且使你处理它的时候很舒服。它也让你熟悉Hadoop生态系统,集群,MapReduce,设计模式和更多的涉及hadoop的操作
Hadoop: The Definitive Guide
这本书是Tom White写的。它描述了建立、维护可靠、可伸缩的有用方法和Apache Hadoop分布式系统。它详细的解释了HDFS和MapReduce的概念。当有条理的读这本书时,本书会为你带来收获。虽然初学者初始会觉得很难理解,但是只要你逐章的读你将开始爱上它。
Hadoop Operations
这本书是Eric Sammer写的。正如书名所说,这本书将交给你维持庞大复杂的Hadoop集群的方法。Eric 不仅涉及Hadoop的要领,而且提供一些可以帮助一个人有效地执行这些任务的无价的方法。你会找到专门的章节来讲维护,备份,监控,故障排除等。它涵盖了Hadoop中应该被大数据工程师了解的每一个可能的成分。
Agile Data Science: Building Data Analytics Applications with Hadoop
这本书是Russell Jurney写的。这本书为你提供在企业环境中使用Hadoop来建立有效的分析应用的必要知识。它使用像Python, Apache Pig, D3.js这样的工具来为实例数据挖掘创造一个敏捷环境。这些示例代码可以在GitHub上找到。这本书适用于对数据分析有很好的理解的中间用户。
Hadoop in Practice
这本书是Alex Holmes写的。它可能是hadoop实践方面最好的书籍。它的特点是有85个关于hadoop方面的问答。根据这些问题,你将探索出hadoop方面的隐患以及按照所需求的来学习构建和部署具体方案。这本书不仅仅只是例子,它同样向你介绍了结合MapReduce的方法,而且作者毫不费力地解释了简单英语的复杂概念。初学者对这本书的评价很高。
Professional Hadoop Solutions
这本书是Boris Lublinsky, Kevin T Smith, Alexey Yakubovich三人完成的。此书是提供真正的解决方案的一本详细的解释Hadoop框架和API集成的指导说明。同时它也揭露了 APIs 的内部运作以便于设计师和开发者更好地利用和定制他们。不仅仅是暗示,他告知我们这些代码(Java和XML)应该被使用的最好的脚本。
MapReduce Design Patterns: Building Effective Algorithms and Analytics for Hadoop
这本书是Donald Miner完成的。这本书的读者需要有hadoop方面的基础知识。它最适合那些想要进阶掌握MapReduce算法的初学者。它描述了用hadoop处理MapReduce的各种方法。它包含各种有助于快速解决许多Hadoop的问题的方法。它用一些有趣的例子来概述这些概念。
推荐给大数据技术人员的书籍 – Apache Spark
Learning Spark: Lightning -Fast Big Data Analysis
这本书是由Holden Karau, Andy Konwinski, Patrick Wendell 和Matei Zaharia四人共同完成的。这书最适合刚接触spark的人。它用简单易懂的语言来解释复杂的概念。我给初学者推荐这本书。它教你使用spark内置含有Spark SQL, Spark Streaming 和 Mlib的强大的图书馆。最重要的是,它将使你掌握数据分配和共享变量的主题。
Spark: Learn Spark in a DAY!
这本书是由Acodemy完成的。这是另一本为初学者准备的书籍。这本书涵盖了spark的基础知识以及它的其他相关要素。虽然它足够使你开始spark的学习,但是你也不能期望的太高。它遵循逐步解释深奥的概念和理论这种方法。最后,这本书最大的效用就是教给你使用spark的方法。
Advanced Analytics with Spark: Patterns for Learning from Data at Scale
这本书是由Sandy Ryza, Uri Laserson, Sean Owen 和 Josh Wills四人共同完成的。在你读过上面的书之后,你就自然而然的来到了这本书面前。是时候提高你spark方面的知识了。这本书重点介绍了用spark处理大型的数据分析。除了spark以外,它涵盖了用来教授完美的分析方法的统计方式。这本书中包含了机器学习、统计、Java、Python 或者 Scala的基础知识。
End Notes
在这篇文章中,我列出了一些我认为的在Big Data, Hadoop and Apache Spark方面最好的书籍。这些书对于想在大数据事业上有所成就的初学者是必不可少的。
阅读需要自律和毅力。我曾经也没有。直到我拿起一本书从头到尾把它读完。如果你还没有开始阅读的话,那现在就轮到你来进行了阅读了。上面所列的书单包含带你踏入大数据领域的所有知识。像hadoop和Apache Spark技术在全世界有很大的需求量。尽管企业有数据甚至有技术,但是他们没有能够使用他们的技术人员。
微信名:
HadoopSummit
微信ID:
hadoopinchina
中国Hadoop技术峰会是亚太地区举办最早、规模最大、影响力最广阔的大数据盛会。
Chinahadoop.com是China Hadoop Summit的内容网站。
HadoopSummit是Chinahadoop.com的微信发布平台。