数据科学家的新年新计划
介绍
新年的到来,不仅仅意味着你换了一个新的台历,或者只是早上起来揉揉眼睛;它是对新的开始的庆祝,它为我们下决心养成一个新的习惯提供了完美的理由,它标志着新希望的到来。
如果你正在读这篇文章,我敢肯定,数据科学触动了你的G点!你想让2016年变成一个能够改变规则的一年吗?今天,如果你敢于做出这些决策,那必将实现你的愿望!不过你得明白,成为一名数据科学家是一个过程,而不只是一个结果。想达成这一愿望并非一朝一夕就能完成,你需要持之以恒的朝着你的目标前进。
我分享了一系列的决策,每个数据科学家都应该添加到他们的日程中去。当然,它一个通用的列表,你需要根据自己的需求来做出调整。我还提供了一个可以下载的清单来追踪这些目标。
注:对于一个有抱负的或者有经验的数据科学家来说,这些决策是通用的。本文对别的领域的分析人员的用处不大。
一个数据科学家2016年的新年新计划
我根据数据科学家的三个不同层次来划分这些决策,你自行决定哪一类最适合你,对你最有用。一旦你完全完成你这一个层次的目标,你就可以进行下一个层次了。我在文章中也列出了能够获得的最好的课程。为了获得最佳的收益,我建议循序渐进的学习这些课程。如果你依然觉得它很难,欢迎与我探讨,我或许可以给你提供其它的方案。为了方便,我也在下面提供了一个可下载的清单。
新手级别
什么样的人是新手?——新手指那些对分析和数据科学完全没有接触过的人。假如你不知道这个产业怎么运作的,不知道这个领域是不是符合你的职业发展,那么你就是一个新手。那么这些课目就是你所需要的。
1. 学习一种编程语言:R语言和Python语言二选一
我曾经看到过有学生试图同时学习R语言和Python语言。最终,他们一无所获。这是一条死路,你必须努力让自己深入的研究R或Python的一种。这两种语言都是在计算机业界被广泛使用的开源工具。Python被广泛的认为是最简单的语言;R语言则依然保持着最受欢迎的语言地位。选择何种语言由你自己决定。这两种语言都一样的好。
课程活动:
Codecademy(https://www.codecademy.com/learn/python)上有完整的Python教程;DataCamp(https://www.datacamp.com/courses/free-introduction-to-r)上有完整的R教程。关注http://www.chinahadoop.com,随后我们也会在网站上提供相应教程。另外,春节后,chinahadoop.com还会根据国内的情况适时推出合适的线下培训课程。如果你是R语言或Python的资深人员,请通过微信与我们直接联系。
2.学习统计与数学
统计与所有的假定和级数相关。在数据科学领域里,离开统计和数学你将寸步难行,它是数据科学家骨子里的东西。如果你的数学很弱,那是时候改变这个状况了。一旦拥有强大的统计技术,代数知识和概率知识,你做事的时候会很得心应手。在这里,我推荐几个国外网站的资源:KhanAcademy, Udacity,上面有许多关于统计方面的极好的并且可用的资源。如果你安装了这些APP
(http://www.analyticsvidhya.com/blog/2015/12/18-mobile-apps-data-scientist-data-analysts/),那么你立刻就可以开始学习了。
课程活动:请关注chinahadoop.com微信公众号,春节后将适时推出。
3.开始一个在线开放课程(最困难的)
在线的海量开放课程是你可以自由地访问和学习的地方。但是它也是最困难的部分,因为学生往往倾向于同时加入和学习多种课程,但是最终一无所获。因此,你必须专注于一门课程,并在进行下一步前完成它。你可以关注chinahadoop.com马上要开放的在线课程来进行课程的学习。
课程活动:春节后chinahadoop.com将推出适用于R的完整的数据科学专业课程和关于数据科学的Python教程。
4、积极参与行业活动拓展人脉
你需要知道行业里面发生了什么事。我们生活在一个多变的世界。一夜之间可能天翻地覆。今天盛行的技术明天可能就过时了。你必须和有经验的教授、行业的专家交谈来充实你自己。所以,你需要开始参与讨论、聚会、关注博客、加入群组以及阅读书籍。chinahadoop将联合业界行业资源,不断举办各种讨论、聚会、meetup、大型会议等活动。
中级水平
什么人处于数据科学家的中级水平?——如果你已经完成了前面的阶段学习,在使用机器学习的基础知识进行新尝试,并且能够使用已获得的知识建立预测模型,那么你就拥有了一个中间水平。完成这个水平的学习需要巨大的决心和长久的练习。你准备好迎接这一挑战了吗?
1.了解并建立你的机器学习技巧
机器学习是数据科学和技术的未来。所有专业的公司都斥巨资来雇佣具有这种技能的人。毫无疑问,这是个巨大的需求。这对你来说是一个跳出这种情形的最好的机会。这一年,你应该更深的挖掘机器学习如主回归,聚类,深度购物车。
chinahadoop.com将推出与机器学习相关的课程。
2.关注Ensemble和Boosting算法
一旦你机器学习感觉学的很好,那么就去建一个新的模型。你使用Ensemble和Boosting算法做的模型的精度比其他算法要高得多。本主题将涵盖上述共享的资源。但是,在你征服这个难题的时候你得保证你自己很了解。
推荐课程: 阅读KaggleEnsembling 指南(http://mlwave.com/kaggle-ensembling-guide/); MITLecture(https://www.youtube.com/watch?v=UHBmv7qCey4)有完整的Boosting算法教程。
3.研究Spark、NoSQL和别的大数据工具
这一年,你可以开始大数据的旅程。考虑到一个事实,即大数据专业人才的需求正在涌动,你必须学会Spark,它最近普及度在逐步上升。很多人认为大数据的未来在于Spark。他被当作工具来广泛地处理和操作大数据。通过使用Spark,从而把你的专业技能延展到NoSQL、Hadoop上。
推荐课程:Takeyour first step with Spark(http://spark.apache.org/screencasts/1-first-steps-with-spark.html)。Chinahadoop.com也将推出国内的spark相关活动。也欢迎其他第三方提供spark活动的机构联系我们。
4.教育社区,培育社区
有什么能比分享知识更好呢!这一年,你应该与那些努力学习数据科学知识的人分享你的心得。欢迎加入chinahadoop.com的数据科学微信讨论群,解答他们的疑惑,介绍有用的技巧和窍门给他们。你可以在身边的圈子中来主导一个聚会。
要做的事:加入chinahadoop.com的大数据群,请直接通过微信公众号跟我们联系。
5.参与数据科学竞赛
用时间来检验你的知识。这一年,你必须参加竞赛,它会让你知道你的短板和长处;此外,你已经获得的知识会让你变得自信。我希望你在Kaggle 500强的数据科学家之列。现在,你的目标应该是成为坚持到最后的一个人。
高级水平
我不需要定义这一类的人。这些人了解的数据科学是大多数人都不敢去尝试的,他们已经达到了一定的水平,生活舒适,随和。但尽管如此,他们喜欢挑战。他们是经验丰富的专业人员。
1.建立一个深度学习模型
如果你有志成为数据科学家的话,那你必须找一个人作为自己的榜样。你必须要求自己尝试在深度学习方面的模型构建。全世界的人都在使用它进行预测。这是机器学习的最高水平。精度明显高于普通的机器学习模型。
课程活动:
Tutorial(http://deeplearning.stanford.edu/tutorial/)上完整的深度学习的教程。
2.回馈社区
我认为知识是分享而不是存储。你分享的越多,你学到的也会越多。有个说法:“如果你学习了一个新的概念,解释给你的两个朋友听,那么你记住这个概念的时间会很长。”你必须用你得知识和经验来帮助数据分析社区chinahadoop.com里面的人。这将使得在这个领域中努力的人找到一个方向。
要做的事:在chinahadoop.com微信讨论群、chinahadoop.com大会上分享你的知识。
3.探索强化学习
强化学习是机器学习中最有用但是却很少被发掘的部分。所以要求自己加强在这方面的研究。这必将是非常具有挑战性的,但是值得一试。无人驾驶汽车和无人间谍机是强化学习的成果。一旦你开始涉足这一块,那么你就自动进入的人工智能。
课程活动:
Complete tutorial(http://www.autonlab.org/tutorials/rl.html) by Andrew Moore。
4.在Kaggle方面要排名前50
你要要求自己保持住在Kaggle上的“master”地位。准确的说,保证在Kaggle上的数据科学家中保持前五十。参加最适合你的知识水平的竞赛。与其他的kaggles组队。在竞争的层面上,你将终止你已经不需要的概念方面的学习。
结语
我理解,这些实施计划对你来说是一个很大的挑战,但是很值得一试。你可以根据你现在所处的水平来选择一个实施计划。我只是简单的列举了一个有抱负的数据科学家必须掌握的一些重要的项目。
在上周我才意识到,人们在决定一个新年的实施计划方面并没有足够的信心。这是我的一个顾虑。因此,我写了这篇文章。我希望,在2016年结束之前,你能够完成初级水平(假定你是一个新手)。
这篇文章将扫除你新年实施计划的困惑。作为一个有抱负的数据科学家,我已经为你提供了很多我所能做的事,你需要按部就班的来进行。如果你发现很难实现你的实施计划,随时欢迎在下面的评论部分与我分享你的想法。
微信名:
HadoopSummit
微信ID:
hadoopinchina
中国Hadoop技术峰会是亚太地区举办最早、规模最大、影响力最广阔的大数据盛会。
Chinahadoop.com是China Hadoop Summit的内容网站。
HadoopSummit是Chinahadoop.com的微信发布平台。