几个基本的机器学习术语
如果您的工作或项目涉及到机器学习(ML),或者,你刚从事相关研究,那么了解一些术语和定义将对你的工作和学习非常有帮助。
机器学习:机器学习是对能通过经验自动改进的计算机算法的研究。Tom Mitchell
从学习的形式上分类,主要有两种学习过程:
Supervised Learning: (监督学习,督导学习)
在机械学习过程中提供对错指示。一般是在是数据组中包含最终结果(0,1)。通过算法让机器自我减少误差。这一类学习主要应用于分类和预测 (regression & classify)。监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。
Unsupervised Learning: (非监督学习)
非监督学习并不追求你获得确定的答案,更像是对事例进行聚类、分组。你通过观察拥有的大量事务的特征、属性,对它们进行分组。一个示例项目是bunch-it.com,它从搜索引擎上收集数据,然后根据一些标签或者谷歌新闻网页的标题、事件进行分组。非监督学习又称归纳性学习(clustering)利用K方式(Kmeans),建立中心(centriole),通过循环和递减运算(iteration&descent)来减小误差,达到分类的目的。
通常的机器学习一般基于监督学习。对于监督学习,存在两个主要过程:
分类:是种离散域的学习过程。它从离散域中选择一个答案。它可能是物品的颜色、大小,或者类似的东西。
回归:通过考虑示例的给定特征来推定一个预计值,但这种推定需要基于一些连续(数学概念:连续)的域进行,比如实数。例如,通过考虑股票的某些特性,来估计股票的价格的值,就是一个回归过程,因为价格是符合连续的实数域的特征。
微信名:
HadoopSummit
微信ID:
hadoopinchina
中国Hadoop技术峰会是亚太地区举办最早、规模最大、影响力最广阔的大数据盛会。
Chinahadoop.com是China Hadoop Summit的内容网站。
HadoopSummit是Chinahadoop.com的微信发布平台。