人类为什么能从极少量的数据中做出判断?
最近一项研究表明,人类可以使用少于1%的原始信息来分类数据,验证了一种解释人类学习的随机映射算法——这种方法也能够用于机器学习、数据分析和计算机视觉。
人类能够快速地学会识别复杂的物品和它们的变体。通常我们总是能够识别出字母「A」,不管其字体如何,纹理如何或者背景如何。我们也能够认出同事的面孔,即使她带了帽子或者换了发型。我们还能仅通过部分可见部位识别出某一物品,比如说床之一角或者门缝边缘。但是我们是如何做到的呢?在这些不同的任务中,人类有没有使用到一些简单的技术呢?这些技术能否移植到计算机上来改进计算机视觉、机器学习或机器人性能呢?
乔治亚理工学院的研究员们发现人类能够仅使用少于1%的原始信息对数据进行分类,验证了一种解释人类学习的算法——这种方法也能够用于机器学习、数据分析和计算机视觉。
乔治亚理工学院的计算机科学特聘教授Santosh Vempala是该项目的4名研究员之一。他说:「人类是如何理解周遭如此庞大、种类繁多的数据,而且还处理得如此迅速和可靠呢?在最根本的水平上,人们是如何开始做这样的事情的呢?这是个计算方面的问题。」
乔治亚技术学院计算学院的研究员Rosa Arriaga、Maya Cakmak、David Rutter和Vempala研究了人类在「随机映射」(random projection)测试中的表现,以此来理解人们在学习物体的表现有多好。他们向测试对象展示一系列原始的抽象图片,之后测试他们能否在随机展示的、仅有图片一部分区域的情况下正确识别出这些图片。
高级研究科学家和发展心理学家Arriaga解释道:「我们假设随机映射是人类进行学习的一种方法。简单来说,我们的预测是正确的。总数据的仅仅0.15%对人类来说就已经足够了。」
接下来,研究员们测试了一种计算机算法,让机器(非常简单的神经网络)完成同样的测试。机器和人类表现的一样好,这给了我们一种有关人类如何学习的新理解。Arriaga说道:「我们找到的证据表明,事实上,人类和神经网络的表现非常相似。」
研究者想对典型和非典型刺激的样子建立一个数学定义,以此来预测哪些数据对人类和机器来说是最难学的。由于人类和机器的表现差不多,证明了你能预测随着时间推移,哪些数据是最难学习的。
他们的研究成果最近发表在麻省理工学院出版的期刊《神经计算》(Neural Computation)上。据悉,这是首个采用人类被试的「随机映射」研究。
为了验证他们的理论,研究者先创作了3组150×150像素的抽象图像,然后创作了创作了这些图像中非常小的局部的「随机草图」。测试对象被展示了完整的图片,时间为10秒。接着,向他们随机展示了每张图片的16张草图。使用抽象图片的目的是为了防止人类和机器拥有任何先验知识。
Vempala说:「我们惊奇于极其简单的神经网络和人类之间的表现是如此接近,神经网络的设计灵感就是来自于我们所认为的人类学习方式,但仅是个非常微弱的灵感。发现它如此匹配人类的表现力实在是惊奇。」
加州大学圣地亚哥分校的计算机科学与工程学教授 Sanjoy Dasgupta说道:「这篇迷人的论文介绍了一种基于局部的随即映射,能够在将图片进行压缩的同时,仍然使得人类和机器能够区分大类。这是来自于几何、神经计算和机器学习中的创新性见解组合。」
虽然研究员们无法明确地宣布人类大脑确实采用了随机映射,但作者总结到,这个结果支持了这样一种观念:随机映射是一种可能的解释。另外,这暗示着一种非常有用的机器学习的技术:大数据如今是一巨大挑战,而随机映射是一种能使数据可控而不丢失核心内容的方法,至少对于一些基本任务(比如分类和决策制定)来说是这样。
基于随机映射的学习算法理论已被引用超过300余次,并成为了机器学习的一种常用技术,来处理不同类型的大量数据。
参考文献:
Journal Reference:Rosa I. Arriaga, David Rutter, Maya Cakmak, Santosh S. Vempala. Visual Categorization with Random Projection. Neural Computation, 2015; 27 (10): 2132 DOI: 10.1162/NECO_a_00769