用“数字眼”透视历史与未来
作者:埃雷兹·艾登(Erez Aiden) 让-巴蒂斯特·米歇尔(Jean-Baptiste Michel)
选自《可视化未来:数据透视下的人文大趋势》
数据在科学研究中的作用日益显著
在人文社会科学领域,以“人文计算”、复杂网络分析、规模数据分析为特征的研究方法逐渐被采纳,人文社会科学的“科学性”显著增强。科学家们正在用“数字眼”透视人类的历史和未来。
“数字眼”逾越自然科学和人文科学的鸿沟
作为科学体系的两大支柱,人文科学和自然科学自诞生开始就按照截然不同的范式几乎平行地发展。人文科学主要以人类社会为研究对象,探索和揭示人类社会的本质和发展规律;自然科学则以自然界为研究对象,解释自然现象和揭示其客观规律。二者就像两个背对背的镜子,形影相随却因研究手段的差异长期疏远,科研人员也因此分为两大阵营。几年来,大数据在认识人类语言、历史、名望、记忆和文化等方面发挥了透镜的作用。在宏大的人文视角下,“数字眼”通过冰冷的数据将人类文化“鲜活”地呈现在世人面前。
在记录文化的方式上,古今最大的差异就在于今天的大数据是以数字形式存在的。就像光学透镜能转换和操纵光线一样,数字媒体也能转换和操纵信息。只要拥有充足的数字记录和一定程度的计算能力,人类文化的相关研究也会达到新的制高点,我们也就有可能在认识世界以及理解我们在世界中的地位方面做出令人惊叹的贡献。
拉里•佩奇的“初恋”与数字眼
2004年,谷歌“组织全世界信息”的使命进展的很顺利,这也使得谷歌的创始人拉里·佩奇(Larry Page)有暇回顾他的“初恋”——数字图书馆。9年之后,谷歌完成了3000万本图书的数字化,相当于人类历史上出版图书总数的1/4,某些图书甚至可以追溯到几个世纪前。因此,这些数据不仅“大”,而且“长”。这些数字化的图书不局限于描绘当代人文图景,还反映了人类文明在相当长的时期内的变迁,其时间跨度比一个人的生命还长,甚至超过了一个国家的寿命。两位年轻人利用他们的数字眼——n元词组词频查看器(N-gram Viewer),在量化历史变迁和未来发展方面进行了探索。他们创建了一个数据投影集合,为书中出现的每个英语单词和每条短语单独建立一条记录,在计算机科学中这些单词和短语有一个优雅的名字:n元词组(n-gram)。每个单词和每条短语所对应的记录都是一个长长的数字列表,列表中的数字表示该n元词组在书中出现的次数,逐年排列,可以以量化的方式揭示人类的历史和未来,这种数据投影的方式不仅非常有趣,而且在法律上也很安全(出版社不会因为你使用了某本书的字母排序版而控告你)。
下面就和大家一起分享通过“数字眼”洞察的历史和未来:
如何获得名望:职业选择指南
有些人可能还很年轻,还没决定好自己将来想要成为什么样的人,从事什么样的职业。而职业选择的最大挑战就是缺少能够提供参考的可靠数据。在一定程度上数据可以帮助我们了解:如果我们选择了某种职业,我们将来的生活会变成什么样子?
研究者将目光聚集在焦点小组上——由1800年到1920年之间年出生的名人组成,按照他们的职业分成演员、作家、政治家、科学家、艺术家和数学家6类人。这幅图将使你的职业选择变得容易多。
如果想年少成名,那你可以选择做一名演员。演员一般会在接近30岁或30岁出头时成名并拥有一辈子的时间享受自己的名气。不过,我们研究的这些演员还不能利用电视等大众媒体推动其职业发展,其获得的名望也没有其他某些职业的名人高。
如果你想将对名望的满足延迟一小段时间,选择做一位作家会比较合适。作家一般在接近40岁时成名,但是撰写传世佳作的顶级作家最终获得的名望要比演员高得多。这一点在采用的图书馆数据上格外明显,因为作家喜欢写其他作家的事情。
与你的预期相反,如果你非常想推迟成名的时间,那你最应该选择做政治家。政治家一般都在40岁之后、50岁之后甚至60岁之后才达到他们名望的巅峰。这时候,最出名的政治家一般会被选为美国总统(25个人中占了11人),或者成为其他国家的领导人(另外9人),他们的名望会迅速超过前两组人。因此,如果你现在50多岁,而且尚未成为家喻户晓的人物,那么政治正在向你招手。
接下来,我们来观察一下科学家。最著名的科学家最终获得的名望和演员相差不大。但是,他们获得名望所需要的时间要更长,一般是在60多岁时,而不是演员一般所要成名的20多岁。较低的名望,较长的等待。很明显和研究大爆炸理论相比,出演连续剧《生活大爆炸》是一个更好的选择。
更坏的选择是绘制大爆炸理论或者绘制其他任何东西。在我们的列表中,艺术家遭遇了不公正的待遇。他们和科学家等待的时间一样长,获得的名望却只有其一半。
不过,如果你想出名,最坏的选择是像“数字眼”的开发者一样:从事数学研究。
你或许不这么认为。毕竟,据说数学家们最出色的工作大多是在他们年轻时完成,在那之后,他们就可以翘起二郎腿休息了。例如,数学王子高斯19岁时就发明了模算术,证明二次互反律,推导了素数定律——这是所有数学问题中最深刻、最根本的问题之一;还发现了将整数分解成三角数的深奥结论。然而这并不是他19岁那年做的所有事情,其实这些事情只花费了3个多月的时间。这是多么伟大的成就。
尽管如此,公众根本不关注像高斯这样的数学家年轻时做了什么。研究者所在的焦点小组里的数学家们成名时,大多数已经去世了。数学不会让人成名。证明完毕。
美国人何时认同自己是“美国人”
如今,美国人常把居住在南方各州的人,为“南方人”,把居住在北方各州的人称为“北方人”,把居住在新英格兰地区的人称为“新英格人”。然而,人们却把这些人统称为“美国人”。为什么人们说到“美利坚合众国(The United States)”一词时会使用单数形式(is)呢?这不仅仅是一个语法问题,更是一种国家认同。在美国建立之初,建国文件《邦联合永久联合条例》(Article of Confederation and Perpetual Union)所规定的政府是弱中央政府,并且其中提到的新实体也不是一个国家,而是各个州的友好联盟,当时各州的人们并不认为自己是美国人,而是称自己为某个州的公民。正因如此,那时的人民在提到美国时会使用复数形式。那1787年美国《宪法》中“我们合众国人民”(We the People)是何时转变成1942年《效忠誓词》中的“一个国家”(one nation)的?
如果我们去问历史学家,他们很可能会将我们引到詹姆斯•麦克弗森: (James McPherson )在其纪念美国南北战争历史的著作《为自由而战的呐喊》(Battle Cry of Freedom)中那个众所周知的答案:南北战胜消灭了国家分裂和奴隶制度;1861年之后,“美国”一词从复数名词走向了单数名词。
然后,我们是否应该相信上面的结论?
根据“数字眼”的观察,我们前面所说的战争和语言的故事是错误的。首先,“美国”一词从复数到单数的演变是一个漫长的过程,经历了19世纪第二个10年到20世纪80年代这150多年的时间。更重要的是,该演变过程中,两个短语并没有发生突然的过渡。实际上,战争年代之前或之后两个短语的出现频次并没有多大的差别。复数形式到单数形式的演变在南北战争后稍有加速,却始于南方联军总司令李将军投降后5年后。直到战胜结束15年后的1880年,“美国”一词作为单数名词开始在美国各州普及开来。甚至到今天,“美国”一词的复数形式仍然在美国个别州有所出现。
一图胜千言
1911年,美国著名报人阿瑟.布里斯班(Arthur Brisbane)对一些市场营销人员说过—句著名的话:一幅图“相当于1 000个词”,或许相当于“1万个词”,又或许相当于“100 万个词”?几十年来,这句话传遍了美国。布里斯班可能很恼火,因为这句话现在被认为是一句日本谚语。毕竟,听众是市场营销人员。
布里斯班实际上说了什么呢?机器人不可能记录下这句话首次出现的地方。这里有一句曰本谚语:
和人类说过的所有话相比,
谷歌扫描的书籍
不过是三行俳句而已。
不过,这个机器人可以帮助我们查看:布里斯班的标志性经济学理念是如何形成的。
事实表明,1 000个词,1万个词和100万个词,这些变种都是布里斯班的著名评论之后很快出现的。在接下来的20年中,这三种形式相互竞争。期初,“1万个词”取得了领先。然后,到了经济大萧条的20世纪30年代,人们或许觉得“1万个词”和“100万个词”的要价太高了吧?无论什么原因,那些年过后,“一幅图”相当于“1 000个词“的表达渐渐成为主导,并将另外两个竞争者远远甩在了后面。
微信名:
HadoopSummit
微信ID:
hadoopinchina
中国Hadoop技术峰会是亚太地区举办最早、规模最大、影响力最广阔的大数据盛会。
Chinahadoop.com是China Hadoop Summit的内容网站。
HadoopSummit是Chinahadoop.com的微信发布平台。