注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

唐宋史研究

中国古史研究成果与信息报道

 
 
 
 
 

日志

 
 
关于我

耿元骊,男,东北师范大学博士。辽宁大学历史学院教授。“唐宋史研究网”2004年12月建立于博客中国。2005年4月29日迁到和讯。拟于2013年9月1日迁到网易。本站非为严格意义上的博客,只不过利用免费资源来进行建设,今后如有可能将设置独立的空间和域名。欢迎大家来访问!本站属于非经营性的学术网站。所有提供阅读、下载的文章均为作者提供或者互联网收集而来,仅供个人学习、研究或者欣赏使用。除少数无法获得原发网址外,均标注了引用网址。如有侵权,请权利人来信告知,本站将及时删除。

网易考拉推荐

计算历史学:大数据时代的读书  

2014-06-16 06:30:29|  分类: 古史综论 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

计算历史学:大数据时代的读书 


计算历史学:大数据时代的读书 - 耿元骊 - 唐宋史研究 尼 克   发表于2014-06-15 07:37

http://www.dfdaily.com/html/1170/2014/6/15/1160014.shtml
历史学最近屡被自然科学进犯,这不,前脚遗传学刚走,大数据和计算又来了。随便一个科学家都能到这儿玩个票。倒不是吓唬谁,这回介绍个神器: Google Books ..

  

  图一

  

  图二

  

  图三

  

  图四

  

  图五

 

  “计算历史学”(Computational Historiography或者干脆Computational History)是一个我杜撰的词儿,一方面是迎合目前啥事前面都加“计算”的时尚,比如最唯物的有“计算广告学”(Computational Advertising),最唯心的有“计算形而上学”(Computational Metaphysics),中间隔着计算数学、计算物理学、计算化学、计算生物学、计算语言学等等。这年头,跳大神儿的要是不会个计算,都不好意思上春晚或江苏卫视。另一方面也是给中国做历史的提个醒:大部分的中国哲学家翻译水平已经被谷歌或百度翻译器赶超了,历史学家要是再不上进,也快没饭了。历史学最近屡被自然科学进犯,这不,前脚遗传学刚走,大数据和计算又来了。随便一个科学家都能到这儿玩个票。倒不是吓唬谁,这回介绍个神器: Google Books Ngrams。不信不服。

  谷歌的两位创始人在斯坦福读书时都在数字图书馆项目里干过活。早在2002年,谷歌还没出大名时,就启动了Google Print项目,要把全世界的数字图书馆项目统一起来。拉里·佩奇访问了他的本科母校密歇根大学,那里的图书馆学院是美国排名最靠前的之一,当时正有数字图书馆项目,就是用数字扫描仪把图书馆的所有书扫描然后做字符识别。佩奇参观了这个项目,结论是密歇根需要一千年才能把本校图书馆的书扫完。佩奇向校长建议:我六年就能扫完全世界的。这还真不算什么,扫描和字符识别都是成熟的技术,更重要的是谷歌有人,有钱,有效率。佩奇随后又访问了牛津最古老的Bodley图书馆,受到震撼,由此也和更多的大学图书馆结成伙伴关系:谷歌和这些图书馆合作数字化他们的所有书,从英文开始。

  但三年后,谷歌迎来了两场官司,一场是作者组织的集体诉讼,另一场则来自出版商。焦点自然是版权。2008年谷歌和出版商达成协议,同意为出版商和作者提供补偿。谷歌随后将Google Print项目改名为Google Books,在Google Books中,版权已过期的书全部公开,版权没过期但得到授权的可通过“预览”功能(Preview)部分地公开。但美国作协(Authors Guild,不知是不是中国作协的姐妹单位)对谷歌和出版商的协议不满,认为出版商不能代表作家的利益,于是又对谷歌提起诉讼。2011年,一位联邦法官拒绝了谷歌和出版商的协议,于是“作协对谷歌”的案子正式进入诉讼程序,直到2013年11月,联邦法官陈卓光(Denny Chin)做出对谷歌有利的判决,他的根据是“公平使用”(fair use)原则。哈佛图书馆馆长罗伯特·达恩顿(Robert Darnton)2010年写了本书讲了这个案子的早期发展,书名很有意思,叫The Case for Books,但中文版译名为《阅读的未来》,没有了原名的多重隐意。达恩顿作为历史学家,只看到谷歌扫描书这一回事,却并没有意识到Google Books不止扫描,更多是企图用机器理解被扫描的书的内容。

  到2010年,谷歌已经扫了一千五百万册书,这时谷歌决定将已经扫过的书的某些统计结果公开,这就是Google Books Ngrams。Ngrams是在文本中统计词频的算法。也就是说,书的内容不一定公开,但关于书的词频统计结果可以公开,并且Google为Ngrams做了一个“显示器”(Viewer),它可以画出输入的任何词或词组的词频统计结果。到2013年4月,已经有超过三千万册书纳入Google Books。一开始这些结果只被计算机科学家和计算语言学家所知,但现在越来越多的人文学者也开始玩起Ngrams了,估计用不了多久,这东西会成为字典一样的必备工具。

  下面通过几个例子介绍Ngrams的用法。

  例一、“黑鬼-黑人-非裔美国人”

  上世纪六十年代美国黑人民权运动爆发之前,“黑人”普遍被歧视地称为“黑鬼”(nigger),随后则被称为“黑人”。而近年来,“非裔美国人”变成更为政治正确的叫法。在Ngrams里输入,nigger,black people和African-American,可以清晰地看到这一趋势。横坐标是时间,纵坐标是词频。(见图一)

  例二、“科学、哲学与宗教”

  按照罗素在《西方哲学史》里的打油说法,科学是确定性的知识,神学是不诉诸理性的教条,而哲学则介于两者之间。比罗素晚一辈的美国哲学家蒯因可能不同意,他认为哲学压根就应该是科学化的(Scientific Philosophy),但蒯因的学生辈大概是最后一拨科学化的哲学家:新起的一大票逻辑学家都出自数学系和计算机系,哲学系已剩不下什么“科学”的玩意儿了。如果哲学家们还不争气,再过个十年,也许Ngrams真会验证这个预测。在Ngrams中,分别输入首字母大写的“Science, Philosophy, Religion”,和小写的“science, philosophy, religion”,我们得到如下两张图。在大写的图中(图二),可以清楚看到在公元1600到1800年间,宗教是压倒性强势,然后是哲学,相比之下,科学还是没影的事。但1850年是转折点,科学慢慢占据优势,比宗教和哲学加起来都大。在小写的图中(图三),科学和宗教的位置互换,晚了一百年。研究文化史和科学史的恐怕各自都有解读。

  科学史家劳拉·施耐德(Laura Snyder)写过一本很有意思的微观科学史著作《哲学早餐俱乐部》(The Philosophical Breakfast Club: Four Remarkable Friends Who Transformed Science and Changed the World)。讲的是十九世纪初,四位剑桥的学生:查尔斯·巴贝奇(Charles Babbage,数学家兼工程师,某种意义上,他发明了最早的计算机), 约翰·赫歇尔(John Herschel, 天文学家兼数学家),胡威立(William Whewell,科学家、哲学家、神学家)和理查德·琼斯(Richard Jones,经济学家),他们每个周日早上一起聚餐,讨论科学问题。他们后来对科学事业和科研社团(如皇家学会)在英国的发展做出了巨大贡献。那时,他们不满意被别人称为“自然哲学家”,其中胡威立最早提出了“科学家”这个词。这段有趣的故事提供了科学从哲学中分离的微观历史。如果在Ngrams里输入“natural philosopher,scientist”,可以和劳拉的故事互为佐证。把微观的课题放在宏观的历史语境(context)中,我们会学到更多。

  例三、 文坛座次

  中国文坛讲究排座次,鲁郭茅巴老曹,等等。前几年也不知哪个瞎起哄非要把金庸也拉入伙。二话不说,先把老哥几个的名字一顺给Ngrams,看看咋说。注意:鲁、郭的名字七十年代前的拼法分别为Lu Hsun和Kuo Mo-jo。两秒钟出结果:瞧人家画的这图,跟炒股曲线似的(见图四)。可以看出鲁爷江湖地位不可动摇,八十年代末九十年代初有点技术性下滑,随后又呈上升态势。但貌似三四十年代,鲁略输郭。不明白为啥曹禺就不带玩了呢,即使输入老拼法Tsao Yu也不济。金庸按说是这老几位里英文最好的吧,但就是不受待见,把他小名路易·查良镛(Louis Cha Leung-yung)算上,也不管用。这张小图够北大复旦那啥系的博导们喝一壶吧。顺便再给中国作家们支个招:以后要想名垂千古,就给你们家子孙后代都取同一个名,英文名也一样,无论性别,只要女眷能分清自己爷们就行。这招特适合代笔抄袭的。

  例四、 美国历史

  过去是数学家研究自己的历史,所以有“数学的历史”,现在是数学家研究别人的历史,所以有“历史的数学”(Mathematics of History),这个词儿还真不是我瞎编的,哈佛的两位应用数学家艾略兹·利伯曼·埃顿(Erez Lieberman Aiden)和让-巴蒂斯特·米歇尔(Jean-Baptiste Michel)最近的主营业务就是研究历史,他们的任职单位是哈佛的IQSS(“定量社会科学研究所”),同时也在谷歌兼职,对谷歌的Ngrams项目有所贡献。哥俩最近写了本书《用大数据透视人类文化》(Uncharted: Big Data as a Lens on Human Culture),用通俗笔法介绍了他们的工作。书中提到了一个更有意思的例子。大家知道美国刚立国那会儿,各州之间是松散耦合,所以国名叫合众国(United States),乌合之众的意思。但内战之后,联邦的凝聚力增强,中央政府的权力也越来越大。埃顿和米歇尔用Ngrams查了两个词组:“United States are”和“United States is”。可以清楚看到,美国内战之前,民众的心态确实乌合,“合众国”原本是复数,所以大家自己的认同就是“are”,但现在的认同自然是铁板一块的“is”了。他们半开玩笑地说:美国内战其实是单数和复数之战,最后单数赢了。(见图五)

  还是中国老人有智慧,啥事想不明白,就说:这事留给我们子孙后代解决。过去以为这是托辞,现在有了“计算”,觉得还真是那么回事。过去整不明白的事现在能“算”出来。1996年,IBM“深蓝”计算机逼得最牛的人类棋手卡斯帕罗夫认输,就是靠的计算:“深蓝”比卡斯帕罗夫能多看半步棋。现在人所谓“下一盘很大的棋”就是比其他人多看好几步。过去中国人追求“行万里路,读万卷书”,其实就是抱着三字经满脑子范冰冰,坐高铁去趟铁岭。但瞧人家谷歌——论行路:无人驾驶车已经在加州办好驾照了,而论读书:Google Books把全世界的书都读遍了,而且有问必答。这要是用下围棋做比喻,人家得让钱锺书或者艾兹拉-庞德们多少子啊。

  以赛亚·伯林当年写过篇文章“论科学化的历史学”(The Concept of Scientific History),主旨是探讨历史学是否也能像科学那样有个客观标准,凭那时的手段和见识,这问题自然无解。也怪伯老师在牛津待的时间忒长,没和同时代剑桥的图灵过过招。但是伯林引用了英国前辈历史学家亨利·托马斯·巴克尔(Henry Thomas Buckle)的话说:历史学之所以没变成科学,主要是因为历史学家的智力不如自然科学家。他设想如果伽利略、牛顿、拉普拉斯有时间顺手玩点历史的话,历史学,说不定早就变成科学的一分子了。话虽损了点,但是出自历史学家自己之口,至少诚恳,而且还不能随便给他扣“智商歧视”的帽子,就像黑人或犹太人开自己同胞的玩笑,外人管不着。依我看,“科学化的历史学”搁现在就是“计算历史学”。

  司马迁被腐刑之后,中国就没人干实地考据了。即使人家都做好了,也懒得看。现而今,坐绿皮火车去趟莫斯科图书馆回来就算中国史学界大事儿。其实要是真不想去做实际工作,莫斯科都太远,去东莞整一山寨手机,躺床上就能指导博士生。不信?我先出个题:“女权运动五百年全球发展史”。然后在Google Ngrams里偷偷敲“penis-逗号-clitoris”,并把起始时间设在公元1500年。瞧好吧,您呐。所谓“秀才不出门,便知天下事”。对了,这句话百度译为:Without going outdoors, scholar knows all the world's affairs。也可以意味深长地简化为:Lying in the beds, the world can be in your heads。■

 

  评论这张
 
阅读(26)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017