Voyant:分析文本中的大数据.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

Voyant

分析文本中的“大数据”

?

?

陈铭徐丽芳

摘要:随着信息技术的发展和数字人文浪潮的来袭,常用于社会科学与自然科学的定量研究方法被带到人文学科研究中,使数据统计和分析成为文本研究中被普遍接受的必备手段。作为网络文本阅读和分析平台,Voyant旨在将基于大数据的“大分析”与传统细读文本的“小阅读”相结合,实现数字人文知识的生产、传播和教学功能。同时,随着学界对“远阅读”合理性和可行性的探讨,Voyant也面临着这种阅读方式带来的难题。

关键词:Voyant文本分析远阅读大数据数字人文

试想一下,如果手头上有字符数超过4000万的文献资料,我们能用什么办法最快了解全部文献并进行有序整理?传统的文本研究方法需要大量人员开展合作阅读(CollaborativeReading),对这些文献进行阅读理解并整合。这是一种直接的“近阅读”(CloseReading),但是它能够处理的文本量非常有限,而且整合得出的内容缺乏客观性。2000年,针对传统文本阅读方式的不足,意大利学者弗兰克·莫莱蒂(FrancoMoretti)首次提出了“远阅读”(DistantReading)理论。因为依靠人力只能阅读现存文本中极其微小的一部分,因而远远不能揭示人文学科的全貌。以维多利亚时代的小说研究为例,只凭学者人工阅读是无法全面了解当时小说这一文学体裁的全部相关状况,因为仅仅19世纪的英格兰就出版了多达6万本小说。

这一理念在十年后发展为使用机器处理大量文本,进行计算、聚类和分析,多个研究中心和学术机构着手建立文本分析平台和门户网站。Voyant就是一个基于网络的文本阅读和分析平台,旨在帮助数字人文学科的学者、学生以及普通大众阅读和整理文本。它是由麦吉尔大学的数字人文学者斯凡特·辛克莱尔(StéfanSinclair)和阿尔伯特大学的人文计算学学者杰弗里·罗克韦尔(GeoffreyRockwell)开发而成,于2003年初发行,并于2016年4月发布Voyant2.0版本,适用于英语、阿拉伯语、法语和意大利语等10种语言。Voyant平台提供的VoyantTools前身是早期的文本分析软件HyperPo、Taporware和TACT,支持用户上传和使用多种工具分析海量文本。目前,Voyant拥有庞大的国际用户群,仅在2016年10月其主服务器的页面浏览量就已高达81686次,主服务器的工具被调用1173252次。毫无疑问,在信息体量不断增长的数字时代,Voyant提供了更有效的文本筛选和分析方式,帮助用户处理体量庞大的语料库。

一、产品形态:多功能文本分析环境

计算机技术在科学领域的广泛应用创新了现代科学研究方式,将常用于社会科学与自然科学的定量研究方法带到原先以定性研究为主的人文学科中,使数据统计成为文本研究中被普遍接受的必备手段。Voyant允许用户从各种格式的数字化文本中提取定量数据,包括纯文本、HTML和XML等格式,并通过轻量级文本分析(LightweightTextAnalytics)来增强用户的阅读能力。所谓轻量级,指的是用一些相对简单的形式表示文本分析的结果,让用户能通过自身视觉感知的并行化处理能力轻松地获取信息。Voyant采用基于词频统计的程序对文本进行自动聚类,归纳出人工难以总结出的模式特征,并用词频表、词频分布图和上下文关键词索引(KeyWordInContext,KWIC)等方式显示分析结果。以莎士比亚37部剧集为例,该语料库中共有895737个单词,包括实词和虚词。实词能单独充当句子成分,传达文本的重要内容特征,一般包括名词和动词等。Voyant将实词和虚词进行区分,根据实词使用情况进行单词类型划分。以图2中的《爱的徒劳》(loveslaborslost)为例,它包含2万多个单词,其中3767种实词共占比16%。在用户需要获得具有实质内容的关键词时,提供“过滤器”选项筛掉虚词,即to、that、this这一类本质上的语法辅助词汇。通过测量不同文本的“语言指纹”信息,帮助用户识别不同作品之间的语言差异和风格特征。

除了基于文本内容统计和抽取词语,Voyant还擅长借助视觉符号形式来表达文本中复杂的或难以通过文字和表格传达的规律,为用户提供与视觉信息快速交互的功能。在莎士比亚37部剧集语料库中,Voyant按照词频统计算法生成相关词云图(见图2)。King(国王)、Lord(上帝)、Love(爱)等关键词在词云中被突出显示,大略反映了莎士比亚创作时期的某种时代风貌,即当时仍深受王室和宗教的影响。除了词云功能,Voyant还有“Micosearch”和“TextualArc”等功能帮助用户将复杂的文本数据转化为可用且可辨别的图形。Micosearch通过热点分布的条状

文档评论(0)

189****9585 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档