CAT详细介绍3.doc

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
CAT详细介绍3

第三单元:语料库和语料库分析工具 3.1 电子语料库 3.1.1不同类型的电子语料库 3.2语料库分析工具 3.2.1.词频列表 3.2.1.1按词汇屈折变化进行分类的词条表 3.2.1.2 停用词表 3.2.2 检索工具 3.3.2.1单语言检索工具 3.2.2.2双语检索工具 3.2.3词语搭配 3.3注释与标注 3.4 使用语料库分析工具的利弊 3.4.1频率数据 3.4.2语境 3.4.3实用性和版权 3.4.4预处理 3.4.5速率与信息检索问题 3.4.6字符集和语言相关的问题 3.4.7经济因素 把一个单词放到一个语境中,意味着给它生命。如果你想知道那些词的行为,那么你必须要在它们的自然环境中学习它们,这里的自然环境就是语境。 最广义的说,语料库是文本或话语的集合,它们是执行语言学调查的基础。翻译学科史上用印刷版的语料库进行有哪些信誉好的足球投注网站研究的历史悠久。译者通常搜查专业术语的时候会编写和分析语料库。此外,当翻译一个文件的时候,译者典型的会收集和查询平行文本(与源语文本具有同样交际作功能,但在目的语中已被别人写过的文本)以作参考文体,格式,专业术语,措辞。-translated by 沙依巴 除了它们包含的有价值的信息,印刷版的语料库有很多缺点。首先,需要花体力和很长时间在图书馆收集资料或复印。收集好之后还组要好长时间去查询文本,这意味着在突然发现正在寻求的词语或与重点相关的内容之前需要阅读很多无关的资料。再次,只找到一两个平行文本远远不够。因为译者未必是该领域的专家,他们需要查阅大量的文本,以保证他们所选择的文体和术语能被该领域的专家接受,而不是一个作者的特质用语。此外,当它们在不同的页面,不同的文件里出现的时候,确定他们的语言学模式和文体学共性很难。因此,印刷版的语料库有两大缺点。第一,译者拿着印刷版的语料库做翻译的时候,不能收集和查阅大量的文件以保证所所有相关的概念,术语和预言模式都能找到。第二,人工分析本来就容易出错:没有依靠辅助的人类大脑显然不能发现所有重要的模式,更不用说以更有意义的方式组织语言。收集和查阅语料库花的时间越多,真正留给翻译的时间就越少。为了在截止日期之前完成任务,译者很难能平衡收集、查阅资料花的时间和做翻译画的时间。 3.1 电子语料库 最近,“语料库”这个词指根据明确的标准收集的大量电子文本的集合。它有三个特点,分别是“大”,“电子化”,“明确标准”。 收集和查阅电子文本比印刷文本快很多,所以电子语料库比印刷语料库大很多。这里说的“大”模糊,但没有固定规则规定电子语料库需要多大。这很大的程度上取决于手里的翻译任务,and translators must use the same judgment with regard to appropriate quality and quantity as they would when compiling a printed corpus. 这里需要重点说一下,给译者限定一定的时间的情况下,译者用电子语料库能够查阅和参考的语料的范围比印刷版的语料库宽很多。 编写电子版的语料库的优点是,可以用电脑操控数据。有一些文本可以直接以电子版的形式录入到语料库中(如:用文字处理器)。电子文本可以通过软盘交换,或从万维网和光盘上下载。如果文本没有以电子版的形式出现或找不到该文本的电子版,印刷版的文本可以用光学字符识别活语音识别技术转成电子版的形式。(见2.1和2.2)电子语料库一旦形成了,叫语料库分析工具的特殊的软件包可以帮译者操纵数据。这些工具可以使译者以各种有用的方式获取并陈列语料库中的信息。(见3.2.1到3.2.3).然而,需要注意的重要的一点是,这些工具不解释数据,分析语料库中找到的信息还是译者的责任。 最后,必须指出语料库不是随机收集的文本的集合,而是,为了要当某种特定语言或其子集的代表性样本使用的,根据确定标准选择的文本。就像译者会仔细的查阅印刷版语料库中的文本一样,译者也需要评价加入到电子语料库内的文本。比如说,一个建立电子语料库的译者会希望语料库里的文本与题目密切相关,属于确实的文本类型,并且在一定的时间段内收集的。就像为不同的项目收集不同的印刷版语料库一样,译者可以为不同的项目建立不同的语料库。正如引入部分介绍的,语料库设计是很重要的一点。然而,设计的问题不受操纵语料库的技术影响。这本书的中心是技术,如果有读者对语料库设计感兴趣的话,可以参阅这些书:《恩瓦尔》,《鲍克》,《迈耶和麦金托什》,《皮尔逊》,Austermuhl,《鲍克和皮尔逊》。 3.1.1不同类型的电子语料库 鉴于语料库是特别为了满足手里的翻译项目的需求而设计的,语料库的种类与翻译项目一样多。然而,还是可以发现语料库可

文档评论(0)

youshen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档