中文学术专着的语句相似度计算.doc

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文学术专着的语句相似度计算.doc

中文学术专著的语句相似度计算 摘 要: 关键词:学术专著 语句相似度 机器辅助翻译 一、引言 随着我国科研水平的提高以及国际合作与交流的加强,中文学术专著的“出口”需求日益增大。面向中文学术专著的机器辅助翻译将为这类工作量极大、质量要求极高的翻译任务提供一种实用的、人机交互式的解决方案。该方案侧重于:1)从计算的角度深入地考察专著的语言特点;2)用计算的方法有效地辅助专著的翻译。本课题将为现有的自然语言处理技术提供一个很好的应用场景;同时,机器辅助翻译研究也是迈向全自动高质量机器翻译这一最终目标的必经之路。 二、中文学术专著的语言特点 与普通论文比较 2.1 句长 本文对专著(见附录)中语句的长度进行了考察,图1为其中五部专著的句长分布情况。x轴表示各种句长,y轴表示不同长度的语句在专著全部语句中所占的比例。可以看出,专著中语句的长度一般在150字以下,以句长为10至150字的语句所占比例最大;此外,还有少量150字以上的超长句。   作为参照,本文同时考察了普通的短篇学术论文的句长。 通常情况下,专著作者会发表相关的学术论文。为了更好地比较专著同普通论文的差别,本文在考察中选用了由专著作者本人撰写、并且主题相同或相近的论文作为参照物。考察分两方面:1)单篇论文(篇幅明显小于专著);2)多篇论文的集合(篇幅与专著相当)。 从不同长度的语句在全文中所占的比例来看,专著和普通学术论文并无太大差异,即普通论文的句长也基本满足图1的分布比例。但是,由于专著与普通论文在篇幅上存在极大的差异,用绝对值来衡量时,句长为10至150字的语句所占的比重会在专著中更为突出。此外,考察结果还显示,普通论文中出现150字以上超长句的概率极低,但专著,特别是科学专著中,总会存在少量超长句。图2以专著1为例,比较了专著1和同作者撰写的普通论文中句长分布的情况,其中x轴表示各种句长,y轴表示相应的句数。 2.2 词汇 2.2.1不同文体中词类分布的统计 武汉大学语言自动处理研究组曾对各种词类在不同文体文章中的分布进行过???计(表1)。 参见冯志伟(1985)。 从表1可以看出,在技术性、学术性文章中,名词所占的比例相当大,动词、形容词次之。我们对五部学术专著的词频统计结果同该分布情况相近。 词类技术性文章报章杂志文章文艺性文章学术性文章名词46.443.828.143.1动词17.617.423.117.7形容词8.77.15.48.7副词4.76.410.05.5数词1.31.71.21.5代词5.78.514.66.7连接词6.57.07.37.6前置词7.05.25.16.2语气词1.11.94.61.5感叹词0.00.00.60.0缩写词1.01.00.01.5 表1:各种词类在不同文体文章中的分布 2.2.2 高频词 学术专著中,作者围绕一个主题进行深入的分析,对专业知识进行系统的阐述。知识是概念以及概念间关系的集合,在表达时,需要使用特定的词汇。其中,概念主要用名词来表述,而概念间的关系一般通过动词、形容词来揭示。因此,名词、动词、形容词会在学术专著中高频出现。如专著1,该文详细介绍一部汉语语法机器词典的内容及其数据库实现, 从专著的词频统计来看,这些特定词汇通常会被大量地重复使用。 由于专著的主题集中、篇幅较长, 短篇论文中词汇的覆盖率 2.2.3 高频词的单义性 普通高频词,如:是、有、能 《详解》高频词 名词:词、动词、语法、词典、字段、信息、名词、宾语 动词:填、处理、表示、修饰 《面向中文信息处理的现代汉语短语结构规则研究》高频词 名词:结构、歧义、短语、语义、成分、格式、规则、属性 动词:分析、描述、研究、搭配、组合 《现代化的陷阱》高频词 名词:社会、企业、人、经济、市场、政府、股份制、土地、农村 动词:国有、发展、改革、分配、经营、改造、控制 《中国历代政治得失》高频词 名词:制度、人、皇帝、政府、政治、宰相、官、地方、历史、尚书、政权、中央 动词:考试、读书、选举 《实用免疫细胞与核酸分子杂交技术》高频词 名词:细胞、抗体、标记、抗原、酶、荧光、蛋白、阳性、核、基因 动词:免疫、杂交、反应、染色、结合、分析、诊断 2.2.4 高频词同术语的关系 2.2.5 高频名词、动词、形容词共现时的语义及翻译特点 并填写各个词的语法属性。填写了近4万个词语的语法属性信息。课题组几乎是无声无息地埋头于选词、归类、填写语法属性、反复校对等细致而又繁琐的工作,词语收录原则的确立、词语分类体系的建立、词语的归类、词语语法属性字段的设置以及属性值的填写主要依赖专家的知识。 2.3

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档