- 1、本文档共66页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
古籍信息系统开发:复习提纲
《左传》语料中单音节词居多,不适宜使用现代汉语通用的分词词表。 多字词大多是专名,专名的结构和语境与现代汉语差异很大,加上词类活用、繁简字、通假字、异体字、文献传抄讹误等因素,都给《左传》的自动分词增加了困难。 由于单音节词居多,即使全部切为单字词,《左传》的分词精度也能达到80%左右。 《左传》自动分词的基线较高,分词精度的提升空间小。 (二) 《左传》及其注疏文献的对齐任务 自动对齐的最终目的,是要找到原文在注疏中的引文、注疏对引文所作的解释以及该解释中所出现的原文词汇。因此,《左传》及其注疏文献的对齐任务可以细化为句子对齐、注释对齐、词汇对齐这三个子任务: 原文:孟子卒,繼室以聲子,生隱公。 注疏:繼室以聲子,生隐公。聲,谥也。蓋孟子之侄娣也。諸侯始娶,則同姓之國以侄娣媵。元妃死,則次妃攝治内事,猶不得稱夫人,故謂之繼室。 句子对齐: 繼室以聲子,生隱公。 繼室以聲子,生隐公。 注释对齐: 繼室以聲子,生隱公。 聲,谥也……故謂之繼室。 词汇对齐1: 聲 聲,谥也。 词汇对齐2: 繼室 故謂之繼室。 图3-2 对齐任务示例 注释对齐是词汇对齐的基础;句子对齐是注释对齐的基础。因此,句子对齐是自动对齐的核心任务。 四、本章小结 本章主要研究先秦汉语的自动分词技术。 首先介绍了基于条件随机场模型(CRF)的自动分词方法,并以《左传》为例,进行了字标注分词的一系列实验。在《左传》文本上的实验数据表明,基于CRF的自动分词方法可以取得较高的分词精度;该方法可以有效降低人工标注的工作量,加快语料库的建设。 然而,统计模型的本意是从较小规模的训练语料中学习模型参数,用学到的模型来自动处理较大规模的、与训练语料相似的其余语料。但这与《左传》语料、先秦文献语料规模较小、同质性低的特点相冲突。 而本章随后所提出的利用注疏的分词方法的最大特色就在于无需人工事先标注,不需要任何训练语料;同时,利用相关文献来处理目标文献的分词思路具有通用性,完全可以移植到其他先秦文献的自动分词乃至各种信息处理的任务中去。 (二) 注疏文献的分类算法 注疏文献是半结构化文本,其中的内容都是按照特定的结构方式来组织排列的,但对于计算机来说,半结构化的信息仍然不便于直接使用。只有对注疏文献进行结构化处理、进行内容再分类后,才能被计算机理解并应用到对原文信息处理的辅助工作中去。 注疏文献的格式调整只是注疏结构化的基础工作;总结出的注疏结构范式只是解决了理论层面上的问题;只有把理论转换为规则、应用到实际的分类算法中去,才能真正实现对注疏文献的信息处理任务。 注疏文献的分类工作指的是,将半结构化的注疏文献结构化,将注疏文献中的相应内容按照“原文引文”、“注”、“疏”等类别进行再分类,以便于计算机对注疏文献的进一步理解。 (1)引文和“注”的分离 分离的关键是如何发现引文,因为“注”紧接在引文之后,一旦找到了引文,剩下的内容自然就是“注”。一种相对简单、较为容易操作的发现引文的方法是全文查找,按照原文小句的先后顺序,在注疏的全部内容中进行查找和匹配。 引文和“注”的分离过程中所面临的最大难点是繁体字、异体字的对应问题。同一个字,在原文中和在引文中可能繁简不一致,也可能用字版本不一致。 解决这个问题除了要使用繁简字、异体字对应表之外,还要在查找、匹配原文的过程中,引入相似度计算的约束。查找过程中,不能要求必须百分之百匹配成功,如果原文和引文的相似度数值能够高出某个阈值,那么也可以认为查找到了原文。下面三个例子中,左边的小句和右边的小句都不是完全相同,但通过相似度计算,仍然可以匹配成功: 將虢是滅, 将虢是滅, 何愛於虞? 何愛于虞? 且虞能親於桓、莊乎? 且虞能親于桓、莊乎, (2)“注”和“疏”的分离 正确分离的关键,在于对“注”、“疏”格式的正确理解和形式化。分离时,主要使用上文所归纳得到的注疏文献的结构范式,与此同时,考虑一些特殊情况下的例子。 “注”可能没有: 【傳】四年,春,衛州籲弑桓公而立。公與宋公爲會,将尋宿之盟。未及期,衛人來告亂。 夏,公及宋公遇于清。宿盟在元年。 宋殇公之即位也,公子馮出奔鄭,鄭人欲納之。及衛州籲立,将脩先君之怨於鄭,謂二年鄭人伐衛之怨。 [疏]注“謂二”至“之怨”。○正義曰:二年伐衛見經,故以屬之,…… …… 上例中,划横线部分为引文,该部分引文没有相应的“注”。 “疏
文档评论(0)