- 1、本文档共24页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北京大学本科生业论文-自动标注汉语多音词
本科生毕业论文
题目: 自动标注汉语多音词 Automatic Tagging of Chinese Polyphony Word and Related Research
姓 名: 何辉辉
学 号:
院 系: 信息科学技术学院
专 业: 计算机科学与技术
指导教师: 段慧明
二〇一一年六月一日
摘要
汉语中存在着一字多音现象,很多高频字都具有两种或更多的读音,而这些多音字的读音并没有统一的规则可循。汉语多音词的自动标注,即将汉字序列转换成相应的拼音序列,是语音合成(TTS)系统的关键步骤。由于汉语文化的多义性和上下文相关性等原因,目前的汉语注音系统很难达到100%的正确率。
本文研究了多音词的读音规律,总结了中文分词和词性标记的相关技术;设计了汉语多音词的注音,研究词性标记串的注音问题
关键词:汉语多音词;词性标记;自动注音;统计与规则。
Automatic Tagging of Chinese Polyphony Word and Related Research
Abstract
In Chinese, there are many frequently used characters, which have more than one pronunciation, and how to automatically tag those characters correctly is a key step in TTS system. However, because the pronunciation of a certain character is related to its context and may have ambiguity, its very hard to find a universal rule. As a result, current systems can hardly achieve a 100% precision.
This thesis researched the law on Chinese polyphone words’ pronunciation, and summarized the related techniques on Chinese segmentation and POS tagging. In our work, we designed a pinyin tagging system, which was designed by Java and MySQL database, to focus on the problem after POS tagging. We proposed an algorithm that combined the traditional statistical method and heuristic rules to achieve a better result. Moreover, we also conducted extensive experiments, and the result showed that it can achieve accuracy of 95.2%; with the improvement of word database, its accuracy will continually increase.
Key words:
Automatic Tagging; Statistics and Rules.
目录
摘要 2
Abstract 3
第一章 绪论 5
1.1 问题背景和研究意义 5
1.2 发展现状 6
1.3 本文组织结构 6
第二章 读音 7
2.1 多音字与多音词 7
2.2 读音分类 7
2.3 读音规律 8
第三章 分词与词性标注 10
3.1 分词定义 10
3.2 现有分词技术 10
3.3 N元模型 11
3.4 词性标注定义 12
3.5 词性标记技术 12
3.6 隐马尔可夫模型 13
第四章 拼音标注 15
4.1 标音定义 15
4.2 现有拼音标注技术 15
4.3 规则与统计相结合的注音方法 16
第五章 多音词注音系统的实现 17
5.1 注音系统简介 17
5.2 开发环境 17
5.3 数据库表结构 17
5.4 程序模块结构 18
5.5 注音流程 20
5.6 功能测试
文档评论(0)