- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种基于马尔可夫模型的汉语语音识别后处理中的音字-中文信息学报
中 文 信 息 学 报
第 11 卷 第 4 期 JOURNAL OF CHINESE INFORMATION PROCESSING vol . 11 No. 4
一种基于马尔可夫模型的汉语语音
识别后处理中的音字转换方法
梅 勇 徐秉铮
华南理工大学无线电系 广州 5 1064 1
【摘要】 为了提高汉语语音识别率 , 本文根据一种基于马尔可夫模型的统计语言模
型去实现汉语音字转换 , 在实现过程中 , 提出了它的简化模型 , 该模型不仅保证了实时性 ,
而且也为以后的工作打下伏笔 ; 同时对训练文本的稀疏问题提出了一种新的解决方案 。利用
以上模型的模拟实验表明 , 前向- 后向的马尔可夫模型具有较好的识别性能 ; 且以词为输出
单元的模型识别性能优于以字符为输出单元的模型 。
关键词 : 语音识别 , 后处理 , 马尔可夫模型
一、引言
目前图像识别在人机界面上的应用已有了很大进展 , 国内外研制的中英文印刷体识别系
( ) ( )
统 OCR 已进入实用阶段 如清华文通 OCR 等 。手写体文字识别走向实用 , 而相对来说
语音输入系统还未达到实用阶段 。
语音输入被视为当今第五代计算机和多媒体计算机的重要特征 , 是今后信息输入的主要
方向之一 。而实现的关键技术是语音识别技术 。
每个人的语音特征都不同 , 不同的年龄 、性别 、地区的人说话时语音特征都有明显的差
异 , 它的不确定性和不稳定性使得语音识别很困难 。虽然国内外已有一些较好的语音识别系
统 ,【1 ,2 】, 但从词汇量 、识别率和识别速度的综合指标来看 , 仍未达到商品化的要求 。另外 ,
语音声学识别率达到一个阀值后 , 通过改进模型或算法再提高些许都很困难 。所以, 此后最
可靠的办法是进行识别后处理 , 即改进音字转换方法 。
音字转换部分的主要功能是 : 通过考察每个待识别音的很多候选字 , 并利用文法规则和
自然语言的一些统计规律 , 得到正确的汉字序列 , 且纠正一些拼音识别的错误 。
为了对每一个音节确认出正确的字符 , 我们需要先根据输入的拼音序列 , 组成所有可能
国家 、广东省自然科学基金资助项 目
本文于 1997 年 3 月 11 日收到
— 66 —
的字符假设或单音节 、多音节的词假设 。这里 , 以输入序列 “增进记忆力”为例 , 其对应的
拼音序列为 [zeng - 1 , j in - 4 , j i - 4 , yi - 4 , li - 4 ] 。对于音节 [zeng - 1] 和 [j in - 4 ] , 尽
管有很多同音异义字 。但只有一个多音节词 “增进”。类似的 , 对于音节 [j i - 4 ] , [yi - 4 ] ,
只有一个多音节词 “记忆”。我们可以通过用词典中的多音节词匹配的方式来得到上述多音
节词 。然而 , 虽然通过这种方式可直接得到一些多音节词 , 但是还是存在一些问题 。首先 ,
日常汉语中单音节词频繁出现 。上例中 , 如 [li - 4 ] 对应于单音节词 。由于这些音节不组成
多音节词 , 每一音节对应于许多同音异义字 。它们所代表的字符或词不能用上述方法得到 。
更困难的是这些音节可 以和相邻的音节组合而形成不正
您可能关注的文档
- 1974年国际海上人命安全公约的2014年修正案-Trafi.PDF
- 1991定性资料的参数估计pdf.PDF
- 1988—2016年泰国湾海岸线变迁遥感分析-海洋开发与管理.PDF
- 1998年-2007年在研科学技术人文社会研究项目执行-AuroraTiles.DOC
- 2001年1月滇黔准静止锋在演变过程中的结构及大气环流特征分析.PDF
- 2003年研究生入学考试题矩阵.DOC
- 2003年林业系统自然保护区统计年报-国家林业局.DOC
- 2005年美国国家综合癌症网NCCN非小细胞肺癌临床指引.PDF
- 2006年普通高等学校招生全国统一考试-世纪学习吧.DOC
- 2006年普通高等学校招生全国统一考试江苏卷-新建一中江西南昌.DOC
- 中国国家标准 GB/T 18233.4-2024信息技术 用户建筑群通用布缆 第4部分:住宅.pdf
- GB/T 18233.4-2024信息技术 用户建筑群通用布缆 第4部分:住宅.pdf
- GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计.pdf
- 《GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计》.pdf
- 中国国家标准 GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计.pdf
- GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置.pdf
- 《GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置》.pdf
- 中国国家标准 GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置.pdf
- GB/T 17889.4-2024梯子 第4部分:铰链梯.pdf
- 《GB/T 17889.4-2024梯子 第4部分:铰链梯》.pdf
文档评论(0)