网站大量收购独家精品文档,联系QQ:2885784924

语音识别的翻译.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

自然话语识别的字典学习

斯诺波达,亚力怀贝尔互动系统实验室

卡尔斯鲁厄大学-卡尔斯鲁厄,德国

卡耐基梅隆大学-匹兹堡,美国

摘要

自然语音给语音识别增加了新任务:端点检测,人类和非人类的噪声,新词和其他非正

常发音。当将一个语音识别系统应用于自然语音时,所有这些现象都需要解决。在本文中,

我们将关注如何自动的将语音词典扩展和应用到自然语音识别。特别对于自然语音而言,重

要的根据语音在数据库中出现的频率,而非词汇中的“正确”发音来选择一个单词的读音。

因此,我们提出了一个数据加载方法,通过模拟数据库中已给出的单词把新的发音添加到已

有的语音词典中。我们将展示这种程序将如何造出其他发音元组,以及一些经常被错误识别

的单词。我们还将讨论如何通过语音识别系统归纳已找到的发音,将知识进一步的整合到语

音识别系统中。GSST已经利用JANUS2语音识别引擎和卡耐基梅隆大学与卡尔斯鲁厄大

学的交互系统实验室的自然语音翻译进行了试验。

1.引言

对一个语音识别系统而言,语音字典是主要的知识来源之一,这保证了语音识别过程中

假定的有效性。不过与声音模拟或者语言模拟相比,它往往被认为不太重要。

在连续语音识别系统中,研究人员经常使用一个单词的“正确”发音,譬如这个发音可

以在词典中找到。但是,这种“正确”的发音,对于一个已给的任务(尤其是自然语音),

往往不是最常见的变异的读法,并且,考虑到目前的声音模拟,这种“正确”的发音也不一

定能带来最好的语音识别表现。如果字典中的音标与数据库中实际情况不匹配,在声学不足

的训练过程中,语音单位将被损坏,而这将降低整体性能。

国家文艺语音识别系统开始投入更多的努力来制作带有变异读音和缩略词的字典,这些

词典同样能模拟替代发音,如协同构音词。

当我们想要提高语音识别系统的整体性能时,我们特别感兴趣的是给定任务的最常见发

音,更好的模拟常被错误识别的单词以及有着强烈的方言变异的单词顺序。我们将展示程序

如何学习单词的发音,从而学习例如协同词那样的替代发音效果,单词的方言变异和单词顺

序。

2.字典学习

通常是通过手工或利用语音规则来修改字典。手工调整和修改,需要一个字典专家。尤

其是当任务在不断增加或者系统要用于新的任务,将有大量的新单词添加到词典中,这将费

时又费力。

手工添加词典的条目通常关注单个单词的出现,并没有改善整体的识别性能。此外,这

还容易出错。所有下面的错误都可能在手工修改时引入语音字典。

·随着基本的语音单位的增加(通常介于40至100之间)和字典中的条目数的增加,

在词典条目间持续应用语音单位将变得越来越困难。

·专家倾向于使用“正确”的单词发音,而对于一个已给定的任务来说,这往往并不是

使用最频繁,甚至不是最可能的发音。

·实际发音和“正确”的发音可能很不一样。在自然语音和方言中有大量的替代发音,

而这些往往不易预测。外国文字和名称的发音就是很好的例子。

·因为很难说哪一个变异读音对于给定任务是有统计意义上的价值性,字典的维护者很

容易错过有价值的形式。

如果使用语音规则来生成读音变体,规则的数目可以从几十到几千之间变化。只使用

一部分规则不一定能涵盖所有的自然语音效果,另一方面,使用太多规则则可能导致过多的

语音变体。即使在词典中运用了一小部分规则也会明显地增加读音数目。需要运用专家知识

来限制规则的使用,否则过多的规则可能会导致假变种。最终也不能保证给定的规则能实际

模拟一个单词常见的所有读音变异。

因此,我们提出了一个数据加载方法来改善现有语音词典并且自动添加新的单词,假

如需要的话,还可以自动添加新的读音变异。该程序应该做到:

·在字典中使用语音条目的的驱动性能优化,而不是一个单词的“典型”形式。

·用基本的语音模型在语音词典中产生精确、一致的条目。

·只有具有统计意义上的价值,才生成发音变体。

·在重新优化后后能有更低的发音混乱。

·能有更高的整体识别性能。

我们给了一个词典学习程序的大纲,该程序目的是优化字典,使受损坏的语音单位得到

更多的准确

文档评论(0)

. + 关注
官方认证
内容提供者

专注于职业教育考试,学历提升。

版权声明书
用户编号:8032132030000054
认证主体社旗县清显文具店
IP属地河南
统一社会信用代码/组织机构代码
92411327MA45REK87Q

1亿VIP精品文档

相关文档