第5章数据音频技术案例.ppt

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
5.4.1 语音输出 语音输出涉及到机器如何生成语音的问题,在这方面的主要挑战是,如何使得语音输出系统能够实时地生成语音信号,例如,自动地把文字转化为语音。某些应用(如语音报时)采用有限的词汇表来处理这一任务,但大多数采用的是广泛的词汇表。 机器输出的语音必须是可以听懂的,而且应该听起来很自然。其中可懂性是强制而自然的事情,可以增加用户的接受度。 5.4.1 语音输出 与语音输出相关的几个重要术语是: 1)语音基本频率,是语音信号中最低周期信号部分。它体现在嗓音中。 2)音素,是最小的语音单位之一,用于区分语言或方言中的两个发音。它是最小的有意义的语言学单位,但并不携带内容。 3)音位变体,确定了作为语音环境的函数的音素变化。 4)词素,是有意义的语音学单位,在自由或受限的形式中都包含的最小且有意义的部分。 5)嗓音,由声带的振动产生。嗓音强烈地依赖于说话者。 6)非嗓音,由声带张开产生,这些声音相对独立于说话者。 5.4.2 语音合成 音频技术的一个重要方面是语音合成,即将普通正文合成为语音。如图5-5所示。 图5-5 使用时间域声音连接的语音合成系统 5.4.2 语音合成 第一步涉及到转录,或将文本翻译成相应的音标。大部分方法使用一个包含大量单词或仅仅是音节或音调组的词典。这样的词典创建非常复杂,可以是单独实现的或是几个人使用的普通词典,其质量可通过相互作用的用户干预而不断提高。这意味着由用户识别出转换公式的缺陷,人工地改进发音,他们的发现逐渐成为词典的一个集成部分。 第二步将音素记录转换成声学的语音信号,其中连接可以发生在时域或频域。通常第一步用软件来解决,第二步则涉及信号处理器或专门的处理器。 5.4.2 语音合成 除了副发音和韵律产生的问题外,语音识别还必须注意发音模糊问题。解决这个问题的惟一方式就是提供有关上下文的附加信息。 5.4.3 语音输入与识别 在语音输入处理的各种应用中,需要正确回答3个问题,即: 1)谁?语音输入依赖说话者的某种特性,这意味着语音输入能识别出说话者。计算机可用于识别说话者的声音指纹。 2)什么?语音输入的关键是检测语音内容本身。通常输入的语音序列产生一块文本。典型的应用有语言翻译系统。 3)怎么样?第三个问题有关如何研究语音采样。其典型应用如测谎仪。 音频技术中难度最大、也最具应用前景的当属语音识别,其潜在的商业应用前景使之一直是音频技术研究关注的热点。语音识别和语音合成相结合,实现了媒体转换。 5.4.3 语音输入与识别 语音识别一般是通过各种比较来完成的。利用现有技术,可以实现一个包含有大约25 000词汇的依赖于讲话者的识别系统。语音识别中影响识别质量的问题主要是方言、情绪化的发音以及环境噪声等。要改善语音识别和语音生成的质量,需要弥合人类大脑与高性能计算机之间的相当大的性能差异,这仍需要一定的时间。 5.4.3 语音输入与识别 语音识别的原理如图5-6所示,是将个人发音的特殊特征和由以前抽取的语音元素组成的句子做比较。这意味着这些特征通常被量化,用于被研究的语音序列。这—结果与现有的参考做比较,以将它定位于现有的语言单元之一。识别出的言词作为参数化的语言单元序列被存储,传输或处理。 图5-6 语音识别原理 5.4.3 语音输入与识别 具体操作通常使用专门的元件或信号处理器抽取特征信息。比较和决定一般由系统的主处理器处理,但具有参考特征的词典通常位于计算机的二级存储单元。大多数具体的实现方法在如何定义特征信息时会有所不同。如图5-7所示。 图5-7 语音识别组成部分 5.4.3 语音输入与识别 语音输入中的一个特殊问题是房间的声学特性,即环境噪声,此外,必须定义字边界,但这并不容易做到,因为大多数人说话并不强调一个字的开始和结束,同一个字也可以被说得有快有慢。 依赖于特定人的识别系统比独立于讲话者的系统能识别更多的字,但这是以提前“训练”系统为代价的。为训练系统使之适应说话者,通常要求他读特定的语音序列。目前的语音识别系统有大约半个小时的训练时间。大多数依赖说话者的系统能识别出25 000个字或者更多,而独立于说话者的系统则命中率接近l 000个字。注意,现实的系统评估还应包括环境因素。 5.5 声音文件的存储格式 在因特网和各种计算机上使用的声音文件格式很多,但比较流行的主要是WAV、AU(audio)、AIFF(audio interchangeable file format)和SND(sound)文件格式。WAV格式用于PC机,AU用于Unix工作站,AIFF和SND用于苹果机和SGI工作站。 为便于读者辨认文件的属性,表5-2列出了部分声音文件的后缀。 表5-2 常见的声音文件扩展名 5.6 声 卡 在多媒体计算机中,所有的音乐与音效都需

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档