语音识别项目报告.pdf

下载文档 降价啦

481
0
约7.17万字
约 61页
2018-01-29 发布于天津
举报
版权申诉
保障服务

语音识别项目报告.pdf

1、本文档共61页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

语音识别项目报告

语音识别项目报告 1. 简介语音识别即对语音进行处理以得到语音的语义，说话人等信息。因为语音固有的复杂性，语音识别是一个具有挑战性的问题，每年都有着大量研究。语音识别一般用于人机交互，公共安全等。本项目利用ALTERA DE2 开发板及SOPC 技术实现一个简单的语音识别系统。 2. 功能描述  读取SD 卡内的语音数据  5 种语音的训练  5 种语音的识别  SD 卡内语音的播放，刚录语音的播放 3. 设计方案在实现上述功能时，必须考虑以下问题：  用什么算法？康奈尔大学的final project 里有一个做的就是语音识别。算法是提取固定长度语音，再提取语音的MFCC 特征，最后利用MFCC 特征的前两项做简单的大小比较得到语音的含义。我们在硬件和软件上都实现了一遍这一算法，发现结果不如人意。接着，我们查阅了大量关于语音识别的资料。了解了经典的DTW 算法，HMM 算法等。但DTW 算法计算量庞大而HMM 算法需要大量语音数据进行训练，考虑到时间精力，我们没有用这些识别度高但计算量大且复杂度高的算法。最终，我们在网上找到了另一种简单的算法。即事先提取5 种语音的频率特征并存储，测试时先提取输入语音的特征然后与5 种语音的特征一一比较，特征最相似的语音认为是相同语音。我们依然在硬件和软件上实现了这一算法，精度较高大概有 90% 的准确率。  如何实现这一算法？一种方法是硬件为主，软件为辅。就像康奈尔大学Final project 里做的那样，用硬件存储语音并对输入语音进行FFT 变换，再用软件在FFT 的基础上提取MFCC 特征并最终做简单大小比较。这种方法的好处在于处理速度快，专用度高，缺点是开发周期长。另一种方法是软件为主，硬件为辅。这也是本项目所使用的方法。我们主要依靠 SOPC 技术，利用CPU 完成大量计算，并对IO 进行控制。好处在于可以利用丰富的IP 核及相应的API ，灵活性好，开发周期短。不足在于一般而言处理速度慢于第一种方法。 1. 硬件设计硬件上我们主要用SOPC builder 搭建了一个小型系统，包含有CPU，SDRAM 控制器，音频模块，七段显示器模块，拨码开关模块，SD 卡模块，如下图所示： Figure 1 SOPC 系统这里的大部分模块我们用了ALTERA University Program 的IP 核，这些IP 核配置简单并提供了丰富的API 大大减少了我们的开发难度。下面是具体的内容： Figure 2 SOPC builder 1.1. CPU 为了达到最快的处理速度，我们选择了Nios II/f，并支持hardware divide。 Figure 3 CPU 配置 1.2. SDRAM 因为DE2 板子上的SDRAM 大小为8MB，我们设置SDRAM Controller 的大小也为 8MB 。 Figure 4 SDRAM controller 1.3. LED, SW, 7 Segment display 等这里我们用ALTERA University Program IP core 中的parallel port 来控制这些IO。其中LED 主要用于对SW 功能进行分类显示，SW 主要用于控制系统的状态，七段显示器主要用于系统的状态显示。这些IP 核都用默认设置即可。我们仅以LED 和七段显示器为例。 1.4. Clocks 不同的模块需要用不同的时钟，如音频模块一般为12.288MHz，CPU 一般为 50MHz 等。我们用ALTERA University Program 的时钟模块。如下图所示： Figure 5 时钟模块