中文语音识别系统探究和探寻.doc

下载文档 降价啦

0
0
约4.35千字
约 9页
2017-11-28 发布于福建
举报
版权申诉
保障服务

中文语音识别系统探究和探寻.doc

1、本文档共9页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中文语音识别系统探究和探寻

中文语音识别系统探究和探寻　　【摘要】随着社会文明的进步和科技水平的发展，人们在满足了生存和生活的需要之后，不断地追求着更高的生活质量。如今计算机为人类服务已经渗入到了生活的每一点一滴。然而，传统的控制方式已经不能满足当今社会的节奏需求。使用中文语音作为新的控制方式，可以为用户带来更好的服务体验。本文阐述了中文语音识别系统的搭建方法以及应用方向。【关键词】语音识别；中文识别；人工分词；控制系统【中图分类号】TP311 【文献标识码】A 【论文编号】1671-7384（2014）02-0069-03 引言计算机如今如此普及，计算机发展速度完全超乎想象。但目前为止，真正具备与人交流功能的电脑还不存在。有这样一个图灵测试——让测试员与被测试者和一台机器在隔开的情况下，通过一些装置向被测试者随意提问。问过一些问题后，如果测试人不能确认被测试者30%的答复哪个是人、哪个是机器的回答，那么这台机器就通过了测试。可惜的是，如今情况下最好的成绩是由俄罗斯专家设计的“叶甫根尼”电脑程序，也只是达到了29.2%。语音，是人与人交流的一种手段，也是人类交流和交换信息中最便捷的工具。退而求其次，要做到通过图灵测试，不如先让电脑通过语音作为引信来帮人类做事情。为了充分阐述语音识别这套系统的原理，本文将小范围重现语音识别原理。对于语音识别之后，让计算机去理解人的意思，不可缺少的就是将文字信息转化为计算机能理解的内容。把计算机比作一个人手中拿着一本象形文字对照手册，身处上文说的图灵测试的房子中。而另一人则在房间外向此房间发送象形文字问题。房间内的人只需按照对照手册，返回手册上的象形文字答案即可。毕竟只需要让计算机懂得我们的意思，并非让计算机来帮我们去思考。因此，只要给予足够多的“稿纸、笔”以及足够大的“词典”即可。这次我们对系统的研究使用的是C语言，由于并没有采用面向对象化的语言来编程，大部分程序使用的编程并没有向“类”里面填充“方法”的概念。这套系统硬件开发、硬件编程采用的是51单片机来实现，后期的处理则是在上位机通过钩挂系统钩子读取内存来实现。下面，我们将一步一步讲述构建这个系统的过程。平台构建如今，国外已经有很多成品语音识别系统，中文的语音识别控制系统也有很多的企业、教育科研机构在做相关的项目。不过这些研究却依然停留在初级阶段。因为中文是世界上最难学的语言，人来学习尚且如此，更何况人来教给机器去识别。虽然如此，做语音识别首先要有一个平台来去搭建中文语音识别系统。第一步要做的便是将声音讯号转化为电讯号。这里采用一个高阻抗麦克风，作为音源进行声电转化。通常的麦克风是三个端子输出，分别是两个信号源和一个接地端。大部分的麦克风两个端读入的是相同信号，少部分高品质的则读入的是差分信号。麦克风的输入是毫伏级别，类似空气声、干扰波都会使得输入的信号有噪波。因此，输入的两个端分别进行旁路电容滤波等操作，去除杂波。无源麦克风的输入电压过低，之后要将信号接入放大器，放大后的信号才能使得后续的操作中，模拟—数字信号转换器获得足够被感应的信号强度。理论上讲，音频信号可以看作周期信号，按照傅立叶级数定理可知，任何周期函数都可以用正弦函数和余弦函数构成的无穷级数来表示。因此，通过将音频信号进行傅立叶级数展开，去除杂波频段的波形即可得到优质波形。而实践中，通过硬件操作步骤较为烦琐，软件分析需要时间较长，出于经济等方面因素考虑，本系统不采用傅立叶变换来实现识别音频特性，而采用比较法取波形相似度等方式进行识别。语音识别上文中的信号经过模拟—数字转换器转换成为了数字信号，接入处理器的IO接口线程中，此时，读入的信号会通过地址总线和IO端口读入。因此在硬件上，我们使用中断程序来进行信号预处理。软件方面中断程序部分，仅需要将读入的IO数据以数组形式存放入内存即可。声音有三要素：音高、响度、音色。读入的信号即每个时间点的声音感受器震动位置，我们可以通过电流接入到压片陶瓷上来还原声音，而如果我们要去分析音频则需要对照三要素下手。响度即声波数组中的数值高低，为了让声波数组中的响度和预存的响度相同，我们通过统计整段中有效波形能量数值和与预存数组的能量数值做比例处理，使得响度和预存数组相近。音高即声音的频率，频率的定义是：单位时间内完成振动的次数，是描述振动物体往复运动频繁程度的量。通过声波数组寻找相邻两点是否为相反数，即可寻找到过0点次数得到频率。这时，时间段的频率即可求出，间接可得到整段声音的频率。我们发现，对音高进行频率化处理，同样也需要对预存数组进行频率化处理。因此，尽管我们可以去频率化处理提高识别精度，但相比对音