- 1、本文档共72页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
7.3.2 统计机器翻译 统计机器翻译是目前主流的机器翻译方法,下面介绍基于词的统计机器翻译和基于短语的统计机器翻译。 1.基于词的统计机器翻译 IBM最早提出的5个翻译模型就是基于词的统计机器模型,其有3条基本思想:一是对于给定的大规模句子对齐的语料库,通过词语共现关系确定双语的词语对齐;二是一旦得到了大规模语料库中的词语对齐关系,就可以得到一张带概率的翻译词典;三是通过词语翻译概率和一些简单的词语调序概率,计算两个句子互为翻译的概率。 2.基于短语的统计机器翻译 目前,基于短语的统计机器翻译模型已经趋于成熟,其性能已经远远超过了基于词的统计机器翻译模型。这种模型建立在词语对齐的语料库的基础上,其中词语对齐的工作仍然要依靠IBM模型来实现。基于短语的统计机器翻译模型对于词语对齐的鲁棒性非常好,即使词语对齐的效果不太好,依然可以取得很好的翻译结果。 基于短语的统计机器翻译模型的原理是在词语对齐的语料库中有哪些信誉好的足球投注网站并记录所有的互为翻译的双语短语,并在整个语料库中统计这种双语短语的概率。 2.基于短语的统计机器翻译 假设已经得到以下两个词语对齐的片段,翻译的时候,只要对被翻译的句子与短语库中的源语言短语进行匹配,找出概率最大的短语组合,并适当调整目标短语的语序即可。 这种方法几乎就是一种机械的死记硬背的方法。基于短语的统计机器翻译模型的性能远远超过了已有的基于实例的机器翻译系统。 7.3.3 机器翻译的应用 机器翻译的应用 拓展阅读 科大讯飞晓译翻译机 晓译翻译机是科大讯飞推出的新一代人工智能翻译产品,提出了“听得清”(拾音)、“听得懂”(识别+理解)、“译得准”(翻译)和“发音美”(合成)等人工智能翻译四大标准,将神经网络机器翻译、语音识别、语音合成、图像识别、离线翻译以及四麦克风阵列等多项人工智能技术注入小小的硬件,能够进行多种语言的即时互译。相比第一代,晓译翻译机2.0的外观不仅更加轻巧,还增加了屏幕,方便用户查看译文以及拍照翻译。同时,晓译翻译机2.0的功能也有不小的突破。 7.4 语音识别 7.4.1 语音识别的定义 语音识别技术是将人类语音中的词汇内容转换为计算机可读的输入,如二进制编码或者字符序列。它与说话人识别与说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。 目前语音识别系统的分类主要有孤立和连续语音识别系统,特定人和非特定人语音识别系统,大词汇量和小词汇量语音识别系统以及嵌入式和服务器模式语音识别系统。 语音识别 自然语言只是在句尾或者文字需要加标点的地方有个间断,其他部分都是连续的发音。 以前的语音识别系统主要是以单字或单词为单位的孤立的语音识别系统。近年来,连续语音识别系统已经渐渐成为主流。根据声学模型建立的方式,特定人语音识别系统在前期需要大量的用户发音数据来训练模型。 非特定人语音识别系统则在系统构建成功后,不需要事先进行大量语音数据训练就可以使用。在语音识别技术的发展过程中,词汇量是不断积累的,随着词汇量的增大,对系统的稳定性要求也越来越高,系统的成本也越来越高 语音识别 语音识别是一项融合多学科知识的前沿技术,覆盖了数学与统计学、声学、语言学、模式识别理论以及神经生物学等学科。自2009年深度学习技术兴起之后,语言识别技术的发展已经取得了长足进步。语音识别的精度和速度取决于实际应用环境,在安静环境、标准口音、常见词汇场景下的语音识别准确率已经超过97%,具备了与人类相仿的语言识别能力。 7.4.2 语音识别的发展历程 7.4.2 语音识别的发展历程 20世纪90年代开始,语音识别掀起了第一次研究和产业应用的小高潮。 这个时期,剑桥大学发布的隐马尔可夫开源工具包大幅度降低了语音识别研究的门槛。在此后将近10年的时间中,语音识别的研究进展一直比较有限,基于隐马尔可夫模型的语音识别系统的整体效果还远远达不到实用化水平,语音识别的研究和应用陷入了瓶颈。 2006年,杰弗里·辛顿提出了深度置信网络,它解决了深度神经网络训练过程中容易陷入局部最优解的问题,自此深度学习的大潮正式拉开。 2009年,杰弗里·辛顿和他的学生将深度置信网络应用在语音识别声学建模中,并且在小词汇量连续语音识别数据库中获得了成功。2011年,深度神经网络在大词汇量连续语音识别上获得成功,取得了近10年来最大的突破。从此,基于深度神经网络的建模方式正式取代隐马尔可夫模型,成为主流的语音识别模型。 7.4.3 语音识别系统 语音识别系统一般可以分为前端处理和后端处理两部分,如图所示。前端包括语音信号的输入、预处理、特征提取。“前端”的作用是对输入的语音信号进行滤波,删掉非语音声音,降低噪声并进行特征提取。 7.4.3
您可能关注的文档
- 人工智能导论 第5章 深度学习.ppt
- 人工智能导论 第6章 计算机视觉.ppt
- 人工智能导论 第4章 机器学习.pptx
- 人工智能导论 第8章 智能机器人.ppt
- 2024年天津市高考思想政治试卷(含答案解析).pdf
- (一模)长春市2025届高三质量监测(一)英语试卷(含答案).docx
- 2024年四川省攀枝花市中考化学试卷真题(含答案详解).pdf
- 2024年四川省资阳市中考英语试题(含答案).pdf
- (一模)2024年佛山市顺德区高三教学质量检测(一)化学试卷(含答案).pdf
- 台州市2025届高三第一次教学质量评估(一模)数学及答案(原卷).pdf
- 2024年江西省高考政治试卷真题(含答案逐题解析).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)物理试卷(含答案详解).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)地理试卷(含答案详解).pdf
- 2024年内蒙通辽市中考化学试卷(含答案逐题解析).docx
- 2024年四川省攀枝花市中考化学试卷真题(含答案详解).docx
- (一模)长春市2025届高三质量监测(一)化学试卷(含答案).pdf
- 2024年安徽省高考政治试卷(含答案逐题解析).pdf
- (一模)长春市2025届高三质量监测(一)生物试卷(含答案).pdf
- 2024年湖南省高考政治试卷真题(含答案逐题解析).docx
- 2024年安徽省高考政治试卷(含答案逐题解析).docx
文档评论(0)