- 1、本文档共1页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于神经网络的语音合成环节中英语单词重音标注技术doc
基于神经网络的语音合成环节中英语单词重音标注技术
张浩然 韩正之 李昌刚
(上海交通大学自动化系 上海 200030)
摘要:本文提出用神经网络技术来标注英语单词内重音的新方法,讨论了输入-输出样本的编码转换问题,设计了神经网络结构和训练方法。实验证明我们提出方法的正确性和有效性。
关键词:语音合成,重音标注,神经网络
中图分类号:TP128 文献标识码:A
1、前言
随着多媒体技术的发展,英语语音合成技术变得越来越重要,对语音合成的质量要求越来越高,要求机器合成的声音更加接近人的自然音。语音合成技术已经受到很多学者和研究人员的关注。
英语发音的基本单位是音素(phoneme),构成所有单词的音素共有41个,它们分别表示为iy, ih, ey, eh, ae, aa, ao, ow, uh, uw, er, ax, ah, ay, aw, oy, th, dh, sh, zh, ch, jh, hh, wh, ng, y, r, l, w, b, p, d, t, g, k, f, v, s, z, m, n,。一个英语单词包含若干音素,其中的几个音素就构成一个音节(syllable),再由数个音节构成一个英语单词的发音(sound)。
由英语单词的字符转换成单词的音素这一环节已经比较成熟,在这里就不讨论了。在机器合成声音的技术指标要求中,英语单词内的音素是否存在重音是很重要的一项,它严重影响发音的正确性和自然性。传统的方法是字典查表法,如下所示:
ax b ax v || ax0 b0 ax1 v0
ax b ax v b ao r d || ax0 b0 ax1 v0 b0 ao0 r0 d0
ae b p l ax n ae l p || ae1 b0 p0 l0 ax0 n0 ae0 l0 p0
aa b r ax || aa1 b0 r0 ax0
ae b r ax k ax d ae b r ax || ae0 b0 r0 ax0 k0 ax0 d0 ae1 b0 r0 ax0
ey b r ax hh ae m || ey1 b0 r0 ax0 hh0 ae0 m0
ae b r ax hh ey m iy ax n || ae0 b0 r0 ax0 hh0 ey1 m0 iy0 ax0 n0
ey b r ax hh ae m z || ey1 b0 r0 ax0 hh0 ae0 m0 z0
ae b r ax hh ae m s ax n || ae0 b0 r0 ax0 hh0 ae1 m0 s0 ax0 n0
ax b r ae hh ax m s ax n || ax0 b0 r0 ae1 hh0 ax0 m0 s0 ax0 n0
ax b r ae m || ax0 b0 r0 ae1 m0
aa b r ax m ch ih k || aa1 b0 r0 ax0 m0 ch0 ih0 k0
aa b r aa m ow || aa0 b0 r0 aa1 m0 ow0
ax b r aa m ax v ih t s || ax0 b0 r0 aa1 m0 ax0 v0 ih0 t0 s0 . . .
其中1符号代表该音素有重音应该重读,0符号表示该音素没有重音,应该轻读。上表中左边是英语单词的音素列表,右边是标有重音信息的单词音素列表。
这样根据左边的单词音素就可以查到对应的右边标有重音的单词音素,之后送往音素发音单元就可以实现单词内各音素之间有轻重的合成声音,这样合成出来的声音更加接近人的自然音。这种方法虽然简单,但是存在很多缺点,如占用内存多,查表开销的时间较长,泛化能力差(就是如果出现超出表格内的单词,此方法完全不能应付),于是人们开始寻找其他的更加具有智能化的方法来解决问题。
首先有些学者想利用专家系统的方法来解决这个问题,就是组织一批语言学家,总结单词内各音素之间出现重音的规律,但是由于英语字符-发音(letter to sound)的复杂性,结果发现规则数庞大,且有很多异于常规的发音单词,合成出来的声音与自然音相差很远,专家系统这个方法也走不通〔1〕,后来人们也使用了统计和聚类的方法,发现效果都不太理想〔1〕。
人工神经网络是一门新兴的交叉学科,它处理信息的方式完全不同于以往的符号逻辑系统,具有一些独特的性质:如信息的分布式存储和并行处理、信息存储与处理的合一、具有自组织、自学习能力,它已经被广泛应用于模式识别、信号处理、知识工程、专家系统、优化组合、智能控制等各个方面〔2〕。同时还有很多的应用还处于研究之中,这些应用都是很吸引人的,这说明神经网络极大的应用潜力〔3〕。神经网络技术尤其擅长处理那些已经具有大量样本集的应用中,这样通过对样本集进行充分学习就可以解
您可能关注的文档
最近下载
- AP宏观经济学 2012年真题 (选择题+问答题) AP Macroeconomics 2012 Released Exam and Answers (MCQ+FRQ).pdf VIP
- 浙科版《综合实践活动》五下 第五课 活动A、我当小法官—走进法庭教案.doc
- 8.1 认识生命 课件-2024-2025学年统编版道德与法治七年级 上册 ).pptx VIP
- 化工制图教学设计(全套).docx VIP
- 2024-2030年中国氦(液氦和气态氦)行业市场发展趋势与前景展望战略分析报告.docx
- AP宏观经济学(2013年真题)全套含选择题.pdf VIP
- 自考00537中国现代文学史重点知识点汇总速记宝典.pdf
- 建积分之术筑工程之技:定积分及其应用教学实施报告.pdf
- AP宏观经济学(2015年真题)全套含选择题.pdf VIP
- 英语--倒装句讲解..ppt VIP
文档评论(0)