基于可编程交换机的大型分布式TTS系统.doc

基于可编程交换机的大型分布式TTS系统.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于可编程交换机的大型分布式TTS系统

基于可编程交换机的大型分布式TTS系统 1. TTS简介 TTS语音转换用途很广,包括电子邮件的阅读、IVR系统的语音提示等等,目前IVR系统已广泛应用于各个行业(如电信、交通运输等)。 TTS所用的关键技术就是语音合成(Speech Synthesis)。早期的TTS一般采用专用的芯片实现, 如德州仪器公司的TMS50C10/TMS50C57、飞利浦的PH84H36等,但主要用在家用电器或儿童玩具中。 而基于微机应用的TTS一般用纯软件实现,主要包括以下几部分: (1) 文本分析 — 对输入文本进行语言学分析,逐句进行词汇的、语法的和语义的分析,以确定句子的低层结构和每个字的音素的组成,包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等。 语音合成 — 把处理好的文本所对应的单字或短语从语音合成库中提取,把语言学描述转化成语波形。 韵律处理 — 合成音质(Quality of Synthetic Speech)是指语音合成系统所输出的语音的质量,一般从清晰度(或可懂度)、自然度和连贯性等方面进行主观评价。准确度是正确听辨有意义词语的百分率。而自然度用来评价合成语音音质是否接近人说话的声音。合成词语的语调是否自然。而连贯性用来评价合成语句是否流畅。 TTS纯软件处理的流程如下: 在语音输出阶段,语音输出的方式取决于具体的应用。 要合成出高质量的语音, 所采用的算法是极为复杂的,因此对机器的要求也非常高。算法的复杂度决定了目前微机开发进行多通道TTS 的系统容量。 2. TTS在CTI 的应用中的基本构架 在一般的CTI应用系统中,都会有IVR(交互式语音应答系统)。IVR系统是呼叫中心的重要组成部分通过IVR系统,用户可以利用音频按健电话输入信息,从系统中获得预先录制的数字或合成语音信息。服务速度,IVR为呼叫者提供7*24小时的服务。 IVR系统通用的工控机平台上插入语音卡组成,并支持中文语音合成TTS等技术。 一个典型的包含TTS服务的电话服务流程可分为: ① 用户电话拨入,系统IVR响应,获得用户按键等信息。 ② IVR根据用户的按键信息,向数据库服务器申请相关数据。 ③ 数据库服务器返回文本数据给IVR。 ④ IVR通过其TCP通讯接口,将需要合成的文本信息发送给TTS服务器。 ⑤ TTS服务器将用户文本合成的语音数据分段通过TCP通讯接口发送给IVR服务器。 ⑥ IVR服务器把分段语音数据组装成为独立的语音文件。 ⑦ IVR播放相应的语音文件给电话用户。 一般的公共网接入(IVR)大都采用工控机+语音板卡,而合成的语音数据则通过局域网传给IVR。这种结构只适用于简单的应用场合。 如果用这种方式去组建较大的系统,则会存在诸多问题。 (1)两个瓶颈 ① 接入瓶颈 单台工控机的接入容量一般不超过8E1为宜。除了运行应用程序外,它还要控制两个实时端口:实时地通过局域网接收语音数据,并要实时地将接收到的语音数据通过PCI(或ISA)总线传递给语音板卡。如下图所示。 通过局域网传递语音数据本来就不能保证其时实时性,其结果就是用户听到的语音经常断续,保证不了语音质量。如果传递的语音数据是经过压缩的,语音数据本来就是通过TTS进行合成的,再经过压缩,则音质会有很大的损伤,因此同样保证不了语音质量。从上图中我们可以看到,经TTS合成的语音数据从局域网经过网卡,再通过主板PCI(或ISA)总线进入语音卡,最后进入电信网,同样语音数据通过计算机主板经PCI(或ISA)总线进入语音卡也要求是时实的。这两种时实性的要求会导致在接入量比较大的情况下,会给计算机的总线造成很大的负担。因为总线的带宽(数据吞吐量)是有限的,况且其它的板卡和接口(如声卡、显示卡等)也要直接或间接地占用总线。因此在接入量比较大的情况下,计算机的总线带宽会成为一个比较关键的瓶颈。即便提高语音板卡的接入能力,在有大量电话接入的情况下,由于语音数据实时性的要求,也不能保证语音质量。 ② I/O插槽和语音板卡容量的限制: 目前计算机的I/O插槽,特别是PCI插槽有限,不可能插入大量的语音板卡,再加上语音板卡的容量不会太高,因此单台计算机的接入能力相对较小。要组建比较大的系统,就必须采用多台计算机接入,这就必然会引入机间交换的问题。用语音板卡和多台机器构建大中型CTI系统时,机器间要通过电缆连接才能使系统同步运行,但交换用的时钟同步信号和数据信号的频率很高,极易受到外界干扰,造成系统的不稳定。 (2) 系统复杂度的限制 基于语音板卡构建较大规模的应用系统时,除了系统稳定性的因素外,还要考虑系统的复杂度。对一个应用系统来说,除上面提到的因素外,复杂度本身就是影响系统稳定性的要素之一。除此之外,系统复杂度的增加,会使系统的灵活性和可维护

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档