基于FST的新词增强方法.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于FST的新词增强方法.doc

语音识别中一种快速新词增强方法 背景介绍 语音识别技术是信息技术领域十大重要的科技发展技术之一。它是一门交叉学科,正逐步成为信息技术中人机接口的关键技术。语音识别技术使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的高技术产业。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场,并且已经进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。 简单地说,语音识别技术是将声音转变成文本的技术。一个语音识别系统基于一个语音模型和一个语言模型来表达识别语音所需要的知识,其中语音模型(通常用深度神经网络)用来描述语音在信号层的分布特性,而语言模型用来表征语言信息,用以限制系统能识别的句子范围。语言模型基于一个系统词表,只有在词表中出现的词才有可能被识别出来。图1给出了一个语音识别系统的基本框架。 图1: 语音识别框架 问题描述 信息社会的快速发展给语音识别系统带来了巨大挑战,特别是随着人们接收的信息越来越多,新词不断涌现,如“颜值”、“吐槽”等。这些新词因为不在语音识别系统词表中,因此很难被识别出来。传统解决新词的方法是收集每个新词的训练语料,让其与原语料合并,重新训练语言模型。这一方法需要大量的计算资源,无法适应大规模在线系统的需求。 3.发明要点 3.1 基于FST附加边的新词增强方法 本发明提出一种基于有限状态转移机(FST)的新词增强的方法,该方法将原始语言模型表示为FST,通过在FST图上加入附加边来代表新词,从而使更新后的FST具有识别新词的能力。由于现代语音识别系统多使用FST作为识别过程的数据结构(解码图),因此我们的方法相当于在构造该数据结构的过程中加入一个新词增强步骤,从而提高系统对新词的识别能力。如图2所示。 图2: 基于FST的新词增强示意图 具体而言,对一个待加入的新词A,我们选择它的一个近义词A’,寻找在语言模型FST中表示A’的所有边,并为每条边加入一个“附加边”,这一附加边的进入和离开状态和A’的边一致,但其标注符号为新词A,其权值表示为A赋予的出现概率。如图3所示,其中红色曲线和标注表示新加入的附加边。由于附加边的加入,新词A会出现在解码图中,可以在解码过程中被识别。特别重要的是,因为附加边是加在新词的近义词所对应边上,这意味着新词增强事实上利用了近义词在词义和句法上的相似性,具有很强的针对性和精确性。 图3:对应近义词A’的一个新词A的附加边 3.2 基于词向量的新词增强方法 上述附加边新词增强方法需要定义近义词,即需要人为定义,这对大规模新词加入很不方便。本发明进一步提出基于词向量的自动发现近义词的方法。该方法将所有词(系统词典中的词和新词)都映射到一个向量空间中,表示为词向量,并利用在这一向量空间的中的余弦距离计算词间的相似度。对任何一个新词,可以通过该方法得到一个或若干个相似对,而不必人为定义。 4. 发明内容和系统实现 4.1 系统架构 图4为基于近义词附加边的新词增强模型的系统结构,该系统有两种方式,一种是手动定义近义词,一种是基于词向量的自动计算近义词。首先输入n-gram语言模型,构建FST。基于FST,基于近义词表加入附加边表示新词,生成可识别新词的解码图。近义词表由两种方式生成,一种由手工定义近义词,比较精确,但繁琐,不适合大量新词加入;另一种是基于词向量的自动加入,方法快捷,但需要包含新词的数据对词向量进行训练。 图4. 基于近义词附加边的新词增强模型 4.2基于FST附加边的新词增强 设有一个新词集X={,,…,}需要增强,对于每一个都有一个近义词集={…,}。对任意一个, 在FST中寻找所为标注为的边,加入附加边并标注为。为量化近义词间的相似性,我们定义为与的相似度,并以该相似度作为新加入边的权重。在基线系统中,近义词集和相似度都由人为确定。 图5给出一个在FST中加入新词c的过程,其中词表内词a为新词c的近义词,且相似性定义为0.3。其中(a)表示在加入新词前的FST,(b)表示加入新词c后的FST。 (a) (b) 图5:基于近义词的新词增强模型 4.3基于词向量的自动增加新词方法 在4.2节中,我们手动定义近义词来增强新词。当面对大量新词时,手动定义的时间成本较高,且定义近义词容易发生错误。本发明提出利用词向量自动发现近义词的方法来代替人

文档评论(0)

ailuojue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档