网站大量收购闲置独家精品文档,联系QQ:2885784924

Soundex语音匹配算法综述.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Soundex语音匹配算法综述

!三竺 // Soundex语音匹配算法综述★ --5立东 (广东外语外贸大学词典学研究中心,广州510420) 摘要:对Soundex语音匹配算法的原理、缺陷和改进进行综述.分析一个版本的Soundex改进算 法的源代码,指出Soundex适合用于模糊匹配挖掘和预处理.简要介绍Soundex及其改进 算法目前的应用领域,及其在自然语言处理领域的潜在用途。 关键词:Soundex;语音编码;语音匹配:模糊匹配 0 引言 再删除位于词尾的G、H、S、或Z。这些改动主要是基于 以下对英语发音的理解[61:元音对单词读音的贡献少于 语音匹配算法是根据发音来检索词的算法.一般 辅音。所以可以忽略不在词首的元音;字母H,W和Y 用于按英语发音来索引姓名。语音匹配算法的原始目 对绝太多数单词的读音贡献非常小.如果它们不在词 标是要解决哪个姓氏与X的发音匹配(相似)这样的问 首也可以忽略:像M和N这样的辅音可结成发音相似 题IlJo 的字母组:单词中排列在一起的发音相似的辅音,像 英语中的许多姓氏有变体拼写形式.例如:Smyth NN、SS和MN.通常发音像一个辅音,从分析的角度可 是Smith的一个变体拼写形式。绝大多数人看到Smyth 将它们简化为一个辅音。 这个姓氏知道它是Smith的另一种拼写形式。但是根 Soundex算法的运作方式是保留姓氏的首字母并 据拼写检索信息时.计算机程序就不会把Smvth当作 把其余部分中的每个字母按照对应关系转换成代表它 Smith。如果根据单阋的发音而不是拼写编码或生成代 所在语音组的数字代码,然后删除0(即,删除A、E、H、 码.然后再根据语音代码进行比对.就可以发现像 I、O、U、W、Y)并对相邻的重复的数字代码实施消重处 Smith和Smyth这类有两种拼写或两种以t拼写变体 理(先消重.再删除0是改进算法采用的步骤)。经典的 形式的词具有相似或者相同的发音。语音(模糊)匹配 Soundex语音代码与英语字母之间的映射或对应关系旧 算法的应用解决了英语姓氏变体的检索问题。 如表l所示。 1 Soundex语音匹配算法的原理 表1 Soundex语音代码与英语字母的砷应关系 Russel按照英语字母的发音特点把它们分了组。 SouadeI代码 英语车母 具有类似发音机制的字母被分在同一组。例如:字母D O A。E,H,I.0,U,W。Y l B.F.P.V 和T被分在同一个语音组.因为它们

文档评论(0)

liwenhua11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档