- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Soundex语音匹配算法综述
!三竺 //
Soundex语音匹配算法综述★
--5立东
(广东外语外贸大学词典学研究中心,广州510420)
摘要:对Soundex语音匹配算法的原理、缺陷和改进进行综述.分析一个版本的Soundex改进算
法的源代码,指出Soundex适合用于模糊匹配挖掘和预处理.简要介绍Soundex及其改进
算法目前的应用领域,及其在自然语言处理领域的潜在用途。
关键词:Soundex;语音编码;语音匹配:模糊匹配
0 引言 再删除位于词尾的G、H、S、或Z。这些改动主要是基于
以下对英语发音的理解[61:元音对单词读音的贡献少于
语音匹配算法是根据发音来检索词的算法.一般
辅音。所以可以忽略不在词首的元音;字母H,W和Y
用于按英语发音来索引姓名。语音匹配算法的原始目
对绝太多数单词的读音贡献非常小.如果它们不在词
标是要解决哪个姓氏与X的发音匹配(相似)这样的问
首也可以忽略:像M和N这样的辅音可结成发音相似
题IlJo
的字母组:单词中排列在一起的发音相似的辅音,像
英语中的许多姓氏有变体拼写形式.例如:Smyth
NN、SS和MN.通常发音像一个辅音,从分析的角度可
是Smith的一个变体拼写形式。绝大多数人看到Smyth
将它们简化为一个辅音。
这个姓氏知道它是Smith的另一种拼写形式。但是根
Soundex算法的运作方式是保留姓氏的首字母并
据拼写检索信息时.计算机程序就不会把Smvth当作
把其余部分中的每个字母按照对应关系转换成代表它
Smith。如果根据单阋的发音而不是拼写编码或生成代
所在语音组的数字代码,然后删除0(即,删除A、E、H、
码.然后再根据语音代码进行比对.就可以发现像
I、O、U、W、Y)并对相邻的重复的数字代码实施消重处
Smith和Smyth这类有两种拼写或两种以t拼写变体
理(先消重.再删除0是改进算法采用的步骤)。经典的
形式的词具有相似或者相同的发音。语音(模糊)匹配
Soundex语音代码与英语字母之间的映射或对应关系旧
算法的应用解决了英语姓氏变体的检索问题。
如表l所示。
1 Soundex语音匹配算法的原理
表1 Soundex语音代码与英语字母的砷应关系
Russel按照英语字母的发音特点把它们分了组。 SouadeI代码 英语车母
具有类似发音机制的字母被分在同一组。例如:字母D O A。E,H,I.0,U,W。Y
l B.F.P.V
和T被分在同一个语音组.因为它们
您可能关注的文档
最近下载
- 第4版2025年软考高项速记口诀 .pdf VIP
- 《小石潭记》思维导图九图导览(10《小石潭记》(思维导图)-八年级语文下册同步课堂(部编版)).docx
- 成人机械通气患者俯卧位护理试题含答案.doc VIP
- 质量手册程序文件表单全套.doc
- 上海《基坑工程技术规范》.doc
- 部编版《道德与法治》三年级下册第10课《爱心的传递者》优质说课PPT课件.pptx VIP
- 广东省深圳市南山区2024-2025学年五年级(上)期末语文试卷(有答案).pdf VIP
- 61850报文解析-深瑞版-131016.pdf
- 2024-2030年中国市政工程市场现状调研分析及发展前景报告.docx
- 《城市排水管网模拟系统(DigitalWater Simulation)简介》.pdf
文档评论(0)