网站大量收购独家精品文档,联系QQ:2885784924

基于HTK的语音识别的语料搜集与语言模型.pdfVIP

基于HTK的语音识别的语料搜集与语言模型.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于HTK的语音识别的语料搜集与语言模型.pdf

【科技刨新论坛】 l一 T 基于H K的语音识别的语料搜集与语言模型 工仕超 (同济人学软件学院上海201804) 摘要:HTK是由剑桥大学开发的语音识别研究T具,此工具实现了语音识别中的诸多算法。我们可以利用该工具建立自己需要的语亩模型。讲述如何通过从 舅:联网上得到fj己需要的语料,利用搜集的语料训练语言模型。Web信息有哪些信誉好的足球投注网站采用网络怛虫fWeb 标尽量多地发现新内容。 关键词:HTK;网络爬虫 中图分类号:TP3文献标识码:A文章编号:1671--7597(2010)1020165--01 1网培雇虫 取领域,已经有大最的研究工作,基奉可分为结构分析法、tag分析法和机 1.1网络爬虫的原理。万维网是一个网状结构的信息空问,可以用一 器学习法等。我们需要提取网页中的文字信息来训练我们的语言模型,而 对于tlTML页面中的一些控制信息,如控制字体大小,颜色的信息是不需要 个有向图G=(N,E)来表示:将网页一}1的内容看作节点,由uRL惟‘标示: 的。所以首先要将这些信息从HTML文件中去除。此类信息往往是放在 网页中的链接看作有向边。其中,肖点集N=iN0,Nm),E是超链接集合。叶 了节点叮以是网页文件,也可以是罔形、音频等媒体文件。所有的非叶子 “”I}I的,所以我们,3要在脚本中查找成对的尖括号,并将其中的信息 节点是网页文件。冈此爬虫在抓取网页的时候,可以使用有向图遍历算法 去除就达到目的了。例如有F面一段信息需要处理: (深度优先算法和广度优先算法)对其进行遍历。 TABLE SU.V咖ARY:”Header 1.2爬虫的有哪些信誉好的足球投注网站策略。目前,爬虫在抓取网页时,一般采用两种策 navigationtable” 略:广度优先和深度优先。 WIDTH=“lOo%4 所谓广度优先是指爬虫沿着树的宽度方向遍历,直到抓完起始网页111 BORDER=”0” 链接的所有网页,然后再选择其中的一个链接网页,继续这个过程。 (TRTHCOLSPN=’3“ALIGN=”center” RedHat 所谓深度优先是指爬虫沿着树的纵深方向遍历图中没有被访问过的节 EnterpriseLinux4:ReferenceGuide 点。由于深度优先是…个递归的过程.爬虫程序在执行的时候就要大量消 /TH/TR 耗计算机内存资源,在很多情况下都会导致爬虫的陷入问题.甚至死机。 需要去掉的就是“(”中的内容,最后得到的只有一句话:Red Hat Linux4:ReferenceGuide。这样我们可以把HTML文件描 1.3爬虫的实现方式。该爬虫用到队列来存储将要访问的页面的 Enterprise URL。如果耍运行此程序,则首先要指定一个URL。爬虫首先会取得该页面述成一个通用的格式: 的内容,并同时取得页面中包含的URL。如果获取的URI,已经在将要遍历的 要舍弃的信息 URL队列中,则自动放弃该URL,如果没有在队列中。则将该URI。加入队列。 (要舍弃的信息 这是爬虫运行的简单原理。具体的流程见图1。 要得到的信息 由于我们的程序是通过Python写成的,所以需要考虑的细节

文档评论(0)

wuyouwulu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档