基于双数组Trie 树中文分词研究.pdfVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于双数组Trie 树中文分词研究

湖南大学学报(自然科学版) 第 36 卷第5 期 Vol. 36 ,No. 5 2 009 年 5 月 Journal of Hunan University(Natural Scienc臼) May. 2009 文章编号:1674-2974(2009)05-0077-04 基于双数组 Trie 树中文分词研究* 赵欢十,朱红权 (湖南大学计算机与通信学院,湖南长沙 410082) 摘 要:对双数纽Trie 树(Double-Array Trie) 分词算法进行了优化:在采用 Trie 树构造 双数纽Trie 树的过程中,优先处理分支节点多的结点,以减少冲突;构造一个空状态序列; 将冲突的结点放入 Hash 表中,不需要重新分配结点.然后,利用这些方法构造了一个中文 分词系统,并与其他几种分词方法进行对比,结果表明,优化后的双数纽 Trie 树插入速度和 空间利用率得到了很大提高,且分词查询效率也得到了提高. 关键词:自然语言处理;双数纽;Trie 树;词典;分词 中图分类号:TU471 文献标识码:A Research of Chinese Word Segmentation Based on Double-Array Trie ZHAO Huant I ZHU Hong-quan (School of Computer and Communication , Hunan Univ , Changsha , Hunan 410082 , Chin且) Abstract: This paper proposed some improved strategies for the algorithm of Double-Array Trie. Firstly , the priority was given to the node with most child nodes in order to avoid the collision; secondly , an empty-list was defined; Finally , the collision node was added to a hash table , which avoided re-allocation. Then , we imple- mented a program for a Chinese word segrnentation system based on the improved Double-Array Trie and com- pared it with several other methods. From the results , it turns out that the insertion time and the space efficien- cy are achieved , and that search efficiency is improved. Key words:naturallanguage processing systems;double-array; trie; lexicon; word segrnentation 中文信息处理存在着分词的问题,但分词必须 但冲突只能尽可能地少,不可能完全避免,另外还 有一个足够大的词库,词库技术对于有哪些信誉好的足球投注网站有很大影 存在空间浪费问题. 响.理想情况下是包含所有的词语,任意词串只要 有哪些信誉好的足球投注网站树包括B 树和Trie 树等.它们的结构比较 能在词库中查询到,就认为是词语,但势必存在大

文档评论(0)

yaobanwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档