- 1、本文档共42页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
兰州商学院
本科生毕业论文(设计)
论文(设计)题目:汉语分词技术初探
学院、系:信息工程学院
计算机科学与技术系
专业(方向):计算机科学与技术
年级、班:
学生姓名:
指导教师:
2011年5月18日
声明
本人郑重声明:所呈交的毕业论文(设计)是本人在导师的指导下取得的成果。对
本论文(设计)的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。因本
毕业论文(设计)引起的法律结果完全由本人承担。
本毕业论文(设计)成果归兰州商学院所有。
特此声明
毕业论文(设计)作者签名:
年月日
汉语分词技术初探
摘要
所谓汉语分词,就是将中文语句中的词汇切分出来的过程。由于汉语
的书写习惯,汉语语句中词与词之间的标志是隐含的,英文的单词与单词
之间有空格,所以不存在分词问题.而中文的每一句中,词与词之问是没有
空格的,因而必须采用某种技术将其分开。
分词技术作为自然语言处理的基础环节,同时也是关键环节之一,它
的质量好坏直接影响到后续处理步骤的效果。汉语分词工作看似细微,但
作为计算机自然语言处理的第一步,它的关键作用是不容忽视的。如今汉
语分词己成为自然语言处理的研究热点与难点。
本文讨论了中文分词的概念、目标及其所面临的一些基本问题,详细
介绍了三种基本中文分词算法,并对中文分词词典的索引及常用词典结构
进行了介绍,最后说了正向最大算法的实现及测试结果。
[关键词]中文分词最大匹配分词词典自然语言处理
I
ABSTRACT
Chinesewordsegmentation,istocutthesentenceintheVocabularysub—outprocess.Since
thewritinghabitsofChinese,Chinesesentencesymbolbetweenwordsisimplied.theEnglish
wordshavethespacesbetweenthewords,Sothereiseasytoseparate.TheChinesewordfor
eachsentence,thereisnospacebetweenwords,andthereforemustbesomekindoftechnology
toseparatesentence.Chinesesentencesegmentationalgorithmfromthe20thcentury,sincethe
80’Shasbeenaresearchfocus,duetothecomplexityoftheChineselanguagehasbeenina
stageofdevelopment
文档评论(0)