- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
辽 宁 科 技 大 学
课程设计说明书
设计题目: 中文分词程序设计与实现
学院、系: 装备制造学院
专业班级: 09计算机二班
学生姓名:
指导教师:
成 绩:
2012年 10 月 29 日
需求分析
随着国内互联网的迅猛发展,网络信息量急剧膨胀,如果完全由人工来整理如此繁多的信息,那是难以想象的工作量,同时也不现实的,如何有效、快速、准确的从大量的信息中找到我们所需要的信息,是摆在我们面前的一个重要和迫切的任务,为了解决这个难题,人们采用了中文分词技术,通过分词技术,就可以使得对海量信患的整理更准确更合理,使得检索结果更准确,效率也会大幅度地提高。所谓中文分词,就是把一个汉语句子按照其中词的含义进行切分。随羞人们更深入熬研究,中文信息处理技术得到了广泛应用,并对中文分词技术的要求也越来越高。中文分词技术已经引起多方的关注,并成为中文信息处理的一个前沿课题l卜21。目前在自然语言处理技术中,中文处理技术远远落后于西文处理技术,许多西文的处理方法中文不能直接采用,就是因为中文必须进行分词处理。中文分词是其它中文信息处理的基础,有哪些信誉好的足球投注网站弓|擎只是中文分词的一个应用,其它应用比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对、中文文献瘁全文检索等翻,都需要焉到分词。分词准确性对有哪些信誉好的足球投注网站弓|擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于有哪些信誉好的足球投注网站引擎来说也是不可用的,因为有哪些信誉好的足球投注网站弓l擎需要处理数以亿诗的网页,如果分词耗用的时间过长,会严重影响有哪些信誉好的足球投注网站引擎内容更新的速度。因此对于有哪些信誉好的足球投注网站引擎来说,分词的准确性和速度,二者都需要达到很高的要求,中文分词技术要想更好的服务予更多的产品,需要更多的专业队伍投入到研究中来,因此,中文分词的研究还是一个相当长的探索过程。
目前中文分词得到了很多现实的应用,主要体现在在信息检索、同音字和多音字方面的识别、文本校对、简体繁体的囱动转换、自动标引、自动文撬、视器翻译、语言文字研究、有哪些信誉好的足球投注网站弓|擎研究、自然语言理解和中文信息处哈尔滨]二程大学硕七学位论文理等方面M,也是中文智能计算技术发展的前提和基础。随着对中文分词技术关注度的不断提高,大量的学者都加入到了这一研究领域,使中文分词取得了丰硕的研究成果。近10年来,语言学界、人工智能领域和情报检索界的学者们,在中文分词与自动标引的研究与实践上进行了大量的研究,找到了许多解决中文分词的方法,目前关于中文分词研究方法主要有三个方面,即基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法。中文分词的研究,主要是从词层面进行的研究,这一问题很早就受到了广泛的关注。目前,各种分词系统也不断建立,分词系统在运行速度、准确度等方面已经具有了研究应用的价值,但是在句子中词该如何被界定,仍然是一个比较困难的问题,同时,在不同的应用领域由于应用需求的不同,需要达到的分词效果有很大区别。词的确切概念难以标准化,词的应用领域不同,使得分词规范难以统一,需要达到的分词效果也有很大区别。在这一长期的研究和实践过程中,分词规范、歧义字段处理和未登录词识别成为困扰我们的主要技术难题,随着计算机技术和汉语语言研究的发展,中文分词技术将会有更大的突破。
设计
主要分为两大模块:
一个建立一棵树,一个是查询。建树有三个层次,第一层一维数组,第二层是数组,用于二分查找使用,第三层是二叉树。查询分为直接查询第一层的一维数组,第二层用二分查找(第二层汉子相同的平均概率是26,一般第二字成词切相同),第三层直接顺序查找,以及查找句子中的数字和汉子标点。
输出:(1)建树 包括:以此字开头的词语有几个;在一维数组中的中位置;结束
(2)查询 包括输出每个词的首字。然后输出分词后的结果。
编码与调试
因为字符串比较所需的时间同字符串的长度成正比,对于较长的词条,这种现象尤为突出。为了消除这种冗余操作,我们提出将词典的词尾部分以自动机的形式来组织。为此,我们将组成单词的每个字以一种链表节点的形式存储,其抽象数据结构的定义如下:
struct Node3
{
string S;
bool IsWord;
Node3 *L,*R;
Node3(string s = ,bool isWord = 0, Node3 *l = 0, Node3 *r = 0):
S(s),IsWord(isWord),L(l),R(r){}
};
struct Node2
{
string S;
bool IsWord;
您可能关注的文档
- 《机械设计基础》课程设计-一级圆柱齿轮减速器设计.doc
- 《计算辅助机械零件设计》课程设计- V带传动装置设计.doc
- DSP课程设计报告-FIR滤波器的设计.doc
- HACCP课程设计-HACCP体系在浓缩苹果汁生产中的应用.doc
- MATLAB课程设计-基于PSK和DPSK的matlab仿真.doc
- protel软件课程设计-电子设计应用软件训练 总结报告.docx
- 编译程序设计原理课程设计报告--Micro词法语法分析.doc
- 编译原理课程设计--PL-O语言的扩充.doc
- 编译原理课程设计--S语言的编译器的设计与实现.doc
- 测控仪器课程设计--机械式微位移机构及位移检测.doc
- 新疆农资(集团)有限责任公司定向招聘历年高频难、易错点100题模拟试题附带答案题库及答案【有一套】.docx
- 完整版青岛海湾集团有限公司招聘71人公开引进高层次人才笔试参考题库(共100题)答案完整题库(夺冠).docx
- 安徽省宁国市2024年招聘专业技术人员3人历年高频难、易错点练习200题通关秘籍题库【A卷】.docx
- 安徽省烈山区内部使用退役军人事务局公益性岗位招聘2人历年高频难、易错点练习200题内部题库(考试直接.docx
- 安徽省旌德县事业单位招聘45人历年高频难、易错点练习200题真题题库附答案【培优A卷】.docx
- 新疆哈密煤业集团有限责任公司招聘(高频重点提升专题训练)共100题附带答案大全(满分必刷).docx
- 完整版四川禾嘉实业(集团)有限公司招聘80人历年高频考题难、易错点模拟试题(共100题)附带答案题库.docx
- 方正科技集团股份有限公司2024年校园招聘62人【重点基础提升】模拟试题(共100题)附带答案通关秘.docx
- 完整版辽宁省台安县住房和城乡建设局招聘历年高频难、易错点练习200题附参考答案(轻巧夺冠).docx
- 安徽省教委所属事业单位招考聘用50人高频难、易错点练习200题真题(B卷).docx
文档评论(0)