- 1、本文档共56页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
⑧
⑧ 硕士学位论文
MASTER’S THESIS
摘要
随着信息技术的发展,人们已经从信息缺乏的时代过渡到信息极为丰富的 数字化的时代。如何从这些海量信息中迅速有效地获得所需信息也就成为一项 很重要的研究课题。为此目的,文本自动分类被研究者提出并进行了应用研究。 研究文本自动分类具有重要意义,它可以大大的缩短了对资料的整理时间,为 信息检索提供方便,有利于现实文档的存档管理。
.本文主要是应用统计的方法对文本自动分类进行理论和实践的探讨。我们 的工作主要从以下方面进行:
1.探讨了基于统计方法的文本自动分类的定义、常用模型和常用算法。
2.讨论了文本自动分类器~般方法、步骤及有关技术细节。
3.在向量空间模型下,实现了向量距离加权算法、代表向量算法、中心 向量算法构造的三种分类器。对三种分类器分别以字、词为特征进行分类测试、 分析发现:①使用相同的分类算法,用词作为特征项,比以字作为特征的分类 效果好:②用不同的算法构造分类器对分类效果的影响很大,如中心向量算法 在字、词特征下的分类效果优于其他两算法;在以字为特征的情况下,该算法 的平均查全率80.73%,平均查准率82.94%:在以词为特征的情况下,该算法 的平均查全率83.6%,平均查准率85.97%;③选用语料不同对分类效果也有影 响,如用新浪网(www.sina.COtll.cn)网页语料进行测试,使用中心向量法分 类器和词作为特征的情况下,平均准确率为89.31%,平均查全率为88.3396。
4.基于改进后的中心向量法重构自动分类器,测试取得了开放测试平均 查全率90.35%、平均准确率90.87%和封闭测试平均查全率98.36%、平均准确 率98.74%的分类效果,说明改进后的算法适合中文文本分类。
本文所得到的这些实验数据对于开发实际的文本分类系统具有指导意义。 一该研究可应用于网络信息检索、信息过滤、中文文本自动分类、中文网页自动 分类等应用领域。
关键词: 中心向量法文本自动分类向量空间模型统计方法
AbstractWith
Abstract
With the development of information technique,people have already transited into the ages in which information is extremely abundant and digitized from the age lacks information.How to acquire the useful information quickly and effectively
from information-sea has become a very important problem.For this purpose,the
text automatic classification has been put forward and studied in application.
This paper gives details to the research on the theory and practice of the text automatic classification using the statistical method.The main aspects of the paper are as follows:
1,The definition.common used models and p.沁mmon used algorithms of classification are discussed theoretically.
2.Discuss the general methods and the key technology of constructing classifier.
3.We employ vector-distance weighted algorithm,representative·vector-dista
—nee algorithm and center·vector algorithm to construct the classifier.And then,the experiments of the three classification algorithms have been done respectively with different feature·set(Chinese-character feature—set and Chinese—word feature—set). According to the analysis
您可能关注的文档
- 基于生命周期理论的我国高技术产业技术创新金融支持研究-会计专业论文.docx
- 基于索引的XML查询技术研究-计算机应用技术专业论文.docx
- 基于全六维位姿定位的肠胃道胶囊内窥镜图像三维重建技术研究-计算机技术专业论文.docx
- 基于物联网的智能小区绿色节能软件平台设计-电子与通信工程专业论文.docx
- 基于数码相机的亮度分布测试研究-光学工程专业论文.docx
- 基于三维椭球模型的气水泡状流运动特性研究-控制科学与工程专业论文.docx
- 基于微透镜阵列的数字光场成像分析-信号与信息处理专业论文.docx
- 基于微博的社会化媒体分析系统的设计与实现软件工程专业论文.docx
- 基于无线传感器网络的实验室设备运行状态监测系统-计算机技术专业论文.docx
- 基于图嵌入的判别近邻分析研究及应用-软件工程专业论文.docx
文档评论(0)