- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
研究生(大数据技术)报告
题目: 第27组-基于KNN文本分类分析
学 号
姓 名
专 业 计算机技术
指导教师
院(系、所) 计算机学院
填表注意事项
一、 本表适用于攻读硕士学位研究生选题报告、学术报告,攻读博 士学位研究生文献综述、选题报告、论文中期进展报告、学术报告等。
二、 以上各报告内容及要求由相关院(系、所)做具体要求。
三、 以上各报告均须存入研究生个人学籍档案。
四、 本表填写要求文句通顺、内容明确、字迹工整。
1 研究背景
研究背景以及现实意义
随着 Internet 的迅速发展,现在处于一个信息爆炸的时代,人们可以在 网络上获取更多的信息,如文本、图片、声音、视频等,尤其是文本最为常 用和重要。因此文本的分类在发现有价值的信息中就显得格外重要。文本分 类技术的产生也就应运而生, 与日常生活紧密联系, 就有较高的实用价值 [1] 。
文本分类的目的是对文本进行合理管理,使得文本能分门别类,方便用 户获取有用的信息。一般可以分为人工 [2]和自动分类。人工分类是早期的做 法,这种方式有较好的服务质量和分类精度,但是耗时、耗力、效率低、费 用高。而随着信息量以惊人的速度增长,这种方式就显得很困难,所以需要 一种自动分类的方式来代替人工分类;自动分类节省了人力财力,提高准确 力和速度。
国内外研究现状
国外对于文本分类的研究开展较早,20世纪50年代末,H.PLuhn3]对文 本分类进行了开创性的研究将词频统计思想应用于文本分类, 1960年, Maro 发表了关于自动分类的第一篇论文, 随后, K.Spark, GSalton, R.M.Needham, M.E.Lesk以及K.SJones等学者在这一领域进行了卓有成效的研究。目前, 文本分类已经广泛的应用于电子邮件分类、电子会议、数字图书馆 ]、有哪些信誉好的足球投注网站引
擎、信息检索等方面 [4]。至今,国外文本分类技术在以下一些方面取得了不 错的研究成果。
向量空间模型[5]的研究日益成熟Salton等人在60年代末提出的向量空 间模型在文本分类、自动索引、信息检索等领域得到广泛的应用,已成为最 简便高效的文本表示模型之一。
特征项的选择进行了较深入的研究对于英法德等语种, 文本可以由单
词、单词簇、短语、短语簇或其他特征项进行表示。
国内对于文本分类的研究起步比较晚, 1981 年,侯汉清教授对于计算机 在文本分类工作中的应用作了探讨,并介绍了国外计算机管理分类表、计算 机分类检索、计算机自动分类、计算机编制分类表等方面的概况。此后,我 国陆续研究出一批计算机辅助分类系统和自动分类系统。但是中英文之间存 在较大差异,国内的研究无法直接参照国外的研究成果,所以中文文本分类 技术还存在这一些问题。
缺少统一的中文语料库不存在标准的用于文本分类的中文语料库,
个学者分头收集自己的训练文本集,并在此基础上开展研究,因此,系统的 性能可比性不强。同时,由于财力人力有限,中文语料库的规模普遍不大。
向量空间模型的研究还不十分成熟国内的学者,例如,吴立德和黄萱 菁也提出了如何选择特征项的问题,他们提出可以使用字、词、概念作为特 征项来构成向量空间模型,并对以此为基础的文本分类系统进行了初步的性 能比较。但是,在这方面的研究 [6]还没有深入的开展,尤其是对于概念的定 义不清晰,没有全面的比较和测试系统。另外,在特征项抽取算法方面也缺 少深入的研究。
文本分类算法的研究不十分完整每个分类器通常只实现一种分类算 法,然后进行测试和分析,缺少完整的多种分类算法性能的比较和测试。
2解决方案
2.1 KNN文本分类算法
KNN⑺算法最初由Cover和Hart于1968年提出⑹,是一个理论上比较成 熟的方法。该算法的基本思想是:根据传统的向量空间模型,文本内容被形式 化为特征空间中的加权特征向量,即 D=D(T1 , W1;T2, W2;…;Tn , Wn)。对 于一个测试文本,计算它与训练样本集中每个文本的相似度,找出 K个最相
似的文本,根据加权距离和判断测试文本所属的类别。具体算法步骤如下 :
对于一个测试文本,根据特征词形成测试文本向量。
计算该测试文本与训练集中每个文本的文本相似度,计算公式为 :
式中:di为测试文本的特征向量,dj为第j类的中心向量;M为特征向量 的维数;Wk为向量的第k维。
按照文本相似度,在训练文本集中选出与测试文本最相似的 k个文本。
在测试文本的k个近邻中,依次计算每类的权重,计算公式如下 :
P(X,Cj1 如果
P(X,Cj
1 如果
式中:x为测试文本的特征向量;Sim(x,di)为相似度计算公式;b为阈值, 有待于优化选择;而 y(di,Cj)的取值为1或0,如果di属于Cj,则函数值为1, 否则为0。
比较类的权重,将文本分到权重最大的
文档评论(0)