- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
基于KNN的NIPS论文集文档相似度分析
?
?
尧涛
摘要:以2015年NIPS会议(世界上顶级的机器学习会议之一)上收录的论文集为研究对象,通过一系列的相关数据处理方法将其整理成实验数据(提供下载),基于Abstract和Fulltext模型下建立TF-IDF矩阵,通过KNN算法来计算和对比二者的文档相似度。实验结果发现,Abstract模型下建立TF-IDF矩阵的时间要远优于Fulltext模型;二者模型下的共同相似文档个数随着Knearestneighborhood(KNN)算法K的增大而增大。与以往单方面在Fulltext模型下进行文档相似度计算而言,Abstract模型在为我们进一步研究文档相似度提供了更好的依据。
关键词:相似论文AbstractFulltextTF-IDFKNN
:TP311:A:1672-3791(2017)03(a)-0217-03
现如今随着越来越多的学术会议的召开,学术成果数量的日益增长,如何快速查找相关论文变得非常重要。对于一篇给定的论文来查找当前论文集的其他相似论文,文档相似度的有效计算是进行信息处理[1]的关键。文档相似度[2]是表示两个或者多个文档直接匹配程度的一个度量参数,相似度越大说明两者文档相似程度高,反之则文档相似程度低。大多数情况下研究者对TF-IDF建立文档矩阵只会考虑Fulltext,而忽略Abstract。基于这一点,本文通过尝试性的实验研究來对论文相似度进行比较分析。主要是以2015年NIPS(NeuralInformationProcessingSystems)收录的论文为研究对象,基于Abstract和Fulltext的模型下先建立TF-IDF矩阵,再利用KNN[3]算法进行相似度的分析,这为进一步研究文档相似度提供新方法。
1相关知识
1.1自定义文档分块
文档分块[4]是通过识别文档的组织结构,并根据结构将文档划分为多个块。比如一般的论文,被划分为标题(Title)、摘要(Abstract)、正文(body)、参考文献(References)等部分,从而构建出一个文档块向量空间模型[5],并根据各文档块的文本内容建立与之对应的特征项向量。下面给出文档块定义。
定义1:文档块,指文档经过分块处理后得到的第j个具有特殊作用的文档部分,记作。正如前面提到的标题、摘要、正文、参考文献等文档部分都可以作为文档块,从而可以将文档di用公式表示:
(1)
式中n表示文档di经过划分后得到的文档块数量。
在文档块向量空间模型中,一个文本被分割为无数个文本块,每个文本块代表该文本中一个独特的部分,可能只包含一个句子(如标题),可能包含一个自然段的文本(如摘要),也可能是很多个自然段的组合(如正文)。
1.2KNN:k-最近邻
KNN是一种分类方法,又叫k近邻算法。其主要思想:给定一个训练集D和一个测试对象z,该测试对象是一个由属性值和一个未知的类别标签组成的向量,该算法需要计算z和每个训练对象之间的距离(或相似度),这样就可以确定最近邻的列表。然后,将最近中实例数量占优的类别赋给z,当然也不是只能采取这一种策略,例如,甚至可以从训练集中随机选择一个类或选择最大类。
基本的KNN算法如下:
(1)Input:D,是训练集;z,测试对象,它是属性值构成的向量;L,对象的类别标签集合。
(2)Output:cz属于L,即z的类别。
(3)foreachy属于Ddo。
(4)计算d(y,z),即y和z的距离;或者sim(y,z),即y和z的相似度。
(5)end。
(6)从数据集D中选出子集N,N包含k个距z最近的训练对象。
(7)。
(8)I(.)是一个指标函数,当其值为true时返回值为1,否则返回0。
2实验开展
2.1实验数据
该文整理了2015年在NIPS会议上收录的403篇论文,将其构造成2015-nips-data.zip供研究者下载(下载地址:https:///Yiutto/2015-nips-data.zip/)。2015-nips-data.zip主要包括Papers.csv、Author.csv、PaperAuthors.csv。
(1)Papers.csv:该文件包含2015年共收录得403篇NIPSpapers,包括以下字段:
*Id-论文的唯一标识符
*Title-论文的标题
*EventType-是否为poster、oral、或者spotlightpresentation
*PdfName-pdf文档的名
*Abstract-论文的摘要
*Fulltext-pdf格式文档转换为text文档
(2)Authors.csv:该文件包含这一年在NIPS会议上的作者标识符和作者名(
您可能关注的文档
- 红色文化软实力的内涵及构成要素探析.docx
- 新时代儒家优秀文化在高校德育中传承与创新的有效路径研究.docx
- 整合和利用农村公共文化资源的对策研究-以湖南省岳阳市农村公共文化建设为例.docx
- 初中物理实验微课助学策略初探-第1篇.docx
- 强化现代企业管理中会计职能的措施杨东辉.docx
- 浅析初中思想品德教学中德育教育的渗透.docx
- 智慧图书馆国内研究现状概述.docx
- 社会工作视域下小组工作方法对残疾儿童的影响研究.docx
- 关于机电设备安装质量控制的认识庄兵.docx
- 下颌骨骨折患者术后功能恢复的护理研究进展.docx
- 英语人教PEP版八年级(上册)Unit4+writing+写作.pptx
- 人美版美术四年级(上册)8 笔的世界 课件 (1).pptx
- 人美版美术七年级(上册)龙的制作.pptx
- 英语人教PEP版六年级(上册)Unit 2 第一课时.pptx
- 数学苏教版三年级(上册)3.3 长方形和正方形周长的计算 苏教版(共12张PPT).pptx
- 音乐人教版八年级(上册)青春舞曲 课件2.pptx
- 音乐人教版四年级(上册) 第一单元 音乐知识 附点四分音符|人教版.pptx
- 英语人教PEP版四年级(上册)Unit 6 Part B let's learn 1.pptx
- 道德与法治人教版二年级(上册)课件-3.11大家排好队部编版(共18张PPT).pptx
- 人美版美术七年级(上册)《黄山天下奇》课件1.pptx
文档评论(0)