基于特征隶属度的文本分类相似性度量方法-计算机科学.PDF

下载文档 降价啦

10
0
约7.56万字
约 8页
2019-03-02 发布于天津
举报
版权申诉
保障服务

基于特征隶属度的文本分类相似性度量方法-计算机科学.PDF

1、本文档共8页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于特征隶属度的文本分类相似性度量方法-计算机科学

Vo 1. 44 No. 11 第 44 卷第11 期计算机科学 2017 年 11 月 COMPUTER SCIENCE Nov.2017 基于特征隶属度的文本分类相似性度量方法池云仙1 ， 2 赵书良2 罗燕2 赵骏鹏2 高琳2 李超2 (河北师范大学资源与环境科学学院石家庄 050024)1 (河北师范大学数学与信息科学学院石家庄 050024)2 摘要基于相似性进行文本分类是当前流行的文本处理方法。基于特征隶属度的文本分类相似性度量方法旨在利用特征与文档间的隶属关系度量文档相似性，材、而实现文本分类。该方法基于特征与文档的隶属关系，对特征进行全隶属、偏隶属和无隶属词集划分，并基于 3 种隶属词集定义隶属度函数。全隶属词集隶属于两篇文档，隶属度随权差增大而降低;偏隶属词集仅隶属于其中某一篇文档，隶属度为一个定值;无隶属词集与两篇文档元隶属关系，隶属度为零。在度量相似性时，偏隶属关系高于全隶属关系。由于同类文档词集相近，异类文档词集差异明显，因此，基于特征与文档的隶属度进行相似性度量，可清晰界定词集与类别的隶属关系，提升分类精度。最后，采用数据集 20-New groups 和 Reuters-21578 对分类有效性进行验证，结果表明基于特征隶属度的相似性度量方法的性能优于目前流行的相似性度量方法。关键词数据挖掘，文本分类，相似性度量，隶属度中固法分类号 TP391 文献标识码 A DOI 10. 11896/j. issn. 1002-1372♀ 2017. 11. 044 Similarity Measure for Text Classification ßased on Feature Subjection Degree 1 2 2 2 2 CHI Yun-xian ,2 ZHAO Shu-liang LUO Yan ZHAO Jun-peni GAO Lin LI Cha0 (College of Resources and Environment Science.Hebei Normal University.Shijiazhuang 050024. China) 1 (College of Mathematic and Information Science.Hebei Normal University.Shijiazhuang 050024. China) 2 Abstract It is a fashionable method to do text classification based on similarity. Algorithm similarity measure for text classification based on feature subjection degree (SMTCFSD) aims at measuring similarity of documents through sub jection relationship between feature words and documents. Algorithm SMTCFSD divid