文本分类系统的设计和实现.pdfVIP

下载本文档

15
0
约1.29万字
约 3页
2017-08-12 发布于重庆
举报
版权申诉

文本分类系统的设计和实现.pdf

1、本文档共3页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本分类系统的设计和实现.pdf

科技情报开发与经济 SC1一TECHIN}’ORMATIONDEVELOPMENTECONOMY 2007年第 17卷第27期文章编号：1005—6033(2007)27一(j2o0一o3 收稿日期：2007—05—16 文本分类系统的设计和实现陈庆伟 (I1¨1阿省网络管理中心，山西太原，030001) 摘要：介绍了文本分类的基本过程及其关键技术，提出了一个文本分类系统的结构模型，并对该模型进行了测试。关键词：文本分类；特征抽取；相似度中图分类号：G254．36 文献标识码：A 信息技术的发展已经使人们可以非常容易地获得大量信息，这使得对于某个类别c，与特定词条的互信息计算公式如下：如何从大量信息中快速有效地找到所需要的内容也变得十分迫切。准确 MI(C~=lg( ) 的文本分类正是对文本进行检索、归类、过滤和选择的关键。式中：尸(wick)表示为词条在类别c出现的频率；P()表示词条 1 相关理论和算法在整个训练文档中出现的频率。如果把整个文档空间划分为／t个文档类别，则对于每个词条有n个值．取它们的最大值作为每个词条的全对文本进行分类，主要是要解决3个问题：如何表达文本；如何抽取局互信息量，然后将这些值进行排序，设定一个恰当的阀值，并保留高于最合适的特征来表达分类的文本；如何进行文本的相似度计算。下面就阀值的词汇作为文本的特征项。是本文的实现中为解决这3个问题所采用的理论和算法。 1．3 分类算法 1．1 文本的表达方法分类算法是文本分类系统的核心，目前有多种基于向量空间模型的文本表达是为了自动抽取出能够表达文献主题的词汇。文本表达方训练方法和分类算法：支持向量机算法、神经网络方法、最近邻算法、法主要有3种类型：句法分析法、词库匹配法和词汇权重法。 KNN算法和朴素贝叶斯算法等，在本文的实现中我们采用了KNN算法。现在通常采用词汇权重法作为文本表达的主要方法，这主要基于两 KNN算法，也叫K近邻算法，是一种基于实例的文本分类方法。其点经验性的共识：词汇在某一特定文本段中的出现频率越高，与该文本基本算法思路是：在给定待分类文本后，寻找在训练样本集中与待分类段所表达的主题就越相关；词汇在整个数据集中的出现频率越高，与该文本最相似(或距离最小)的K篇文本，然后根据这K篇文本所属的类别文本所表达的主题就越不相关。判定待分类文本所属的类别。具体的步骤如下；采用词汇权重法需要首先对文本进行预处理，对于中文的一般文本进行文本预处理，得到训练样本集中的每篇文档表示向量；计算待来说，首要的预处理是中文分词，将文本转化为只包含能够表达文本内分类文本与训练样本中每篇文本向量之间的相似度，并对相似度进行排容的词}[=；其次，需要对分词的结果数据集进行清洗，包括停用词过滤和序，取前个最