《文本表示模型及聚类算法介绍综述》3900字.docx

下载文档

0
0
约5.32千字
约 6页
2025-03-09 发布于湖北
举报
版权申诉
保障服务

《文本表示模型及聚类算法介绍综述》3900字.docx

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文本表示模型及聚类算法介绍综述

TOC\o1-2\h\u28598文本表示模型及聚类算法介绍综述 1

147331.1文本表示模型 1

181741.1.1向量空间模型 1

197711.1.2布尔模型 2

83221.1.3概率模型 2

244841.2情感特征提取 3

303491.1.1文档频率法 3

305521.1.2信息增益法 3

74421.1.3互信息法 4

24301.1.4情感词典匹配法 4

270381.3文本聚类算法 4

241971.3.1基于层次的聚类算法 5

285841.3.2基于划分的聚类算法 5

75921.3.3基于密度的聚类算法 5

73251.3.4基于网格的聚类算法 5

近年来，随着网络科技的发展，网民的数量越来越多，数据的爆发式增长加大了传统获取热门信息情感极性的难度。热点话题情感分析是一项综合性的研究，属于自然语言处理的分支，需要用到一系列的文本处理技术，包括中文分词、去除停用词、文本向量表示、文本聚类以及文本情感极性判断等。本章主要对所用到的技术的相关理论做了详细介绍，并对本文使用的Hadoop平台做了介绍。

1.1文本表示模型

微博话题情感分析系统需要借助计算机来利用情感话题进行情感分析，而计算机并不能直接识别文字并对文本进行处理，需要将分词处理后的文本按照一定规则进行处理，目前较为常用的文本表示模型有如下三种。

1.1.1向量空间模型

向量空间模型[41]（VectorSpaceModel，VSM）是将文本映射成向量矩阵，该算法的基本思想是：将文本集量化成一个高维空间向量，向量中的每个特征都是文本集中出现的词。在向量空间模型进行文本表示时，为了提高计算效率需要降低向量维度，无价值和权值低的词会被过滤。常用的模型权值计算方法为词频统计法、根号函数法和词频-逆文档频率（TermFrequency-InverseDocumentFrequency，TF-IDF）。

（1）词频统计法

特征词在某条文本中出现的次数作为该词的特征项的权值，计算过程如公式（2-1）所示：

（2-1）

式中，表示特征词，表示文本，表示文本中特征词出现的次数，表示所有特征词的数目之和，表示特征词的词频。

（2）根号函数法

根号函数法求权值，就是得到特征项频率后对其进行开方，计算过程如公式（2-2）所示：

（2-2）

（3）词频-逆文档频率

词频-逆文档频率为词频和逆文档频率之积。特征词在文本中出现的次数表示为TF，计算公式如公式（2-1）。IDF为逆文档频率，表示总文本数量和含有特征词的文本数量的比值的对数，计算过程如公式（2-3）所示：

（2-3）

式中，表示数量，为计算的文本中存在特征词的文本数，引入0.01是为了防止文本中没有特征词，导致分母为零无法计算的情况出现，则TF-IDF的计算过程如公式（2-4）所示：

（2-4）

因此，TF-IDF值与特征词在同一文本中出现的频率呈正相关，在需要计算的总文本中出现的频率呈负相关，从而有效的将权值高的关键特征词筛选出来。

1.1.2布尔模型

布尔模型是一种最简单的文本表示模型，该模型通过利用二值变量集合的方法对文本进行表示。变量集合由文本中的词条特征项组成，二值表示了文本中的特征项是否出现，如果出现则将相应权值赋值为“1”，如果不出现则将相应权值用“0”表示。尽管布尔模型的文本表示方法容易实现，处理速度快，但是对文本特征的表示能力较差，二值变量只能表示特征项是否在文本中出现，并不能表示特征项的重要程度。

1.1.3概率模型

概率模型（Probabilisticmodels)是一种基于数学原理中概率排队理论的文本表示模型。在概率模型的构建中综合考虑了词语、文档出现的次数等原因对文本类别的影响。该模型将词语与词语的相关性作为对文本关系进行判断的依据，而不是简单的取0或1。在文本表示中，该模型的建立利用数学基础知识计算文本的相关性来进行排序，虽然可以按照相关频率减少的规则进行排序，但是需要根据相关性将文本数据分为两部分，不仅增大了操作难度，而且精度不高。

1.2情感特征提取

文本表示的基本单元被称为特征，特征项必须满足条件：（1）和文本内容密切相关；（2）具有高可辨度，可以使目标文本和其他文本分类；（3）满足辨识性的同时数目也不能很多；（4）容易进行特征提取[42]。特征选取的目的在于通过删除无关特征以及尽量保留文本的基本信息，提高分类的性能。本文主要是以微博中的热点事件为基础进行研究，由于微博平台的独特性，网民可以在微博发表各式各样的言论来表达自己的观点，既可以只包含文字，也可以在内容中添加自定