一种基于N一Gram改进的文本特征提取算法.pdf

一种基于N一Gram改进的文本特征提取算法.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种基于N一Gram改进的文本特征提取算法

砧畜而脚细.. LIBRARY AND INFORMATION SERVICE VOI.48,No.8,AugUst,2X《辫 一种基于N一Gram改进的立本特征 提取算法 于津凯 王映雪 陈怀楚 清华大学计算机与信息管理中心 北京100084 摘〔要〕介绍一种改进的文本特征提取及匹配算法。该算法墓于N一Gram算法思路进行文本处理和特征提取,设计了gram 关联矩阵用于统计与合并特征词,从而在固定长度N一Gram算法的基础上能够提取出不同长度的特征词。实验证明,该特征 提取算法能够更为准确地描述丈本特征,可应用于文本检索、Web挖掘等信息处理领域。 (关扭词)文本特征提取 N一Gram 算法 孚姗关联矩阵 t分类号〕T玛91 An1mprovedTextFeature ExtractionAlgOrithJInB田犯donN一Gra幻比 Y、】Ji,Ik:liwa,lgyillgx:le Cller1Huaichu ComputerInformationManagementCenter,TsinghuaUniversity,Beijingl00084 A〔bstract〕Thispaperintrr刁ucesanimprovedtextfeatuoextractional即rithmbasedonN一Gramtheo叮.Itdesi,sagramcorrela- tivematrixtounitetheconsecutivebigramsintoamultigramandbreaksthelimitofN一Gramwhichhasfixed一lengthgramextractions andformsthemultigramfeatures. K〔eywords)textfeatureextraction N一Gramal即th‘m gramCorrelativem训x 1 引 言 Z N一Gram算法 文本特征提取与匹配是文本检索和文本挖掘任务中基 N一Gram 算法的基本思想,是将文本内容按字节流进行 础性和关键性的工作。文本特征提取抽取信息的特征,并表 大小为N的滑动窗口操作,形成长度为N的字节片断序列, 示为统一的方式,可以有效地降低文本向量空间维数,简化 每个字节片断称为罗am,对全部孚am的出现频度进行统计, 计算,防止过分拟合,是文本类共性与规则的归纳过程。 并按照事先设定阑值进行过滤,形成关键孚am列表,即为该 常见的文本特征提取算法,包括基于自然语言理解的文 文本内容的特征向量空间,列表中的每一种gram均为一个 本语义理解技术、基于关键词列表和专业词典的分词匹配技 特征向量维度。 术以及基于纯统计学方法的无意义文本分解技术。由于汉 N一Grarn算法具有如下优点:①语种无关性,可以同时 语中字词分隔不明显,歧义较多,词序、语序的自由度较高, 处理中英文、繁简体文本。②不需对文本内容进行语言学 因此语义理解技术和分词技术在中文文本环境中的应用都 处理。③对拼写错误的容错能力强。④勿需词典和规则。 存在一定困难,而基于纯统计学的N一Graln 算法,可以绕过 根据语言学方面的统计,约70%左右的中文词汇是双字 分词的障碍,具有较高的实用性。 词,因此在进行中文文本处理中,大多采用双字词进行分解, 本文讨论N一Gram 算法的特征及优缺点,并在此算法 称之为higram,下文中所指N一Gram 算法,均采用higram切 基础上提出一种改进的文本特征提取算法,通过统计并合产 分方式。由于汉字是双字节字符,因此取N=4,即以4字节 生多字特征词,从而较好地解决了N一Graln 算法在多字词 为单位进行字节片断划分。首先要对文本语料按中英文和 方面的缺陷,使特征提取过程能够获取更为准确有效的特征 语段标点进行切分,将原文由大段文本切分为语段序列,即 向量。 相对逻辑独立的单句或区段;再对每一个语段进行higram切 分,即可获得乎am列

文档评论(0)

xxj1658888 + 关注
实名认证
内容提供者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年04月12日上传了教师资格证

1亿VIP精品文档

相关文档