一种基于N一Gram改进的文本特征提取算法.pdf

下载文档

20
0
约 4页
2017-05-28 发布于河南
举报
版权申诉
保障服务

一种基于N一Gram改进的文本特征提取算法.pdf

1、本文档共4页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一种基于N一Gram改进的文本特征提取算法

砧畜而脚细.. LIBRARY AND INFORMATION SERVICE VOI.48，No.8，AugUst，2X《辫一种基于N一Gram改进的立本特征提取算法于津凯王映雪陈怀楚清华大学计算机与信息管理中心北京100084 摘〔要〕介绍一种改进的文本特征提取及匹配算法。该算法墓于N一Gram算法思路进行文本处理和特征提取，设计了gram 关联矩阵用于统计与合并特征词，从而在固定长度N一Gram算法的基础上能够提取出不同长度的特征词。实验证明，该特征提取算法能够更为准确地描述丈本特征，可应用于文本检索、Web挖掘等信息处理领域。 (关扭词)文本特征提取 N一Gram 算法孚姗关联矩阵 t分类号〕T玛91 An1mprovedTextFeature ExtractionAlgOrithJInB田犯donN一Gra幻比 Y、】Ji，Ik:liwa，lgyillgx:le Cller1Huaichu ComputerInformationManagementCenter，TsinghuaUniversity，Beijingl00084 A〔bstract〕Thispaperintrr刁ucesanimprovedtextfeatuoextractional即rithmbasedonN一Gramtheo叮.Itdesi，sagramcorrela- tivematrixtounitetheconsecutivebigramsintoamultigramandbreaksthelimitofN一Gramwhichhasfixed一lengthgramextractions andformsthemultigramfeatures. K〔eywords)textfeatureextraction N一Gramal即th‘m gramCorrelativem训x 1 引言 Z N一Gram算法文本特征提取与匹配是文本检索和文本挖掘任务中基 N一Gram 算法的基本思想，是将文本内容按字节流进行础性和关键性的工作。文本特征提取抽取信息的特征，并表大小为N的滑动窗口操作，形成长度为N的字节片断序列，示为统一的方式，可以有效地降低文本向量空间维数，简化每个字节片断称为罗am，对全部孚am的出现频度进行统计，计算，防止过分拟合，是文本类共性与规则的归纳过程。并按照事先设定阑值进行过滤，形成关键孚am列表，即为该常见的文本特征提取算法，包括基于自然语言理解的文文本内容的特征向量空间，列表中的每一种gram均为一个本语义理解技术、基于关键词列表和专业词典的分词匹配技特征向量维度。术以及基于纯统计学方法的无意义文本分解技术。由于汉 N一Grarn算法具有如下优点:①语种无关性，可以同时语中字词分隔不明显，歧义较多，词序、语序的自由度较高，处理中英文、繁简体文本。②不需对文本内容进行语言学因此语义理解技术和分词技术在中文文本环境中的应用都处理。③对拼写错误的容错能力强。④勿需词典和规则。存在一定困难，而基于纯统计学的N一Graln 算法，可以绕过根据语言学方面的统计，约70%左右的中文词汇是双字分词的障碍，具有较高的实用性。词，因此在进行中文文本处理中，大多采用双字词进行分解，本文讨论N一Gram 算法的特征及优缺点，并在此算法称之为higram，下文中所指N一Gram 算法，均采用higram切基础上提出一种改进的文本特征提取算法，通过统计并合产分方式。由于汉字是双字节字符，因此取N=4，即以4字节生多字特征词，从而较好地解决了N一Graln 算法在多字词为单位进行字节片断划分。首先要对文本语料按中英文和方面的缺陷，使特征提取过程能够获取更为准确有效的特征语段标点进行切分，将原文由大段文本切分为语段序列，即向量。相对逻辑独立的单句或区段;再对每一个语段进行higram切分，即可获得乎am列

您可能关注的文档

文档评论（0）

xxj1658888 + 关注: 实名认证

内容提供者

教师资格证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2024年04月12日上传了教师资格证

1亿VIP精品文档

更多 >

一种基于N一Gram改进的文本特征提取算法.pdf