- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种基于N一Gram改进的文本特征提取算法
砧畜而脚细.. LIBRARY AND INFORMATION SERVICE
VOI.48,No.8,AugUst,2X《辫
一种基于N一Gram改进的立本特征
提取算法
于津凯 王映雪 陈怀楚
清华大学计算机与信息管理中心 北京100084
摘〔要〕介绍一种改进的文本特征提取及匹配算法。该算法墓于N一Gram算法思路进行文本处理和特征提取,设计了gram
关联矩阵用于统计与合并特征词,从而在固定长度N一Gram算法的基础上能够提取出不同长度的特征词。实验证明,该特征
提取算法能够更为准确地描述丈本特征,可应用于文本检索、Web挖掘等信息处理领域。
(关扭词)文本特征提取 N一Gram 算法 孚姗关联矩阵
t分类号〕T玛91
An1mprovedTextFeature ExtractionAlgOrithJInB田犯donN一Gra幻比
Y、】Ji,Ik:liwa,lgyillgx:le Cller1Huaichu
ComputerInformationManagementCenter,TsinghuaUniversity,Beijingl00084
A〔bstract〕Thispaperintrr刁ucesanimprovedtextfeatuoextractional即rithmbasedonN一Gramtheo叮.Itdesi,sagramcorrela-
tivematrixtounitetheconsecutivebigramsintoamultigramandbreaksthelimitofN一Gramwhichhasfixed一lengthgramextractions
andformsthemultigramfeatures.
K〔eywords)textfeatureextraction N一Gramal即th‘m gramCorrelativem训x
1 引 言 Z N一Gram算法
文本特征提取与匹配是文本检索和文本挖掘任务中基 N一Gram 算法的基本思想,是将文本内容按字节流进行
础性和关键性的工作。文本特征提取抽取信息的特征,并表 大小为N的滑动窗口操作,形成长度为N的字节片断序列,
示为统一的方式,可以有效地降低文本向量空间维数,简化 每个字节片断称为罗am,对全部孚am的出现频度进行统计,
计算,防止过分拟合,是文本类共性与规则的归纳过程。 并按照事先设定阑值进行过滤,形成关键孚am列表,即为该
常见的文本特征提取算法,包括基于自然语言理解的文 文本内容的特征向量空间,列表中的每一种gram均为一个
本语义理解技术、基于关键词列表和专业词典的分词匹配技 特征向量维度。
术以及基于纯统计学方法的无意义文本分解技术。由于汉 N一Grarn算法具有如下优点:①语种无关性,可以同时
语中字词分隔不明显,歧义较多,词序、语序的自由度较高, 处理中英文、繁简体文本。②不需对文本内容进行语言学
因此语义理解技术和分词技术在中文文本环境中的应用都 处理。③对拼写错误的容错能力强。④勿需词典和规则。
存在一定困难,而基于纯统计学的N一Graln 算法,可以绕过 根据语言学方面的统计,约70%左右的中文词汇是双字
分词的障碍,具有较高的实用性。 词,因此在进行中文文本处理中,大多采用双字词进行分解,
本文讨论N一Gram 算法的特征及优缺点,并在此算法 称之为higram,下文中所指N一Gram 算法,均采用higram切
基础上提出一种改进的文本特征提取算法,通过统计并合产 分方式。由于汉字是双字节字符,因此取N=4,即以4字节
生多字特征词,从而较好地解决了N一Graln 算法在多字词 为单位进行字节片断划分。首先要对文本语料按中英文和
方面的缺陷,使特征提取过程能够获取更为准确有效的特征 语段标点进行切分,将原文由大段文本切分为语段序列,即
向量。 相对逻辑独立的单句或区段;再对每一个语段进行higram切
分,即可获得乎am列
您可能关注的文档
- LS-DTEY-FEN2-04(5050户外普亮).pdf
- 90-93 组 - 男子双打(C)Page 1 of 4.pdf
- new VD4 说明书A(Page13-24).pdf
- 比逼格更逼格:Google CEO Larry Page专访.pdf
- 方程w3+x+3+y+3+z3=w+x+y+z=4的整数解.pdf
- Tricine–SDS-PAGE.pdf
- MIC2009YM6 TR;MIC2007YM6 TR;MIC2009YML TR;MIC2005A-1YM6 TR;MIC2005A-1YM5 TR;中文规格书,Datasheet资料.pdf
- AJCC第七版分期 Home Page.pdf
- 耀华YHR5系列电机软启动说明书.pdf
- Origin中横轴坐标为数字的双纵(Y)轴柱状图做法图解(详细).pdf
文档评论(0)