中 文  信  息  学  报 第 13 卷 第 6 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vol . 13 No. 6 中文文献的层次分类方法 战学刚 林鸿飞  姚天顺 东北大学计算机科学与工程系  沈阳 110006 摘要  现有的分类系统通常忽略类别体系的层次结构 ,在对文献进行分类时 ,往往很难区 分类别相近的文献属于哪一类 。本文基于向量空间模型 ,提出根据类别体系的层次结构 , 自顶 向下 ,逐层分类的方法 。其 目的是提高分类精度 ;并根据概念词典 ,将同义词或下位概念映射 到单一的概念词上 , 由这些概念词构成一个规模很小的特征集 , 以缩小特征向量空间的维数 , 从而减少分类系统的计算量 。此外 ,通过对类别层次体系的分析 ,压缩特征向量 ,从另一方面 减少分类系统的计算量 。 关键词  文献分类  向量空间模型  类别层次结构 Hierarchical Method f or Chinese Document Classif ication Zhan Xuegang  Lin Hongfei  Yao Tianshun Dep art ment of Comp uter Science , Nort heastern U niver sity  Shenyang  110006 Email :ics @mail . neu . edu . cn Abstract  Existing st atistical document classification systems often ignore t he hierarchical st ruc t ure of t he p redefined topics. This makes it difficult to identify which category a document be longs to when t he po ssible categories are somewhat similar . In t his article , we p ropo se a topdown classification met hod accor ding to t he hierarchical st ruct ure of topics. The p urpo se is to imp rove p recision and reduce comp ut ation of classification systems. Through a concept dictionary ( t he saurus) , we map t he synonyms or lowerlevel concept s in a document to a small set of concept wor ds t hat are used as terms. This reduces t he comp ut ational complexit y from anot her aspect by reducing t he dimension of t he vector sp ace . Key words  Document classification  Vector sp ace model  Topic category hierarchy 一 、引言 ( ) 文献分类就是将大量的自然语言文献归结到一个 或多个 预定义的文献类别中。近年 来 ,随着文本信息的不断增多 ,人们对大规模文本信息自动处理也提出了更高要求 。有效的信 本文于 1999


