SEWM2007中文网页分类评测参赛system说明.ppt

下载文档

2
0
约1.49千字
约 13页
2017-05-13 发布于四川
举报
版权申诉
保障服务

SEWM2007中文网页分类评测参赛system说明.ppt

1、本文档共13页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

SEWM2007中文网页分类评测参赛system说明

SEWM2007中文网页分类评测参赛系统说明北京大学信息管理系小组成员：王建冬田飞佳内容提要分类系统模块结构各模块主要算法系统运行环境介绍分类系统模块结构分类系统模块结构系统设计整体思路对训练集（包括训练集1和2）进行网页净化然后对净化后的中文文本进行分词，接着从切分后的文本中选取最合适的特征向量表示文档，再利用分类模型对特征向量进行处理，确定其类别。根据评测程序比较分类结果与网页本身所属的类别，并通过调整特征向量提取和分类模型的算法，以及调整参数的设定，使测试集评测指标达到最优。在评测指标达到最优以后，也就确立了分类器。系统模块详解网页净化模块中文分词模块特征项提取模块分类模块网页净化模块提出了一个基于开源项目Htmlparser的同层次表间比较迭代算法。抽取网页主要内容及权值：标题（title）权值为8 正文（content）权值为6 URL锚文本权值为3 网页进化算法（对于正文）对网页结构进行分析，认为网页内容块无论形式如何，必定是存放在某一个表格中，对于不在表格中的部分，将其看作一个表格，便于处理。根据表格的嵌套关系对每个表格进行分级，对处于最高级别的表格进行比较。主要是根据table表格中包含的文字数目和表格中的一些特殊字符进行比较，按照一定规则将一部分table内容去除掉。将剩下的内容视为一个新的网页，并进行同样的迭代操作。进行数次迭代消除网页“噪声”（经过反复实验我们认为进行四次迭代后网页“去噪”效果最好）。网页进化算法（对于URL锚文本）经过调研，我们认为网页URL一般具有以下两条规律：锚文本长度一般不长、越长的url一般越重要。我们计算每条锚文本与净化处理后的网页标题的编辑距离，并将其除以锚文本长度，选取该值小于1.5的锚文本为重要链接。中文分词模块采用了中科院的切词系统进行分词，但是发现中科院的切词系统存在一些问题，比如无法处理某些乱码，当网页中连续出现超过94个的数字或者英文字母或者连续1000字符中间没有标点符号时，系统会报错等。同时考虑到数据中有很多繁体字网页，不加以转换的话会影响最终的分类结果。因此我们增加了简繁转化和乱码自动检测模块，成功解决了中科院切词系统在处理各种类型网页过程中可能遇到的问题。特征项提取模块选择了CHI作为特征项的提取方法。按照切分出的每个词的CHI值的大小进行排序，选择CHI值最大的前15%的词作为特征项。在计算特征权值的时候，我们使用tf*idf*CHI值为每个特征项进行加权，通过实验发现，在最好情况下，这样做比传统的tf*idf可以将分类结果提高0.5个百分点。分类模块采用了KNN分类模型，经过反复实验，确定K取15。考虑到虽然余弦相似度是全局的相似度，但是KNN的计算结果取决于少量权重极大的项，权重很小的项对相似度贡献很小，因此，我们为特征项权值设立了一个阈值0.01，在读入数据时只读入权重大于该阈值的特征项，而小于该阈值的则舍弃。系统运行环境硬件环境 CPU:AMD 1600+, 内存：256M,硬盘：80G,数量：8台操作系统 Windows XP 编程语言 Java Thank you! 信息管理系信息管理系