SEWM2005分类任务系统说明.pptVIP

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SEWM2005分类任务系统说明 江西师范大学网络应用研究所 曾雪强 分类系统结构说明 系统模块列表 HTML格式处理模块 中文分词模块 分类训练模块 分类模块 网页格式处理 采用JAVA开源项目HTMLParser 遇到问题: 字符集的编码类型较多:GB2312、GBK、UTF-8、BIG5、EUC-KR、Shift JIS,只保留了前三种。 字符集的标定有少量错误,我们发现一些标为GBK的网页是乱码;标为UTF-8 的网页,经过重新编码后仍为乱码。 存在一部分二进制文件,如:RAR、ZIP、PDF等;而没有一种很好的算法进行自动识别。 少量网页的格式不标准,HTML分析时会出错。 共滤掉2G多的网页。 中文分词模块 采用中科院计算所ICTCLAS分词软件。 存在的问题: 由于我们采用的是该分词软件的免费版本,分词效果肯定不如商业版的好。 分词系统,遇到一些异常情况会报错退出:比如超常英文字符串,特定的GBK汉字和乱码。 过滤了所有分词出错的网页。 采用的分类模型 LSC1:基于潜在语义结构的二元分类器 kNN:标准kNN算法 LSC2:基于潜在语义结构的多类分类器 SVM:SVMlight算法 如果是二元分类器,就采用了多个二元分类器组合的方式。 系统的一些说明 特征提取 去除了英文的停用词; 根据分词信息,只保留了中文的名词和动词; 采用文档频数进行初选(保留文档频数在3到8000之间的词); 采用CHI统计量进行进一步特征提取; 特征维数优选在8000维。 系统的一些说明 权重计算 采用了LTC权重 对网页的不同部分,赋予不同的权重; TITLE,BODY,URL,ANCHOR的权重之比为:4:1:0.5:1 四种模型,在训练集上的最优微平均F1相近,在0.80到0.84之间。 系统运行环境 硬件平台:HP G3/570 CPU:2.83G*2 内存:4G 硬盘:280G 操作系统:RedHat AS4_64 编程语言:Java 我们的一些想法 希望CWT100g的下一个版本,收集的网页格式能更为规范; 是否能提供更好的网页分类数据集; 采集的网页分布的合理性; 网页类别标签的合理性; * * 2005年9月27日 训练集 HTML格式处理 划分为Train Set和Test Set, 优选特征维数和模型参数。 特征表示 生成分类模型 CWT100g HTML格式处理 中文分词 特征表示 进行分类 结果 中文分词 分类训练模块 分类模块 HTML格式处理模块 中文分词模块

文档评论(0)

kaku + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8124126005000000

1亿VIP精品文档

相关文档