- 1、本文档共20页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
清华大学-中文web信息检索论坛
SEWM2006中文网页分类评测清华大学参赛队报告 清华大学计算机科学与技术系 智能技术与系统国家重点实验室 徐舒 xus05@ 内容提纲 CWT200G数据预处理 网页分类策略 未来工作及建议 参考文献 数据预处理-总体设计 zlib压缩存储 处理全部200G数据 保留原始网页的页面信息和链接关系 中间数据可用于对网页分类的进一步的研究 数据预处理-HTML解析(1) 网页分类需要注意的几个问题: 直接应用纯文本分类策略效果很差 通常包含具有丰富语义信息的Tag 通常含有大量噪声 可能包含多媒体信息而无确切的文本内容 提取HTML中如下标签和属性: Title METADATA (keywords,description,etc), A (Surrounding text) 页面正文信息 实现方法: 基于Python的HTMLParser类,重载其中部分接口 数据预处理-HTML解析(2) 编码转换: 常用网页编码格式: GBK/GB18030/GB2312(简体) BIG-5(繁体) UTF8/UTF16(通用) 只处理BIG5,GBK和UTF-8三种编码 统一转码成为GBK编码(编码转换库Libiconv) 05年训练集中的编码数量统计: BIG5:53, UTF-8:6, GBK:15457 数据预处理-信息抽取和去噪(1) 在解析HTML的基础上进行 表征同一网页的不同形式 页面内部信息 标题 META信息 页面正文 页面链接文本 Web结构信息 链入文本聚合 过滤广告噪声(基于规则) 无链接文字(AnchorText) 链接文字周围没有非链接的文字 链接文字中出现了给定的过滤关键词,例如“下一页”,“图铃”等 缺乏可靠的抑制噪声的措施 不直接删除广告信息,而是给出标记,由后续程序进一步判断 数据预处理-并行化 海量数据,无进程间通信,易于并行处理 申请使用清华大学计算机集群系统 128台rx2600服务器作为计算节点 ,256 安腾CPU RedHat Linux操作系统 每秒13300亿次的峰值浮点运算能力 实际使用:12节点,预处理用时:28小时 数据预处理-中间数据格式 .ID CWT200G-DFHR23224 .URL / .METADATA @title:北大未明 .ANCHORDATA 首页 联系我们 .LINKSIN @link: @anchortext:北大未明 @surroundingtext:点击进入北大为名网站 @Use:Y .LINKSOUT @link:/about.html @anchortext:关于我们 @surroundingtext: @Use:Y .CONTENT 欢迎来到北大未明网站 .CLASSID 内容提纲 CWT200G数据预处理 网页分类策略 未来工作及建议 参考文献 分类策略-综述 基于纯文本分类策略 向量空间模型 采用SVM(libSVM)作为试验中统一使用的分类器 特征的选择远比分类器本身重要 良好的泛化能力 由于训练后模型只需考虑支持向量,分类速度快 特征和权重 二元串(Bigram)作为特征 TF*IDF权重 CHI-square进行特征选择,70000维 分类策略-多特征融合 多个来源,独立表征网页的信息的融合 采用线性加权的方法融合 使用插值法贪婪有哪些信誉好的足球投注网站确定各个特征的权重 最终采用的融合策略(向量级特征融合): 分类策略-链接分析(1) 网页间存在链接:主题存在一定关联 分类完成基础上,简单的标签传播算法进行refine(20G) 分类策略-链接分析(2) 内容提纲 CWT200G数据预处理 网页分类策略 未来工作及建议 参考文献 未来工作 更加有效的页面去噪方法(VIPS,摘要等) 更大规模的数据集上进行链接分析 改进标签传播的算法 一些感想和建议 8类的分类体系有些过于重叠:如娱乐和时尚 用户调查(User Study)的结果: 在05年的1100篇测试集上进行标注 比较8类分类器的机器分类结果和用户标注 存在用户和机器标注不一致但都合理的情况 上述情形在分类置信度存在双峰时尤为突出:(73/1100) 层次分类(Google Directory)?多标签? 内容提纲 CWT200G数据预处理 网页分类策略 未来工作及建议 参考文献 参考文献 [1] G.R. Xue, Q, Yang H.J Zeng, Y,Yu and Z.Chen. Exploiting the Hierarchical Structure for Link Analysis The 28th Annual International ACM SIGIR conference on Research and Develop
您可能关注的文档
- 2017年商船本地船只一般修订规例m.pdf
- 东吴大学实验场所安全卫生检查表-微生物学系.doc
- 木质渔船的横向环动半径系数16.pdf
- 环境质量评价课程教学自学基本要求-中国石油大学教育发展中心.doc
- 江苏宜兴西溪遗址发掘纪要-东南文化-南京博物院.pdf
- 在全高中教学暨高考总结表彰会上的讲话-衡东教育信息网.doc
- 试题库试题集工作说明.doc
- 高锰酸钾溶液的配制与标定pps.ppt
- 浙江淡竹出笋和幼竹高生长规律的研究-中国林业科学数据中心-云南.pdf
- 粉煤颗粒粒度对燃烧特性影响热分析.pdf
- DB31/T 1297-2021政务公开管理规范.pdf
- 《DB31/T 1297-2021政务公开管理规范》.pdf
- 《T/ZQIE 006-2023金利五金 高品质家居用缓冲型杯状暗铰链》.pdf
- T/ZQIE 006-2023金利五金 高品质家居用缓冲型杯状暗铰链.pdf
- 《DB32/T 3976-2021液化气体自动灌装衡器通用技术规范》.pdf
- DB32/T 3976-2021液化气体自动灌装衡器通用技术规范.pdf
- CQJTG/T E02-2021重庆市高速公路施工标准化指南.pdf
- 《CQJTG/T E02-2021重庆市高速公路施工标准化指南》.pdf
- T/ZSCQO 001.1-2023首席质量官 第1部分:推行组织质量管理体系要求.pdf
- 《T/ZSCQO 001.1-2023首席质量官 第1部分:推行组织质量管理体系要求》.pdf
文档评论(0)