- 1、本文档共55页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
截尾算法
中文网页自动分类技术研究及其在有哪些信誉好的足球投注网站引擎中的应用 冯是聪 北京大学网络与分布式实验室 2003年4月19日 提纲 研究背景与意义 影响分类器性能的关键因素分析 通过清除噪音改进分类质量 一种从有哪些信誉好的足球投注网站引擎日志中学习新词的方法 中文网页自动分类技术在有哪些信誉好的足球投注网站引擎中的应用 总结与展望 研究背景与意义 Web网页量的迅猛增长 Google: 超过30亿 “天网”: 超过1亿 Web信息的特性 海量 动态 不规则 应用实例 面向主题的有哪些信誉好的足球投注网站引擎与个性化有哪些信誉好的足球投注网站引擎 信息过滤和主动推送服务 基本内容 如何实现中文网页的自动分类 如何应用中文网页自动分类技术实现有哪些信誉好的足球投注网站引擎目录导航服务 提纲 问题的提出 影响分类器性能的关键因素分析 通过清除噪音改进分类质量 一种从有哪些信誉好的足球投注网站引擎日志中学习新词的方法 中文网页自动分类技术在有哪些信誉好的足球投注网站引擎中的应用 总结与展望 影响分类器性能的关键因素分析 引言 文档自动分类算法的类型 实现中文网页自动分类的一般过程 影响分类器性能的关键因素的定量分析 实验设置 训练样本 特征选取 分类算法 截尾算法 一个中文网页分类器的设计方案 实现中文网页自动分类的一般过程 训练过程: 可以看作在已知文档类别的情况下,统计不同类别内的词的分布 分类过程: 可以看作在已知一篇文档内所包含词的分布的情况下,来预测该文档的类别 中文网页分类器的工作原理 实验设置 预处理 :无 特征选取 :无 分类算法 :kNN, k=20, 取最大的一个类别 截尾算法 :无 评价指标:Macro-F1 和 Micro-F1 评价指标 样本集中类别及实例数量的分布情况 一个中文网页分类体系 训练样本数对分类器质量的影响 特征选取算法 DF: Document Frequency IG: Information Gain G(t) = MI: Mutual Information CHI 特征选取算法对分类质量的影响 分类算法 kNN NB: Na?ve Bayes 分类算法对分类性能的影响 kNN算法中k的取值 文档之间的相似度 欧式(Euclid)距离 兰氏(Lance)距离 文档之间的相似度-实验结果 类别之间的层次关系 训练过程 测试过程 类别之间的层次关系-实验结果 截尾算法 位置截尾法(RCut):从m的候选类列表中取前k项 比例截尾法(PCut):分类结果中,某个类的文档比例同训练集中属于类i的文档所占的比例一致。 最优截尾法(SCut):对于候选类列表里的每一个类,如果这篇文档和这个类的相似度大于这个类的最优截尾相似度,那么这篇文档就属于这个类。最优截尾相似度的获得:将训练集分成两部分,其中一部分仍然作为训练集,另一部分作为测试集,对每一个类,评价分类系统在这个测试集下对于这个类的分类性能,调整截尾相似度,使得系统的性能达到最优,此时截尾相似度的值就是这个类的最优截尾相似度 截尾算法-实验结果 一个中文网页分类器的设计方案 实验结果 提纲 问题的提出 影响分类器性能的关键因素分析 通过清除噪音改进分类质量 一种从有哪些信誉好的足球投注网站引擎日志中学习新词的方法 中文网页自动分类技术在有哪些信誉好的足球投注网站引擎中的应用 总结与展望 中文网页的特性 中文网页的内容使用中文书写,不像英文单词之间存在自然的形态间隔,中文需要分词处理。而且分词的效果能够显著地影响分类效果 网页使用超文本设计。它包含大量的HTML标签和超链接。我们有可能利用这些信息来改进分类的质量 网页通常包含大量的“噪音”。同普通文本相比,网页的设计比较随意,通常包含各类广告,设计人员的注释以及版权申明等无关信息。有时同一个网页甚至会包含多个不同的主题。在进行分类之前,需要自动清除这些“噪音”,否则这些“噪音”会降低分类质量 典型网页举例 清除噪音算法 流程:源文件 ? 标签树 ? 内容识别 ? 正文,相关连接,噪音 ? 删除噪音 噪音识别方法 网页结构信息 标签信息:table, tr,td, div, p 大小,位置 超链数,文字数 ? 正文 网页内容信息 分类 实验结果- 分类结果 提纲 问题的提出 影响分类器性能的关键因素分析 通过清除噪音改进分类质量 一种从有哪些信誉好的足球投注网站引擎日志中学习新词的方法 中文网页自动分类技术在有哪些信誉好的足球投注网站引擎中的应用 总结与展望 一种从有哪些信誉好的足球投注网站引擎日志中学习新词的方法 引言 基本思想 用户查询词的分布特性分析 组合模式的提取 候选词的筛选 算法分析 实验结果及其分析 引言 相关研究 人名 地名 机构名 共同点:应用面向领域的语料库 从有哪些信誉好的足球投注网站引擎日志
文档评论(0)