- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用naivebayes方法协调分类web网页.pdf
维普资讯
@2001JournalofSoftware 软 件 学 报 Vo1.12.No.9
用 NaiveBayes方法协调分类 Web网页
范 焱 .郑 诚h.王清毅 .蔡废生. 洁
(中国科学技术大学 计算机科学与技术系,安徽 台肥 230027);
(安徽大学 计算 机系,安徽 舍肥 230027)
E—mail:tangfan@mail.hf.ah.cn
http:/,Www.Ustc.edu.cn
摘要 :www 上 的信息极大丰富.如何从 巨量的信 息中有效地发现有 用 的信息 ,是亟待解决的问题一而 Web网再
的正确分类正是其 中的耘心 问题 针对超 文丰结构 中的结构特征 .提 出了用 NaiveBayes方击协调 分别利用超文
本页面 中的文丰信息和结构信息进行 分娄的方击.经 实验验证 .与只用单种方击对超 文丰进行 分类 的方法相 比,
综告分类法有效地提 高了分类 的正确率
关键词 :超文丰 ;Web;分类 {机器学习;互联 网;敷据挖掘 i信息桂索;wWw
中圈法分类号 :TP181 文献标识码 :A
当前 ,互联 网上 的信息极大丰富.然而 ,最终用户能消化吸收的信息量与时间之 比呈常量 .因
此 .如何 自动 、有效地从互联 网的巨量信息 中获取知识 ,是亟待解决 的问题 ,而 Web网页 的正确分
类是其 中的核心 问题.
针对这一 问题 ,卡耐基一梅隆大学、IBM 公 司等都进行 了相应 的研究 ,但 当前对超文本分类基
本上还是采用对平常文本分类的方法 ,未能有效地利用Web页面中的结构信息,如 title、head、超
链接等 .即使使用 了相应信息 ,也未能有效地协调各算法进行分类 ,一般也只是采用投票法或最大
值法 。,虽然有一定 的效果 ,但稳定性差 ,对提高分类正确性 的效果并不是很 明显.而本文是针对
超文本分类 ,用 Bayes理论方法协调文本和超文本结构信息分类器 ,对 Web页面进行分类 .实验结
果显示 ,与单独用基于 Bayes方法 的文本和结构信息方法 的分类器相 比,综合分类器的正确率提高
了5 以上 ;与单独使用基于文本相似性方法的分类器相 比,综合分类器的正确率提高 了 4 以上 ,
而且结果相 当稳定 .
1 超文本 分类理论基 础
(1)文本分类
方法 1.NaiveBayes分类器
在文本分类研究中,NaiveBayes分类与其他文本分类技术相 比更有竞争性 ,因此获得 了
成功使用 。.基于 Bayes定理 的文本分类公式如下 :
收稿 日期 :2000—02—24:修 改 日期 :2000—0510
基金项 目:国家 自然科 学基金资助项 目(6967501B)
作者苘介 :蓖袅 (P68一),男 .安徽音肥人 .博士 .工程 师 .主要研 究领域为知识发现 ,机器 学习 郏诚 (1964一).男 .安t般县
人 ,主要研究 领域 为机器学 习.知识 发现 王 {I毅 (1962一)男.安擞 台肥人 ,博士,讲师 .主要研究 领域 为知 识发现 摹 庆生
(1938-) 男 ,重 庆人 .教授 ,博士生导师 .主要研究领域为人 工智能 机器 学 习 知识发现 ;土|洁 (1972 ).男 .重庆人 .博士 工程
师 .主要研究领域为机器学习
. .. ^ i颡 鲞。 蠡 。锺 豢 瓤
维普资讯
范燕 等 :甩 NaiveBayes方法协调务类 web网页 l387
( :argmaxP( 1 】. 2… .,” )一argmaxP()儿 P(w,lfJ).
∈ ‘ I
文档评论(0)