网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘论文技术分析.docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于web日志的数据预处理研究摘要:为了更加合理地组织Web服务器的结构,需要通过Web日志挖掘分析用户的浏览模式.而Web日志挖掘中的数据预处理工作关系到挖掘的质量。文章就此进行了深入的研究,提出一个包括数据净化、用户识别、会话识别和路径补充等过程的数据预处理模型,并介绍这个过程中一些特殊情况的处理方法。关键词数据挖掘; Web日志挖掘; 数据预处理Data Preparation in Web Log MiningAbstractIn order to organize the web server architecture more logically, Web log mining is needed to analyze users browsing patterns. This paper studies the data preprocessing phase of Web log mining, which is the key to get good mining result, and presents a data preprocessing model including middle steps like data cleaning, user recognition, session recognition, and path supplementation. Also introduce the solution of some especial problem in this process.Key wordsData mining; Web log mining; Data preparation1 引言近年来,Internet正以令人难以置信的速度在高速发展,越来越多的机构、团体和个人在Internet上发布信息、查找信息.虽然Internet上有海量的数据,但由于web数据是无结构的、动态的,并且Web页面的复杂程度远远超过了文本文档,人们要想找到自己想要的数据犹如大海捞针一般.信息检索界开发了许多有哪些信誉好的足球投注网站引擎,但其覆盖率有限,因此查询率低,一般的有哪些信誉好的足球投注网站引擎是基于关键字的查询,命中率较低,另外不能针对特定的用户给出特殊的服务,因为每个人感兴趣的东西是不一样的,因此不具有个性化。解决这些问题的一个途径,就是将传统的数据挖掘技术和web结合起来,进行web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息,挖掘可以在很多方面发挥作用,如对有哪些信誉好的足球投注网站引擎的结构进行挖掘,确定权威页面,文档分类,Web Log挖掘、智能查询,建立Meta-web数据库等[1]。目前,在web挖掘研究中,web日志挖掘是重点领域之一。Web日志挖掘技术主要是从web服务器和客户端的日志文件中,挖掘发现用户的浏览行为习惯,并且日志数据中潜在的有用的规律被挖掘分析出来,进而为网站企业和决策分析者提供有效的决策参考和为用户提供个性化服务,从而可以制定相应的营销策略,改进网站的组织结构和性能,在同行竞争一中提高自身优势。所以,对web日志挖掘知识理论和技术的研究在实际应用中是必不可少的,且有极高的研究价值。2 web日志挖掘研究现状及难点2.1 研究现状自从1996年由M.S. Chen, T.Yan,H.Mannila, O.Etzioni等提出web数据的研究应用工作开始,到现在己有10多年的发展。近几年,国外学者、科研院所和商业机构非常关注web日志挖掘相关理论的研究以及应用开发等相关技术。Chen和Mannila在研究中,假定去除声音、图像文件等多媒体数据,然后剩余的日志文件数据可以真实地反映出用户访问网站的状况。最大前向路径MFP(Maximal Forward Path)概念模型被Chen提出来,用户访问会话(Session )被分解为一个个相对于更小的事务(Transaction )是这种方法被提出的主要目的,最后这些被分解得出的事务被用于挖掘出用户的访问模式[4]。为了找出用户访问网站的周期,Mannila的研究以用户访问页面作为事件的前提下,试着从站点web日志文件中找出这样的周期。Minnerota大学提出的Web Mine:系统,这是一种web日志挖掘的体系结构,此系统是对web站点的web日志数据文件进行预处理,因为传统的数据挖掘方法和技术只能对相应特定的数据源进行有效地挖掘,所以这里web日志文件应被预处理成适合传统挖掘方法的数据源数据,最后利用数据挖掘相关的技术方法进行挖掘处理,最终可以从web日志文件数据中发现关联规则和序列模式等。有许多web日志挖掘工具已经投入实际使用中,如IBM公司的web日志挖掘和分析工具SpeedTracer,通过对用户会话进行数据挖掘后,可以发现频繁访问的页

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档