网站大量收购闲置独家精品文档,联系QQ:2885784924

基于数据中心模式的多网站数据挖掘技术研究.docVIP

基于数据中心模式的多网站数据挖掘技术研究.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数据中心模式的多网站数据挖掘技术研究.doc

基于数据中心模式的多网站数据挖掘技术研究   摘要:随着互联网的快速发展,Web上的数据飞速增长。面对海量的数据,如何从中找出有价值的信息,运用到商业决策的制定中,已经成为越来越多的人关心的课题。该文主要介绍了web数据挖掘的概念和分类,论述了在电子商务中web挖掘的过程和方法,揭示了数据挖掘在电子商务中广泛的应用前景。论文实现了一个面向多电子商务平台的数据挖掘系统,系统面对多电子商务平台,实现了统一的数据收集和预处理过程,对用户的访问日志进行分析,从网站、商品类别、商品等角度进行数据分析,并又对用户的访问数据进行挖掘,从这些数据中发现潜在的规律,把握用户动态,帮助企业制定商业决策,使电子商务更具个性化和针对性。   关键词:数据挖掘;Web挖掘;电子商务系统;用户兴趣分析   中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)31-6948-03   现今,随着网络技术和数据库技术的迅猛发展,有效推动了商务活动由传统活动向电子商务变革。随着商务活动活动的电子化、数字化和网络化,如何从这些大量的数据中找出有利于商业运作、提高竞争力和为访问客户提供更多更优质的服务的信息,成为电子商务成败的关键因素,越来越受到电子商务经营者的高度关注,这也对计算机数据技术提出了新的要求。数据挖掘技术应运而生,它是一种能够从网上获取大量数据,并能有效地提取有用信息供企业决策者分析参考,以便科学合理制定和调整营销策略,为客户提供动态、个性化、高效率服务的全新技术。   1 Web数据挖掘技术及其在电子商务中的应用   Web数据挖掘[1],即Web挖掘,它是指从Web资源上抽取信息或知识的过程,它将传统的数据挖掘思想和方法应用于Web之上,从Web文档和Web活动中抽取感兴趣的、潜在的、有用的模式和隐藏信息。它以从Web上挖掘有用知识为目标,以数据挖掘、文本挖掘、多媒体挖掘为基础,并综合运用计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术,将传统的数据挖掘技术与Web结合起来。建立在对大量的网络数据进行分析的基础上,采Web数据挖掘用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户习惯,从而帮助进行对网站以及网页的改进。   Web挖掘是数据挖掘技术在Web环境下的应用,是集Web技术、数据挖掘、计算机技术、信息科学等多个领域的一项新技术[2]。目前,随着电子商务网站的兴起,经过分析一定时期内站点上的用户的访问信息,发现该商务站点上潜在的客户群体、相关页面、聚类客户等数据信息,对各种商业领域具有重要的实用价值,因而,电子商务必将是未来Web数据挖掘的主攻方向。Web数据挖掘技术在电子商务中的应用主要包含以下几方面:(1)寻找潜在客户;(2)留住访问客户;(3)提供营销策略参考;(4)完善商务网站设计。   2 Web数据挖掘的过程和方法   根据Web数据挖掘的方法,Web数据挖掘的一般流程[3]分为:数据收集(采集)、数据预处理、模式发现、模式分析四个步骤。   Step1:数据收集(采集),从客户端、服务端或者是代理网站端获取数据。数据收集的对象以文本形式存在的,数据是粗糙、未经处理的,比如Web日志;   Step2:数据预处理,通过数据清洗,数据格式化对收集海量数据中的有用数据进行筛选,供下一步数据挖掘和分析;   Step3:模式发现,对预处理后的数据进行分析和挖掘,发现数据中存在的模式。   Step4:模式分析,针对发现的模式进行分析,提取其中有用的信息。得出的结果可以应用到制定商业决策或优化网站结构中。   3 数据收集和预处理模式的改进   3.1 传统的数据收集和预处理模式   传统的数据收集模式,获取的日志格式取决于各网站所使用的服务器日志格式,或者用户自定义的日志格式。这就导致获取的多个Web服务器日志文件的异构性,即记录的格式不同,内容排版也不同,无形中增加了数据收集的难度。   传统的数据预处理模式也存在相同的问题。由于数据的来源网站可能是多个,不同网站的网站路径结构都不一样,这导致大多数数据挖掘系统预处理后的信息只局限于来源url,访问url,访问的文档列表,流量等信息,无法得到定制化的信息,如用户点击了哪个商品类别等。   3.2 基于数据中心的数据收集和预处理模式   数据中心[4]是集数据收集、预处理、分析为一体的统一式数据管理中心系统,客户端只需要调用统一的数据中心接口,即可传递必需的数据,由数据中心统一的记录到日志文件中。因为数据都是有数据中心服务器的日志系统进行记录的,这样做就屏蔽了传统数据收集模式中,由于各个网

文档评论(0)

jingpinwedang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档