Web数据挖掘与高校数字图书馆个性化服务_欧阳烽.docx

Web数据挖掘与高校数字图书馆个性化服务_欧阳烽.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web数据挖掘与高校数字图书馆个性化服务_欧阳烽

Web数据挖掘与高校数字图书馆个性化服务欧阳烽(湖南师范大学树达学院,长沙410012)服务的概念、特点个性化服务指的是以用户为中心,基于用户的信息使用行为、习惯、偏好、特点及用户特定的需要,向用户提供满足其个性化需求的信息内容和系统功能的一种服务。它包含两方面的含义:首先是针对不同的用户所提出的不同的信息需求提供有针对性的信息服务,包括信息咨询、信息结果推送等;其次是通过对用户信息或者是对用户的信息需求历史进行数据分析从而发现用户对信息的潜在需求,从而实现对用户进行主动的、符合其要求的、有用的信息服务。因此,用户的兴趣、习惯、偏好和特点是个性化服务的起点,先进的技术是个性化服务的重要手段,针对性、主动性是个性化服务的特点。对于数字图书馆来说,其个性化服务首先应该是利用现代网络技术、人工智能技术等计算机技术,提供能够满足用户个体信息需求的服务即根据用户提出的明确要求为其提供信息咨询、信息检索、信息收集、信息整合等一系列的综合性信息服务机制;其次个性化服务应该是一个研究、分析、实现的过程,即对不同用户所有信息的历史数据包括用户的信息检索、信息查询方式等方面进行研究,分析他们之间的特殊性和共同性,并从中获取不同用户的不同信息特征,然后把这些信息特征加载到数字图书馆个性化信息服务系统中,从而实现数字图书馆对用户需求信息的个性化服务。3 基于Web日志挖掘的个性化服务3.1 Web日志挖掘算法  常用的Web日志挖掘算法有关联规则、序列模式分析、分类和聚类等。3.1.1 关联规则在Web日志挖掘中,关联规则用于发现哪些网页被同时访问,实质上就是要找到大项集。我们可以对经过格式化了的信息进行分析,利用关联规则的支持度和可信度的定义,通过Apriori算法或其他相关算法,就可以直接得到经常访问的序列了。Apriori算法是关联规则挖掘算法的核心,实际上是要解决两个问题:(1)找到所有支持度大于最小支持度的项集,这些项集称为频繁集;(2)使用(1)中找到的频繁集产生期望的规则。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下。但是Apriori算法的特点就是要对整个数据库进行多次扫描,而当数据库容量很大时多次扫描所需的开销很大。因此Apriori算法在数据库不大时效率还可以,遇到较大的数据库其结果却不令人满意。针对这种情况,可以采用对数据库数据分段的方法来进行挖掘,这样就只要对数据库扫描两次就可以了。分段方法的前提就是全局数据库的任一支持度集应至少出现一个局部数据库的支持度集的集合。对Web日志数据进行挖掘,就是将经过数据预处理了的web日志数据集,按照某种因素分成若干小的数据片段,在对若干数据片段进行扫描以后,按Apriori算法得出各个片段的支持度,再把各个片段的挖掘结果合并扫描一次,筛选出最终的关联规则集。3.1.2 序列模式分析序列模式是用来发现数据项中的时序关系。在Web日志挖掘中,序列模式识别指寻找用户会话中在时间上有先后关系的页面请求。在Web服务器日志里,用户的访问是以一段时间为单位记载的。经数据预处理后,成为一个间断的时间序列,这些序列模式可以预测用户即将可能请求的页面,这样就可以针对特定的用户组在页面中放置不同的信息提示来增加信息资源的利用率,提高用户的信息检索、查询的速度,也可以优化网站的结构。3.1.3 分类分类就是将一个对象分到已经定义好的类中。在Web日志挖掘中,分类可用来为一组特定的用户建立简档,这就要求抽取关键属性描述已知的用户类别。可以使用监督学习算法来分类,如决策树分类法、贝叶斯分类法、最邻近分类法、支持向量机等。3.1.4 聚类聚类是对于一个特定的Web站点分析在一定的时间内用户的访问信息便可以了解用户的访问模式,实现用户聚类和页面聚类。用户聚类主要是把用户分成若干组,具有相似浏览模式的用户分在一组,这在为用户提供个性化服务等应用中很有用;页面聚类可找出有相关内容的页面,能够加强网上有哪些信誉好的足球投注网站引擎的功能和调整页面结构等。3.2 Web日志挖掘过程Web日志挖掘的一般过程包括3个阶段:数据预处理、挖掘阶段、模式分析。3.2.1 数据预处理将来自不同数据源的数据,重新组织成为适合数据挖掘所必需的数据结构,是Web日志挖掘的基础,也是整个挖掘过程中最繁琐、耗时的工作。数据预处理包括数据清理、用户识别、会话识别、路径补充和格式转换等几个步骤,是Web日志挖掘成功与否的关键。在数据清理过程中,日志文件中后缀名为GIF、JPEG、JPG、swf、css、js等可以删去;但如果是在图形文档中就不能任意删掉,这些也可能代表用户的兴趣所在。3.2.2 挖掘阶段对数据预处理后所形成的文件,利用数据挖掘的有效算法,如关联规则、聚类、分类、序列模式等来发现隐藏的模式和规则。3.2.3 模式分析主要是将挖掘出来的

文档评论(0)

xjj2017 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档