- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
挖掘用户浏览网页兴趣研究.pdf
2012年 第21卷 第 7期 http://www.c—S—a.org.ca 计 算 机 系 统 应 用
挖掘用户浏览网页的兴趣研究①
曹 易,张 宁
(上海理工大学 管理学院,上海 200093)
摘 要:通过挖掘网页的浏览记录来对用户群体兴趣进行分析。对访问网站的兴趣类别、时间、用户数进行统
计,得到规律性的结论。其次提出一种改进的基于HAC和k.means的算法对用户根据兴趣进行聚类,挖掘用户
的访问模式。最后验证了主导兴趣的稳定性即随着 日志的增加,用户的最大兴趣是趋于稳定的。
关键词:群体兴趣;数据挖掘;层次聚类;k.menas;主导兴趣
StudyoftheUses’InterestsBasedontheInternetBrowsingHistory
CAOYi,ZHANGNing
(Businessschool,UniversityofShanghaiforSciencenadTechnology,Shanghai200093,China,)
Abstract:Thispaperanalysestheusers’groupinterestsbyminingtheinternetbrowsinghistory.Tocountthevisiting
informationofhteinterests’categories,visitingtimena dthenumberofusers,gettheregularityofconclusion.Th en,it
hasputforwardanimprovedHAC(hierrachicalagglomerativeclustering)nadk-meansalgorithmtoclustertheusersby
theirniterests,tominehteusers’accessmode.Fnially,ithas provedhtestabilityofusers’domniantinterests.That
meanstheusers’mostimportnatniterestsraestableasthetimenicreases.
Keywords:rgoupniterests;datamniing;hierrachicalcluster;k-menas;dominnatinterests
随着 Internet的迅猛发展,在当今信息爆炸的时 户的导航模式方法、l,Perkowits用聚类分析的方法研
代,Internet和www 都以指数形式在增长,用户越 究了Web访问的自适应性p】,中科院的高文教授提出
来越难在信息海洋中找到 自己感兴趣的内容。“数据丰 了对Web访问路径进行聚类,每个聚类集就代表了该
富,知识匮乏”,面对这些海量的信息,如何克服这个 集合 内用户的访 问兴趣4【】。模糊聚类分析的基本思想
“数字鸿沟”,如何能准确、快捷、高效的获取有用信 是根据分类对象之间的模糊相似性来考量不同对象的
息,让人人都公平地享有信息资源,无疑是人们关注 异同程度,从而来实现模糊分类。De等5【】使用模糊聚
的一项问题,同时也是一个全球性难题。用户对互联 类理论对web事物进行聚类。Mitra等I6J提出了一种进
网的浏览行为,是人们获取信息的一种重要方式,每 化的粗糙k.means算法聚类web用户,其中遗传算法
次访问大都具有一定的访 问动机,蕴藏着用户的某种 用于阀值以及其他参数的调用,以便聚类效果达到最
兴趣。通过分析这些网页的浏览记录,对个性化服务 佳程度。
技术等方面具有很大的实际应用价值。 本文首先挖掘统计了网页浏览记录的一些信息,
目前对兴趣分析研究主流用的是聚类分析法和线 通过分析这些数据,得出了一些规律性的结论。其次,
性回归分析法,来挖掘用户的访问信息,可在此基础 本文提出了一种改进的基于HAC (凝聚层次聚类)和
上提供个性化服务。国内外机构学者对该领域有:Dan k.means的算法,用其来对用户根据访问兴趣进行分
等人提出利用Web挖掘分类方法,基于w
您可能关注的文档
- 房颤患者脑卒中防治.pdf
- 手机音频功率放大器比较.doc
- 手机鼻祖竟是好莱坞著名女星(图).doc
- 手部运动康复2011年07月18日.ppt
- 手足口病危重患者的早期识别和处理.ppt
- 扎龙湿地地表水和浅层地下水的水文化学.pdf
- 打造自己个性化Windows登录界面.doc
- 打造高绩效团队提升核心竞争力(辛杰).ppt
- 执业医师内科复习指导-常见症状和体征(一).doc
- 扩底后注浆桩的现场试验研究和分析_郭全全.pdf
- 人教版九年级英语全一册单元速记•巧练Unit13【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit9【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit11【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit14【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit8【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit4【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit13【单元测试·基础卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit7【速记清单】(原卷版+解析).docx
- 苏教版五年级上册数学分层作业设计 2.2 三角形的面积(附答案).docx
- 人教版九年级英语全一册单元速记•巧练Unit12【单元测试·基础卷】(原卷版+解析).docx
文档评论(0)