- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于朴素贝叶斯学习的电子商务网站客户兴趣分类的应用研究
基于朴素贝叶斯学习的电子商务网站客户兴趣分类的应用研究 贝叶斯推理基于如下的假定,即待考查的量遵循某概率分布,且可根据这些概率及已观察到的数据进行推理,以做出最优的决策。朴素贝叶斯学习算法能够计算显式的假设概率,是解决相应学习问题的最实际的方法之一。 朴素贝叶斯分类器基于一个简单的假定:在给定目标值时属性值之间条件相互独立,即在给定实例的目标值情况下,观察到联合的a1,a2,…,an的概率等于每个单独属性的概率乘积 P(a1,a2,…,an|vj)=∏iP(ai|vj)(1) 贝叶斯方法的新实例分类目标是在给定描述实例的属性值〈a1,a2,…,an〉下,得到最可能的目标值vMAP vMAP=argmaxvj∈V p(vj|a1,a2,…,an) (2) (1)式代入(2)式中,可得到朴素贝叶斯分类器所使用的方法: vNB=argmaxP(vj)∏i vj ∈VP(ai|vj) (3) 对于每个客户浏览过的网页和购买过的商品建立兴趣配置文件,每次客户登录时向他介绍感兴趣的商品。由于兴趣配置文件以文本为形式,这样,朴素贝叶斯分类器就可以应用于兴趣配置文件。朴素分类器是目前所知文本文档分类算法中最有效的方法之一,可以得到很好的效果。 用于学习和分类文本的朴素贝叶斯算法 以下两个过程,其中LEARN—NAIVE—BAYES—TEXT用来分析所有训练文档,抽取所有出现的英文单词、中文字、记号,然后在不同目标类中计算其频率以获得必要的概率估计。 当有了一个待分类的新实例,过程CLASSIFY—NA-IVE—BAYES—TEXT使用此概率估计来计算vNB。 wk代表词典中的第K个字,n为所有目标值为vj的训练样例中单词位置的总数,nk是在n个单词位置中找到wk的次数,而|Vocabulary|为训练数据中的不同英文单词或中文字(以及记号)的总数。 LEARN—NAIVE—BAYES—TEXT(Examples,V) Examples为一组文本文档以及它们的目标值。V为所有可能目标值的集合。此函数作用是学习概率项P(wk|vj),它描述了从类别vj中的一个文档中随机抽取的一个词(中文或英文)为wk的概率。该函数也是学习类别的先验概率P(vj) (1)收集Examples中所有的词、标点以及其他记号 Vocabulary←在Examples中任意文本文档中出现的所有词及记号的集合 (2)计算所需要的概率项P(vj)和P(wk|vj) 对V中每个目标值vj docsj←Examples中目标值为vj的文档子集 P(vj)← |docsj| |Examples| Textj←将docsj中所有成员连接起来建立的单个文档 n←在Textj中不同词位置的总数 对Vocabulary中每个词wk nk←词wk出现在Textj中的次数 P(wk|vj)← nk+1 n+|Vocabulary| CLASSIFY—NAIVE—BAYES—TEXT(Doc) 对文档Doc返回其估计的目标值。Ai代表在Doc中的第I个位置上出现的词。 positions←在Doc中的所有词位置,它包含能在Vo-cabulary中找到的记号 返回vNB vNB=argmaxvj∈V P(vj)∏i∈position P(ai|vj) 第三页的 1先建立LEARN—NAIVE—BAYES—TEXT,其含所有字符和符号。它们的概率待测。 2设置项和类、类的位置、项在不同类中出现的次数,以及项的所有位置总数、所有字符和符号的总数 3从一个文档中随机抽取一个词(项),计算它在各种条件下出现的概率,哪种最大,这个词能够归到那个类中。 第四页的 收集一个样本,里面包括之前建立的LEARN—NAIVE—BAYES—TEXT中的字符,符号 计算字符,符号出现的概率和位置 将它们的的概率和位置分别存到对应的文档中。归类。 这样就可以开始应用朴素贝叶斯分类器了。解决两个重要的设计问题:一是如何估计朴素贝叶斯分类器所需的概率,二是怎样将任意文档表示为属性值的形式。前者可以按上面的算法进行解决。关于后者,可对每个此的位置定义一个属性,该属性的值为在此位置上的词。 这样上例中的文本被表示为16个属性,对应16个字的位置。第一个属性值为“感”,第二个为“应”,依次类推。很显然,较长文档的属性数目也是较多的。在应用时,先用训练文档进行训练,训练文档中分类为like的文档都来源于客户的兴趣配置文件,分类为dislike的文档可来源于网站中客户从不浏览的网页内容。这样,如果有了一个新文档要分类判断是否属于向客户推荐内容,就可以应用朴素分类器了。比如新文档就是上述例子的话,那么应用分类器如下: vNB=argmaxvj ∈{like,dislike} P(vj)∏16 i=1P(a
您可能关注的文档
最近下载
- 泉州交发集团国企招聘真题.pdf
- 桂美版美术一年级上册课件-第18课 过节啦.pptx VIP
- Minmetals_B2B_运营模式设计报告(完整版)_v2.3_20121227_Max.pptx VIP
- GA 1808-2022 军工单位反恐怖防范要求.docx
- (2023秋)北师大版五年级数学上册《 图形中的规律》PPT课件.pptx VIP
- 2024年天津市专业技术人员继续教育公需课考试题+答案(四套全).pdf VIP
- 送气工练习试题及答案.doc
- 在线网课学习课堂《学术英语(华理 )》单元测试考核答案.pdf
- 大一生涯发展展示.pptx VIP
- 乘数中间有0的三位数乘一位数(教学设计)-2024-2025学年三年级上册数学苏教版.docx
文档评论(0)