- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
个性化电子商务系统中的自适应过滤算法探究论文.doc
个性化电子商务系统中的自适应过滤算法探究论文
.freelI(wi,Tj)=log(p(wi/Tj/p(wi)) (1)
上述公式中,wi是第i个词语,Tj是第j个主题。对数交互信息越高,wi和Tj相关性越高。p(wi/Tj)和p(wi)由最大可能性方法估计出。
对于每个主题,选取那些对数交互信息高于3.0而且在有关文档中出现不止一次的词语。对数交互信息不仅被用作选择标准,而且被用作特征词的权重。 得到正文档和伪正文档的特征向量之后,将其合并到初始轮廓中。初始轮廓是正文档和伪正文档的特征向量之加权和。然后根据训练集里每个文档的相似性为每个主题设置初始阈值。轮廓与训练文档之间的相似性由如下余弦公式(2)计算出:
pj是第j个主题的轮廓向量,di是第i个文档的向量,dik是di中第k个词语的权重,由下列公式(3)计算得出:
dik=1 log(tfikavdlIdl) (3)
此公式中,如是第i个文档中第k个词语的条件频率,dl是形态处理和禁用词剔除之后通过文档标志计数得到的文档长度,avdl是从训练集得到的平均文档长度。根据训练文档的相似性设置每一个初始阈值以达到最高过滤性能。
(二)自适应性算法的结构
自适应过滤是自适应过滤算法的一个非常重要的阶段。我们从训练阶段得到了初始轮廓和阈值。当过滤输入文档时,主题轮廓和阈值则依据各种不同信息,如:用户反馈、输入文档的向量等进行自适应更新。
图2显示了适应性过滤的结构。当一个文档到达时,其与主题的相似性即被计算出。如果该相似性高于当前阈值,则这个文档被找回,用户的相关性判断也由此得出。如果该文档真正与主题相关,则其被认为是正实例,反之则是负实例。正实例和负实例的向量根据公式(4)被用于主题轮廓的修改。
pj=pi αpj(pos) βpj(neg) (4)
pj是修改后的主题轮廓,pj修改前的主题轮廓,pj(cos)是更新阶段得到的正实例的向量,pj(neg)是更新阶段得到的负实例的向量;α和β分别是正向量和负向量的权重。
(三)阈值优化算法
笔者提出一个新的阈值优化算法。定义该算法使用下列符号:
t:文档编号,可以看作是时问,因为文档是按照时间顺序处理的;
n(f):被处理的文档的数量;
nR(f):找回的相关文档;
nN(f):找回的不相关文档;
T(t):在t时刻的阈值;
S(tk,tk 1t):在(tk,tk 1)时间段中被拒绝的文档的平均相似性;
P(tk tk 1):在(tk,tk 1)时间段中过滤的精确度,并且p(tk,tk 1)=nR(tk 1-nR(tk/n(tk ))-n(tk) (5)
如果我们凭直觉处理,精确度太低就应该提高阈值,很少文档被找回则降低阈值。我们使用S(tk,tk 1)和P(tk,tk 1)来决定是提高阈值抑或降低阈值。
调整阈值的算法如下所示:
IF p(tk,tk 1)≤EP(ttk 1) THEN
T(tk 1)=T(tk) α(tk 1)(1-T(tk))
ELSEIF S(ttk,tk 1)<T(tk)r THEN
T(tk 1)=T(tk)Dt1 S(tk,tk 1)Dt2
ELSE
T(tk 1)=T(tk)Dt1 S(tk,tk 1)Dt2
α(tk 1)是阈值提高系数,β(tk 1)是阈值降低系数,它们也可以被看作是关于nR(t)的函数。在试验中,我们采用nR(t)的线性函数,该函数如公式(6)、公式(7)所示:
αo是初始提高系数,β是初始降低系数,参数u代表应该用于调整阈值、修改轮廓的正文档的最大数量。我们设置αo=0.02,u=0.1,(应该是βo吧)μ=300。从以上等式可以看出,随着时间推移,nR(tk)将逐渐增大,α(tk)和β(tk)将逐渐减小。这也反映出过滤将越来越好,调整步阶将越来越小这一趋势。
参数r表示:如果s(tk 1,tk)低于T(tk 1)r,阈值应该由系数D1和D2来降低。在试验中,我们设置r=0.1,=0.8,=0.2。
EP(t 1k)表示我们所期望的过滤应该在tk时刻达到的精确度。我们首先将其作为常数,尝试不同的值来观察过滤性能,但是结果不尽如人意。我们意识到在过滤初期就希望达到最终期望精确度是不正确的,因而采用了一个逐渐上升的函数,该函数如公式(8)所示:
EP(tk 1)=P (Pfinal-P0)nR(tk 1)IU
(8)
P0和Ptfinal分别是过滤初期和过滤末期我们所希望过滤达到的精确度。
nR(tk 1)-nR(tk)的值决定着过滤对阈值的调整频率,其越小表明过滤对阈值的调整越频繁。在我们的适应性过滤中,我们将其
文档评论(0)