个性化电子商务系统中的自适应过滤算法探究论文.docVIP

下载本文档

1
0
约2.57千字
约 3页
2017-06-17 发布于广东
举报
版权申诉

个性化电子商务系统中的自适应过滤算法探究论文.doc

1、本文档共3页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

个性化电子商务系统中的自适应过滤算法探究论文.doc

　　个性化电子商务系统中的自适应过滤算法探究论文 .freelI(wi，Tj)=log(p(wi/Tj/p(wi)) (1) 上述公式中，wi是第i个词语，Tj是第j个主题。对数交互信息越高，wi和Tj相关性越高。p(wi/Tj)和p(wi)由最大可能性方法估计出。对于每个主题，选取那些对数交互信息高于3.0而且在有关文档中出现不止一次的词语。对数交互信息不仅被用作选择标准，而且被用作特征词的权重。得到正文档和伪正文档的特征向量之后，将其合并到初始轮廓中。初始轮廓是正文档和伪正文档的特征向量之加权和。然后根据训练集里每个文档的相似性为每个主题设置初始阈值。轮廓与训练文档之间的相似性由如下余弦公式(2)计算出： pj是第j个主题的轮廓向量，di是第i个文档的向量，dik是di中第k个词语的权重，由下列公式(3)计算得出： dik=1 log(tfikavdlIdl) (3) 此公式中，如是第i个文档中第k个词语的条件频率，dl是形态处理和禁用词剔除之后通过文档标志计数得到的文档长度，avdl是从训练集得到的平均文档长度。根据训练文档的相似性设置每一个初始阈值以达到最高过滤性能。 (二)自适应性算法的结构自适应过滤是自适应过滤算法的一个非常重要的阶段。我们从训练阶段得到了初始轮廓和阈值。当过滤输入文档时，主题轮廓和阈值则依据各种不同信息，如：用户反馈、输入文档的向量等进行自适应更新。图2显示了适应性过滤的结构。当一个文档到达时，其与主题的相似性即被计算出。如果该相似性高于当前阈值，则这个文档被找回，用户的相关性判断也由此得出。如果该文档真正与主题相关，则其被认为是正实例，反之则是负实例。正实例和负实例的向量根据公式(4)被用于主题轮廓的修改。 pj=pi αpj(pos) βpj(neg) (4) pj是修改后的主题轮廓，pj修改前的主题轮廓，pj(cos)是更新阶段得到的正实例的向量，pj(neg)是更新阶段得到的负实例的向量；α和β分别是正向量和负向量的权重。 (三)阈值优化算法笔者提出一个新的阈值优化算法。定义该算法使用下列符号： t：文档编号，可以看作是时问，因为文档是按照时间顺序处理的； n(f)：被处理的文档的数量； nR(f)：找回的相关文档； nN(f)：找回的不相关文档； T(t)：在t时刻的阈值； S(tk，tk 1t)：在(tk，tk 1)时间段中被拒绝的文档的平均相似性； P(tk tk 1)：在(tk，tk 1)时间段中过滤的精确度，并且p(tk，tk 1)=nR(tk 1-nR(tk/n(tk ))-n(tk) (5) 如果我们凭直觉处理，精确度太低就应该提高阈值，很少文档被找回则降低阈值。我们使用S(tk，tk 1)和P(tk，tk 1)来决定是提高阈值抑或降低阈值。调整阈值的算法如下所示： IF p(tk，tk 1)≤EP(ttk 1) THEN T(tk 1)=T(tk) α(tk 1)(1-T(tk)) ELSEIF S(ttk，tk 1)＜T(tk)r THEN T(tk 1)=T(tk)Dt1 S(tk，tk 1)Dt2 ELSE T(tk 1)=T(tk)Dt1 S(tk，tk 1)Dt2 α(tk 1)是阈值提高系数，β(tk 1)是阈值降低系数，它们也可以被看作是关于nR(t)的函数。在试验中，我们采用nR(t)的线性函数，该函数如公式(6)、公式(7)所示： αo是初始提高系数，β是初始降低系数，参数u代表应该用于调整阈值、修改轮廓的正文档的最大数量。我们设置αo=0.02，u=0.1，(应该是βo吧)μ=300。从以上等式可以看出，随着时间推移，nR(tk)将逐渐增大，α(tk)和β(tk)将逐渐减小。这也反映出过滤将越来越好，调整步阶将越来越小这一趋势。参数r表示：如果s(tk 1，tk)低于T(tk 1)r，阈值应该由系数D1和D2来降低。在试验中，我们设置r=0.1，=0.8，=0.2。 EP(t 1k)表示我们所期望的过滤应该在tk时刻达到的精确度。我们首先将其作为常数，尝试不同的值来观察过滤性能，但是结果不尽如人意。我们意识到在过滤初期就希望达到最终期望精确度是不正确的，因而采用了一个逐渐上升的函数，该函数如公式(8)所示： EP(tk 1)=P (Pfinal-P0)nR(tk 1)IU (8) P0和Ptfinal分别是过滤初期和过滤末期我们所希望过滤达到的精确度。 nR(tk 1)-nR(tk)的值决定着过滤对阈值的调整频率，其越小表明过滤对阈值的调整越频繁。在我们的适应性过滤中，我们将其