一种基于奇异值分解的双语信息过滤算法ξ.pdf

一种基于奇异值分解的双语信息过滤算法ξ.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种基于奇异值分解的双语信息过滤算法ξ

中 文  信  息  学  报 第 13 卷 第 3 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vol . 13 No. 3 一种基于奇异值分解的双语信息过滤算法 路海明 徐晋晖  卢增祥  李衍达 清华大学自动化系  北京  100084   清华大学计算机系  北京  100084 摘要  本文提出了一种基于 SVD (奇异值分解) [ 1 ] 的双语信息过滤[2 ] 算法 ,将双语文档进 行了统一的表示 ,使得适应于单语过滤的算法可以方便地用于双语过滤 , 同时对文档向量进行 了压缩 ,滤去了噪声 。在应用方面 ,将双语过滤算法用于互联网上的个性化主动信息过滤 。 关键词  双语信息过滤  SVD  互联网 Bookmark 服务 一 、引言 互联网上的信息中英文并存 , 国内用户 ,需要同时获取中英文信息 ,而现在的个性化信息 服务只是针对一种语言进行的。用户建立了中文下的用户模型之后 ,希望获得 自己喜好的英 文资源 。即能够同时为用户提供两种语言的信息过滤 。双语过滤指“根据用户在一种语言里 的兴趣表达 ,产生两种语言的推荐结果”,如给定表达用户需求的中文向量 ,能够向用户推荐满 足用户需求的中英文两种语言的文档 。为解决这个问题 ,主要有基于机器翻译的算法和基于 统计学的算法 。 1. 1  基于机器翻译的算法[2 ] 1. 翻译关键词 用户的需求用中文关键词查询向量表示 ,将每个关键词翻译成英文 ,形成英文向量 ,再去 查询英文文档 ,进而返回推荐的英文文档 ,实现双语过滤 。 2 . 翻译文档 用户的需求用中文关键词查询向量表示 ,将所有英文文档进行全文翻译 ,产生中文文档 , 用中文关键词向量查询翻译产生的中文文档 ,产生用户需要的中文文档 ,对应的英文文档推荐 给用户 ,实现双语过滤 。 机器翻译方法的主要优点是通俗易懂 、实现方便 、效率较高 ,但机器翻译本身仍存在很多 困难 ,导致信息过滤的结果也不理想 。当前信息过滤的算法本身也有较大误差 ,人们似乎还能 够容忍机器翻译带来的误差 ,基于机器翻译的信息过滤还 占有一定的市场 。 1. 2  基于统计学的算法[4 ] 统计学算法 ,采用训练文档集 ,其中的每篇中文文档都有对应的英文文档 。其匹配的基本 方式仍旧是根据矢量空间模型 Vector Sp ace Model (V SM) [5 ] ,用户需求和文档都表示成向量 , 利用余弦计算相似度 。 例如用户的需求向量 本文于 1998 年 12 月 11 日收到 18 → ( ) t q = q1 , q2 , …, qn   表示文档的向量 → d = ( d 1 , d2 , …, d n) t   则两者之间的相似度 n q d → → ∑ i i → → i = 1 s i m ( q , d) = co s ( q

文档评论(0)

wangsux + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档