网站大量收购独家精品文档,联系QQ:2885784924

信息检索入门IntroductiontoInformationRetrieval-中文自然语言处理.PDF

信息检索入门IntroductiontoInformationRetrieval-中文自然语言处理.PDF

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索入门IntroductiontoInformationRetrieval-中文自然语言处理

信息检索入门 Introduction to Information Retrieval 中国科学院计算技术研究所 王斌骆卫华 2006.5 内容 信息检索的基本概念 信息检索的基本流程 信息检索的评价方法 信息采集 信息分析及索引 信息检索模型及其他相似度计算方法 查询扩展及相关反馈 内容 信息检索的基本概念 信息检索的基本流程 信息检索的评价方法 信息采集 信息分析及索引 信息检索模型及其他相似度计算方法 查询扩展及相关反馈 查询 相关的结果 信息检索 Information Retrieval(IR):从文档集合中返回满足用 户需求的信息 例1:返回与信息检索相关的网页有哪些信誉好的足球投注网站引擎(Search Engine, SE) 例2:毛主席的生日是哪天?问答系统(Question Answering, QA) 例3:返回联想PC的型号、配置、价格等信息信息抽取 (Information Extraction, IE) 例4 :订阅有关NBA的新闻信息过滤(Information Filtering)、信息推荐(Information Recommending) 狭义的IR通常是指Information Search,广义的IR包含 非常多的内容(SE, QA, IE, …) 信息检索和数据库检索 信息检索 数据库检索 检索对 无结构、半结构数据 结构化数据 象 如网页、图片…… 如:员工数据库 检索方 通常是近似检索 通常是精确检索 式 如:每个结果有相关度 如:姓名==“李 得分 明” 检索语 主要是自然语言 SQL结构化语言 言 如:查与超女相关的新 闻 近年来,两种检索已经逐渐融合,边界越来越不明显。 信息检索的基本概念 用户需求(Information Need,IN) 严格地说,IN存在于用户的内心,但是通常用文字来描述, 如查找与2006世界杯相关的新闻,通常也称为主题(Topic) IN提交给检索系统时称为查询(Query),如2006 世界杯,一 个IN可以对应多个Query 文档(Document) 可以是文本、图像、视频、语音文件等 文档集合(Collection) 所有待检索的文档构成的集合 相关度(Relevance) 相关度目前也没有统一的定义,简单地认为是查询和文档的匹配相似度 得分 形式上说,相关度是一个函数R,输入是查询Q、文档D和文档集合C,返 回的是一个实数值 R=f(Q,D,C) 信息检索就是给定一个查询Q,从文档集合C中计算每篇文档D与Q的相关 度并排序(Ranking)。 相关度通常只有相对意义,对一个Q,不同文档的相关度可以比较,而 对于不同的Q的相关度不便比较 相关度的输入信息可以更多,比如用户的背景信息、用户的查询历史等 等 现代信息检索中相关度不是唯一度量,如还有:重要度、权威度、新颖 度等度量。 Google中据说用了上百种排名因子 内容 信息检索的基本概念 信息检索的基本

文档评论(0)

sunshaoying + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档