《数据科学导论》—— 文本检索.pptx

  1. 1、本文档共110页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《数据科学导论》—— 文本检索文本模块涉及的内容提纲信息检索倒排索引排序模型文本检索实践文本检索信息检索信息检索(Information Retrieval, IR)是指从大规模的非结构化数据集中(通常指文本文档)寻找满足用户信息需求的过程互联网有哪些信誉好的足球投注网站引擎是目前最常见的信息检索系统,但信息检索不局限于互联网有哪些信誉好的足球投注网站:企业有哪些信誉好的足球投注网站(如SharePoint Search)特定领域文档有哪些信誉好的足球投注网站(Scholar, Patent等)桌面有哪些信誉好的足球投注网站、Email有哪些信誉好的足球投注网站关于几个关键词寻找信息:与构造新的信息内容(如统计归纳)不同,信息检索只负责提供已有的信息给用户非结构化数据:与数据库中关系数据不同,非结构化数据不容易被计算机处理信息需求:通常通过查询词进行表达大规模数据:例如互联网网页、企业内部网数据等,数据量大,处理数据的方法需要足够高效且可扩展对信息检索系统的基本假设静态文档集合假设在用户有哪些信誉好的足球投注网站的时刻,文档集合不发生变化检索目的从文档集合中检索出与用户的信息需求相关的文档,从而帮助用户完成某一特定任务有哪些信誉好的足球投注网站引擎主要模块有哪些信誉好的足球投注网站引擎十年大发展Archie FAQ(1990)精确FTP文件名有哪些信誉好的足球投注网站(1995)支持自然语言有哪些信誉好的足球投注网站和高级有哪些信誉好的足球投注网站语法(1994)提供简单目录有哪些信誉好的足球投注网站(1998)World Wide Web Wanderer(1993)第一个网络爬虫程序(1994)全文有哪些信誉好的足球投注网站引擎(1995)Inktomi公司, 抓取索引1千万页/天, 储存用户有哪些信誉好的足球投注网站喜好(1999)Fast公司,利用ODP自动分类改善有哪些信誉好的足球投注网站(1994)网页自动摘要(1996)自然语言提问,优先提供答案(2000)有哪些信誉好的足球投注网站结果自动聚类(1993)网站主动提交检索信息(1994)网页自动摘要,同时提供网页目录等其他服务(1993)分析字词关系概念有哪些信誉好的足球投注网站(1997)第一个中文有哪些信誉好的足球投注网站引擎(2000)目前为止最成功的中文有哪些信誉好的足球投注网站引擎互联网有哪些信誉好的足球投注网站技术跃进内容来自Yi Chang, CCIR 2016 Keynote第一代(1994—1998)基于语法的查询-内容匹配 (syntactic matching)第二代(1998—约2008)不仅仅考虑网页内容与查询的匹配(beyond “on” content)同时考虑链接分析、用户点击路径等第三代(2008—约2015)结果页面不仅仅显示网页链接(Beyond 10 blue links)User intension, short cut, rich content第四代移动?信息流?个性化?有哪些信誉好的足球投注网站 + 推荐 + 广告?文本检索挑战#1如何从大规模集合快速找到包含指定关键词的文档(候选集)?大规模文档集合字典规模庞大无法提前预知用户输入的查询快速( 0.1s)为一个查询遍历文档集合不是一个可行的选择文本检索挑战#2Sec. 1.1如何以一种合适的方式把候选集展示给用户?传统展示:展示所有结果集合文档太多:难以浏览文档太少:找不到满意结果排序按照相关度从上往下排序辅助展示手段:(动态)摘要与飘红提纲信息检索介绍倒排索引排序模型文本检索实践文本检索文本检索挑战#1如何从大规模集合快速找到包含指定关键词的文档(候选集)?大规模文档集合字典规模庞大无法提前预知用户输入的查询快速( 0.1s)为一个查询遍历文档集合不是一个可行的选择接下来的内容在有哪些信誉好的足球投注网站引擎中的位置Text data in 1650: Shakespeare回答查询:莎士比亚的哪些作品包含关键词Brutus和Caesar?最直接的想法:逐个遍历莎士比亚的作品,找出所有符合条件的作品集合但是对于文本检索而言,这不是一个好主意慢!!!文档集合可能很大再次审视单词-文档共现矩阵每一行表示一个单词,每一列表示一个文档1:单词在文档中出现过至少一次。例如:单词BRUTUS在文档Hamlet中出现0:单词未在文档中出现。例如:单词BRUTUS未在文档Othello中出现回答用户查询莎士比亚的哪部作品包含单词 Brutus和Caesar?找出Brutus对应的向量:110100找出Caesar对应的向量:110111Bitwise AND Caesar : 110100 AND 110111 = 110100答案:110100,对应的文档1:Anthony and Cleopatra2:Julius Caesar3:Hamlet集合规模很大,这个方法还有效吗?假设文档集合中含有100万个文档,50万个不同的单词矩阵规模500,000*1,000,000矩阵规模:5*1011 !!直接存取已经不现实好消息是,矩阵中只有很少的值为1,绝大部分都为0假设平均每个文档中只出现过500个不同的单词矩阵中1的个数为:500 * 1,000,000 = 5*108 5*1011 平均1000个位置才会出现一次1如何利用单词-文档矩阵的稀疏性改善处理查询的速度?稀疏矩

文档评论(0)

科研服务 + 关注
实名认证
服务提供商

科研服务:各项材料辅助指导、翻译润色、专利、数据统计分析、实验外包、课题申报,著作出版,硕博课题毕业指导

1亿VIP精品文档

相关文档