- 1、本文档共58页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索及发展
布尔模型 基于集合论和布尔代数,适用于普通用户,核心是二值相关,不能进行相关性排序 向量空间模型 以向量表示提问和文档,向量计算在后台进行,与用户无关,优点是可以进行相关性排序,也可产生文档文摘 概率模型 基于贝叶斯概率论,更具有普遍性,适应多媒体、语义文档的检索,具有逻辑推理能力 以上模型在实践中,常常混合使用,以达到最佳效果 * 布尔模型——集合的运算 并运算 设A,B是两个集合,集合A与B的并运算是由A的一切元素和B的一切元素所组成的集合,记做 A∪B,数学表示为: 设 A={a,b,c,d,e},B={c,d,x,y,z} 则 A∪B={a,b,c,d,e,x,y,z} 即 A∪B={x|x∈A∨x∈B } A B 空间E * 布尔模型——集合的运算 交运算 设A,B是两个集合,包含A和B的所有公共元素的集合叫做A与B的交集,记做 A∩B,数学表示为: 设 A={a,b,c,d,e},B={c,d,x,y,z} 则 A∩B={c,d} 即 A∩B={x|x∈A∧x∈B } * 布尔模型 遵循两条基本规则 每个索引词在一篇文档中只有两种状态:出现或不出现,对应逻辑值为 0 或 1 查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式 * 布尔模型——集合的运算 差运算 设A,B是两个集合,A-B是由一切属于A但不属于B的元素所组成的集合,称为B在A中的余集,或者A与B的差,即 设 A={a,b,c,d,e}, B={c,d,x,y,z} 则 A-B={a,b,e}, B-A={x,y,z} 数学表示为 A-B={x|x∈A﹁x∈B } * 布尔模型 定义 用qdnf表示查询q的析取范式,qcc表示qdnf的任意合取分项,文献dj 与查询q的相似度为 如果 ,则表示文献dj与q相关,否则为不相关。 sim(dj, q) 为该模型的匹配函数(相似度) * 布尔模型——优缺点 优点 简单而整齐 自我保护功能,降低用户对有哪些信誉好的足球投注网站系统的期望,使自己不在责任方,检索结果不好的原因在于用户构造查询不好 简单、易理解、简洁的形式化 缺点 它的检索策略是基于二值决策准则,即一个文档只被判断成相关的或不相关的,无任何等级变化 当用布尔表达式表示精确语义的时候,很难将信息表达为一个布尔表达式 准确匹配,信息需求的能力表达不足 布尔模型 目前仍然是商业文档数据库的主流模型,并为一些新的领域提供了一个好的起点 * 2、向量模型——n维向量 考虑从空间坐标系原点出发(其他向量可以平移到原点出发)的向量 ,其终点坐标为x1,x2,…,xn,我们称之为一个n维向量 * 2、向量模型——n维向量 向量的运算 加、减、倍数、内积 * 向量模型——空间概念 文献空间 如果把每个标引词看作是一个向量,代表了空间的一个维,则由这些标引词集合定义了一个空间 文献集合中的任一文献都可以表示为这个多维空间中的一个向量,这个空间就成为“文献空间” * 向量模型——空间概念 标引词空间 文献集合中的一篇文献可看成是标引词空间的一个维,空间中的一点代表一个标引词点 从原点到该点的向量就是一个标引词向量 它在各个轴上的分量就是该标引词在各个轴所代表的相应文献中的权重 * 向量模型——模型含义 向量空间模型(Vector Space Model, VSM) 由康奈尔大学Salton等人在上世纪70年代末提出并倡导的,原型系统为SMART* 该模型采用了“部分匹配”的检索策略,即:出现部分索引词也可以出现在检索结果中,以克服布尔模型的缺点 * 可从/pub/smart/下载全部源码和相关语料 * 向量模型——模型含义 向量空间模型(Vector Space Model, VSM) ?通过给查询或文档中的索引词分配非二值权值来实现 查询和文档都可转化成Term及其权重组成的向量表示,并可以看成空间中的点。向量之间通过距离计算得到查询和每个文档的相似度 * 可从/pub/smart/下载全部源码和相关语料 * 向量模型——模型含义 向量模型通过分派非二值权重给查询和文档中的索引项来实现检索目标 这些权重用于计算系统中的每个文档与用户的查询请求的相似程度,向量模型通过对文档按照相似程度降序排列的方式,来实现文档与查询项的部分匹配 结果中的文档排列顺序比通过布尔模型得到的结果要合理得多 * 向量模型——模型含义 在该模型中,与(ki,dj)相关联的权重wi,j是一个非二值数 查询中的索引项也是有权重的,设wi,q是与(ki,q)相关联的权重,
您可能关注的文档
- 保育类动物介绍.ppt
- 保证食品安全的食品加工.ppt
- 保险业务理赔常识.ppt
- 保险中介监管法规及重点监管政策解读.ppt
- 保险专题和客户讲故事谈保险页.ppt
- 保险产品创新.ppt
- 保税班资助政策主题班会.ppt
- 保险代理人资格考试第九章保险代理从业人员职业道德.ppt
- 保险公司培训资料接触发现需求.ppt
- 保良局梁周顺琴小学下午校.ppt
- 2024年湖南省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年江西省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年安徽省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年福建省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年广东省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年河北省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年河南省高考英语试卷(含答案解析)+听力音频.docx
- 2024年湖北省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年湖南省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年江苏省高考英语试卷(含答案解析)+听力音频+听力原文.docx
文档评论(0)