信息检索17-医疗检索.pptx

下载文档

0
0
约3.83千字
约 22页
2024-07-30 发布于湖北
举报
版权申诉
保障服务

信息检索17-医疗检索.pptx

1、本文档共22页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第17讲MedicalIR医疗信息检索12017/10/09

提纲2MedicalIR简介TRECCDS任务简介常用CDS方法介绍DNRMforCDS

提纲3MedicalIR简介TRECCDS任务简介常用CDS方法介绍DNRMforCDS

MedicalIR简介有很多时候，为了更加准确地做出医疗决策，医生可能需要查阅一些相关的医疗文献。考虑到现有医疗文献的数量以及其增长的速度，快速而准确地定位所需要的医疗文献变得非常重要。MedicalIR的目标就是根据医生的信息需求（如电子病历），从海量医疗文献中找到尽可能多的相关文献。与一般的IR任务（如Web检索）相比，MedicalIR任务的查询和文档长度都相对长很多；MedicalIR任务的查询和文档都较多地包含医疗领域特定的词汇和概念。4

提纲5MedicalIR简介TRECCDS任务简介常用CDS方法介绍DNRMforCDS

TRECCDS任务目的：使医疗信息更加容易获取，以及让电子病历(EHR)的使用变得更加有意义。TRECClinicalDecisionSupport(CDS)20142015A给定电子病历(EHR)作为查询，参赛者需要返回相关的医疗文献以满足查询所包含的信息需求。查询分为如下三类，每类表示不同的需求类型:Diagnosis:：Whatisthepatient’sdiagnosis?Test：Whattestsshouldthepatient’sreceive?Treatment：Howshouldthepatientbetreated?

常用CDS方法查询扩展：基于伪相关反馈基于外部资源：如MeSH、DBpedia以及UMLS，一般直接将扩展词/概念加入到查询中，或者给予扩展词/概念更高的权重基于Google检索结果：从排名靠前的(如前10篇)的标题、摘要或者文档提取扩展词/概念将查询类型(Diagnosis，Test，Treatment)作为扩展词加入查询Fusion：对多个检索模型的结果进行合并基于检索模型评分进行fusion基于排序进行fusion使用专门针对长文档的检索模型：如SPUD9

常用CDS方法考虑查询类型信息：首先训练分类器(如对Diagnosis和非Diagnosis分类)，然后对初始检索结果进行分类，根据分类得分有一个排序，该排序可以与初始检索结果排序进行fusion。Re-ranking：基于learning-to-rank：用BM25、PL2和BB2等模型评分作为feature，用randomforest学习pointwise排序模型，或者用RankSVM学习pairwise排序模型，再用学习到的模型对初始检索结果重排基于position：根据位置信息为文档计算一个权重，并与初始评分求和，再对初始检索结果进行重排序引入语义信息：通过计算查询与文档之间的语义相似度评分，然后将该评分与初始检索评分进行插值，最后对初始检索结果进行重排10

提纲11MedicalIR简介TRECCDS任务简介常用CDS方法介绍DNRMforCDS

基于DNN的方法-DNRM考虑到查询包含的信息较少，直接计算查询与文档之间的相似度不能达到很好的效果；现有的基于DNN的比较有效的检索模型都需要计算查询与文档的单词-单词相似度矩阵，计算复杂度较高；并且不考虑反馈信息，检索效果也会受到一定影响；DNRM引入了两种相似度特征，一是查询词与文档的相似度，二是伪相关反馈文档之间的相似度，然后通过多层感知机(MLP)学习一个评分，一定程度上克服了上述的两个问题。12

IR：一个对比排序的问题哪个卡通形象更可爱？（哪个文档更相关？）

转化为一个相似度计算的问题哪个与“标准答案”更近似？

DNRM基本思想将文档评分转化为一个与“标准答案”计算相似度问题D2Q（文档-查询）相似度是一种弱匹配信号相对于文档，查询太短，覆盖的信息太少文档间相似度是一种“软匹配（softmatching）”，考虑了文档的所有内容事实上一篇文档是否相关是由其内容决定的，而不是是否包含查询关键字“标准答案”由K个初始排名靠前的文档组成将待评分文档与这K个文档的相似度作为K维特征输入一个前馈网络前馈网络输出最终文档评分YanhuaRanetal.ADocument-basedNeuralRelevanceModelforEffectiveClinicalDecisionSupport.BIBM2017.Toappear.

模型结构给定查询q和待排序文档d，Dq是q的伪相关反馈文档集；通过计算待排序文

您可能关注的文档

文档评论（0）

ranfand + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

信息检索17-医疗检索.pptx