信息检索17-医疗检索.pptx

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第17讲MedicalIR医疗信息检索12017/10/09

提纲2MedicalIR简介TRECCDS任务简介常用CDS方法介绍DNRMforCDS

提纲3MedicalIR简介TRECCDS任务简介常用CDS方法介绍DNRMforCDS

MedicalIR简介有很多时候,为了更加准确地做出医疗决策,医生可能需要查阅一些相关的医疗文献。考虑到现有医疗文献的数量以及其增长的速度,快速而准确地定位所需要的医疗文献变得非常重要。MedicalIR的目标就是根据医生的信息需求(如电子病历),从海量医疗文献中找到尽可能多的相关文献。与一般的IR任务(如Web检索)相比,MedicalIR任务的查询和文档长度都相对长很多;MedicalIR任务的查询和文档都较多地包含医疗领域特定的词汇和概念。4

提纲5MedicalIR简介TRECCDS任务简介常用CDS方法介绍DNRMforCDS

TRECCDS任务目的:使医疗信息更加容易获取,以及让电子病历(EHR)的使用变得更加有意义。TRECClinicalDecisionSupport(CDS)20142015A给定电子病历(EHR)作为查询,参赛者需要返回相关的医疗文献以满足查询所包含的信息需求。查询分为如下三类,每类表示不同的需求类型:Diagnosis::Whatisthepatient’sdiagnosis?Test:Whattestsshouldthepatient’sreceive?Treatment:Howshouldthepatientbetreated?

6

常用CDS方法查询扩展:基于伪相关反馈基于外部资源:如MeSH、DBpedia以及UMLS,一般直接将扩展词/概念加入到查询中,或者给予扩展词/概念更高的权重基于Google检索结果:从排名靠前的(如前10篇)的标题、摘要或者文档提取扩展词/概念将查询类型(Diagnosis,Test,Treatment)作为扩展词加入查询Fusion:对多个检索模型的结果进行合并基于检索模型评分进行fusion基于排序进行fusion使用专门针对长文档的检索模型:如SPUD9

常用CDS方法考虑查询类型信息:首先训练分类器(如对Diagnosis和非Diagnosis分类),然后对初始检索结果进行分类,根据分类得分有一个排序,该排序可以与初始检索结果排序进行fusion。Re-ranking:基于learning-to-rank:用BM25、PL2和BB2等模型评分作为feature,用randomforest学习pointwise排序模型,或者用RankSVM学习pairwise排序模型,再用学习到的模型对初始检索结果重排基于position:根据位置信息为文档计算一个权重,并与初始评分求和,再对初始检索结果进行重排序引入语义信息:通过计算查询与文档之间的语义相似度评分,然后将该评分与初始检索评分进行插值,最后对初始检索结果进行重排10

提纲11MedicalIR简介TRECCDS任务简介常用CDS方法介绍DNRMforCDS

基于DNN的方法-DNRM考虑到查询包含的信息较少, 直接计算查询与文档之间的相似度不能达到很好的效果;现有的基于DNN的比较有效的检索模型都需要计算查询与文档的单词-单词相似度矩阵,计算复杂度较高;并且不考虑反馈信息,检索效果也会受到一定影响;DNRM引入了两种相似度特征,一是查询词与文档的相似度,二是伪相关反馈文档之间的相似度,然后通过多层感知机(MLP)学习一个评分,一定程度上克服了上述的两个问题。12

IR:一个对比排序的问题哪个卡通形象更可爱?(哪个文档更相关?)

转化为一个相似度计算的问题哪个与“标准答案”更近似?

DNRM基本思想将文档评分转化为一个与“标准答案”计算相似度问题D2Q(文档-查询)相似度是一种弱匹配信号相对于文档,查询太短,覆盖的信息太少文档间相似度是一种“软匹配(softmatching)”,考虑了文档的所有内容事实上一篇文档是否相关是由其内容决定的,而不是是否包含查询关键字“标准答案”由K个初始排名靠前的文档组成将待评分文档与这K个文档的相似度作为K维特征输入一个前馈网络前馈网络输出最终文档评分YanhuaRanetal.ADocument-basedNeuralRelevanceModelforEffectiveClinicalDecisionSupport.BIBM2017.Toappear.

模型结构 给定查询q和待排序文档d,Dq是q的伪相关反馈文档集;通过计算待排序文

文档评论(0)

ranfand + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档