- 1、本文档共16页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
摘要:随着国际疾病分类(internationalclassificationofdiseases,ICD)编码数量的增加,
基于临床记录的人工编码难度和成本大大提高,自动ICD编码技术引起了广泛的关注。提出
一种基于多尺度残差图卷积网络的自动ICD编码技术,该技术采用多尺度残差网络来捕获
临床文本的不同长度的文本模式,并基于图卷积神经网络抽取标签之间的层次关系,以加强
自动编码能力。在真实医疗数据集MIMIC-III上的实验结果表明,该方法的P@k和Micro-
F1分别为72.2%和53.9%,显著提高了预测性能。
关键词:ICD编码;多尺度;残差网络;图卷积网络
1引言
国际疾病分类(internationalclassificationofdiseases,ICD)编码是在医院等医疗机
构使用的统一的编码方法。它根据疾病的病因、病理、临床表现和解剖位置等特性将
疾病分门别类,同时也包含手术、诊断和治疗程序的统一代码。ICD代码使用字母数
字组合的形式表示具体的疾病或诊断,如E860.0(酒精饮料意外中毒)。ICD代码有多
种用途,如报告疾病和健康状况、协助医疗报销决策、收集发病率和死亡率统计数据
等。临床记录包含了患者在医院就诊期间的人口统计学信息、床边的生命体征测量值、
实验室测试结果、诊疗程序、药物使用情况、成像报告、死亡率和出院小结等信息。
在医疗机构中,编码员通过查看医生的诊断说明和临床记录中的信息手动分配适当的
ICD代码,这样的人工编码费时费力且容易出错。人工编码往往会出现以下几个难题:
ICD代码的层次结构导致相同层次的疾病往往难以区分;医生在撰写诊断说明时,经
常使用缩写词和同义词,极易与ICD编码的描述产生歧义;在很多情况下,密切相关
的多个诊断描述应该被映射到某一特定ICD编码上,而没有经验的编码人员可能会分
别对每种疾病进行编码。为了降低人工编码的难度,一些工作开始尝试使用机器自动
完成ICD编码任务。早期工作通常使用有监督的机器学习方法进行ICD编码,这种方
法的效率相对较低。近期研究者采用卷积神经网络(convolutionalneuralnetwork,
CNN)和注意力机制(attentionmechanism)结合的方式,大大提高了编码的效率和
准确度。虽然之前的方案有所成效,但是自动ICD编码依然存在一些挑战:一是临床
记录往往拥有非常长的字符序列,但是其中仅有少部分关键文本片段与某一特定的
ICD编码相关;二是ICD编码的标签空间非常庞大,在ICD-9-CM中有超过22000个
编码,而在新版的ICD10-CM中有超过170000个编码,庞大的标签空间意味着标签
分布存在不平衡的问题。如图1所示,在被广泛用于自动ICD编码的重症加强护理病
房(intensivecareunit,ICU)医疗记录公开数据集MIMIC-III(MedicalInformation
MartforIntensiveCareIII)中,共包含8922个ICD编码,而在所有病历中出现次数
小于5次的ICD代码共有4344个,ICD代码的长尾分布意味着自动编码是一个非常
大的挑战。针对上述问题,笔者基于先前的方法提出了一种多过滤器残差图卷积网络
的ICD自动编码技术,可以充分利用临床记录的非结构化数据实现较好的自动ICD编
码水平。与之前的工作相比,本文的工作有以下3点贡献。●针对冗长、低质量的
临床记录文本,之前的工作使用单卷积核进行特征抽取,难以适应每种ICD代码关注
的文本片段长度。本文采用多过滤器卷积层抽取不同跨度的文本片段,并使用残差网
络扩大接受域,提取长度种类更多的文本片段模式,以适应不同ICD代码关注的文本
片段长度。●针对层次结构,使用图卷积神经网络(graphconvolutionalneural
network,GCN)抽取标签之间的依赖关系,缓解了标签分布不平衡的现象,并加强了
模型的泛化性能。●本文的模型提高了在真实的ICU医疗记录数据集MIMIC-III上
的自动ICD编码水平。
2相关工作
2.1自动ICD编码
针对医疗记录的自动ICD编码一直是医学
文档评论(0)