用于异常检测的Transformer-InTra《InpaintingTransforme。。。.pdf

用于异常检测的Transformer-InTra《InpaintingTransforme。。。.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
⽤于异常检测的Transformer-InTra 《InpaintingTransforme。。。 原⽂地址 论⽂阅读⽅法 初识 GAN,AE这类基于重构的异常检测⽅法,缺 在于其对于异常样本的重构也⾮常好,这会导致检测错误。⽽ ⽬前出现的⼀些⽅法将⽣成重 构的问题转换为inpainting问题来进⾏异常检测,inpainting就是将图像对某些区域进⾏覆盖,然后进⾏恢复,也可以视为⼀种 ⾃监督⽅ 法。 解决inpainting这类问题,从更⼤的区域捕获长距离语义信息有助于覆盖区域的重建。但CNN由于感受野的限制,其不善于捕捉长距离信 息。因此,作者受到最近⼤⽕的视觉Transformer的启发,因此采⽤Transformer架构解决这个问题。如下图(a)所⽰,训练时,图像被切 成⼤⼩相等的块,利⽤⼀个⼤区域内的其他图像块来进⾏inpainting。图(b)展⽰了重建的效果,以及根据像素级误差得到的异常得分图。 并且作者只依据MVTec AD数据集本⾝的少量样本进⾏训练,也达到了state-of-the-art的效果。 相知 2. Related Work 将当前的异常检测/分割⽅法主要分为了两类,⼀是基于重构的⽅法,类似AE、GAN、VAE等⽅法 ;其次是基于嵌⼊(Embedding)的⽅ 法,主要依据在ImageNet上预训练的CNN提取判别性特征进⾏⽐较。 随后也介绍了inpainting和transformer的⼀些相关⽅法。 3. Inpainting Transformer for Anomaly Detection 使⽤Transformer执⾏inpainting任务进⾏训练。测试时,同样以inpainting的⽅式进⾏重建,⽐较输⼊图像与重建图像之间的差 别,得到检测结果。 3.1 Embedding Patc es and Positions 如上图(a)所⽰,本⽂的⽅法是选择⼀个长度为 L 的正⽅形区域 (⽽⾮ViT中的整副图像)进⾏inpainting,过程中有两种位置编码⽅式,⼀ 种是局部编码,如下图左所⽰,另⼀种是全局编码,如下图右所⽰。 为什么需要这两种编码模式,直觉上来说,纹理类图像(图左)不需要考虑图像块在全局的位置信息,⽽另⼀些类别则很重要(图右)。 和ViT中的设置类似,位置嵌⼊信息为D维,将图像块也映射到D维后,将两者进⾏相加即可。需要注意的是,有⼀个图像块P (t, u)被覆盖 了。本⽂将其视为ViT中的分类头(class token) : 最后得到L × L个维度为D的序列,准备送⼊后续的Transformer。 3.2 Multi ead Feature Self-Attention 原始的MSA模块q与k都是通过⼀个映射维持在D维,但作者任务由于训练图像的图像块之间⾮常相似,这导致计算出来注意⼒权重⼏乎为 恒等权重。因此作者对Transformer中的多头注意⼒模块做了略微修改,在计算q与k时,利⽤MLP进⾏⼀个⾮线性降维 (⽂中设置 为 D/2 ),⽂中称之为MFSA (multihead feature self-attention)。 MLP隐层维度为2D D - 2D - D/2 加快模型收敛以及提升了精度,但这也增加了参数量 3.3 Network Arc itecture 最后整体的⽹络架构如下所⽰,图左为Transformer的⼀个模块,每个模块的输⼊输出均为L2 × D。对最后⼀层block的输出进⾏平均 (D),再进⾏映射作为inpainting的结果(K2 ∗ C)。 也可以使⽤最后⼀层的第⼀个输出直接进⾏线性映射,这与ViT类似。 4. Training 训练时随机选择⼀个⼤⼩为L的窗⼝,然后在窗⼝内选择⼀个图像块进⾏覆盖,然后将该窗⼝内的图像块⼀起送⼊Transformer中执⾏ inpainting任务。 损失函数⽤的就是像素级的L2 loss,同时还使⽤了SSIM与GMS两种loss。 5. Inference and Anomaly Detection ⾸先根据重建图像与原始图像之间的差异计算pixel-level的异常得分图,然后选取最⼤的⼀个作为image-level的检测得分。 与训练时⼀致,测试图像被分成 NxM 块,对于 (t,u) 位置上的图像块采⽤如下的公式选择其周围⼤⼩为 L 的窗⼝,(r,s)为窗⼝的左上⾓坐 标。 使得图像块尽可能的在窗⼝中⼼ 最后对所有 NxM 个图像块进⾏inpainting,即可得到整副图像重构后的结果。值得注意的是,作者在计算异常得分图的时候,不是使⽤L

文档评论(0)

159****8201 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档