用于异常检测的Transformer-InTra《InpaintingTransforme。。。.pdf

下载文档

3
0
约2.86千字
约 4页
2023-07-01 发布于湖北
举报
版权申诉
保障服务

用于异常检测的Transformer-InTra《InpaintingTransforme。。。.pdf

1、本文档共4页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

⽤于异常检测的Transformer-InTra 《InpaintingTransforme。。。原⽂地址论⽂阅读⽅法初识 GAN，AE这类基于重构的异常检测⽅法，缺在于其对于异常样本的重构也⾮常好，这会导致检测错误。⽽⽬前出现的⼀些⽅法将⽣成重构的问题转换为inpainting问题来进⾏异常检测，inpainting就是将图像对某些区域进⾏覆盖，然后进⾏恢复，也可以视为⼀种⾃监督⽅法。解决inpainting这类问题，从更⼤的区域捕获长距离语义信息有助于覆盖区域的重建。但CNN由于感受野的限制，其不善于捕捉长距离信息。因此，作者受到最近⼤⽕的视觉Transformer的启发，因此采⽤Transformer架构解决这个问题。如下图(a)所⽰，训练时，图像被切成⼤⼩相等的块，利⽤⼀个⼤区域内的其他图像块来进⾏inpainting。图(b)展⽰了重建的效果，以及根据像素级误差得到的异常得分图。并且作者只依据MVTec AD数据集本⾝的少量样本进⾏训练，也达到了state-of-the-art的效果。相知 2. Related Work 将当前的异常检测/分割⽅法主要分为了两类，⼀是基于重构的⽅法，类似AE、GAN、VAE等⽅法；其次是基于嵌⼊(Embedding)的⽅法，主要依据在ImageNet上预训练的CNN提取判别性特征进⾏⽐较。随后也介绍了inpainting和transformer的⼀些相关⽅法。 3. Inpainting Transformer for Anomaly Detection 使⽤Transformer执⾏inpainting任务进⾏训练。测试时，同样以inpainting的⽅式进⾏重建，⽐较输⼊图像与重建图像之间的差别，得到检测结果。 3.1 Embedding Patc es and Positions 如上图(a)所⽰，本⽂的⽅法是选择⼀个长度为 L 的正⽅形区域（⽽⾮ViT中的整副图像）进⾏inpainting，过程中有两种位置编码⽅式，⼀种是局部编码，如下图左所⽰，另⼀种是全局编码，如下图右所⽰。为什么需要这两种编码模式，直觉上来说，纹理类图像(图左)不需要考虑图像块在全局的位置信息，⽽另⼀些类别则很重要(图右)。和ViT中的设置类似，位置嵌⼊信息为D维，将图像块也映射到D维后，将两者进⾏相加即可。需要注意的是，有⼀个图像块P (t, u)被覆盖了。本⽂将其视为ViT中的分类头(class token) ：最后得到L × L个维度为D的序列，准备送⼊后续的Transformer。 3.2 Multi ead Feature Self-Attention 原始的MSA模块q与k都是通过⼀个映射维持在D维，但作者任务由于训练图像的图像块之间⾮常相似，这导致计算出来注意⼒权重⼏乎为恒等权重。因此作者对Transformer中的多头注意⼒模块做了略微修改，在计算q与k时，利⽤MLP进⾏⼀个⾮线性降维（⽂中设置为 D/2 ），⽂中称之为MFSA (multihead feature self-attention)。 MLP隐层维度为2D D - 2D - D/2 加快模型收敛以及提升了精度，但这也增加了参数量 3.3 Network Arc itecture 最后整体的⽹络架构如下所⽰，图左为Transformer的⼀个模块，每个模块的输⼊输出均为L2 × D。对最后⼀层block的输出进⾏平均 (D)，再进⾏映射作为inpainting的结果(K2 ∗ C)。也可以使⽤最后⼀层的第⼀个输出直接进⾏线性映射，这与ViT类似。 4. Training 训练时随机选择⼀个⼤⼩为L的窗⼝，然后在窗⼝内选择⼀个图像块进⾏覆盖，然后将该窗⼝内的图像块⼀起送⼊Transformer中执⾏ inpainting任务。损失函数⽤的就是像素级的L2 loss，同时还使⽤了SSIM与GMS两种loss。 5. Inference and Anomaly Detection ⾸先根据重建图像与原始图像之间的差异计算pixel-level的异常得分图，然后选取最⼤的⼀个作为image-level的检测得分。与训练时⼀致，测试图像被分成 NxM 块，对于 (t,u) 位置上的图像块采⽤如下的公式选择其周围⼤⼩为 L 的窗⼝，(r,s)为窗⼝的左上⾓坐标。使得图像块尽可能的在窗⼝中⼼最后对所有 NxM 个图像块进⾏inpainting，即可得到整副图像重构后的结果。值得注意的是，作者在计算异常得分图的时候，不是使⽤L