基于Vision Transformer的图像着色研究.pdfVIP

下载本文档

0
0
约8.51万字
约 56页
2025-02-07 发布于江西
举报
版权申诉

基于Vision Transformer的图像着色研究.pdf

1、本文档共56页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要

交互式灰度图像着色在计算机视觉领域具有广泛的现实应用场景，越来越成

为当下的热门研究领域。其依赖用户提供初始彩色信息，进而将灰度图像转化为

彩色图像，具有辅助用户实现个性化着色的能力，在古画修复、黑白照片视频着

色、动漫产业线稿着色等领域具有更丰富的应用和研究价值。随着人工智能和深

度学习的发展，图像着色领域也被广泛应用到其中，许多学者开始将神经网络、

生成对抗网络，甚至是自然语言处理领域的Transformer引入到图像着色领域。

但是大部分深度学习模型依然存在缺失细节信息、边界颜色溢出、区域伪影明显

等问题。在众多图像着色课题中，基于VisionTransformer的点交互式着色模型

的彩色化结果较为良好，但是本应用与自然语言处理领域的Transformer简单的

移植到图像着色领域会造成大量的计算压力，尤其是在交互式着色这种对计算敏

感性更高的应用场景中。针对上述分析，本文深入研究了基于ViT的交互式灰度

图像着色方法以及可行的改进策略，分别提出了双重局部自注意力和自适应修建

计算层两种ViT改进模型，可以实现在点交互式图像着色任务中的高效运行。因

此，本文在目前最先进的灰度图像彩色化算法的基础上，提出基于Vision

Transformer的点交互式着色算法。具体的研究内容与创新点如下：

(1)提出基于双重局部自注意力的图像着色算法，引入双重局部自注意力机

制，通过结合移位窗口局部自注意力和特征空间局部自注意力，降低了全局自注

意力机制的计算复杂度，同时捕捉了局部和远距离特征相似区域之间的联系。提

出针对图像着色的聚类指标：为了增强着色质量，更高效的建立各个局部窗口之

间的联系，不仅采用滑动窗口的方式捕获图像块之间的空间关联性，还借鉴传统

着色方法的数学模型捕获图像块之间的特征关联性。提出了适用于图像着色任务

的亮度相似度作为聚类指标，有效地将图像分成不同的局部区域，为后续的特征

空间局部自注意力提供更准确的信息。改进模型的层次合并和上采样方式：为了

在分层Transformer中保存尽可能多的局部窗口信息，对色块合并模块进行了改

进，为了解决DUpsampling上采样所造成的伪影和颜色越界现象，在Transformer

和DUpsampling两个模块之间添加一个感受野为3的卷积层作为局部稳定层

(localstabilizinglayer)，以提高上采样结果的颜色平滑度。该方法不仅降低了大

量参数量和浮点计算量，而且在多个数据集上表现出优越的着色性能。在对所设

计的方法的各项模块同样进行了多样的消融实验，证明了模型设计的有效性。

(2)提出基于自适应的图像着色算法。从剪枝冗余计算过程的思路出发，

自适应地修剪ViT计算层。为了实现效率和实时着色的要求，本文使用一个可训

练的决策网络来确定在Transformer架构中跳过或保留哪些特定的层。随着决策

网络效率的提高，本文的实验表明，该算法能够降低计算成本，同时实现与保持

主流最优模型的性能相当。

上述两个方法均能够在明显降低计算量的同时保持图像着色的高质量输

出，其中第一种方法拥有综合素质更高的着色效率适合普遍的应用场景；而第二

种方法在更改模型规模方面有更高的自由度，可根据输入样本的复杂程度变换模

型复杂度，易于在特定的交互式场景中发挥作用。

关键字：交互式图像着色；VisionTransformer；局部自注意力；自适应剪枝

Abstract

Interactivegrayscaleimagecoloringhasawiderangeofreal-lifeapplication

scenariosinthefieldofcomputervision,andhasbecomeanincreasinglypopular

researchfield.Itreliesonuserstoprovideinitialcolorinformation,andthencon

您可能关注的文档

文档评论（0）

论文资源 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于Vision Transformer的图像着色研究.pdfVIP