06
2022
06

何恺明MAE局限性被打破,与Swin Transformer结合,训练速度大大提升

发布日期:2022-06-06 11:47    点击次数:151

自何恺明 MAE 横空出世以来,MIM(Masked Image Modeling)这一自监督预训练表征越来越引发关注。

但与此同时, 研究人员也不得不思考它的局限性。

MAE 论文中只尝试了使用原版 ViT 架构作为编码器,而表现更好的分层设计结构(以 Swin Transformer 为代表),并不能直接用上 MAE 方法。

于是,一场整合的范式就此在研究团队中上演。

代表工作之一是来自清华、微软亚研院以及西安交大提出SimMIM,它探索了 Swin Transformer 在 MIM 中的应用。

但与 MAE 相比,它在可见和掩码图块均有操作,且计算量过大。有研究人员发现,即便是 SimMIM 的基本尺寸模型,也无法在一台配置 8 个 32GB GPU 的机器上完成训练。

基于这样的背景,东京大学 & 商汤 & 悉尼大学的研究员,提供一个新思路。

不光将 Swin Transformer 整合到了 MAE 框架上,既有与 SimMIM 相当的任务表现,还保证了计算效率和性能——

将分层 ViT 的训练速度提高 2.7 倍, 青岛德固特节能装备股份有限公司GPU 内存使用量减少 70%。

来康康这是一项什么研究?

当分层设计引入 MAE

这篇论文提出了一种面向 MIM 的绿色分层视觉 Transformer。

即允许分层 ViT 丢弃掩码图块,只对可见图块进行操作。

具体实现,由两个关键部分组成。

首先,设计了一种基于分治策略的群体窗口注意力方案。

将具有不同数量可见图块的局部窗口聚集成几个大小相等的组,然后在每组内进行掩码自注意力。

其次,把上述分组任务视为有约束动态规划问题,受贪心算法的启发提出了一种分组算法。

它可以自适应选择最佳分组大小,并将局部窗口分成最少的一组,从而使分组图块上的注意力整体计算成本最小。

表现相当,训练时间大大减少

结果显示,在 ImageNet-1K 和 MS-COCO 数据集上实验评估表明,与基线 SimMIM 性能相当的同时,效率提升 2 倍以上。

而跟 SimMIM 相比,这一方法在所需训练时间大大减少,消耗 GPU 内存也小得多。具体而言,在相同的训练次数下,在 Swin-B 上提高 2 倍的速度和减少 60% 的内存。

值得一提的是,该研究团队在有 8 个 32GB V100 GPU 的单机上进行评估的,而 SimMIM 是在 2 或 4 台机器上进行评估。

研究人员还发现,效率的提高随着 Swin-L 的增大而变大,例如,与 SimMIM192 相比,速度提高了 2.7 倍。

实验的最后,提到了算法的局限性。其中之一就是需要分层次掩码来达到最佳的效率,限制了更广泛的应用。这一点就交给未来的研究。

而谈到这一研究的影响性,研究人员表示,主要就是减轻了 MIM 的计算负担,提高了 MIM 的效率和有效性。

感兴趣的旁友,可戳下方链接了解更多 ~

论文链接:

https://arxiv.org/abs/2205.13515

GitHub 链接:

https://github.com/LayneH/GreenMIM

SimMIM 论文链接:

https://arxiv.org/abs/2111.09886

AAB

相关资讯
热点资讯


Powered by 新乡市新轻机械有限公司 @2013-2022 RSS地图 HTML地图

2013-2022 版权所有