MobileMamba:轻量化模型新宠,性能效率双优霸榜来袭!

全文3017字,阅读约需9分钟,帮我划重点

划重点

01研究团队提出了轻量化模型MobileMamba,旨在平衡效率和效果,推理速度远超现有基于Mamba的模型。

02MobileMamba采用三阶段网络作为基础框架,设计了一个高效的多感受野特征交互模块,以增强多尺度感知能力和改进细粒度高频边缘信息的提取。

03通过在不同FLOPs大小的模型上采用训练和测试策略,MobileMamba在分类任务以及三个高分辨率输入的下游任务中显著提升了性能和效率。

04实验结果显示,MobileMamba在ImageNet-1K数据集上的Top-1准确率最高可达83.6,优于现有基于CNN、ViT和Mamba的方法。

以上内容由腾讯混元大模型生成,仅供参考

始智AI wisemodel.cn开源社区

过去轻量化模型研究主要集中在基于CNN和Transformer的设计。但是CNN的局部有效感受野在高分辨率输入时难以获得长距离依赖。而Transformer尽管有着全局建模能力但是其平方级计算复杂度限制了其在高分辨率下的轻量化应用。

最近状态空间模型如Mamba由于其线性计算复杂度和出色的效果被广泛用在视觉领域。然而,基于Mamba的轻量化模型,虽然FLOPs低但是其实际的吞吐量也极低。

因此,研究团队提出了MobileMamba的框架良好的平衡了效率与效果,推理速度远超现有基于Mamba的模型。MobileMamba已上线始智AI-wisemodel开源社区,欢迎大家前去体验。

图片

模型和代码地址

https://wisemodel.cn/models/Lewandofski/MobileMamba

https://wisemodel.cn/codes/Lewandofski/MobileMamba


01.

轻量化模型背景和局限


随着移动设备的普及,资源受限环境中对高效、快速且准确的视觉处理需求日益增长。开发轻量化模型,有助于显著降低计算和存储成本,还能提升推理速度,从而拓展技术的应用范围。现有被广泛研究的轻量化模型主要被分为基于CNN和Transformer的结构。基于CNN的MobileNet设计了深度可分离卷积大幅度减少了计算复杂度。

GhostNet提出将原本将原本全通道1x1卷积替换为半数通道进行廉价计算,另半数通道直接恒等映射。这些方法给后续基于CNN的工作奠定了良好的基础。

但是基于CNN方法的主要缺陷在于其局部感受野,如图1(i)所示,其ERF仅在中间区域而缺少远距离的相关性。并且在下游任务高分辨率输入下,基于CNN的方法仅能通过堆叠计算量来换取性能的少量提升。

ViT有着全局感受野和长距离建模能力,如图1(ii)所示。但是由于其平方级别的计算复杂度,计算开销比CNN更大。一些工作尝试从减少分辨率或者减少通道数上来减少所带来的计算复杂度的增长取得了出色的效果。

图片

图1 顶部:不同结构下有效感受野ERF的可视化图像;   

底部:最近基于CNN/Transformer/Mamba方法的效果 vs. FLOPs对比。

但是基于纯ViT的结构缺少了归纳偏置,因此越来越多的研究者将CNN与Transformer结合得到混合结构得到更好的效果并获得局部和全局的感受野如图1(iii)所示。但是尤其在下游任务高分辨率输入下,基于ViT的方法仍然受到平方级别计算复杂度的问题。
最近,基于状态空间模型由于其出色的捕捉长距离依赖关系并且线性的计算复杂度引起了广泛关注。大量的研究者将其应用于视觉领域在效果和效率上取得了出色的效果。基于Mamba的轻量化模型LocalMamba提出了将图像划分为窗口并在窗口内局部扫描的方式减少计算复杂度。EfficientVMamba设计了高效2D扫描方式降低了计算复杂度。但是他们都仅仅公布了FLOPs,而FLOPs低并不能代表推理速度快。经实验发现如图2所示,现有的基于Mamba结构的推理速度较慢并且效果较差。

02.

MobileMamba设计与构建


鉴于当前轻量化模型领域的现状以及存在的诸多问题,作者提出了 MobileMamba,并从多方面进行创新设计以实现高效轻量化网络构建。
在粗粒度网络设计上,研究团队深入权衡了四阶段和三阶段网络在准确率、速度、FLOPs 等关键指标上的表现。经严谨评估与分析,最终选定三阶段网络作为 MobileMamba 的基础框架,这一决策使得模型在推理速度上得到显著提升,为整体性能优化奠定了坚实基础。
于细粒度层面,精心打造了高效多感受野特征交互 (MRFFI)模块。此模块按通道维度将输入特征巧妙划分为三个独特部分:长距离小波变换增强 Mamba (WTE - Mamba)、高效多核深度可分离卷积 (MK - DeConv)和去冗余恒等映射。
其中,WTE - Mamba 专注于提取全局特征,并在提取过程中强化边缘细节等细粒度信息的获取能力;MK - DeConv 致力于捕捉多尺度感受野的感知信息,拓宽模型对不同尺度特征的感知范围;去冗余恒等映射则着重解决高维空间下通道冗余的难题,有效减少计算复杂度并大幅提升运算速度。
通过这三个部分的协同运作,最终成功实现了在长距离建模特征基础上,融合多尺度多感受野信息,并显著加强高频细节特征的提取效果。
在训练测试策略维度,研究团队采用了两个训练策略与一个推理策略来进一步挖掘模型潜力。在训练阶段,运用知识蒸馏技术,让模型能够从大规模数据中高效学习关键知识与特征表示,同时延长训练轮数,使模型参数得到更充分的优化与调整,从而有效提升模型的学习与泛化能力;在推理阶段,借助归一化层融合技术,巧妙整合各层计算过程,减少计算冗余,进一步提升推理速度。

03.

MobileMamba性能优势验证


大量实验结果充分彰显了 MobileMamba 的卓越性能。其在 ImageNet - 1K 数据集上的 Top - 1 准确率表现出众,最高可达 83.6,远远超过现有各类方法。与同为 Mamba 系列的 LocalVim 相比,不仅在 Top - 1 准确率上提升显著,速度更是达到其 21 倍之多。
相较于 EfficientVMamba,在准确率提升 2.0 的同时,速度也提升了 3.3 倍。此外,在众多下游任务实验中,无论是目标检测、实例分割还是语义分割任务,在高分辨率输入场景下,MobileMamba 均展现出了效果与效率的绝佳平衡,有力验证了该方法在复杂实际应用场景中的有效性与可靠性。
图片

图2:现有基于Mamba的轻量化模型效果 vs. 吞吐量。

如图1(iv)所示,MobileMamba有着全局感受野的同时,高效多核深度可分离卷积操作有助于提取相邻信息。图1底部与SoTA方法的对比可知,MobileMamba从200M到4G FLOPs的模型在使用训练策略后分别达到76.9,78.9,80.7,82.2,83.3,83.6的Top-1在ImageNet-1K上的效果均超过现有基于CNN、ViT和Mamba的方法。

与同为Mamba的方法相比如图2所示,MobileMamba比LocalVim在Top-1上提升0.7↑的同时速度快21倍。比EfficientVMamba提升2.0↑的同时速度快3.3↑倍。显著优于现有基于Mamba的轻量化模型设计。同时,在下游任务目标检测、实分割、语义分割上大量实验上也验证了方法的有效性。在Mask RCNN上比EMO提升1.3↑在mAP并且吞吐量提升56%↑。

在RetinaNet上比EfficientVMamba提升+2.1↑在mAP并且吞吐量提升4.3↑倍。在SSDLite通过提高分辨率达到24.0/29.5的mAP。在DeepLabv3, Se-mantic FPN, and PSPNet上有着较少的FLOPs分别最高达到37.4/42.7/36.9的mIoU。在高分辨率输入的下游任务与基于CNN的MobileNetv2和ViT的MobileViTv2相比分别提升7.2↑和0.4↑,并且FLOPs仅有其8.5%和11.2%。

总的来说,研究团队贡献如下:

l 提出了一个轻量级的三阶段MobileMamba框架,该框架在性能和效率之间实现了良好的平衡。MobileMamba的有效性和效率已经在分类任务以及三个高分辨率输入的下游任务中得到了验证。

l 设计了一个高效的多感受野特征交互(MRFFI)模块,以通过更大的有效感受野增强多尺度感知能力,并改进细粒度高频边缘信息的提取。

l MobileMamba通过在不同FLOPs大小的模型上采用训练和测试策略,显著提升了性能和效率

图片

图 MobileMamba结构概述 (a) 粗粒度结构设计: 三阶段MobileMamba总体框架。(b) 16 ×16 下采样PatchEmbed. (c) MobileMamba Block结构。(d) 细粒度结构设计: 所提出的高效多感受野特征交互模块 (MRFFI).

更多实验结果如下:

图片
图片
图片
图片

编辑:成蕴年