亚洲色图 偷拍自拍 视觉SSL终于追上CLIP!Yann LeCun、谢赛宁等新作,逆转固有深化
机器之心报说念亚洲色图 偷拍自拍
剪辑:蛋酱、杜伟
膨胀无说话的视觉表征学习。
在视觉问题解答(VQA)等多模态环境中,刻下视觉自监督学习(SSL)的发达还比不上说话图像预检修(CLIP)。这种差距频繁归因于说话监督引入的语义,尽管视觉 SSL 模子和 CLIP 模子频繁在不同的数据上进行检修。
在最近的一项有计划中,Yann LeCun、谢赛宁等有计划者计议了一个基本问题: 说话监督对于多模态建模的视觉表征预检修是否必要?
论文标题:Scaling Language-Free Visual Representation Learning论文取悦:https://arxiv.org/pdf/2504.01017格式地址:https://davidfan.io/webssl/
「咱们的主张不是要取代说话监督设施,而是要了解视觉自监督在多模态应用中的内在才和洽局限性。为了进行自制的比较,咱们在与起头进的 CLIP 模子疏浚的数十亿领域的网罗数据(异常是 MetaCLIP 数据集)上检修 SSL 模子。在比较视觉 SSL 和 CLIP 时,这种设施不错收余数据的漫衍互异。」有计划者默示。
论文共合并作 David Fan 默示,「视觉 SSL 终于不错在 VQA 任务上与 CLIP 匹敌了,即使在 OCR & Chart VQA 上也至极具有竞争力。咱们的全新 Web-SSL 模子系列评释注解了这少许,况兼只是基于网罗图像检修,莫得进行任何说话监督。」
在评估方面,有计划者主要使用视觉问题解答(VQA)行为框架,大领域评估 SSL 模子的各式才调。具体来说,汲取了 Cambrian-1 中提议的评估套件,进步 4 个不同 VQA 类别的 16 项任务的性能: 通用、常识、OCR & 图表以及 Vision-Centric。
然后,他们使用上述建树检修了 Web-SSL,这是一个视觉 SSL 模子系列,参数范围从 10 亿到 70 亿不等,以便与 CLIP 进行动直和可控的比较。
通过实证有计划,有计划者提议了一些意见:
色综合视觉 SSL 不错活着俗的 VQA 任务中,以至在 OCR & 图表贯通等说话磋磨任务中,匹配以至卓越说话监督的视觉预检修设施(图 3);视觉 SSL 在模子容量(图 3)和数据(图 4)方面齐有很好的膨胀性,这标明 SSL 还有雄壮的后劲有待挖掘;视觉 SSL 不错在分类和分割方面保合手传统视觉性能的竞争力,同期在 VQA 方面也有所更正(图 7);对包含文本的图像进行更高比例的检修对于提高 OCR 和图表性能尤为有用(问题 4)。探索数据组成是一个很有远景的标的。
随后,有计划者先容了本文的履行建树亚洲色图 偷拍自拍,它通过以下边幅膨胀了之前的 SSL 使命:
(1)将数据集领域膨胀到十亿级图像(第 2.1 节);
(2)将模子领域膨胀到 1B 参数以上(第 2.2 节);
(3)除了 ImageNet-1k 和 ADE20k 等经典视觉基准除外,还使用绽放式 VQA 任务(第 2.3 节)评估视觉模子。
膨胀 Visual SSL
有计划者也计议了视觉 SSL 模子在模子和数据大小方面的膨胀步履,这是仅对 MC-2B 图像进行检修的效果。这一部分要点筹商 DINOv2 行为视觉 SSL 设施,下一部分会要点筹商 MAE。
膨胀模子大小:有计划者将模子大小从 1B 增多到 7B,同期将检修数据固定为 20 亿张 MC2B 图像。他们对每种设施齐使用了现成的检修代码和配方,为了收尾混合变量,莫得因模子领域不同而转换配方。膨胀所见样本:有计划者将要点调整到对固定模子大小的总额据进行缩放,并分析当检修经由中看到的图像数目从 10 亿增多到 80 亿时,性能是怎么变化的。
膨胀模子大小
有计划者使用来自 MC-2B 的 20 亿张 224×224 分辨率的未标志图像,况兼莫得进行高分辨率适合,对 DINOv2 ViT 模子进行了预检修,参数范围从 1B 到 7B,以确保与 CLIP 的自制比较。他们使用 VQA 来评估每个模子,效果如下图 3 所示,包含了合座性能趋势和特定类别性能。
有计划者默示,这是仅使用视觉自监督检修的视觉 encoder 第一次在 VQA 上赢得与说话监督 encoder 至极的性能,即使是传统上被合计高度依赖文本的 OCR 和 Chart 类别亦然如斯。
对于性能变化趋势,图 3 还比较了模子容量增多时的性能趋势。WebDINO’s Average、DINOOCR & Chart 和 Vision-Centric VQA 的性能跟着模子大小的增多着实呈现对数线性进步,而通用(General)和常识(Knowledge)的进步进度较小。
比较之下,CLIP 在统共 VQA 类别中的表面前 3B 参数后基本实足。这标明了,天然较小领域的 CLIP 模子不错更高效地愚弄数据,但较大领域的 CLIP 模子基本丧失了这一上风。
Web-DINO 模子增多带来的合手续性能进步标明了,视觉 SSL 会从更大领域的模子中受益,况兼链接将视觉 SSL 膨胀到 7B 以上是一个有后劲的标的。
对于特定类别的性能,跟着模子大小的增多,DINO 在 Vision-Centric VQA 上的发达越来越优于 CLIP,在 OCR & Chart 和 Average VQA 上与 CLIP 的差距也大大收缩。
膨胀所见样本
有计划者探究了检修 Web-DINO ViT-7B 经由中增多所见样本的数目对性能变化有哪些影响,并未来自 MC-2B 中的图像数目从 1B 增多到 8B。
跟着所见样本的增多,General 和 Knowledge VQA 的性能冉冉进步,并分散在 4B 和 2B 样本时达到实足。Vision-Centric VQA 的性能在样本从 1B 增多到 2B 经由中急剧进步,并在 2B 以上达到实足。比较之下,OCR & Chart 是独逐一个跟着所见样本增多而合手续更正的类别。
这标明了,跟着模子所见样本的增多,它会学习到一种越来越合适文本任务的表征,而其他才调不会显明着落。
总的来说,上图 3 和图 4 的效果标明,跟着模子大小和样本的增多,视觉 SSL 学习到的特征对于 VQA 越来越有用,尤其是在 OCR & Chart 类别。况兼,基于 CLIP 的模子相较于视觉 SSL 莫得十足的上风。
Web-SSL 模子系列
有计划者使用 VQA 和经典视觉基准分析了合座性能最好的视觉编码器。表 3 展示了视觉编码器在 VQA 和经典视觉任务方面与近期现成的视觉编码器比较所赢得的最好效果。
在 VQA 和传统视觉任务中,Web-DINO 的发达齐优于现成的 MetaCLIP。在 VQA 上,Web-DINO 的性能以至不错与 SigLIP 和 SigLIP2 相比好意思,尽管它看到的数据少了 5 倍,而且莫得说话监督。总体而言,Web-DINO 在传统视觉基准测试中的发达优于统共现成的说话监督 CLIP 模子。
在统共 VQA 类别中,Web-DINO 也优于现成的视觉 SSL 设施,包括 DINOv2。在传统的视觉基准测试中,Web-DINO 也具有很强的竞争力。
从 224 分辨率到 378 分辨率再到 518 分辨率,Web-DINO 在平均 VQA 上稳步进步,在 OCR 和图表性能方面也有显赫提高。传统视觉性能跟着分辨率的提高而略有提高。在 384 分辨率下,Web-DINO 过期于 SigLIP。在 518 分辨率下,Web-DINO 在很猛进度上弥补了这一差距。效果标明,Web-DINO 可从进一步提高高分辨率适合性中获益。
更多有计划细节亚洲色图 偷拍自拍,可参考原论文。