2024计算机视觉飞速发展十大趋势排行榜推荐

2026-06-04阅读 0热度 0

人工智能

概述

AI无疑是近年最炙手可热的话题，大语言模型的爆火和Agent应用的落地，让人们对通用人工智能的期待值重新拉满。作为AI最核心的分支之一，计算机视觉也在飞速狂奔，新方法和新模型层出不穷，为更复杂的算法功能和更广阔的业务价值创造了可能。

但挑战也随之而来。面对如此多的新方法，哪些才是真正能解决技术落地痛点的“利器”？如何将它们合理地嵌入实际业务场景，发挥出应有的算法威力？这是我们每个从业者必须思考和学习的课题。而理解这些方法的特性、优势和局限，正是合理运用的前提。这篇文章梳理了近两年计算机视觉领域三项重要的突破，并分享了一些将它们应用于业务场景的心得，希望能为大家提供一些灵感。

这三项突破分别是：自监督视觉基础模型、前馈3D重建、统一多模态模型。

自监督视觉基础模型

自监督学习

自监督学习（Self-Supervised Learning, SSL）本质上是一种无监督学习范式，它不需要人工标注数据，而是从原始数据自身的信息和结构中挖掘“监督信号”来进行学习。这是训练超大参数模型的关键手段。简单来说，SSL让模型学会利用原始数据的可观测局部，去预测那些不可观测的其余部分。

SSL的概念可以追溯到上世纪90年代，2019年由Yann LeCun正式提出。但真正让人们见识到其强大潜力的，是自回归大语言模型（LLM）的爆发。正是SSL，让互联网上海量的无标注文本序列能直接成为LLM的训练数据，催生了LLM从已观测序列预测后续文本的能力——可以说，没有SSL，就没有LLM的爆发。

那么问题来了，能否将SSL的成功复刻到视觉模型上？利用网络中同样海量的无标注图像数据，训练出视觉基础模型（Vision Foundation Model, VFM），这无疑是近几年计算机视觉领域中最具应用潜力、也最令人兴奋的挑战性方向。

视觉自监督

视觉领域的自监督探索目前有两个主流方向：生成式自监督和对比学习自监督。

生成式自监督

核心思想与训练LLM的方法一致：训练时对图像进行分块，随机遮挡掉一部分，让模型根据未被遮挡的图像块上下文，去预测被遮挡的部分，从而学习、理解数据的内在结构和特征，如下图所示：

这方面最具代表性的工作，当属发表于CVPR2022的Masked Autoencoders Are Scalable Vision Learners（MAE）。MAE先用编码器处理可见的图像块获得潜在表征，再用解码器从潜在表征和掩码标记中重建像素值，模型结构简图如下：

对比学习自监督

基于对比学习的自监督方法历史更悠久。核心思想是从原始图像构建数据对，然后进行对比学习。代表作是发表于ICML2020的A Simple Framework for Contrastive Learning of Visual Representations（SimCLR）。SimCLR通过裁剪、颜色抖动、高斯模糊等随机增强手段，为每张原始图像构建两个视图。同一图像的两个视图作为正对，不同图像的视图作为负对，以此来训练模型进行对比学习，其架构简图如下：

基础模型DINO

DINO（Self-distillation with No Labels）是Meta自2021年开始推出的自监督学习范式及预训练基础模型系列，在2021至2026年间陆续发布了三个版本。DINOv3是当前最强大的通用视觉基础模型和视觉特征提取器。

DINOv1、v2

2021年，DINOv1以Emerging Properties in Self-Supervised Vision Transformers为题发表于ICCV2021，它将蒸馏思想引入对比自监督学习，提出了“自蒸馏”的概念。训练过程中，DINO会同时更新教师网络和学生网络两个模型：

一张图像经过两种不同的随机裁剪和数据增强，得到局部视图和全局视图。
学生网络从局部视图预测概率分布，通过梯度下降更新权重，使其输出的分布尽可能接近教师网络。
教师网络从全局视图预测概率分布，权重则通过学生网络的指数移动平均（EMA）来更新。

迭代过程如图所示：

v1模型确立了DINO系列通用视觉模型的定位，但仅使用了0.13B图像进行训练，最大模型参数量只有86M，性能相比专用模型仍有差距。

2023、24年，DINOv2和DINOv2-Register相继发布，性能大幅提升。模型仅需少量样本微调即可应用于各类下游任务。v2模型的训练数据规模小幅增加到0.14B，最大模型参数量则大幅跃升至1.1B。其基础模型特性，推动了大量以其为核心组件的前沿探索（比如后文将介绍的“前馈3D重建”）。

DINOv3

2025年末，DINOv3发布，解决了视觉模型长期训练的劣化问题，成功在超大规模数据上训练超大模型。v3模型无需微调，就在多项视觉任务中超过了有监督方法。作为特征提取器，它能获得细致、稳定、通用的图像特征，将通用视觉基础模型推向了新高度。v3的训练图像数据规模达到1.7B，是v2的12倍；模型参数量达到6.7B，是v2的6倍。

DINOv3展现了惊人的通用性，并能提取高质量的像素级特征。只需连接轻量的任务模块，即可在分类、检测等稀疏任务和分割、深度估计等密集任务上超越专用模型。下面两幅图直观展示了其通用性和像素级特征的质量：

前馈3D重建

多视角立体与新视角生成

基于图像的3D重建是计算机视觉最核心的任务之一，目标是从2D图像恢复出3D物体或场景的结构。由于不依赖主动传感器，该技术广泛应用于纯视觉自动驾驶、数字重建等场景，也是物流行业实现货物体积测量、自动化分拣的核心技术手段。

对“3D重建”的探索历史很长，且近期技术迭代极快，导致这个词在不同时期和语境下含义不同。当下提及它，通常指代两类不同的任务：

多视角立体重建

MVS从多视角2D图像恢复物体或场景的真实几何结构。下图是使用经典工具COLMAP重建的建筑物：

经典MVS方法和工具包括COLMAP、OpenMVS等，通常流程为：多视角图像特征提取、匹配、相机位姿估计、三角化、BA、密集重建等，最终恢复3D结构信息，经典工具与流程如下图所示：

SfM可以看作是MVS的简化版本，它舍弃了密集重建，只恢复物体大致结构，更关注预测相机位姿与实时性，如下图左侧所示。同步定位与建图（SLAM）是SfM最经典的应用，是工业机器人、无人机领域的核心技术。下图右侧是MIT Spark实验室的实时SLAM框架Kimera的流程简图：

深度估计是恢复精细几何结构的关键技术，目标是预测2D图像中每个像素对应的深度值。常用方法包括双目立体匹配、单目深度估计等。近期最佳工作是来自ICLR2026的DepthAnything3模型，其获取的深度图效果如下：

新视角生成

新视角生成是2020年左右兴起的热门方向，也是计算机视觉、图形学近年来最火的研究领域之一，同时还是世界模型、空间智能、数字人直播等热门应用的底层技术支撑。

它的目标是从多视角2D图像中迭代出隐式神经表示或显式高斯表示，再利用这些表示渲染出极其逼真的新视角图像。下图是CVPR2026中两项新工作的例图，它们利用这项技术构建了动态逼真肖像：

神经辐射场（NeRF）是新视角生成的开篇之作，发表于ECCV2020。它将场景或物体表示为一个MLP，利用该场景的多视角图像训练优化，使其能从任意输入的空间坐标和视角方向生成体密度和颜色，再通过体渲染生成新视角图像。NeRF需要为每个场景独立训练MLP，其原理简图如下：

3D高斯溅射（3DGS）是显式表示方法的事实标准，发表于SIGGRAPH2023。它将场景表示为大量可优化的各向异性高斯粒子，每个粒子包含位置、旋转、缩放、不透明度等属性，通过可微光栅化进行渲染，大幅加快了场景迭代和渲染速度。3DGS是目前新视角生成最主流的方法，下图左侧是原理简图，右侧是与NeRF的直观对比：

无论是传统MVS还是新视角生成，本质上都是基于迭代的方法。它们必须为每个场景迭代自己的显式或隐式表示，才能获取结构信息或逼真新视角图像，步骤复杂、耗时长，制约了广泛应用。

基于学习的前馈3D重建

在物流领域，像MVS这样的几何重建方法至关重要，因为能重建货物的真实结构信息。但每个场景过长的迭代时间和复杂的步骤，严重限制了这些技术在实际业务中的落地。

反观2D视觉任务，从单图检测、分割，到多图对比、匹配，大多数任务都有基于学习的简洁高效的端到端方案，只需一个深度模型即可实现。随着前面提到的基础模型的发展，更是实现了单一模型解决多个视觉任务的突破。

因此，摆脱复杂耗时的迭代，通过学习一个端到端的深度模型，实现从单次模型前馈推理重建所有3D信息，就成了近年来3D视觉领域最重要的突破方向。早期探索是结合传统迭代方法和深度模型来提升整体性能；24年开始，像DUSt3R这样的端到端方案开始出现。一些代表性方法如下图所示：

VGGT

VGGT是一个结构简洁的前馈Transformer。通过在大量有标注数据上训练，它实现了单次模型前向推理，就能从任意多张多视角图像中预测出场景的所有3D信息。下图左侧是VGGT的直观介绍：输入多视角图像，模型一次性预测相机参数、场景点图和深度图。右侧展示了其高质量的重建精度和极快的重建速度：

VGGT模型结构包括三部分：2D特征提取、交替注意力、结果预测。在2D特征提取阶段，VGGT应用DINO从各视角图像提取表征序列，并为每个序列额外增加一个用于预测相机参数的相机Token；在交替注意力阶段，在全局表征序列和单视角表征序列上交替进行自注意力操作，获得场景表征序列和相机表征序列；在结果预测阶段，MLP从相机表征预测稀疏的相机参数，DPT模块从场景表征预测深度图、点图等密集输出。

在CVPR2026上，牛津大学和Meta发布了改进版VGGT-Ω，通过结构优化和大幅增加训练数据，进一步提升了性能，其模型简图如下：

MapAnything

MapAnything是Meta与卡耐基梅隆大学合作的产物，是一套功能全面且前馈式的3D重建模型。它采用离散场景表示，将场景分解为多视角深度图、局部射线图、相机位姿和尺度因子，实现了更灵活的输入输出组合。这意味着它不仅能接收图像，也能融合额外的传感器信息和相机参数来提升性能。更关键的是，MapAnything能直接预测真实尺度因子，从而从图像中估算出物体和场景的真实物理尺寸。下图直观展示了它的能力：

和VGGT一样，MapAnything的主体通过简洁的Transformer实现，同样使用DINO来提取2D特征，其结构如下图所示：

统一多模态模型

多模态与两类VLM

从早期视觉多传感器融合，到视觉-文本跨模态对齐，再到图-文-语音全模态模型，多模态领域涉及面广、研究历史悠久，是通往通用人工智能最重要的技术路线之一。这里我们重点关注视觉和文本这两个最重要的模态，梳理一下时下热门的视觉语言模型（VLM）。

MLLM（多模态大语言模型）将视觉输入视为一种“感知”，而主体是由作为“大脑”的LLM驱动，代表模型如Qwen-VL系列、LLaVA系列。MLLM承载着人们对通用人工智能的期望，商业和开源模型不断刷新榜单。下图左上展示了一些代表性模型，右侧列举了其架构与参数，左下是针对MLLM的基准：

另一类是视觉主干VLM，它将视觉模型作为主体，文本则作为高层级语义概念来引导模型行为。这类模型专门服务于视觉任务，在各大计算机视觉会议中备受关注。代表模型如SAM3，它通过文本来指明需要分割的目标，如下图所示：

从MLLM到NMM、UMM

MLLM展现出的开箱即用和交互能力吸引了大量关注，商业潜力巨大，成为国内外厂商重点投入的方向。早期代表模型如LLaVA、Qwen-VL等，依赖预训练好的LLM和视觉ViT，通过MLP、Q-Former、注意力机制等方式，将ViT输出的视觉表征向文本表征对齐，再用视觉-文本数据整体微调，使语言模型获得视觉理解能力，架构简图如下：

这个时期的模型有两个主要问题。首先，视觉模态只是一个“附件”，其组件参数比重低，导致整体表现出的图像理解能力不稳定。其次，模型只具有文本生成能力，不具备视觉内容生成能力，无法输出图像。

为解决这两个问题，近两年从MLLM衍生出了两类新架构：原生多模态模型（NMM）和统一多模态模型（UMM）。

NMM舍弃了预训练模型，使用视觉、文本数据从头训练，使得两个模态在输入端变得“原生”且同等重要。最具代表性的模型如Qwen3.5，它不再区分文本模型和VL模型。

UMM则统一了理解与生成任务。模型不仅能理解多模态输入，也能生成多模态输出，例如生成图像、视频。根据实现方式，可分为外部专家建模、模块联合建模、端到端建模三种类型。下图左上和左下分别是外部专家建模和模块联合建模的架构简图，右侧列举了各类端到端模型：

视觉主干VLM

视觉主干VLM通常专门解决某一类视觉任务。近期最具代表性的，是Meta于25年底发布的第3代SAM（Segment Anything Model）。

SAM3

SAM系列模型通过多样化的参考和提示，实现了“万物分割”和“可提示概念分割”。前两代SAM只关注视觉参考，通过点位、边框来指定分割内容。SAM3在此基础上引入了文本提示，成为当下综合表现最佳的视觉分割模型。

SAM3的功能非常贴合实际使用场景：支持图像和视频输入，可以单独或混合使用文本提示、点位、边框、参考样图。既能根据文字描述精准分割对应的物体实例，也能根据参考样图分割文本难以描述的概念，还能结合点、框来提升分割精确性，如下图所示：

SAM3采用了“简单模型 + 大参数量 + 海量数据”的策略。模型参数量达到了8.5M，训练数据集包括4M不重复短语与52M掩码，以及38M合成短语与1.4B合成掩码。SAM3可识别超过4M个细分概念，即使面对物体遮挡、目标密集等复杂场景，也能稳定完成目标定位、分割与跟踪。下图上方是SAM的结构简图，下方直观展示了对细分概念的区分能力和分割细粒度：

总结与感悟

本文总结了近期计算机视觉领域里，最能帮助我们业务落地的3个代表性技术突破：自监督视觉基础模型、前馈3D重建、统一多模态模型。

在具体业务场景中，它们帮助我们解决了不少难题。自监督视觉基础模型提供了通用且细粒度的视觉特征，结合专用算法模块，实现了多图细节特征比对、贴纸轻微褶皱偏移检测等非传统视觉任务。前馈3D重建为感知货物体积、尺寸等应用提供了技术基础；其“基础模型提取2D特征 + 注意力捕获3D信息”的思想，也被应用于多视角图像比对等任务。统一多模态模型帮助我们快速实现了针对重复、繁琐图像审核任务的自动化算法；视觉主干VLM则帮助我们提升了在特殊领域、少量数据场景下的算法能力。

最后分享一点感想。AI社区有句流传已久的俗语：“不要迷信论文结果”。这既是对灌水论文的调侃，也道出了一个事实：将论文中的好方法应用于实际业务并实现稳定效果，往往还需要克服重重困难。在AI爆发的时代，这句话尤其重要。我们不仅需要好的模型和方法，更需要灵活运用它们，将其落地于实际业务，将技术兑现成价值的能力。只有不断学习、深入思考、多实践，才能提升这项能力，用好手中空前丰富的算法工具。希望每个人都能在这个AI时代中不断前进，找到并实现自己的价值。

引用

[1]He K, Chen X, Xie S, et al. Masked autoencoders are scalable vision learners[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 16000-16009.

[2]Chen T, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations[C]//International conference on machine learning. PmLR, 2020: 1597-1607.

[3]Caron M, Touvron H, Misra I, et al. Emerging properties in self-supervised vision transformers[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 9650-9660.

[4]Oquab M, Darcet T, Moutakanni T, et al. Dinov2: Learning robust visual features without supervision[J]. arXiv preprint arXiv:2304.07193, 2023.

[5]Siméoni O, Vo H V, Seitzer M, et al. Dinov3[J]. arXiv preprint arXiv:2508.10104, 2025.

[6]Morelli L, Ioli F, Beber R, et al. COLMAP-SLAM: A framework for visual odometry[J]. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2023, 48: 317-324.

[7]Rosinol A, Abate M, Chang Y, et al. Kimera: an open-source library for real-time metric-semantic localization and mapping[C]//2020 IEEE international conference on robotics and automation (ICRA). IEEE, 2020: 1689-1696.

[8]Lin H, Chen S, Liew J, et al. Depth anything 3: Recovering the visual space from any views[J]. arXiv preprint arXiv:2511.10647, 2025.

[9]Mildenhall B, Srinivasan P P, Tancik M, et al. Nerf: Representing scenes as neural radiance fields for view synthesis[J]. Communications of the ACM, 2021, 65(1): 99-106.

[10]Kerbl B, Kopanas G, Leimkühler T, et al. 3d gaussian splatting for real-time radiance field rendering[J]. ACM Trans. Graph., 2023, 42(4): 139:1-139:14.

[11]Rosinol A, Violette A, Abate M, et al. Kimera: From SLAM to spatial perception with 3D dynamic scene graphs[J]. The International Journal of Robotics Research, 2021, 40(12-14): 1510-1546.

[12]Wang J, Chen M, Karaev N, et al. Vggt: Visual geometry grounded transformer[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 5294-5306.

[13]Keetha N, Müller N, Schönberger J, et al. MapAnything: Universal Feed-Forward Metric 3D Reconstruction; map-anything. github. io[C]//2026 International Conference on 3D Vision (3DV). IEEE, 2026: 499-509.

[14]Wang J, Chen M, Zhang S, et al. VGGT-Ω[J]. arXiv preprint arXiv:2605.15195, 2026.

[15]Carion N, Gustafson L, Hu Y T, et al. Sam 3: Segment anything with concepts[J]. arXiv preprint arXiv:2511.16719, 2025.

[16]Furukawa Y, Hernández C. Multi-view stereo: A tutorial[J]. Foundations and Trends in Computer Graphics and Vision, 2015, 9(1-2): 1-148.

[17]Gui J, Chen T, Zhang J, et al. A survey on self-supervised learning: Algorithms, applications, and future trends[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 46(12): 9052-9071.

[18]Zhang J, Li Y, Chen A, et al. Advances in Feed‐Forward 3D Reconstruction and View Synthesis: A Survey[C]//Computer Graphics Forum. 2025: e70494.

[19]Yin S, Fu C, Zhao S, et al. A survey on multimodal large language models[J]. National Science Review, 2024, 11(12): nwae403.

[20]Yang Y, Tian H, Shi Y, et al. A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges[J]. Authorea Preprints, 2025.