2024计算机视觉飞速发展十大趋势排行榜推荐
概述
AI无疑是近年最炙手可热的话题,大语言模型的爆火和Agent应用的落地,让人们对通用人工智能的期待值重新拉满。作为AI最核心的分支之一,计算机视觉也在飞速狂奔,新方法和新模型层出不穷,为更复杂的算法功能和更广阔的业务价值创造了可能。
但挑战也随之而来。面对如此多的新方法,哪些才是真正能解决技术落地痛点的“利器”?如何将它们合理地嵌入实际业务场景,发挥出应有的算法威力?这是我们每个从业者必须思考和学习的课题。而理解这些方法的特性、优势和局限,正是合理运用的前提。这篇文章梳理了近两年计算机视觉领域三项重要的突破,并分享了一些将它们应用于业务场景的心得,希望能为大家提供一些灵感。
这三项突破分别是:自监督视觉基础模型、前馈3D重建、统一多模态模型。
自监督视觉基础模型
自监督学习
自监督学习(Self-Supervised Learning, SSL)本质上是一种无监督学习范式,它不需要人工标注数据,而是从原始数据自身的信息和结构中挖掘“监督信号”来进行学习。这是训练超大参数模型的关键手段。简单来说,SSL让模型学会利用原始数据的可观测局部,去预测那些不可观测的其余部分。
SSL的概念可以追溯到上世纪90年代,2019年由Yann LeCun正式提出。但真正让人们见识到其强大潜力的,是自回归大语言模型(LLM)的爆发。正是SSL,让互联网上海量的无标注文本序列能直接成为LLM的训练数据,催生了LLM从已观测序列预测后续文本的能力——可以说,没有SSL,就没有LLM的爆发。
那么问题来了,能否将SSL的成功复刻到视觉模型上?利用网络中同样海量的无标注图像数据,训练出视觉基础模型(Vision Foundation Model, VFM),这无疑是近几年计算机视觉领域中最具应用潜力、也最令人兴奋的挑战性方向。
视觉自监督
视觉领域的自监督探索目前有两个主流方向:生成式自监督和对比学习自监督。
生成式自监督
核心思想与训练LLM的方法一致:训练时对图像进行分块,随机遮挡掉一部分,让模型根据未被遮挡的图像块上下文,去预测被遮挡的部分,从而学习、理解数据的内在结构和特征,如下图所示:
这方面最具代表性的工作,当属发表于CVPR2022的Masked Autoencoders Are Scalable Vision Learners(MAE)。MAE先用编码器处理可见的图像块获得潜在表征,再用解码器从潜在表征和掩码标记中重建像素值,模型结构简图如下:
对比学习自监督
基于对比学习的自监督方法历史更悠久。核心思想是从原始图像构建数据对,然后进行对比学习。代表作是发表于ICML2020的A Simple Framework for Contrastive Learning of Visual Representations(SimCLR)。SimCLR通过裁剪、颜色抖动、高斯模糊等随机增强手段,为每张原始图像构建两个视图。同一图像的两个视图作为正对,不同图像的视图作为负对,以此来训练模型进行对比学习,其架构简图如下:
基础模型DINO
DINO(Self-distillation with No Labels)是Meta自2021年开始推出的自监督学习范式及预训练基础模型系列,在2021至2026年间陆续发布了三个版本。DINOv3是当前最强大的通用视觉基础模型和视觉特征提取器。
DINOv1、v2
2021年,DINOv1以Emerging Properties in Self-Supervised Vision Transformers为题发表于ICCV2021,它将蒸馏思想引入对比自监督学习,提出了“自蒸馏”的概念。训练过程中,DINO会同时更新教师网络和学生网络两个模型:
- 一张图像经过两种不同的随机裁剪和数据增强,得到局部视图和全局视图。
- 学生网络从局部视图预测概率分布,通过梯度下降更新权重,使其输出的分布尽可能接近教师网络。
- 教师网络从全局视图预测概率分布,权重则通过学生网络的指数移动平均(EMA)来更新。
迭代过程如图所示:
v1模型确立了DINO系列通用视觉模型的定位,但仅使用了0.13B图像进行训练,最大模型参数量只有86M,性能相比专用模型仍有差距。
2023、24年,DINOv2和DINOv2-Register相继发布,性能大幅提升。模型仅需少量样本微调即可应用于各类下游任务。v2模型的训练数据规模小幅增加到0.14B,最大模型参数量则大幅跃升至1.1B。其基础模型特性,推动了大量以其为核心组件的前沿探索(比如后文将介绍的“前馈3D重建”)。
DINOv3
2025年末,DINOv3发布,解决了视觉模型长期训练的劣化问题,成功在超大规模数据上训练超大模型。v3模型无需微调,就在多项视觉任务中超过了有监督方法。作为特征提取器,它能获得细致、稳定、通用的图像特征,将通用视觉基础模型推向了新高度。v3的训练图像数据规模达到1.7B,是v2的12倍;模型参数量达到6.7B,是v2的6倍。
DINOv3展现了惊人的通用性,并能提取高质量的像素级特征。只需连接轻量的任务模块,即可在分类、检测等稀疏任务和分割、深度估计等密集任务上超越专用模型。下面两幅图直观展示了其通用性和像素级特征的质量:
前馈3D重建
多视角立体与新视角生成
基于图像的3D重建是计算机视觉最核心的任务之一,目标是从2D图像恢复出3D物体或场景的结构。由于不依赖主动传感器,该技术广泛应用于纯视觉自动驾驶、数字重建等场景,也是物流行业实现货物体积测量、自动化分拣的核心技术手段。
对“3D重建”的探索历史很长,且近期技术迭代极快,导致这个词在不同时期和语境下含义不同。当下提及它,通常指代两类不同的任务:
多视角立体重建
MVS从多视角2D图像恢复物体或场景的真实几何结构。下图是使用经典工具COLMAP重建的建筑物:
经典MVS方法和工具包括COLMAP、OpenMVS等,通常流程为:多视角图像特征提取、匹配、相机位姿估计、三角化、BA、密集重建等,最终恢复3D结构信息,经典工具与流程如下图所示:
SfM可以看作是MVS的简化版本,它舍弃了密集重建,只恢复物体大致结构,更关注预测相机位姿与实时性,如下图左侧所示。同步定位与建图(SLAM)是SfM最经典的应用,是工业机器人、无人机领域的核心技术。下图右侧是MIT Spark实验室的实时SLAM框架Kimera的流程简图:
深度估计是恢复精细几何结构的关键技术,目标是预测2D图像中每个像素对应的深度值。常用方法包括双目立体匹配、单目深度估计等。近期最佳工作是来自ICLR2026的DepthAnything3模型,其获取的深度图效果如下:
新视角生成
新视角生成是2020年左右兴起的热门方向,也是计算机视觉、图形学近年来最火的研究领域之一,同时还是世界模型、空间智能、数字人直播等热门应用的底层技术支撑。
它的目标是从多视角2D图像中迭代出隐式神经表示或显式高斯表示,再利用这些表示渲染出极其逼真的新视角图像。下图是CVPR2026中两项新工作的例图,它们利用这项技术构建了动态逼真肖像:
神经辐射场(NeRF)是新视角生成的开篇之作,发表于ECCV2020。它将场景或物体表示为一个MLP,利用该场景的多视角图像训练优化,使其能从任意输入的空间坐标和视角方向生成体密度和颜色,再通过体渲染生成新视角图像。NeRF需要为每个场景独立训练MLP,其原理简图如下:
3D高斯溅射(3DGS)是显式表示方法的事实标准,发表于SIGGRAPH2023。它将场景表示为大量可优化的各向异性高斯粒子,每个粒子包含位置、旋转、缩放、不透明度等属性,通过可微光栅化进行渲染,大幅加快了场景迭代和渲染速度。3DGS是目前新视角生成最主流的方法,下图左侧是原理简图,右侧是与NeRF的直观对比:
无论是传统MVS还是新视角生成,本质上都是基于迭代的方法。它们必须为每个场景迭代自己的显式或隐式表示,才能获取结构信息或逼真新视角图像,步骤复杂、耗时长,制约了广泛应用。
基于学习的前馈3D重建
在物流领域,像MVS这样的几何重建方法至关重要,因为能重建货物的真实结构信息。但每个场景过长的迭代时间和复杂的步骤,严重限制了这些技术在实际业务中的落地。
反观2D视觉任务,从单图检测、分割,到多图对比、匹配,大多数任务都有基于学习的简洁高效的端到端方案,只需一个深度模型即可实现。随着前面提到的基础模型的发展,更是实现了单一模型解决多个视觉任务的突破。
因此,摆脱复杂耗时的迭代,通过学习一个端到端的深度模型,实现从单次模型前馈推理重建所有3D信息,就成了近年来3D视觉领域最重要的突破方向。早期探索是结合传统迭代方法和深度模型来提升整体性能;24年开始,像DUSt3R这样的端到端方案开始出现。一些代表性方法如下图所示:
VGGT
VGGT是一个结构简洁的前馈Transformer。通过在大量有标注数据上训练,它实现了单次模型前向推理,就能从任意多张多视角图像中预测出场景的所有3D信息。下图左侧是VGGT的直观介绍:输入多视角图像,模型一次性预测相机参数、场景点图和深度图。右侧展示了其高质量的重建精度和极快的重建速度:
VGGT模型结构包括三部分:2D特征提取、交替注意力、结果预测。在2D特征提取阶段,VGGT应用DINO从各视角图像提取表征序列,并为每个序列额外增加一个用于预测相机参数的相机Token;在交替注意力阶段,在全局表征序列和单视角表征序列上交替进行自注意力操作,获得场景表征序列和相机表征序列;在结果预测阶段,MLP从相机表征预测稀疏的相机参数,DPT模块从场景表征预测深度图、点图等密集输出。
在CVPR2026上,牛津大学和Meta发布了改进版VGGT-Ω,通过结构优化和大幅增加训练数据,进一步提升了性能,其模型简图如下:
MapAnything
MapAnything是Meta与卡耐基梅隆大学合作的产物,是一套功能全面且前馈式的3D重建模型。它采用离散场景表示,将场景分解为多视角深度图、局部射线图、相机位姿和尺度因子,实现了更灵活的输入输出组合。这意味着它不仅能接收图像,也能融合额外的传感器信息和相机参数来提升性能。更关键的是,MapAnything能直接预测真实尺度因子,从而从图像中估算出物体和场景的真实物理尺寸。下图直观展示了它的能力:
和VGGT一样,MapAnything的主体通过简洁的Transformer实现,同样使用DINO来提取2D特征,其结构如下图所示:
统一多模态模型
多模态与两类VLM
从早期视觉多传感器融合,到视觉-文本跨模态对齐,再到图-文-语音全模态模型,多模态领域涉及面广、研究历史悠久,是通往通用人工智能最重要的技术路线之一。这里我们重点关注视觉和文本这两个最重要的模态,梳理一下时下热门的视觉语言模型(VLM)。
MLLM(多模态大语言模型)将视觉输入视为一种“感知”,而主体是由作为“大脑”的LLM驱动,代表模型如Qwen-VL系列、LLaVA系列。MLLM承载着人们对通用人工智能的期望,商业和开源模型不断刷新榜单。下图左上展示了一些代表性模型,右侧列举了其架构与参数,左下是针对MLLM的基准:
另一类是视觉主干VLM,它将视觉模型作为主体,文本则作为高层级语义概念来引导模型行为。这类模型专门服务于视觉任务,在各大计算机视觉会议中备受关注。代表模型如SAM3,它通过文本来指明需要分割的目标,如下图所示:
从MLLM到NMM、UMM
MLLM展现出的开箱即用和交互能力吸引了大量关注,商业潜力巨大,成为国内外厂商重点投入的方向。早期代表模型如LLaVA、Qwen-VL等,依赖预训练好的LLM和视觉ViT,通过MLP、Q-Former、注意力机制等方式,将ViT输出的视觉表征向文本表征对齐,再用视觉-文本数据整体微调,使语言模型获得视觉理解能力,架构简图如下:
这个时期的模型有两个主要问题。首先,视觉模态只是一个“附件”,其组件参数比重低,导致整体表现出的图像理解能力不稳定。其次,模型只具有文本生成能力,不具备视觉内容生成能力,无法输出图像。
为解决这两个问题,近两年从MLLM衍生出了两类新架构:原生多模态模型(NMM)和统一多模态模型(UMM)。
NMM舍弃了预训练模型,使用视觉、文本数据从头训练,使得两个模态在输入端变得“原生”且同等重要。最具代表性的模型如Qwen3.5,它不再区分文本模型和VL模型。
UMM则统一了理解与生成任务。模型不仅能理解多模态输入,也能生成多模态输出,例如生成图像、视频。根据实现方式,可分为外部专家建模、模块联合建模、端到端建模三种类型。下图左上和左下分别是外部专家建模和模块联合建模的架构简图,右侧列举了各类端到端模型:
视觉主干VLM
视觉主干VLM通常专门解决某一类视觉任务。近期最具代表性的,是Meta于25年底发布的第3代SAM(Segment Anything Model)。
SAM3
SAM系列模型通过多样化的参考和提示,实现了“万物分割”和“可提示概念分割”。前两代SAM只关注视觉参考,通过点位、边框来指定分割内容。SAM3在此基础上引入了文本提示,成为当下综合表现最佳的视觉分割模型。
SAM3的功能非常贴合实际使用场景:支持图像和视频输入,可以单独或混合使用文本提示、点位、边框、参考样图。既能根据文字描述精准分割对应的物体实例,也能根据参考样图分割文本难以描述的概念,还能结合点、框来提升分割精确性,如下图所示:
SAM3采用了“简单模型 + 大参数量 + 海量数据”的策略。模型参数量达到了8.5M,训练数据集包括4M不重复短语与52M掩码,以及38M合成短语与1.4B合成掩码。SAM3可识别超过4M个细分概念,即使面对物体遮挡、目标密集等复杂场景,也能稳定完成目标定位、分割与跟踪。下图上方是SAM的结构简图,下方直观展示了对细分概念的区分能力和分割细粒度:
总结与感悟
本文总结了近期计算机视觉领域里,最能帮助我们业务落地的3个代表性技术突破:自监督视觉基础模型、前馈3D重建、统一多模态模型。
在具体业务场景中,它们帮助我们解决了不少难题。自监督视觉基础模型提供了通用且细粒度的视觉特征,结合专用算法模块,实现了多图细节特征比对、贴纸轻微褶皱偏移检测等非传统视觉任务。前馈3D重建为感知货物体积、尺寸等应用提供了技术基础;其“基础模型提取2D特征 + 注意力捕获3D信息”的思想,也被应用于多视角图像比对等任务。统一多模态模型帮助我们快速实现了针对重复、繁琐图像审核任务的自动化算法;视觉主干VLM则帮助我们提升了在特殊领域、少量数据场景下的算法能力。
最后分享一点感想。AI社区有句流传已久的俗语:“不要迷信论文结果”。这既是对灌水论文的调侃,也道出了一个事实:将论文中的好方法应用于实际业务并实现稳定效果,往往还需要克服重重困难。在AI爆发的时代,这句话尤其重要。我们不仅需要好的模型和方法,更需要灵活运用它们,将其落地于实际业务,将技术兑现成价值的能力。只有不断学习、深入思考、多实践,才能提升这项能力,用好手中空前丰富的算法工具。希望每个人都能在这个AI时代中不断前进,找到并实现自己的价值。
引用
[1]He K, Chen X, Xie S, et al. Masked autoencoders are scalable vision learners[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 16000-16009.
[2]Chen T, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations[C]//International conference on machine learning. PmLR, 2020: 1597-1607.
[3]Caron M, Touvron H, Misra I, et al. Emerging properties in self-supervised vision transformers[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 9650-9660.
[4]Oquab M, Darcet T, Moutakanni T, et al. Dinov2: Learning robust visual features without supervision[J]. arXiv preprint arXiv:2304.07193, 2023.
[5]Siméoni O, Vo H V, Seitzer M, et al. Dinov3[J]. arXiv preprint arXiv:2508.10104, 2025.
[6]Morelli L, Ioli F, Beber R, et al. COLMAP-SLAM: A framework for visual odometry[J]. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2023, 48: 317-324.
[7]Rosinol A, Abate M, Chang Y, et al. Kimera: an open-source library for real-time metric-semantic localization and mapping[C]//2020 IEEE international conference on robotics and automation (ICRA). IEEE, 2020: 1689-1696.
[8]Lin H, Chen S, Liew J, et al. Depth anything 3: Recovering the visual space from any views[J]. arXiv preprint arXiv:2511.10647, 2025.
[9]Mildenhall B, Srinivasan P P, Tancik M, et al. Nerf: Representing scenes as neural radiance fields for view synthesis[J]. Communications of the ACM, 2021, 65(1): 99-106.
[10]Kerbl B, Kopanas G, Leimkühler T, et al. 3d gaussian splatting for real-time radiance field rendering[J]. ACM Trans. Graph., 2023, 42(4): 139:1-139:14.
[11]Rosinol A, Violette A, Abate M, et al. Kimera: From SLAM to spatial perception with 3D dynamic scene graphs[J]. The International Journal of Robotics Research, 2021, 40(12-14): 1510-1546.
[12]Wang J, Chen M, Karaev N, et al. Vggt: Visual geometry grounded transformer[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 5294-5306.
[13]Keetha N, Müller N, Schönberger J, et al. MapAnything: Universal Feed-Forward Metric 3D Reconstruction; map-anything. github. io[C]//2026 International Conference on 3D Vision (3DV). IEEE, 2026: 499-509.
[14]Wang J, Chen M, Zhang S, et al. VGGT-Ω[J]. arXiv preprint arXiv:2605.15195, 2026.
[15]Carion N, Gustafson L, Hu Y T, et al. Sam 3: Segment anything with concepts[J]. arXiv preprint arXiv:2511.16719, 2025.
[16]Furukawa Y, Hernández C. Multi-view stereo: A tutorial[J]. Foundations and Trends in Computer Graphics and Vision, 2015, 9(1-2): 1-148.
[17]Gui J, Chen T, Zhang J, et al. A survey on self-supervised learning: Algorithms, applications, and future trends[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 46(12): 9052-9071.
[18]Zhang J, Li Y, Chen A, et al. Advances in Feed‐Forward 3D Reconstruction and View Synthesis: A Survey[C]//Computer Graphics Forum. 2025: e70494.
[19]Yin S, Fu C, Zhao S, et al. A survey on multimodal large language models[J]. National Science Review, 2024, 11(12): nwae403.
[20]Yang Y, Tian H, Shi Y, et al. A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges[J]. Authorea Preprints, 2025.