菜鸟AI AI提示词 · 教程 · 资讯

首页>其他资讯

显著超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

2025-03-26阅读 0热度 0

模型模态 sft o1 显著

上海交大、上海ai lab和港中文大学的研究人员推出visual-rft（视觉强化微调）开源项目，该项目仅需少量数据即可显著提升视觉语言大模型（lvlm）性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与openai的强化微调（rft）范式相结合，成功地将这一方法从文本领域扩展到视觉领域。

通过为视觉细分类、目标检测等任务设计相应的规则奖励，Visual-RFT克服了DeepSeek-R1方法仅限于文本、数学推理等领域的局限性，为LVLM训练提供了新的途径。

Visual-RFT的优势：

与传统的视觉指令微调（SFT）方法相比，Visual-RFT具有以下显著优势：

少样本学习能力: 仅需10到1000条数据即可实现有效微调。更强的泛化性: 在数据有限的场景下，性能优于SFT。

研究人员在多个视觉感知任务（检测、分类、定位等）上对Visual-RFT进行了验证，结果表明，即使在开放词汇和少样本学习的设定下，Visual-RFT也能取得显著的性能提升，轻松实现能力迁移。

研究人员针对不同的任务设计了相应的可验证奖励：基于IoU的奖励用于检测和定位任务，基于分类正确性的奖励用于分类任务。

在推理定位任务中，Visual-RFT展现出强大的视觉推理能力，例如，准确识别图片中运动员需要佩戴的防水眼镜。

实验结果:

基于QWen2-VL 2B/7B模型进行的实验表明，Visual-RFT在开放目标检测、少样本检测、细粒度分类和推理定位任务上均优于SFT。即使是检测特定动漫角色（例如史莱姆），Visual-RFT也只需少量数据即可实现。

开源信息:

Visual-RFT项目已开源，包含训练、评测代码和数据。

项目地址：https://www.php.cn/link/b2c1a4c8e4f9c3f8efe19a903a005149

上一篇电脑如何设置自动关机（苹果电脑设置自动关机的方法） 下一篇疑似 vivoS21mini 曝光 6.31 英寸小直屏 / 天玑 9300+ 处理器

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

相关阅读

其他资讯06-24

国产编程模型Qwen3.6-Plus评测：悟空率先接入实测

4月2日，阿里巴巴正式推出新一代大语言模型Qwen3 6-P...

其他资讯06-24

AI硬件落地难？CTO解析：最后一公里才是真正症结

大模型技术经历两年爆发式增长后，AI正从云端向终端迁...

其他资讯06-24

2B最强开源模型免费商用手机可离线运行

谷歌DeepMind今天扔下了一颗重磅冲击波：正式开源发布...

其他资讯06-24

PaddleOCR登顶GitHub最受欢迎OCR项目榜单

近期开源社区迎来标志性事件：百度基于文心大模型打造...

其他资讯06-24

三十年前传奇游戏复活最新权威排行榜推荐：Claude周末高效测评

Reddit上一则帖子迅速引发热议。游戏开发商Beamable的...

其他资讯06-24

Anthropic封杀风波解析：OpenClaw与创始人的真实处理方案

上周，Anthropic刚宣布对OpenClaw采取限制措施，这周...

最新教程

Stable Diffusion WebUI整合包下载与模型放置全指南 HunyuanVideo安装失败排查指南：依赖、显存与工作流问题解决 Runway官网入口与使用指南：下载注册及常见问题全解析 Notion AI新手入门指南：从下载到模板设置的完整教程 GitHub Copilot安装指南：JetBrains插件市场一键配置与激活全流程 2026年ComfyUI安装与配置终极指南：从零部署到高效出图全流程解析 CogVideoX安装包获取与部署指南：从下载到剪辑机配置的完整教程 2024图像识别实战精选：基于EasyDL的完整案例解析与测评

最新资讯

Maven多模块项目搭建实战：权威教程与最佳实践 OpenCode与Claude Code深度对比：核心区别与选型建议 HarmonyOS开发AI模型市场与模型管理评测红外热成像目标检测数据集：轿车/行人/货车/摩托车 4300张YOLO 龙虾智能体打通ERP与CRM跨系统自动化实践测评阿里云Elasticsearch站内搜索全栈实战指南空间组学肿瘤异质性解析：精选榜单 YOLO数据集精选排行榜：告别烂大街低效数据，高效训练必备推荐指南

欢迎回来 登录或注册后，可保存提示词和历史记录

用户

密码

登录后可同步收藏、历史记录和常用模板

用户

设置密码

确认密码

注册即表示同意服务条款与隐私政策