揭秘AI成绩单背后的华人出题人

2026-06-22阅读 0热度 0

每次顶尖模型亮相，AI社区都会紧盯那些熟悉的评测榜单。

MMLU-Pro、MMMU、MMMU-Pro……这些术语对普通用户略显晦涩，但对模型厂商和研究人员来说，它们早已是“必修课”。GPT、Claude、Gemini、Llama、Qwen、DeepSeek这些模型的实际表现，几乎都要靠这些分数来背书。毕竟，“是骡子是马，拉出来遛遛”才是硬道理。

许多模型发布会上的性能对比图，都离不开这些基准；Hugging Face上的排行榜，也建立在相同的评测体系之上。可以说，今天AI圈讨论模型能力时，用的已经是一套由这些基准定义的共同语言。

不过，热闹背后有个有趣的现象：几乎所有人都在盯着分数，却很少有人想过这些题是谁出的。而MMLU-Pro、MMMU和MMMU-Pro背后，都能看到同一个名字——陈文虎。

他是加拿大滑铁卢大学计算机科学系的助理教授，谷歌学术上论文引用超过三万次。他也是“老虎实验室”（TIGERLab）的创始人。实验室的全称是Text and Image GEnerative Research Lab，因为名字里有个“虎”字，陈文虎给它起了个辨识度很高的中文名——虎头帮。

01 旧考卷，该怎么更新

陈文虎最先被行业注意到，是因为MMLU-Pro。

MMLU这张“综合卷”，一度是衡量大模型知识理解与推理能力的标准考纲。它覆盖多个学科，通过分数来观察模型是不是真的在进步。在早期，这张卷子很有用——模型间的差距能被清晰地拉开。

但问题很快就来了。

随着模型能力越来越强，MMLU逐渐变得“不够考”了。前沿模型的分数越来越高，彼此之间的差距却越来越小。

到OpenAI发布o3后，这个问题更突出了。o3在MMLU上的准确率已经接近100%，其他前沿模型也陆续交出了逼近满分的成绩单。

这听起来像是好消息，但对评估来说，反而是麻烦。如果一张卷子大家都能考接近满分，那它就很难再判断谁更强、强在哪里。它仍然能证明模型具备某些基础能力，却不再适合衡量新的进步。

行业需要一张更难、也更不容易“糊弄过去”的新卷子。

2024年，陈文虎和团队推出了MMLU-Pro。

MMLU-Pro是对旧考卷的一次彻底改造，而不是简单地扩大题库。

它包含12032道题，覆盖数学、物理、化学、法律、工程、心理学、健康等14个领域。相比原版MMLU，它把选项从4个扩展到10个，大大降低了模型靠猜测蒙对的概率；同时加入更多偏推理的问题，并清理掉原题库中那些简单、有歧义或区分度不足的题目。

效果很直接。论文数据显示，模型在MMLU-Pro上的准确率，比原版MMLU下降了16%到33%。同一模型在24种不同提示词风格下测试时，成绩的波动也从原版的4%-5%，降到了约2%。

这意味着，新考卷不仅更难，也更稳定。它让那些在旧考卷上看起来都挺优秀的模型，重新被拉开了差距。模型到底是真会推理，还是只是更擅长应付老题目，也因此更容易被看穿。

02 好用的基准评测，是什么样？

MMLU-Pro很快被行业接纳了。

它进入了NeurIPS 2024的数据集与基准评测赛道，也被EleutherAI的语言模型评测框架lm-evaluation-harness集成。对开源模型社区来说，这意味着它不再只是一篇论文里的数据集，而是进入了常用评测工具链。很多模型发布时，开始报告MMLU-Pro分数，Hugging Face上的排行榜也把它纳入评估体系。

如果说MMLU-Pro解决的是语言模型评估中“旧考卷失灵”的问题，那MMMU则把陈文虎和虎头帮推到了多模态评测的中心。

多模态模型的问题要更复杂一些。

语言模型答题，主要处理文字。而多模态模型要同时处理图片、图表、示意图、地图、表格、乐谱、化学结构等多种信息。它不仅要读懂题干，还要真正看懂图像里的内容，并把视觉信息、文本信息和学科知识结合起来做推理。

MMMU基准评测包含1.15万道多模态问题，全部来自大学考试、测验和教材，覆盖艺术与设计、商业、科学、健康与医学、人文社科、技术与工程六大领域，并细分为30个学科和183个子领域。

这些题目不是简单问模型“图里有什么”，而是要求模型像学生做专业题一样，把图像信息和学科知识结合起来。MMMU发布时，团队测试了14个开源多模态模型，以及GPT-4V、Gemini Ultra等代表性闭源模型。即便是当时最强的闭源模型，GPT-4V和Gemini Ultra也只达到56%和59%的准确率。

这个数字说明，多模态模型看似进步很快，但在真正需要专业理解和推理的问题上，还有着巨大的提升空间。

后来，陈文虎团队又推出了MMMU-Pro，进一步堵住了模型“绕过视觉信息”的路径。它过滤掉那些只靠文本模型也能回答的问题，扩展候选项，并引入了vision-only设置，将问题嵌入图像中，要求模型同时完成视觉读取和文本理解。

简单说，就是不让模型“只看文字猜答案”。

这类工作听起来有点琐碎，但它们至关重要。因为多模态模型未来要进入医疗、教育、科研、设计、工程等场景，仅仅是能“描述图片”是远远不够的。它必须能判断、推理、解释，也必须在复杂视觉信息中找到真正有用的部分。

03 “出题人”背后

陈文虎做MMLU-Pro和MMMU，并非心血来潮，这一切都源于他一向的研究方向。

他的研究兴趣，一直围绕着复杂信息理解、知识问答和推理。他本科毕业于华中科技大学，后在德国亚琛工业大学读硕士，最终在加州大学圣巴巴拉分校获得计算机科学博士学位。博士期间，他的研究重点就是复杂问答、表格推理、知识证据定位等方向。

这类任务都有一个共同点：答案往往不在单一的文本里。它可能藏在一张表格里，也可能需要结合一段文字和一张图片，甚至需要模型先检索信息，再整合、计算和推理。模型不能只会复述已有知识。

他参与过的HybridQA、TabFact、Program of Thoughts、MAmmoTH等项目，都与这条主线息息相关。

这也解释了为什么他对模型评估中的漏洞特别敏感。好的基准评测，不是简单地把题目越搞越难，而是要预判模型最容易在哪里“蒙对题”、“看起来会”。模型可能记住了题库，也可能靠选项猜答案，还可能用文字绕过视觉信息……好的评估，得把这些漏洞全补上。

博士毕业后，陈文虎进入谷歌研究院，随后在2024年至2025年参与了谷歌DeepMind的Gemini多模态模型和评估工作。这段经历同样重要。长期接触前沿模型研发，让他更清楚模型能力是如何增长的，也更容易看见评估中可能存在的偏差和盲区。

2024年秋季，他加入滑铁卢大学计算机科学学院任助理教授，同年入选了Canada CIFAR AI Chair。之后，他创办“老虎实验室”（虎头帮），继续围绕基础模型、多模态能力和基准评测展开研究。

虎头帮并不只做基准评测，也在做模型和系统研究。在视频方向上，UniVideo试图把视频理解、生成和编辑放进同一个框架；Vamba则瞄准长视频理解，解决一小时级别视频带来的显存、计算和训练效率问题。与Meta生成式AI团队合作的MoCha，则把重点放在说话虚拟角色生成上。

一个从来不做题的出题人是不可能出好题的。自己下场做模型，反过来也让他们更适合做评估。因为真正好的评估，往往来自于对模型能力边界的深刻理解。只有知道模型是怎么做出来的，知道它在真实任务里会碰到什么问题，才更容易设计出能测出差距、也能暴露问题的题目。

如今，陈文虎进入Meta超级智能实验室，工作继续集中在多模态预训练数据和评估，并服务于Meta的基础模型。

AI行业并不缺少被看见的人。聚光灯通常会落在创业者、明星研究员和那些大模型公司的负责人身上。但今天的AI领域，华人人才的参与早已远远超出了这些最显眼的位置。

揭秘AI成绩单背后的华人出题人

01

旧考卷，该怎么更新

02

好用的基准评测，是什么样？

03

“出题人”背后

相关阅读

最新教程

最新资讯