MiniMax_M3多模态评测:图像音频处理性能对比
端到端测试才是检验多模态模型真实力的唯一标尺。MiniMax M3所标榜的多模态能力——图像识别、图表解析、截图理解、语音转写——到底是真本事还是噱头?别迷信基准分数,直接动手跑完下面三条流程,结果一目了然。
先说关键:测试的核心在于“原生”二字——PDF必须是矢量格式,截图追问间隔不超过90秒,音频指令必须通过App执行。下面逐一拆解。
用M3解析PDF中的嵌入图表与公式
打开MiniMax Code网页版或调用M3 API时,直接上传一份包含LaTeX公式的PDF(例如ICLR论文第4页,左侧是带坐标轴的Loss曲线图,右侧是小字号推导式)。模型返回结构化描述后,重点验证它是否将横纵轴标签、图例颜色对应关系以及公式变量定义全部绑定到同一语义上下文中——这才是真正的多模态理解。
千万别省略这个预处理步骤:PDF必须为原生矢量格式。扫描件或OCR生成的PDF,M3会将公式识别为乱码文本。若上传失败,请改用.pdf后缀的原始LaTeX编译输出文件。
对屏幕截图进行多轮追问式理解
提供两种测试方法,任选其一即可。
方法一:在MiniMax Code中启用“桌面操作”开关,截取当前IDE调试窗口——左侧代码、中间断点堆栈、右侧变量监视器一应俱全。先发送指令:“解释当前断点触发逻辑,并指出哪一行可能引发空指针”。收到回复后,立即追加追问:“将右侧Variables面板第三行的userSession对象序列化为JSON Schema”。关键就在于模型能否将两次对话的视觉上下文连贯起来。
方法二:用手机拍摄同一张截图,上传到M3 Web界面。输入:“这是VS Code的调试界面,请按‘代码→堆栈→变量’顺序逐层说明”。观察它是否主动补全截图裁掉的顶部菜单栏功能——例如能否识别出“Run and Debug”图标,并关联到launch.json配置。
这里有一条硬限制:两次提问的间隔必须小于90秒,否则M3会重置视觉记忆缓存,第二问就无法引用第一问的图像上下文了。
音频指令驱动的跨模态操作
第一步:准备一段约12秒的本地录音,内容为:“打开桌面上的report_v2.xlsx,把Sheet1里B列所有大于85的数值标红,然后截图发我”。
第二步:在MiniMax Code App(注意:必须用App,网页版不支持)中点击麦克风图标,播放该录音。确认模型已接收完整音频波形——界面应显示绿色声纹条持续12秒。随后等待模型执行动作链。
第三步:检查最终截图。如果Excel未打开,说明M3未能完成语音→桌面操作的端到端映射;如果打开了但未标红,说明对条件格式规则的理解有偏差;如果截图区域错位,则证明视觉定位模块没有与音频指令中的“Sheet1”“B列”建立空间锚点。
这一步千万要用App,网页版暂不支持音频输入触发桌面操作。
