星火X2-VL评测:全国产算力训练的多模态大模型实力如何
先唠两句。从一次展会透露出来的信息,有时候比正儿八经的发布会还要有料。这不,2026长三角机器人及自动化展览会暨无锡具身智能机器人产业链伙伴大会上,科大讯飞就扔出了一个重磅冲击波——星火多模态大模型X2-VL。
科大讯飞副总裁孙东平在大会上直言,星火X2-VL是目前唯一一个基于全国产算力训练的主流大模型,并且采用了专属的MoE架构。这里有个关键字——"唯一"。在大家都在拼算力、抢GPU的当下,能做到这一点,技术门槛不是一般的高。如果说全栈自研是实力的体现,那基于全国产化算力把这事儿跑通,考验的可就是工程落地和底层生态的整合能力了。
背后的支撑平台也很有意思。据透露,这次X2-VL的训练是在无锡本地的"太湖星跃平台"上完成的。更值得关注的是,科大讯飞已经在无锡高新区专门成立了子公司,专门负责这个多模态大模型的日常运营。这意味着,从算力底座到运营团队,X2-VL是一条完整的本土化产业链,而不是简单的技术演示。
说一千道一万,模型好不好,最直观的还是得看实际表现。现场公布的测试数据很能说明问题:面对高中各科图文结合的试题,星火X2-VL的答题准确率接近95%。如果按照"含金量"排个序,这个成绩已经相当能打。而更硬核的检验来了——在媒体组织的测试中,由两位国家特级数学老师亲自阅卷,这款大模型挑战2026年高考数学全国I卷,最终拿下了148分。
放个成绩单对比一下,一目了然:
模型方面:单选题40分,多选题18分,填空题15分,解答题75分,总分148。
模型A:40分、18分、15分、71分,总分144。
模型B:40分、18分、15分、70分,总分143。
模型C:40分、18分、10分、69分,总分137。
模型D:40分、18分、15分、72分,总分145。
模型E:40分、18分、15分、69分,总分142。
这么一对比,高下立判。毕竟,148分意味着整套卷子只丢了2分,以高考数学的难度来说,这已经是准满分水平了。多模态理解能力在数学这类高度依赖逻辑和视觉解读的学科上,能跑出这样的成绩,绝对是有含金量的突破。
总体来看,X2-VL的发布,在技术层面抓住了"全国产算力"和"满分级成绩"两个关键点,在商业落地上则构建了从算力到运营的闭环。下一步,就看它如何在实际产业场景中,把这种能力兑现为现实价值了。
