大模型对战评测：2024年最佳AI对决榜单

2026-05-30阅读 0热度 0

ai 人工智能

自从ChatGPT 3.5问世以来，这一年半的时间里，大语言模型像雨后春笋一样冒了出来。特别是去年那阵子，各家大模型扎堆发布，场面确实热闹。但说到现在市面上那些让人眼花缭乱的大模型到底哪个好用？估计每个人心里都有一杆秤。不妨直说，对于经常使用AI产品的人来说，手头肯定不止一个工具。同一个问题，这家答得不好，就换另一家，主打一个“有备无患”。毕竟再强的模型也不可能面面俱到嘛。不过，这股新鲜劲儿过去之后，大家的热情也慢慢回落了。不少用户最终只留用了一两个最顺手的，对其他新品已经提不起太多兴趣。原因很简单：一是现有的工具基本能满足大部分需求；二是实在不想再花精力去从头测试一个新模型了。而就在这个时候，一个新的玩法出现了。

扣子LLM竞技场

扣子最近推出了一个非常有意思的功能——模型对战。值得一提的是，目前只有国内版上线了，国际版还没有开放。实际上，国外早就有一个类似的平台叫LMSYS ChatBot Arena（https://arena.lmsys.org/）。不过里面的大模型基本以海外为主，国内的只有少数几个，比如阿里的Qwen、李开复的Yi-Chat。不知道大家还记得之前网上泄露的“gpt-2”事件吗？后来被证实就是OpenAI后来发布的ChatGPT-4o。而这个泄露源正是LMSYS ChatBot Arena。由此可见，大模型竞技场对于评价模型性能来说，分量有多重。现在，国内也终于有了自己的竞技场，网址是：https://www.coze.cn/model/arena 既然是国内版本，目前只支持国内的一些模型，具体包括以下这些：目前数量确实不算多，但可以预期，未来一定会逐渐丰富起来。

玩法介绍

竞争，确实是人类的本性之一。有时候，只有同行的衬托才能更清楚地体现出自己的优势。下面简单说说竞技场的三种模式。前两种模式，都是和特定的Bot对话，Bot会随机选取两个大模型进行调用并生成答案。比如选一个名为“影视分析”的Bot，然后就可以随机提问，并进行投票。不过，这两种模式除了调用的模型本身，还可能受到Bot自设的工作流、知识库等因素影响，所以并不能100%体现一个模型的真实水平。而第三种模式——纯模型对战，就更纯粹、更直接了，没有任何其他因素的干扰。实际操作中，提了一个问题，没想到平时经常用的Kimi竟然回答完全错误

。再来一次，试一下今年北京高考作文题。嗯……很有意思。果然，像游戏一样，有了竞技性，才觉得更好玩。往大了说，你每一次投票，都在无形中影响着大模型的开发者。说不定哪天，你发现手头的AI工具又带来了新的惊喜，而这里边可能就有你投出的一票。毕竟，只有真实用户的反馈，才能鞭策开发者们不断优化创新。闲着无聊了，不妨来玩一玩。

大模型对战评测：2024年最佳AI对决榜单

扣子LLM竞技场

玩法介绍

相关阅读

最新教程

最新资讯