大模型对战评测:2024年最佳AI对决榜单
扣子LLM竞技场
扣子最近推出了一个非常有意思的功能——模型对战。值得一提的是,目前只有国内版上线了,国际版还没有开放。 实际上,国外早就有一个类似的平台叫LMSYS ChatBot Arena(https://arena.lmsys.org/)。不过里面的大模型基本以海外为主,国内的只有少数几个,比如阿里的Qwen、李开复的Yi-Chat。 不知道大家还记得之前网上泄露的“gpt-2”事件吗?后来被证实就是OpenAI后来发布的ChatGPT-4o。而这个泄露源正是LMSYS ChatBot Arena。由此可见,大模型竞技场对于评价模型性能来说,分量有多重。 现在,国内也终于有了自己的竞技场,网址是:https://www.coze.cn/model/arena 既然是国内版本,目前只支持国内的一些模型,具体包括以下这些: 目前数量确实不算多,但可以预期,未来一定会逐渐丰富起来。玩法介绍
竞争,确实是人类的本性之一。有时候,只有同行的衬托才能更清楚地体现出自己的优势。下面简单说说竞技场的三种模式。 前两种模式,都是和特定的Bot对话,Bot会随机选取两个大模型进行调用并生成答案。比如选一个名为“影视分析”的Bot,然后就可以随机提问,并进行投票。 不过,这两种模式除了调用的模型本身,还可能受到Bot自设的工作流、知识库等因素影响,所以并不能100%体现一个模型的真实水平。 而第三种模式——纯模型对战,就更纯粹、更直接了,没有任何其他因素的干扰。 实际操作中,提了一个问题,没想到平时经常用的Kimi竟然回答完全错误
。
再来一次,试一下今年北京高考作文题。
嗯……很有意思。果然,像游戏一样,有了竞技性,才觉得更好玩。往大了说,你每一次投票,都在无形中影响着大模型的开发者。说不定哪天,你发现手头的AI工具又带来了新的惊喜,而这里边可能就有你投出的一票。毕竟,只有真实用户的反馈,才能鞭策开发者们不断优化创新。
闲着无聊了,不妨来玩一玩。