字节跳动豆包大模型2.1Pro深度测评:性能与体验对比
6月23日,2026火山引擎FORCE原动力大会正式召开,字节跳动推出豆包大模型2.1 Pro(Doubao-Seed-2.1 Pro),并同步公开了与GPT-5.5、Claude-Opus-4.7、Gemini-3.1-Pro等主流模型的基准测试对比结果。
从公布的数据来看,豆包大模型2.1 Pro在多项编程相关基准测试中表现相当出色。
在Terminal Bench 2.1测试中,豆包2.1 Pro取得71.0分,与GPT-5.5的73.8分差距极小,同时优于Claude-Opus-4.7的71.7分和Gemini-3.1-Pro的70.7分。SciCode科学代码测试中,豆包2.1 Pro以59.8分领先GPT-5.5的58.4分和Claude-Opus-4.7的56.4分,但Gemini-3.1-Pro在此项得分更高,达到62.3分。而在NL2Repo-Bench测试里,豆包2.1 Pro的47.0分超越GPT-5.5的45.1分和Gemini-3.1-Pro的33.4分。
当然,并非所有维度都占优。在SWE-Pro(软件工程)测试中,豆包2.1 Pro得分57.5,低于GPT-5.5的58.6分和Claude-Opus-4.7的64.3分,但仍优于Gemini-3.1-Pro的54.2分。Program Bench测试的结果为:豆包2.1 Pro得分0/1/50.25,GPT-5.5为0.5/5.5/65.90,Claude-Opus-4.7为0/2.5/52.05。
可以说,编程能力是此次2.1 Pro版本重点升级的核心方向。

