Gemini 3.5 Flash安卓编程榜评测:成本高3倍速度更慢

2026-06-16阅读 0热度 0
Gemini

谷歌发布了一组全新的基准测试结果,针对主流AI模型在安卓编程任务中的实际表现进行横向评测,并同步列出了各模型的Token消耗成本。令人意外的是,谷歌自家的Gemini 3.5 Flash在安卓开发场景下资源消耗最高,却未能跻身前五。

Gemini 3.5 Flash登上安卓编程榜单,但成本高出3倍且性能更慢

通用聊天机器人的热度逐渐消退,谷歌、OpenAI、Anthropic等巨头如今全力押注编程智能体模型。开发者也越来越习惯借助这类模型完成“氛围编程”——实质上就是将大部分代码生成工作交给大语言模型处理。

近几个月,各模型在安卓编程任务上的能力提升显著,谷歌持续跟踪并记录数据。这套名为“Android Bench”的基准测试会随谷歌新模型发布而动态更新,例如本次就将最新的Gemini 3.5 Flash加入对比,与其他竞品同台竞技。

测试方法非常直接:每个模型运行10次,统计成功解决的安卓编程问题数量,按百分比评分,满分100分。谷歌同时公布预期表现与最近一次测试日期,部分高分模型的数据可追溯至今年2月。

最新一期Android Bench排名发布后,结果颇具看点。Gemini 3.5 Flash仅位列第六,落后于GPT 5.5以及早在今年2月完成测试的Gemini 3.1 Pro Preview。

Gemini 3.5 Flash最初的定位是比Gemini 3.1 Pro更便宜、更快的替代方案,官方宣称两者性能差距仅为6.1%。但最新基准数据给出了截然相反的结论:在安卓开发场景下,Gemini 3.5 Flash不仅延迟更高,任务成功率还低了整整9个百分点。

成本对比更为关键。谷歌这款最新模型单次基准测试平均消耗355.9个Token,费用约147.1美元;而Gemini 3.1 Pro Preview仅消耗73.3个Token,成本不足前者的三分之一。两者差距悬殊。

需要指出的是,谷歌目前在榜单上列出的仍是Gemini 3.1 Pro的预览版。即便如此,这款预览版模型的得分依然高于一个被官方宣传为“更快、更高效”的正式版模型,这一结果本身就很耐人寻味。

GPT 5.5的单次运行成本与Gemini 3.5 Flash相差不大,但后者在Android Bench测试中的Token消耗量是前者的5.5倍。Anthropic的上一代模型Claude Opus 4.7排名第四,运行成本和Token用量均偏低,处于中游水平。谷歌目前尚未公布Opus 4.8或Fable 5的基准测试结果。

以下是谷歌最新一期Android Bench的前十名模型排名:

榜单中既有开放权重模型,也包含Claude、GPT等知名闭源模型。与上一期相比,排名靠前的几个位置基本未动,唯一的变化是GPT 5.3 Codex已被移除。

完整排名可在谷歌官网查阅。

谷歌会随着更多模型完成测试,定期更新该榜单。总体来看,这份榜单在衡量各模型安卓开发能力方面具有较高参考价值。Gemini 3.5 Flash在其他大语言模型和智能体任务上确实表现不俗——尽管谷歌已对其成本和用量上限进行了调整——但它在安卓编程领域的短板同样不容忽视。

Q&A

Q1:Android Bench是什么?谷歌用它来评估什么?

A:Android Bench是谷歌发布的一套基准测试,专门用于评估主流AI模型在安卓编程任务中的表现。每个模型运行10次,按成功解决问题的比例打分,满分100分。谷歌会随新模型发布持续更新榜单,同时公布每个模型的Token消耗量及对应成本,帮助开发者在安卓开发场景中挑选合适的模型。

Q2:Gemini 3.5 Flash在Android Bench中表现怎么样?

A:Gemini 3.5 Flash在最新一期Android Bench中仅排第六,不仅未能进入前五,还落后于更早测试的Gemini 3.1 Pro Preview。单次测试平均消耗355.9个Token,费用约147.1美元,是Gemini 3.1 Pro Preview的近三倍,任务成功率低9个百分点,延迟也更高。在安卓编程场景下,性价比表现确实令人失望。

Q3:目前Android Bench排名靠前的AI模型有哪些?

A:根据谷歌最新榜单,排名靠前的包括GPT 5.5、Gemini 3.1 Pro Preview等闭源模型,以及多款开放权重模型。Claude Opus 4.7位列第四,Token消耗和运行成本均处于中游。与上一期相比,榜单头部基本稳定,主要变化是GPT 5.3 Codex已被剔除。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策