Gemini 3.5 Flash安卓编程榜评测：成本高3倍速度更慢

2026-06-16阅读 0热度 0

Gemini

谷歌发布了一组全新的基准测试结果，针对主流AI模型在安卓编程任务中的实际表现进行横向评测，并同步列出了各模型的Token消耗成本。令人意外的是，谷歌自家的Gemini 3.5 Flash在安卓开发场景下资源消耗最高，却未能跻身前五。

通用聊天机器人的热度逐渐消退，谷歌、OpenAI、Anthropic等巨头如今全力押注编程智能体模型。开发者也越来越习惯借助这类模型完成“氛围编程”——实质上就是将大部分代码生成工作交给大语言模型处理。

近几个月，各模型在安卓编程任务上的能力提升显著，谷歌持续跟踪并记录数据。这套名为“Android Bench”的基准测试会随谷歌新模型发布而动态更新，例如本次就将最新的Gemini 3.5 Flash加入对比，与其他竞品同台竞技。

测试方法非常直接：每个模型运行10次，统计成功解决的安卓编程问题数量，按百分比评分，满分100分。谷歌同时公布预期表现与最近一次测试日期，部分高分模型的数据可追溯至今年2月。

最新一期Android Bench排名发布后，结果颇具看点。Gemini 3.5 Flash仅位列第六，落后于GPT 5.5以及早在今年2月完成测试的Gemini 3.1 Pro Preview。

Gemini 3.5 Flash最初的定位是比Gemini 3.1 Pro更便宜、更快的替代方案，官方宣称两者性能差距仅为6.1%。但最新基准数据给出了截然相反的结论：在安卓开发场景下，Gemini 3.5 Flash不仅延迟更高，任务成功率还低了整整9个百分点。

成本对比更为关键。谷歌这款最新模型单次基准测试平均消耗355.9个Token，费用约147.1美元；而Gemini 3.1 Pro Preview仅消耗73.3个Token，成本不足前者的三分之一。两者差距悬殊。

需要指出的是，谷歌目前在榜单上列出的仍是Gemini 3.1 Pro的预览版。即便如此，这款预览版模型的得分依然高于一个被官方宣传为“更快、更高效”的正式版模型，这一结果本身就很耐人寻味。

GPT 5.5的单次运行成本与Gemini 3.5 Flash相差不大，但后者在Android Bench测试中的Token消耗量是前者的5.5倍。Anthropic的上一代模型Claude Opus 4.7排名第四，运行成本和Token用量均偏低，处于中游水平。谷歌目前尚未公布Opus 4.8或Fable 5的基准测试结果。

以下是谷歌最新一期Android Bench的前十名模型排名：

榜单中既有开放权重模型，也包含Claude、GPT等知名闭源模型。与上一期相比，排名靠前的几个位置基本未动，唯一的变化是GPT 5.3 Codex已被移除。

完整排名可在谷歌官网查阅。

谷歌会随着更多模型完成测试，定期更新该榜单。总体来看，这份榜单在衡量各模型安卓开发能力方面具有较高参考价值。Gemini 3.5 Flash在其他大语言模型和智能体任务上确实表现不俗——尽管谷歌已对其成本和用量上限进行了调整——但它在安卓编程领域的短板同样不容忽视。

Q&A

Q1：Android Bench是什么？谷歌用它来评估什么？

A：Android Bench是谷歌发布的一套基准测试，专门用于评估主流AI模型在安卓编程任务中的表现。每个模型运行10次，按成功解决问题的比例打分，满分100分。谷歌会随新模型发布持续更新榜单，同时公布每个模型的Token消耗量及对应成本，帮助开发者在安卓开发场景中挑选合适的模型。

Q2：Gemini 3.5 Flash在Android Bench中表现怎么样？

A：Gemini 3.5 Flash在最新一期Android Bench中仅排第六，不仅未能进入前五，还落后于更早测试的Gemini 3.1 Pro Preview。单次测试平均消耗355.9个Token，费用约147.1美元，是Gemini 3.1 Pro Preview的近三倍，任务成功率低9个百分点，延迟也更高。在安卓编程场景下，性价比表现确实令人失望。

Q3：目前Android Bench排名靠前的AI模型有哪些？

A：根据谷歌最新榜单，排名靠前的包括GPT 5.5、Gemini 3.1 Pro Preview等闭源模型，以及多款开放权重模型。Claude Opus 4.7位列第四，Token消耗和运行成本均处于中游。与上一期相比，榜单头部基本稳定，主要变化是GPT 5.3 Codex已被剔除。

Gemini 3.5 Flash安卓编程榜评测：成本高3倍速度更慢

Q&A

相关阅读

最新教程

最新资讯