1141 TPS！谷歌 Gemini 3.5 Flash 速度评测：速度提升 3-9 倍的下一代模型

📅 2026年05月19日 · 快讯

又一款速度怪兽

谷歌最新发布的 Gemini 3.5 Flash 模型在社区引起了轰动。根据 LINUX DO 用户的实际测试，这款模型的推理速度达到了惊人的 900+ tokens/秒，最高测得 1141 TPS，相比前代速度提升 3-9 倍。

而 Gemini 3.5 Flash 的参数量估计与前代高端模型处于同一级别，这意味着速度的提升并非以牺牲模型能力为代价。

这种速度表现意味着什么？对于开发者来说，代码补全、实时对话、批量处理等场景将几乎感受不到延迟。

除了速度测试，社区用户还对 Gemini 3.5 Flash 的实际能力进行了多方面评估：

测试了 MC 沙盒游戏生成和高级天气卡片，结果与前代相比没有退步，保持了良好的前端代码生成能力。

在简单的写文知识库场景中，Gemini 3.5 Flash 的表现同样稳定，与上一代持平。

社区用户的总结是：能力没有退步，应该还有提升，速度提升 3-9 倍，最高 900+ t/s。

目前反重力平台已经可以提前使用 Gemini 3.5 Flash。选择模型时选 3f 即可，也可以使用 CPA 等手段反代出来。

对于开发者来说，这意味着你可以用更低的延迟调用更强的模型，尤其是在代码补全和实时交互场景中，体验将大幅提升。

Gemini 3.5 Flash 的速度表现不仅仅是一个数字游戏。它代表了 AI 推理优化的一个重要方向：在不牺牲模型能力的前提下，大幅提升推理速度。

当模型推理成本降低、速度提升，更多的实时应用场景将变得可行——从实时语音对话到即时代码审查，从在线教育到交互式内容生成。