声明:本文来自于微信公众号 硅星人Pro,作者:周一笑,授权站长之家转载发布。
12月17日,Google 正式发布 Gemini3Flash。一个定价只有 Claude1/5、GPT1/4的“轻量模型”,在编码上超过 Claude Sonnet4.5,在推理和多模态上全面碾压,和 GPT-5.2也互有胜负。
MMMU-Pro,多模态的评估效果:
更夸张的是,它甚至超过了自家旗舰:在 SWE-bench 上,Gemini3Flash78%,Gemini3Pro76.2%,这也是 Flash 系列诞生以来超过同代 Pro 模型的第一次。
数据可能还是有点抽象,直接看它能干什么:
Gemini3Flash 单次生成完整动画3D 程序化房间
用Gemini3Flash 一句话生成可玩游戏
Resemble AI 用Gemini3Flash 实时分析 deepfake 视频:他们的产品需要把复杂的音视频取证数据即时转化为普通人能理解的分析结果。在测试中,他们发现3Flash 的多模态分析速度比2.5Pro 快了4倍,能够在不拖慢关键工作流的情况下处理原始的技术输出数据
一个月前,Gemini3Pro 和 Deep Think 的发布让 Google 重新站回 AI 第一梯队,Gemini3Pro 登顶 LMArena,Deep Think 在 ARC-AGI 上打出其他模型三倍的成绩。发布以来,Gemini API 日均处理量突破1万亿 tokens。现在,Flash 的到来补齐了 Gemini3家族的最后一块拼图。
但这次的 Gemini3Flash 和以往不一样。过去我们对 Flash 的认知很清晰,快、便宜、但能力打折。想要速度,就得接受智能上的妥协。然而Gemini3Flash 打破了这个惯例,它用轻量模型的价格,打出了旗舰级的能力。
1/5的价格,凭什么打旗舰?
先说和其他家的对比。
在博士级科学推理基准 GPQA Diamond 上,Gemini3Flash 拿到90.4%,大幅领先 Claude Sonnet4.5的83.4%,接近 GPT-5.2的92.4%。在多模态理解基准 MMMU-Pro 上,Flash81.2%,超过 GPT-5.2的79.5%,更是甩开 Claude Sonnet4.5十几个百分点。
在人类最后考试 Humanity’s Last Exam 上(无工具),Gemini3Flash33.7%,Claude Sonnet4.5只有13.7%——差距接近20个百分点。
编码能力同样亮眼。在 SWE-bench Verified 上,Gemini3Flash78%,超过了 Claude Sonnet4.5的77.2%,头一次超过了自家3Pro 的76.2%。
把价格因素放进来看就更夸张了,Flash 的价格大约是 Claude 的1/5、GPT 的1/4,但在多项指标上打平甚至领先。 如果说以前选 Flash 是快、省钱但有所妥协,现在选 Flash 是省钱还省心。
那么一个问题自然出现,Gemini3Pro 还有什么用?
极限推理场景。GPQA Diamond 上 Pro91.9% vs Flash90.4%,Humanity’s Last Exam 上 Pro37.5% vs Flash33.7%,加上只有Gemini3Pro才有的 Deep Think 模式。Pro 适合极限推理,Flash 适合高频 agent 任务,这是 Google 给出的新分工。
但对大多数场景来说,Flash 不仅够用,而且性价比炸裂。
效率层面同样显著。根据 Artificial Analysis 测试,Gemini3Flash 比2.5Pro 快3倍,处理日常任务平均节省30% token 消耗。定价方面,输入 $0.50/百万 tokens,输出 $3/百万 tokens,只有3Pro 的四分之一。
Gemini3Flash 在性能、成本与速度的权衡关系上推进了最优边界
Google 的官方说法是:“速度和规模,不必以牺牲智能为代价。”放在以前的 Flash 上可能是句口号,但这次数据确实撑得起来。
免费用户,旗舰体验
Gemini3Flash 的发布不只是 API 层面的事,它会直接改变普通用户的日常体验。
在 Gemini App 里,Gemini3Flash 会替代原来的2.5Flash,成为新的默认模型。这意味全球所有的 Gemini 用户,包括免费用户,都将自动升级到 Gemini3级别的体验,不需要付费,不需要做任何设置。
升级后的 App 会提供三种模式供用户选择:
在 Google Search 里,AI Mode 的默认模型也会在全球范围内升级到3Flash。Google 表示,得益于3Flash 强大的推理和多模态能力,AI Mode 现在能更精准地理解用户意图,处理更复杂、更有多重约束条件的问题,同时生成结构清晰、易于消化的回答。
对于美国用户,Google 还开放了更多选项,可以在 AI Mode 里选择”Thinking with3Pro”来获得更深度的帮助,图像生成模型 Nano Banana Pro 也向更多美国用户开放了。
对于普通用户来说,这可能是感知最明显的一次升级。你打开 Gemini,它已经是前沿级别的模型了;你在 Google 搜索里问复杂问题,背后跑的是一个融入了顶级大模型能力的引擎。换句话说,免费用户现在用的默认模型,能力已经不输其他家的付费旗舰。
开发者:省钱还赚到
以前做 agentic 应用,想用旗舰级模型就得付旗舰级价格。Gemini3Flash 改变了这个局面。
过去开发者面临一个两难选择,要么用快但笨的小模型,牺牲任务完成质量;要么用聪明但慢且贵的大模型,面对延迟和成本的双重压力。尤其是在需要多轮调用、高频迭代的 agent 场景里,这个取舍几乎是绑死的。Gemini3Flash 提供了一个新选项,足够快、足够聪明、成本可控。在 SWE-bench 上78% 的成绩说明它完全有能力处理复杂的编码任务,同时3倍于2.5Pro 的速度让它能胜任对延迟敏感的实时场景,而1/5于竞品的价格让大规模部署成为可能。
目前,Gemini3Flash 已经在以下平台上线(preview):
在高频调用场景,Google 还提供了配套的成本优化方案。Context Caching 功能可以在重复 token 使用达到一定阈值时降低90% 的成本;Batch API 支持异步批量处理,成本可以再降50%,同时提供更高的调用配额。对那些需要在生产环境里大规模跑 agent 任务的团队,这套组合拳相当有吸引力。
Flash 的含义变了
Gemini3Flash 的发布,某种程度上重新定义了“Flash”这个品类的含义。
Flash,终于不只是快速和效率了。
过去,Flash 或者说轻量级模型的定位非常明确:用能力换取速度和成本优势。你选择 Flash,就意味着接受它在智能上的折扣。但 Gemini3Flash 证明了另一种可能,当底层的基础模型足够强大时,轻量版本不一定要做太多能力阉割,它可以只是“更高效的满配版”。
Google 在博客里提到,Gemini3Flash 的核心模型能力已经强到一个程度:在很多任务上,关掉思考模式的3Flash,比开着思考模式的2.5版本表现还好。 以前你需要牺牲速度来换准确,现在不用了。
这次发布也让 Gemini3家族阵容正式成型:Gemini3Pro、Gemini3Deep Think、Gemini3Flash 三个版本,覆盖了从轻度用户到硬核开发者的完整需求谱系。想要极致推理深度,用 Deep Think;想要最强综合能力,用 Pro;想要又快又好还便宜,用 Flash。各取所需,不再是单选题。
从数据来看,Google 在 AI 产品化这条路上跑得相当稳。Gemini App 的月活已经突破6.5亿,开发者数量达到1300万,API 调用量同比增长3倍。上季度到这季度,用户数从4.5亿猛增到6.5亿。
目前,普通用户可以直接在 Gemini App 和 Google Search 的 AI Mode 中体验新模型;开发者可以通过 Google AI Studio 和 Gemini API 开始构建应用。
当 Google 用 Flash 模型1/5的价格打出旗舰级能力,Flash 这个品类的想象空间被彻底打开了。
(举报)
伊甸园真容现世新疆于阗
在线免费阅读/精美PDF版免费下载

微信扫一扫打赏
支付宝扫一扫打赏

