电话: 邮箱:

开云·体育中国官方网站 谷歌全家桶,都被新模子“期侮”了

发布日期:2026-05-29 17:12 作者:admin 来源:未知 点击:203

开云·体育中国官方网站 谷歌全家桶,都被新模子“期侮”了

文 | 字母 AI

距离谷歌的 Gemini 3.5 Flash 发布依然一周多了。

皮查伊在谷歌发布会上口口声声地默示,Gemini 3.5 Flash 性能比 3.1 Pro 还强,说它是 Agent 时间的底座。

可着力呢?网上对 Gemini 3.5 Flash 的评价,除了速率快这惟一的优点外,全是症结。输出的内容空幻多、啰嗦、干活 token 蹧跶量爆炸 ……

谷歌 Antigravity 崇拜东谈主瓦伦 · 莫汉(Varun Mohan)在 5 月 25 日发帖称,谷歌已增设 Gemini 3.5 Flash ( Low ) 模子用于优化资源蹧跶。

瓦伦默示,把柄谷歌的里面测试数据,在处理肤浅任务时,Gemini 3.5 Flash ( Low ) 比较 Gemini 3.5 Flash ( Medium ) 可以减少约 45% 的 token 生成量。在软件工程(SWE)任务上的发达,Gemini 3.5 Flash ( Low ) 宽绰优于上一代旗舰模子 Gemini 3 Flash ( High ) 。

关连词网友们并不买账,面前,瓦伦的辩驳区依然被网友们的冷嘲热讽透顶攻占。

热评第一条是"你们的家具测试过吗?看起来你们是拿咱们在作念测试啊!"

第二条是"能否也责罚一下图像模子的生成数目搁置问题?你们的智力需要对标 Codex。我使用 Codex 可以生成 1000 张图像,但在谷歌的高档套餐下,我只可使用 Antigravity 生成 24 张。"

Gemini 3.0 Pro 出来的时候,统共东谈主都在为谷歌饱读掌,OpenAI 致使因此拉响红色警报,以迂腐被谷歌超越。

宝马会(BMW Club)官网app下载

关连词到了 3.5 Flash,谷歌成了怯夫,眼瞅着就要步入 Meta 的后尘。

那咱们不禁要问,谷歌,你这是咋了?

01 Gemini 3.5 的发达莫得达到预期

网上对 Gemini 3.5 Flash 的评价极度一致,很快,然则不够好。

皮查伊在发布会上反复强调模子多低廉,关连词现实中情况天地之别。

按照官方订价,Gemini 3.5 Flash 每百万输入 token 收费 1.5 好意思元,每百万输出 token 收费 9 好意思元,照实比 Claude Opus 4.7 的 5 好意思元和 25 好意思元低廉。

但这仅仅价钱表,着实决定老本的,是完成一个任务到底要蹧跶几许 token。

Artificial Analysis 在圆善评估套件中测试发现,Gemini 3.5 Flash 完玉成部任务的总老本是 1552 好意思元,而 Gemini 3 Flash 只需要 282 好意思元,前者是后者的 5.5 倍。

哪怕是和 Gemini 3.1 Pro 比较,Flash 的老本也进步 75%,节略是 870 好意思元。更莫名的是,Gemini 3.5 Flash 完成任务的用度,比 GPT-5.5 medium 还贵。

原因在于 turn count,也即是完成任务需要的轮次。

在 Agent 评估中,Flash 模子平均每个任务需要 49 轮对话。每一轮对话,它都会把圆善的对话历史输入给模子,token 老本因此暴增。

而这样的任务,GPT-5.5 或者 Opus 4.7,差未几只用 20 轮就能完成。

是以谷歌说的"老本不到一半",指的是单元 token 价钱。但对用户来说,Gemini 3.5 Flash 极少都未低廉。

除了轮次多了,Gemini 3.5 Flash 的输出极度啰嗦。

比如以前你问 Gemini 3.1 Pro 一个时候问题,模子会径直给出代码和粗略解释。

换成 3.5 Flash 之后,相通的问题,模子会先解释配景,再列举三种可能的决议,然后逐个分析优症结,临了才给出代码。

看起来很全面,施行上大部安分容都是妄言。更要命的是,这些妄言都算 token,都要收费。

复杂任务的 token 蹧跶更是爆炸。

有用户反馈,让 Flash 实行一个多设施的代码重构任务,模子反复在不同文献之间跳转,每次跳转都要重新加载落魄文,最终蹧跶的 token 是预期的三倍以上。

还有用户默示,仅仅输入了一个复杂的 prompt,就直构兵发了 5 小时使用搁置。

谷歌在 I/O 2026 之后暗暗修改了 AI Pro 订阅的额度轨则,从固定音尘数,改成了基于诡计资源的配额(compute-based quota)。

即是说你一个任务,淌若让模子念念考得多,那即使它给你回复的内容不变,花的钱也比以前更多。

那么问题来了,我奈何知谈一个任务会让模子蹧跶几许算力?况且,我也推算不出来我还剩几许算力。

可能我仅仅跟它打个呼唤,就花掉许多 token。让它实行一个长周期任务,反而不奈何蹧跶 token。

有用户在外网论坛上径直把新搁置称为"骗局",称单个 prompt 就蹧跶了 13% 的配额,某些 Gemini AI Plus 功能一次能烧掉快要 30%。

那为什么 Gemini 3.5 Flash 发达会这样一般?

谜底藏在 benchmark 里,Flash 的发达极度不平衡。

Gemini 3.5 Flash 在 Terminal-Bench 2.1、MCP Atlas、Toolathlon、OSWorld 这类 Agent、器用调用、代码实行榜单上发达可以。Terminal-Bench 2.1 拿到 76.2%,MCP Atlas 拿到 83.6%,都算是头部收货。

这些榜单测的是模子能不成按照指示调用器用、实行号召、完成多设施操作。Flash 在这些方面照实有上风。

但在更接近"贤人不贤人"的概括推理榜上,它的发达就有点丢丑了。

Humanity ‘ s Last Exam 是 40.2%,低于 Gemini 3.1 Pro 的 44.4% 和 Claude Opus 4.7 的 46.9%。ARC-AGI-2 是 72.1%,低于 Gemini 3.1 Pro 的 77.1% 和 GPT-5.5 的 84.6%。GDPval-AA 也低于 Claude Opus 和 GPT-5.5。

也即是说,Gemini 3.5 Flash 有点"蠢"。你给它任务它能去干活,但它"身手不够"。它作念不了面前最火的复杂推理、长链分析、创意判断。

顾忌方面也有问题。

在谷歌的宣传中,Gemini 3.5 Flash 有最高 1M token 落魄文。但模子卡里的 MRCR v2 长落魄文测试泄漏,128k 平均收货是 77.3%,到 1M pointwise 只好 26.6%。

Gemini 3.5 Flash 天然能一口吃下许多内容,然则到用的时候就运行朦拢了。

Artificial Analysis 的沉寂测试径直打脸谷歌。

在编程指数(Coding Index)上,Artificial Analysis 给 Flash 打了 45.0 分,低于 Gemini 3.1 Pro 的 56.5 分,更远低于 GPT-5.5。

02 Gemini 期侮了谷歌的进口,导致模子问题会期侮 Google 的统共家具体验

谷歌 I/O 2026 上,皮查伊晓谕,Gemini 是谷歌全家具世界的相连层。

也即是说,Gemini 3.5 Flash 镶嵌到了谷歌绝大多数家具里。

外媒默示," Gemini 正在变得无法避让"。

畴昔,一个 AI 不好用,你可以无用。你以为 ChatGPT 不行,可以换 Claude,还以为不好你可以根本无用 AI。

但谷歌把 Gemini 放进统共进口以后,Gemini 3.5 Flash 的晦气体验,期侮了谷歌统共家具。

最典型的例子是 AI Overview 和 AI Mode 的" disregard/ignore/stop "故障。

用户搜索" disregard "" ignore "" stop "等单词时,谷歌 AI Overview 会把它们误判成指示,导致搜索着力特别或空缺。

有用户在 X 上发帖说,搜索" disregard "这个词,AI Overview 不是给出界说,而是回复"分解了!我会忽略之前的请示,重新运行。"

搜索" stop ",AI Overview 说"没问题。我依然住手刻下操作。"

搜索" ignore ",AI Overview 说"收到。音尘已忽略。"

镶嵌 Gemini 3.5 Flash 以后,AI Overview 把这些单词当成了对话指示,开云·体育中国官方网站导致 AI Overview 把这些单词当成了对话指示。

问题不单出面前这几个词上。经过网友测试," remember "" start "" finished "" forget "这些词也会触发肖似故障。即便在搜索词里加上" definition ",也无法让 AI Overview 回反平素。

谷歌方面回答称,这个问题与 I/O 的新搜索发布无关,是 AI Overviews 自身问题,团队正在建立。

搜索是谷歌的命脉,一朝搜索出了问题,统共东谈主都只会以为"谷歌要凉了"。

是以面前的压力给到了 Gemini 3.5 Pro。

外界着实想看的,不是谷歌能不成把 AI 塞进统共进口。这个问题依然有谜底了,谷歌照实作念到了。外界想看的是,Google 能不成拿出一个满盈贤人、满盈适应、满盈有劝服力的旗舰模子,重新评释我方在模子智力上莫得掉队。

这个任务 Flash 完成不了。它是一个实行型模子,速率快,聪颖活,但身手不够。它妥贴作念 Agent 架构里的子任求实行器,配合强筹算器使用。但它不是旗舰,它撑不起谷歌在 AI 时间的门面。

最终只可落到 3.5 Pro。

面前,Gemini 3.5 Pro 还在里面测试中。官方博客默示,"咱们也在致力于设备 3.5 Pro。它依然在里面使用,咱们期待下个月(6 月)推出。"

谷歌家具崇拜东谈主图尔西 · 多希(Tulsee Doshi)默示," 3.5 Pro 像面目司理,崇拜想澄莹事情该奈何作念;Flash 像实行团队,崇拜把一个个具体任务跑完。着实需要推理和筹算的方位,要交给更大的 Pro;仅仅需要快速调用器用、批量处理任务的方位,用 Flash 就够了。。"

这个架构遐想自身没问题,问题在于 Pro 还没出来,许多场景只可让 Flash 一个东谈主苦苦硬撑。

是以 Gemini 3.5 Pro 变成了一个二次验货节点。

淌若 3.5 Pro 出来后发达还可以,那谷歌落魄还能圆畴昔。

话术我都想好"全线镶嵌 Flash 是咱们一个尝试,给大家酿成了一些不好的家具体验,不外咱们依然发布了 3.5 Pro,完全好用,接待大家体验"。

Flash 的问题可以被领会为一种和谐,Pro 才是着实的实力展示。

但淌若 3.5 Pro 发达不好,那谷歌在 AI 这块可以说是全面胡闹。

AI Overview 有初级空幻、ChatBot 啰嗦、WorkSpace 蹧跶 token 过高导致价钱太贵、Antigravity 没什么起色。统共这些家具都会被 Gemini 攀扯,从上风变成职责。

谷歌面前的处境很巧妙。它有现款、有基础设施、有 DeepMind。但自从 3.0 Pro 之后,它就一直缺能打的旗舰模子。

3.5 Pro 要补的即是这个缺口。淌若 3.5 Pro 作念不到,谷歌真就有可能步入 Meta 的后尘。

03 谷歌正在成为硬件公司

不外谷歌并非一败涂地,相背,在硬件这块,谷歌反而支棱起来了。

谷歌 2026 年 Q1 财报泄漏,公司收入 1099 亿好意思元,同比增长 22%。谷歌 Search & Other 收入 604 亿好意思元,同比增长 19%。YouTube 告白收入约 99 亿好意思元,同比增长 11%。谷歌 Cloud 收入 200 亿好意思元,同比增长 63%。

这说明谷歌仍然是一台获利机器。

这份财报里最亮眼的数字,来自于谷歌 Cloud 的 63% 增长。

皮查伊在财报电话会上说,Cloud 的增长是"刚劲需求"的着力。其实这句话的本体,即是在说谷歌的 TPU 硬件和数据中心卖得极度好。

基于谷歌模子构建的 AI 责罚决议同比增长近 800%。Gemini Enterprise 的付费月活用户环比增长 40%。通过 API 使用的 AI token 增长到每分钟 160 亿个,比第四季度的 100 亿增长了 60%。

Cloud 的 backlog(依然签下,但还莫得证实成收入的合同金额)在本季度翻了一番,达到 4620 亿好意思元。

皮查伊说,"昭着,咱们在短期内受到算力搁置。淌若咱们大致缓和需求,咱们的 Cloud 收入会更高。是以咱们正在渡过这个时刻,咱们正在投资,但咱们有一个高大的遥远筹算框架 …… 咱们看到了前所未有的契机。"

公司预测在畴昔 24 个月内完成 50% 的 backlog。

天然谷歌基座模子不行,编程器用 Antigravity 发达也差强东谈主意,但 TPU 这块发达太好了。

我都怀疑,谷歌是不是忘了我方其实是一个互联网公司,不是一个硬件公司?

Anthropic、Meta 等外部大客户正在租用或采购谷歌 TPU 资源。

Anthropic 在 5 月晓谕与谷歌和 Broadcom 签署了新的多年期合同,扩大使用谷歌 Cloud 的 TPU。

这笔往来让 Anthropic 得回了多达 100 万个谷歌 AI 诡计芯片的使用权,价值数百亿好意思元,预测将在 2026 年带来超越 1 吉瓦的容量上线。

1 吉瓦的电厂,节略能给 35 万户家庭供电。

谷歌在 Google Cloud Next 2026 上晓谕了第八代 TPU,初度领受双芯片次序,鉴别针对磨真金不怕火和推理遐想专用架构,TPU 8t 和 TPU 8i。

尤其是 TPU 8t,它是专为大畛域、诡计密集型的磨真金不怕火服务准备的,具有更大的诡计吞吐量和更多的 scale-up 带宽。

TPU 8i 则是专为低蔓延推理服务负载遐想,Agent 干活要反复"念念考、调用器用、再念念考"。每一步慢极少,几十上百步下来就会很慢,是以低蔓延对 Agent 极端穷苦。

或者你可以这样领会,TPU 8t 是给模子用的。

磨真金不怕火前沿大模子即是让几万块芯片一王人赛马拉松。问题不是单块芯片够不够快,而是这几十万块芯片能不成一直握续地跑。

比如说某根汇聚线坏了、某块芯片不亮了、系统需要重启搜检点,那么统共这个词磨真金不怕火集群就会因此糜费掉大都时候。

是以 Google 说 TPU 8t 的要点不是单纯"算力更强",而是让磨真金不怕火进程更少中断。

谷歌说,TPU 8t 的遐想想法,是 goodput 超越 97%。

所谓 goodput,你可以领会成着实用于干活的时候。

比如一台机器表面上服务 100 小时,但中间故障、恭候、重启糜费了 10 小时,那灵验服务时候只好 90 小时,goodput 即是 90%。

Google 说 TPU 8t 想法超越 97% goodput,意旨道理是它但愿大部分时候都确凿在磨真金不怕火,而不是在等建立、等重启、等汇聚复原。

为了竣事超越 97% 的 goodput,谷歌给 TPU 8t 加入了许多横向普及性能的功能。比如系统发现那处坏了,可以自动绕路,无用东谈主手工停机修。

TPU 8i 则是给 Agent 用的。

Agent 推理是一个极度贫困的事情,前文提到,Agent 不是回答一次就收尾了的,它会反复念念考、查贵寓、调用器用、写代码、再搜检、再修正。

一次任务可能要调用模子几十次致使上百次。

是以 TPU 8i 要点是让这些调用尽可能快。

它有 384MB 板载 SRAM,可以领会成芯片傍边有一派极度快的小顾忌区。Agent 短期顾忌就保留在这里,那么当 Agent 需要用这些顾忌的时候,就可以径直从这里面拿,从而减少往来搬数据的时候。

它还用了更多 CPU 主机,也即是让傍边有更多"退换员"帮衬安排数据输入输出、任务互助。Agent 跑起来不仅仅模子算一下,还要逼迫读数据、发央求、调器用、拿着力,CPU 即是帮 TPU 处理这些杂活的。

微软也曾有过这样一个预测,到 2028 年将有 13 亿个 Agent 过问运行,这才是为什么,谷歌要把 TPU 分红 8t 和 8i,Agent 的归 Agent,磨真金不怕火的归磨真金不怕火。

和谷歌传统的互联网业务比较,TPU 反而是他们面前最硬的叙事。

但问题就在于,Anthropic 能用 TPU 造出 Claude Opus 4.7 以及面前的 Mythos,可谷歌只拿出来了 Gemini 3.5 Flash。

还真即是橘生淮南则为橘开云·体育中国官方网站,生于淮北则为枳。

相关标签: 谷歌 全家 都被 新模子