7作者: deaux2 个月前原帖
五天前,我们的精细调优2.5 Flash模型的延迟突然增加了5倍。对于不太熟悉的人来说,这种精细调优的模型通常用于在特定任务上接近大型模型的性能,同时延迟和成本大大降低。这意味着它们通常用于实时生产场景,这些场景使用频繁,需要快速响应用户。否则,精细调优通常是不值得的。许多人在为一个这样的任务精细调优模型上花费几千美元(至少)。 五天前,谷歌向世界发布了Nano Banana Pro(Gemini 3.0图像预览)。自那时起,我们现有的精细调优模型的延迟突然增加了五倍。我们与其他也使用精细调优2.5 Flash模型的初创公司进行了交谈,他们也遇到了同样的情况,甚至在不同地区也是如此。显然,这对我们所有的产品都有很大影响。 从谷歌方面来看,除了沉默一无所获,甚至在付费支持方面也是如此。对初始支持请求的回复只是要求提供已经在该请求中提供的基本信息,或者是显而易见的内容。从那时起,已经超过48小时没有任何进展。 当然,这个时机可能纯属巧合——尽管我们以前从未见过这种延迟不稳定的情况——但我们都能看出最可能的原因;Nano Banana Pro和Gemini 3预览消耗了大量计算资源,而它们显然是以牺牲精细调优模型的输出为代价来实现这一点。在经历了这一切之后,想要将他们视为商业用途的合作伙伴几乎是不可能的,谁知道他们下次会做什么。尽管存在许多缺陷,OpenAI在稳定性方面一直是一个堡垒,尽管它是所有前沿模型提供商中最专注于B2C的。谷歌的Vertex声称专注于企业,却为了让消费者更快地获取Ghibli图像而破坏了其商业客户的产品。他们肯定收到了很多关于此问题的支持请求,考虑到谷歌的工程能力,他们一定有自动监控系统能够立即发现如此巨大的延迟增加。短暂的故障是可以理解的,发生在各处,最近AWS和Cloudflare也有类似情况,但5天以上的5倍延迟——即使他们修复了——实际上就是服务的5天以上的停机。 我发布这个主要是为了警告其他初创公司,今后不要依赖谷歌Vertex来满足用户面向的模型需求。