返回首页

一周热榜

1作者: FL4TLiN37 天前原帖
在为客户构建自主应用程序的两年后,我感到精疲力竭。我成了唯一的失败点,没有备份。需求收集、提示工程、应用开发、沙盒测试,所有工作都通过团队中最资深的开发者进行,而这个人总是我。 根本原因并不在于团队或客户,而在于我们设计代理的方式:除非采用一个知名的代理框架,否则没有明确的边界。 我开始这个项目是因为绘制开发者已经熟悉的清晰边界感觉是正确的做法。 为了自我验证,我定义了一个具有简单拓扑结构的游戏开发专家(计划 → 构建 → 验证 + 协调员),并在5个模型上运行了相同的任务。 以下是结果: [https://github.com/perstack-ai/demo-catalog](https://github.com/perstack-ai/demo-catalog) 查询很简单:“创建一个类似于《魔法迷宫》的地下城爬行游戏……” 在评估时,我专注于三个方面。(1) 专家是否遵循我的指示?(2) 结果是否经过验证并且实际可用?(3) API的成本是否可承受? 为什么这三个?因为即使支架架构稳固,代理也需要在指令遵循、最低质量保证和成本效率上进行评估。这是我与客户合作中学到的。 我注意到的几点: - 5个模型中有3个遵循了完整的计划 → 构建 → 验证流程,并产生了经过验证的有效输出,没有进行特定于提供者的调优。拓扑结构只定义了一次,按原样运行。 - Claude(4.6 Opus + 4.6 Sonnet)产生了最丰富的输出,指令遵循完美。在所有提供者中,它的缓存命中率最高(96%),但定价仍然使总成本达到了最近竞争者的8倍。 - Kimi K2.5 在 $3.43 的成本下产生了优秀的输出,并且对委托的忠诚度最高。在这次测试中,它在指令遵循和质量上都超越了GPT和Gemini。 - Gemini(3.1 Pro + 3.0 Flash)遵循了完整的流程,并产生了经过验证的游戏。但它的输出比GPT更容易出错,几乎无法玩。 - GPT(5.4 + 5-mini)是最快和最便宜的,但完全跳过了验证步骤。它调用了三次构建,而不是遵循流程。 - MiniMax M2.5 完全忽略了指令,制作了一个基于浏览器的HTML游戏。指令遵循是一个挑战,但最新版本M2.7最近宣布了遵循改进,因此我很期待。 这只是一个演示目录中的任务。但每次运行的完整执行日志都在仓库中,因此你可以准确看到每个模型的操作并自行复现。