问HN:你们最大的LLM成本倍增因素是什么?
“每个请求的令牌数”在我们的生产环境中一直是一个误导性的成本模型。真正的成本驱动因素似乎是一些乘数:重试/429错误、工具分发、P95上下文增长和安全检查。
在你的生产大语言模型系统中,最大的成本乘数是什么?哪些政策有效(如上限、降级模式、后备方案、硬失败)?
查看原文
"Tokens per request" has been a misleading cost model for us in production. The real drivers seem to be multipliers: retries/429s, tool fanout, P95 context growth, and safety passes.<p>What’s been the biggest cost multiplier in your prod LLM systems, and what policies worked (caps, degraded mode, fallback, hard fail)?