返回首页
最新
大家好,
我在一次AI代理循环中花费了187美元,仅用了10分钟——GPT-4不断重试失败的分析,因此我开发了AgentBudget。现有工具(如LangSmith和Langfuse)在执行后跟踪成本,但无法防止超支。
AgentBudget是一个Python SDK,为每个代理会话设定了一个严格的美元预算,并实时执行。集成只需两行代码:
```python
import agentbudget
agentbudget.init("$5.00")
```
它对OpenAI和Anthropic的SDK进行了猴子补丁(与Sentry/Datadog的模式相同),因此现有代码无需更改。当预算达到时,它会在下一个API调用之前抛出BudgetExhausted异常。
工作原理:
- 两阶段执行:在调用前估算成本(输入令牌 + 平均完成),在调用后与实际使用进行对账。最坏情况下的超支限制为一次调用。
- 循环检测:在(tool_name,argument_hash,timestamp)元组上使用滑动窗口。即使预算仍然存在,也能捕捉到无限重试。
- 成本引擎:针对OpenAI、Anthropic、Google、Mistral和Cohere等50多个模型的定价表。对过时模型变体进行模糊匹配。
- 统一账本:在单个会话中跟踪LLM调用和外部工具成本(通过track()或@track_tool装饰器)。
基准测试:每次执行检查的中位开销为3.5微秒。所有测试场景中没有预算超支。循环检测:在多样化工作负载中没有假阳性,准确捕捉到病态循环,调用次数恰好为N+1。
无需基础设施——它是一个库,而不是一个平台。不需要Redis、云服务或账户。
我还撰写了一份白皮书,涵盖了架构和与Coinbase的x402支付协议的集成(代理进行自主稳定币支付):[https://doi.org/10.5281/zenodo.18720464](https://doi.org/10.5281/zenodo.18720464)
在前四天内,PyPI安装量超过1300次,全部为自然增长。采用Apache 2.0许可证。
欢迎对设计提出问题。
大家好,
我正在进行一个名为 L88 的项目——这是一个本地的 RAG 系统,最初我专注于用户界面和用户体验,因此检索和模型架构仍需进一步完善。
代码库:
[https://github.com/Hundred-Trillion/L88-Full](https://github.com/Hundred-Trillion/L88-Full)
我在 8GB 显存和强大的 CPU(128GB 内存)上运行这个项目。嵌入和预处理在 CPU 上进行,主要模型则在 GPU 上运行。我遇到的一个限制是,由于计算资源的限制,我的评估器和生成器 LLM 最终使用的是同一个模型,这样就失去了评估的意义。
我非常希望能得到以下方面的反馈:
- 小显存 RAG 的更好架构建议
- 有效分离评估器和生成器角色
- 改进 LangGraph 流程
- 你注意到的任何错误或设计缺陷
- 针对本地硬件优化系统的方法
我今年 18 岁,仍在学习关于 LLM 架构的知识,因此任何技术上的批评或建议都将帮助我作为开发者成长。如果你查看代码库或留下反馈,我将非常感激——我希望通过实际项目建立一个坚实的基础和声誉。
谢谢!
大家好,
我正在进行一个名为 L88 的项目——一个本地的 RAG 系统,最初我主要关注的是用户界面/用户体验,因此检索和模型架构仍需进一步完善。
代码库:
[https://github.com/Hundred-Trillion/L88-Full](https://github.com/Hundred-Trillion/L88-Full)
我在 8GB 的显存和强大的 CPU(128GB 内存)上运行这个项目。嵌入和预处理在 CPU 上进行,而主要模型则在 GPU 上运行。我遇到的一个限制是,由于计算能力的限制,我的评估器和生成器最终使用的是同一个模型,这违背了评估的目的。
我非常希望能得到以下方面的反馈:
- 针对小显存 RAG 的更好架构建议
- 有效拆分评估器/生成器角色
- 改进 LangGraph 流程
- 你注意到的任何错误或设计问题
- 优化本地硬件系统的方法
我今年 18 岁,仍在学习关于合适 LLM 架构的知识,因此任何技术上的批评或建议都将帮助我作为开发者成长。如果你查看代码库或留下反馈,我将非常感激——我正在努力通过实际项目建立坚实的基础和声誉。
谢谢!
严肃的问题。<p>在政府或高度监管的企业之外,微软在2026年的核心价值主张是什么?<p>感觉很多采用都是继承来的——合同、合规、企业信任、现有组织的惯性。这不一定是技术偏好。<p>如果你今天从零开始,没有任何遗留问题,没有E5合同,没有沉没成本——有多少团队会真正选择完整的微软技术栈,而不是最佳工具组合?<p>想知道这里的人在全新建设中实际选择了什么。