4作者: sahiljagtapyc大约 1 个月前原帖
大家好, 我在一次AI代理循环中花费了187美元,仅用了10分钟——GPT-4不断重试失败的分析,因此我开发了AgentBudget。现有工具(如LangSmith和Langfuse)在执行后跟踪成本,但无法防止超支。 AgentBudget是一个Python SDK,为每个代理会话设定了一个严格的美元预算,并实时执行。集成只需两行代码: ```python import agentbudget agentbudget.init("$5.00") ``` 它对OpenAI和Anthropic的SDK进行了猴子补丁(与Sentry/Datadog的模式相同),因此现有代码无需更改。当预算达到时,它会在下一个API调用之前抛出BudgetExhausted异常。 工作原理: - 两阶段执行:在调用前估算成本(输入令牌 + 平均完成),在调用后与实际使用进行对账。最坏情况下的超支限制为一次调用。 - 循环检测:在(tool_name,argument_hash,timestamp)元组上使用滑动窗口。即使预算仍然存在,也能捕捉到无限重试。 - 成本引擎:针对OpenAI、Anthropic、Google、Mistral和Cohere等50多个模型的定价表。对过时模型变体进行模糊匹配。 - 统一账本:在单个会话中跟踪LLM调用和外部工具成本(通过track()或@track_tool装饰器)。 基准测试:每次执行检查的中位开销为3.5微秒。所有测试场景中没有预算超支。循环检测:在多样化工作负载中没有假阳性,准确捕捉到病态循环,调用次数恰好为N+1。 无需基础设施——它是一个库,而不是一个平台。不需要Redis、云服务或账户。 我还撰写了一份白皮书,涵盖了架构和与Coinbase的x402支付协议的集成(代理进行自主稳定币支付):[https://doi.org/10.5281/zenodo.18720464](https://doi.org/10.5281/zenodo.18720464) 在前四天内,PyPI安装量超过1300次,全部为自然增长。采用Apache 2.0许可证。 欢迎对设计提出问题。
1作者: adithyadrdo大约 1 个月前原帖
大家好, 我正在进行一个名为 L88 的项目——这是一个本地的 RAG 系统,最初我专注于用户界面和用户体验,因此检索和模型架构仍需进一步完善。 代码库: [https://github.com/Hundred-Trillion/L88-Full](https://github.com/Hundred-Trillion/L88-Full) 我在 8GB 显存和强大的 CPU(128GB 内存)上运行这个项目。嵌入和预处理在 CPU 上进行,主要模型则在 GPU 上运行。我遇到的一个限制是,由于计算资源的限制,我的评估器和生成器 LLM 最终使用的是同一个模型,这样就失去了评估的意义。 我非常希望能得到以下方面的反馈: - 小显存 RAG 的更好架构建议 - 有效分离评估器和生成器角色 - 改进 LangGraph 流程 - 你注意到的任何错误或设计缺陷 - 针对本地硬件优化系统的方法 我今年 18 岁,仍在学习关于 LLM 架构的知识,因此任何技术上的批评或建议都将帮助我作为开发者成长。如果你查看代码库或留下反馈,我将非常感激——我希望通过实际项目建立一个坚实的基础和声誉。 谢谢!
1作者: adithyadrdo大约 1 个月前原帖
大家好, 我正在进行一个名为 L88 的项目——一个本地的 RAG 系统,最初我主要关注的是用户界面/用户体验,因此检索和模型架构仍需进一步完善。 代码库: [https://github.com/Hundred-Trillion/L88-Full](https://github.com/Hundred-Trillion/L88-Full) 我在 8GB 的显存和强大的 CPU(128GB 内存)上运行这个项目。嵌入和预处理在 CPU 上进行,而主要模型则在 GPU 上运行。我遇到的一个限制是,由于计算能力的限制,我的评估器和生成器最终使用的是同一个模型,这违背了评估的目的。 我非常希望能得到以下方面的反馈: - 针对小显存 RAG 的更好架构建议 - 有效拆分评估器/生成器角色 - 改进 LangGraph 流程 - 你注意到的任何错误或设计问题 - 优化本地硬件系统的方法 我今年 18 岁,仍在学习关于合适 LLM 架构的知识,因此任何技术上的批评或建议都将帮助我作为开发者成长。如果你查看代码库或留下反馈,我将非常感激——我正在努力通过实际项目建立坚实的基础和声誉。 谢谢!
8作者: JB_5000大约 1 个月前原帖
严肃的问题。<p>在政府或高度监管的企业之外,微软在2026年的核心价值主张是什么?<p>感觉很多采用都是继承来的——合同、合规、企业信任、现有组织的惯性。这不一定是技术偏好。<p>如果你今天从零开始,没有任何遗留问题,没有E5合同,没有沉没成本——有多少团队会真正选择完整的微软技术栈,而不是最佳工具组合?<p>想知道这里的人在全新建设中实际选择了什么。