返回首页
最新
我厌倦了我的AI代理因为大型语言模型(LLM)错误地生成JSON键或传递字符串而不是整数而崩溃。因此,我构建了ToolGuard——它通过边界情况(如空值、缺失字段、类型不匹配、10MB负载)对你的Python工具函数进行模糊测试,并给出一个可靠性评分,满分为100%。<p>运行测试不需要LLM。它读取你的类型提示,生成Pydantic模式,并以确定性的方式破坏功能。<p>使用以下命令安装:pip install py-toolguard<p>GitHub: <a href="https://github.com/Harshit-J004/toolguard" rel="nofollow">https://github.com/Harshit-J004/toolguard</a><p>如果你正在构建复杂的工具链,我将非常荣幸你能查看这个仓库。非常欢迎对架构提出严厉的反馈!
嗨,HN,
我一直在开发一种数据序列化格式,旨在通过消除重复的键冗余和优化整体结构,使其比JSON轻得多。今天,我将JavaScript SDK(lytok-js)开源。
在我们最新的基准测试中,使用WASM引擎,Lytok实现了:
- 64.77%的负载减少。
- 网络和解析速度提高了50.19%。
- 在向AI模型输入复杂结构时,节省了49.51%的LLM令牌。
核心理念是通过定义映射来提炼结构(您可以在实验室中测试)。这使得引擎能够处理繁重的工作,从而避免薄客户端和高流量网络被冗余数据淹没。
GitHub仓库:[https://github.com/lytok/lytok-js](https://github.com/lytok/lytok-js)
互动实验室:[https://lytoklab.netlify.app/](https://lytoklab.netlify.app/)
我很想听听您的想法、架构批评或优化建议。
一个小型的 Python 库,用于简化在构建 RAG 系统时的 LLM 调用、数据库检索、重排序、对话存储和嵌入处理。<p>该库故意只暴露各个提供者之间的共同功能,以避免特定于提供者的参数。<p>像 LangChain 这样的库提供了许多集成,但通常依赖于大量抽象、广泛使用的可变参数(kwargs)以及复杂的代码,这使得自定义变得困难。<p>功能:
- 同步和异步 API
- LLM 调用:调用和流式传输(温度、推理级别)
- 响应元数据:答案、令牌使用情况、停止原因
- RAG 文档:检索、重排序、嵌入
- 聊天历史:对话存储
- 跨提供者的常见错误处理
- 提供者:OpenAI、Anthropic、Google、AWS<p>重试逻辑由用户自行处理(请参见 README)。目前不支持代理功能。
对话总是集中在寻找联合创始人或资金上。这实际上只是表面上的问题,归根结底是结果。作为创始人,是什么在阻碍你前进?深入探讨这些表面问题会非常有意义。
我们正在开发一个名为 CodeLedger 的工具,旨在解决我们在使用 AI 编码代理(如 Claude Code、Cursor、Codex)时遇到的问题:
这些代理非常强大,但在实际代码库中,它们存在以下问题:
- 读取了过多不相关的代码
- 编辑超出了预期的范围
- 陷入循环(修复 → 测试 → 失败)
- 偏离了任务
- 引入了静态检查工具无法捕捉的架构问题
根本问题不在于模型本身,而在于:
- 上下文选择不当
- 缺乏执行保护措施
- 团队/组织层面缺乏可视性
---
CodeLedger 的功能:
它位于开发者与代理之间,主要实现以下功能:
1) 首先为代理提供正确的文件
2) 保持代理在任务范围内
3) 根据架构和约束验证输出
它的工作方式是确定性的(不使用嵌入,不依赖云,完全本地运行)。
---
示例:
与其让代理扫描 100-500 个文件,CodeLedger 将其缩小到约 10-25 个相关文件,然后再进行第一次编辑。
---
到目前为止,我们观察到的效果:
- 任务完成速度提高约 40%
- 迭代次数减少约 50%
- 令牌使用量显著减少
---
支持的工具:
Claude Code、Cursor、Codex、Gemini CLI
---
代码库及设置:
[https://github.com/codeledgerECF/codeledger](https://github.com/codeledgerECF/codeledger)
快速开始:
```
npm install -g @codeledger/cli
cd your-project
codeledger init
codeledger activate --task "修复用户服务中的空值处理"
```
---
希望能收到使用 AI 编码工具处理大型代码库的朋友们的反馈。
特别想了解:
- 目前代理在哪些方面出现问题
- 上下文选择还是保护措施哪个问题更大
- 你还观察到了哪些其他问题。
我创建了Lore,因为我总是忘记一些知识——如curl命令、会议中的快速笔记,以及我告诉自己一定会记住的那些事情。
它驻留在系统托盘中,按下全局快捷键即可弹出,你可以自然地输入,它会自动存储或检索信息。所有操作都是在本地进行,通过Ollama和LanceDB实现——没有云端,没有API密钥。它会对你的输入(想法、问题、待办事项、指令)进行分类,并使用RAG管道从你自己存储的上下文中回答回忆查询。
它是免费的,采用MIT许可证开源,尽管目前仍处于早期版本,但我和我的朋友们已经使用了一段时间,无法再没有它。期待听到你对它的看法。
<a href="https://github.com/ErezShahaf/Lore" rel="nofollow">https://github.com/ErezShahaf/Lore</a>
如果能给个星星,我会很感激 :)