返回首页
最新
你好,
最近在使用Claude Code进行开发时,我发现拥有一个“口袋里的史蒂夫·乔布斯”非常有用。我可以询问他对某些事情的看法,通常能得到关于用户体验、简约设计和以故事为先的思维方式的优秀建议。
我觉得这对其他人也可能有帮助,所以在这里分享一下。在文章中,我还描述了为什么我认为技能是新的应用程序,只是经济模式不同。如果你还没有尝试过,绝对值得一试。这对“默认”Claude Code的改变要比没有使用时大得多。
期待听到你的反馈!
大多数代理框架将提示注入视为模型层面的问题。实际上,一旦您的代理接收了不可信的文本并具有工具访问权限,您就需要应用层的控制措施——结构隔离、工具调用门控、外泄检测——这些措施并不依赖于模型的正确行为。我构建了 guardllm 来提供这些控制。
guardllm 是一个小型、可审计的 Python 库,提供以下功能:
- **入站加固**:对不可信内容(如网页、电子邮件、文档、工具输出)进行清理和结构隔离,使其被视为数据而非指令。
- **工具调用防火墙**:默认拒绝破坏性操作,除非明确授权;当没有确认处理程序时,采用失败关闭的确认方式。
- **请求绑定**:绑定(工具名称、标准参数、消息哈希、TTL)以防止重放和参数替换。
- **外泄检测**:扫描出站工具参数中的秘密模式,并标记与最近接收的不可信内容有 substantial verbatim 重叠的情况。
- **来源追踪**:对已知不可信来源的内容实施更严格的禁止复制规则,独立于重叠启发式。
- **金丝雀令牌**:每会话生成和检测金丝雀令牌,以捕捉提示泄露到输出中。
- **源门控**:阻止高风险来源被提升到长期内存或知识图谱提取中,以减少内存污染。
该库故意保持简约,并不特定于某个框架。它并不替代最小权限凭证或沙箱机制——而是位于它们之上。
代码库链接: [https://github.com/mhcoen/guardllm](https://github.com/mhcoen/guardllm)
我希望得到反馈:您看到的威胁模型漏洞;默认重叠阈值是否适合摘要和引用工作流程;以及哪些框架适配器会使其更容易采用(如 LangChain、OpenAI 工具调用、MCP 代理等)。
我花了一些时间与新的Deep Think模型交流,几次它很快就进入了一种令人担忧的恭维模式,而且这种感觉非常强烈。想知道是否还有其他人也经历过这种情况?
我只是想说,塔拉·利平斯基长大后真是个绝世美人,我希望大家都知道这一点。