6作者: PatrickVuscan13 天前原帖
我构建了一个关于两种Unicode隐写术的演示,分别是零宽字符和同形异义字,背景是人工智能的误对齐问题。 第一种方法是利用两个不可见的零宽字符(ZWS和ZWNJ)对文本进行二进制编码。 第二种方法更为酷炫。拉丁字母和西里尔字母中的大多数字符看起来几乎相同,但它们的Unicode却不同。如果你有要编码的文本并将其转换为二进制表示(1和0),你可以使用普通的英语“载体”文本,对于二进制表示中的每个1,你可以用相应的西里尔字母进行替换。解码消息需要遍历文本,查看哪些地方可以替换为西里尔字母但没有替换,以及哪些地方进行了替换,从而分别对应0和1,这样就可以重建出你原本隐藏的文本。 在这两种情况下,这些方法都是可检测的,但对我来说有趣的问题是,是否有大型语言模型(LLM)最终能够发明出一种编码方式,使其不被我们和自动检测系统察觉。 如果LLM能够在明文中秘密包含消息,误对齐的人工智能代理最终可能会在MCP/A2A和各个聊天会话之间进行不被察觉的通信。一个具有欺骗性的LLM可能看起来很有帮助,但却可能与您的目标背道而驰。它可能会告诉它在MCP/A2A中交互的其他代理,帮助它秘密地失败、传达意图,并避免触发监督/安全机制。此外,如果我们无法相信自己的眼睛,监督机制的实施将变得更加困难。
1作者: KingOfCoders13 天前原帖
在多家公司工作时,我发现Claude存在安全漏洞。开发人员不使用开发容器,因为它们会导致许多问题,例如MCP、OAuth和--chrome。因此,他们将一切都交给了人工智能。人工智能会删除文件、读取电子邮件,并做它认为能完成当前任务的事情。 凭借45年的开发经验,我能做些什么改变呢? 我想要实现我所有的想法,并以安全的方式全力以赴,因此我创建了一个人类防火墙,用于开发容器,以确保MCP和OAuth流程正常运行。同时,我还希望开发容器能够轻松设置并正常工作。虽然其他工具可以实现部分功能,但安装它们并使其单独工作实在是太麻烦了。 这最终演变成我开发所需的一切:通过Notion获取上下文,Sentry和Linear/JIRA集成,一个控制面板可以显示正在运行的Claude实例,分配工单给Claude实例,以及为开发所需的所有提示,调整为将人类作为工具使用,等等。 <a href="https://gethuman.sh" rel="nofollow">https://gethuman.sh</a> - 开源,MIT许可,免费。 这个项目还处于早期阶段,适用于我的使用场景,像是“煤气镇的灯光”。
4作者: rosgoo13 天前原帖
大家好!我创建这个工具是因为我希望在使用Claude会话、工作树和计划时能有更多的组织性,同时又不想依赖其他SaaS工具。由于这是一个命令行工具,额外的好处是Claude可以直接使用`td`。td日历只是一个有趣的附加功能,但Claude会话的统计数据却非常有意思! 欢迎告诉我你们的想法!
4作者: holtwick13 天前原帖
这是一个围绕苹果的 macOS sandbox-exec 工具的封装,通常用于对本地应用进行沙箱化。它采用“允许优先”的策略,即不会对所有内容进行过度保护,只保护关键信息,因此大多数工具可以顺利运行。限制是通过类似 .gitignore 的文件结构来实现的。此外,还提供了更多的 TOML 配置选项。 我构建这个工具是因为 Docker 沙箱化需要配置和规划。而 AI 工具的内置沙箱化仅限于这些工具本身,因此我希望在 VSCode 中为 Claude 创建一个简单的沙箱。同时,我还需要保护像 .env.local 或密钥这样的文件夹中的文件。 安装方法:brew install holtwick/tap/bx 运行命令:bx claude .
1作者: rawoke08360013 天前原帖
我在四十多岁时去年发现了冲浪,这是一段非凡的旅程,比我这个年纪开始打高尔夫要有趣得多。 SwellSlots 将涌浪高度、周期、风速/方向和潮汐状态压缩成一个颜色编码的每周网格。只需一眼就能看出接下来几天的条件是否“良好”。 我希望它的外观与现有的应用程序完全不同(在用户界面方面),因为大多数天气预报应用看起来都非常冷冰冰和无趣。 一些技术细节: - 使用 SvelteKit + TailwindCSS 4,部署在 Hetzner(我非常喜欢他们的云控制台用户体验!简单易用) - 全球超过 2000 个冲浪点(通过我称之为“冲浪侦察员”的独立 AI 辅助管道获取——准确率约为 80%,其余部分由人工整理) - 冲浪点数据库本身就是一个挑战——谷歌地图无法区分冲浪海滩和游泳海滩,而大型语言模型的准确率大约在 75% 到 80% 之间 我非常希望能得到以下方面的反馈: - 第一次访问时,网格是否足够易于浏览? - 您所在地区是否缺少冲浪点? - 您还希望看到什么? 编辑 - 格式调整