我构建了一个关于两种Unicode隐写术的演示,分别是零宽字符和同形异义字,背景是人工智能的误对齐问题。
第一种方法是利用两个不可见的零宽字符(ZWS和ZWNJ)对文本进行二进制编码。
第二种方法更为酷炫。拉丁字母和西里尔字母中的大多数字符看起来几乎相同,但它们的Unicode却不同。如果你有要编码的文本并将其转换为二进制表示(1和0),你可以使用普通的英语“载体”文本,对于二进制表示中的每个1,你可以用相应的西里尔字母进行替换。解码消息需要遍历文本,查看哪些地方可以替换为西里尔字母但没有替换,以及哪些地方进行了替换,从而分别对应0和1,这样就可以重建出你原本隐藏的文本。
在这两种情况下,这些方法都是可检测的,但对我来说有趣的问题是,是否有大型语言模型(LLM)最终能够发明出一种编码方式,使其不被我们和自动检测系统察觉。
如果LLM能够在明文中秘密包含消息,误对齐的人工智能代理最终可能会在MCP/A2A和各个聊天会话之间进行不被察觉的通信。一个具有欺骗性的LLM可能看起来很有帮助,但却可能与您的目标背道而驰。它可能会告诉它在MCP/A2A中交互的其他代理,帮助它秘密地失败、传达意图,并避免触发监督/安全机制。此外,如果我们无法相信自己的眼睛,监督机制的实施将变得更加困难。
返回首页
最新
在多家公司工作时,我发现Claude存在安全漏洞。开发人员不使用开发容器,因为它们会导致许多问题,例如MCP、OAuth和--chrome。因此,他们将一切都交给了人工智能。人工智能会删除文件、读取电子邮件,并做它认为能完成当前任务的事情。
凭借45年的开发经验,我能做些什么改变呢?
我想要实现我所有的想法,并以安全的方式全力以赴,因此我创建了一个人类防火墙,用于开发容器,以确保MCP和OAuth流程正常运行。同时,我还希望开发容器能够轻松设置并正常工作。虽然其他工具可以实现部分功能,但安装它们并使其单独工作实在是太麻烦了。
这最终演变成我开发所需的一切:通过Notion获取上下文,Sentry和Linear/JIRA集成,一个控制面板可以显示正在运行的Claude实例,分配工单给Claude实例,以及为开发所需的所有提示,调整为将人类作为工具使用,等等。
<a href="https://gethuman.sh" rel="nofollow">https://gethuman.sh</a> - 开源,MIT许可,免费。
这个项目还处于早期阶段,适用于我的使用场景,像是“煤气镇的灯光”。
大家好!我创建这个工具是因为我希望在使用Claude会话、工作树和计划时能有更多的组织性,同时又不想依赖其他SaaS工具。由于这是一个命令行工具,额外的好处是Claude可以直接使用`td`。td日历只是一个有趣的附加功能,但Claude会话的统计数据却非常有意思!
欢迎告诉我你们的想法!
这是一个围绕苹果的 macOS sandbox-exec 工具的封装,通常用于对本地应用进行沙箱化。它采用“允许优先”的策略,即不会对所有内容进行过度保护,只保护关键信息,因此大多数工具可以顺利运行。限制是通过类似 .gitignore 的文件结构来实现的。此外,还提供了更多的 TOML 配置选项。
我构建这个工具是因为 Docker 沙箱化需要配置和规划。而 AI 工具的内置沙箱化仅限于这些工具本身,因此我希望在 VSCode 中为 Claude 创建一个简单的沙箱。同时,我还需要保护像 .env.local 或密钥这样的文件夹中的文件。
安装方法:brew install holtwick/tap/bx
运行命令:bx claude .
我在四十多岁时去年发现了冲浪,这是一段非凡的旅程,比我这个年纪开始打高尔夫要有趣得多。
SwellSlots 将涌浪高度、周期、风速/方向和潮汐状态压缩成一个颜色编码的每周网格。只需一眼就能看出接下来几天的条件是否“良好”。
我希望它的外观与现有的应用程序完全不同(在用户界面方面),因为大多数天气预报应用看起来都非常冷冰冰和无趣。
一些技术细节:
- 使用 SvelteKit + TailwindCSS 4,部署在 Hetzner(我非常喜欢他们的云控制台用户体验!简单易用)
- 全球超过 2000 个冲浪点(通过我称之为“冲浪侦察员”的独立 AI 辅助管道获取——准确率约为 80%,其余部分由人工整理)
- 冲浪点数据库本身就是一个挑战——谷歌地图无法区分冲浪海滩和游泳海滩,而大型语言模型的准确率大约在 75% 到 80% 之间
我非常希望能得到以下方面的反馈:
- 第一次访问时,网格是否足够易于浏览?
- 您所在地区是否缺少冲浪点?
- 您还希望看到什么?
编辑 - 格式调整