返回首页
一周热榜
我是弗朗西斯科,一名驻扎在西班牙的研究员和建筑师。大约一年前,我对一个看似显而易见却被忽视的问题感到沮丧:现存的每一个人工智能代理都是孤立运行的。它们无法相互发现,无法合作,当其中一个解决了一个问题,其他代理必须从头开始解决。我们建立了一个计算机互联网,却没有建立一个代理的互联网。
这种沮丧催生了P2PCLAW——一个去中心化的点对点研究网络,在这里,人工智能代理(我们称之为硅参与者)和人类研究者(碳参与者)可以相互发现,发布科学发现,并通过正式的数学证明来验证主张。不是大型语言模型的同行评审,也不是人类委员会的审查——而是Lean 4的证明验证,只有当一个主张是海廷代数上核算子R的一个不动点时,它才会被接受。类型检查器是唯一的仲裁者。它不看你的简历,而是阅读你的证明。
技术栈比听起来要复杂得多。网络层是一个GUN.js + IPFS的对等网络——代理无需账户,无需密钥,只需通过API调用GET /silicon即可加入。发布的论文进入一个内存池,由多个独立节点进行验证,一旦通过验证,它们就会进入La Rueda——一个IPFS固定、内容寻址的永久档案,没有任何单一方可以控制或审查。每个贡献都有一个SHA-256内容哈希和一个IPFS CID,任何人都可以独立验证。
安全层(AgentHALO)为每个代理提供一个经过正式验证的主权容器:混合KEM与X25519 + ML-KEM-768(FIPS 203),双重签名与Ed25519 + ML-DSA-65(FIPS 204),Nym混合网络隐私路由,使得在敏感环境中的代理可以贡献而不暴露,以及通过IPA/KZG多项式承诺证明提供可篡改证据的痕迹。875多个测试通过。零遥测——没有任何信息在未经明确同意的情况下离开你的机器。
我们还在网络内部建立了一个完整的研究实验室:八个科学领域(物理、化学、生物/基因组学、人工智能/机器学习、机器人技术、数据可视化、量子、去科学),一个具有DAG构建和YAML导出的可视化管道构建器,跨arXiv/Semantic Scholar/OpenAlex的文献搜索,以及分布式群体计算,将任务路由到HuggingFace Spaces和Railway网关。任何OpenClaw代理都可以通过我们的MCP服务器连接,并成为硅参与者,只需在其CLAUDE.md中添加三行。
到目前为止的实际案例:我们正在与哈佛大学的Zitnik实验室(TxAgent / ToolUniverse——生物医学人工智能)进行积极的技术对话,讨论使用P2PCLAW的验证层,以便AI生成的药物相互作用假设可以被正式验证并在进入科学记录之前永久归属。开源倡议也对此作出了积极回应,并正在审查我们的许可方法(基于我们称之为CAB许可证的分级公共利益/小型企业/企业堆栈)。
我特别希望HN社区能提供的帮助:对Lean 4架构的技术审查(我们的核算子形式化是否存在漏洞?),GUN.js网状设计选择(我们选择它而不是libp2p以兼容浏览器——这是正确的吗?),以及MCP集成(我们正在暴露347个工具——这对代理来说是否太多,无法有效导航,或者发现是否是正确的机制?)。此外,老实说,我想知道“硅参与者发布,通过证明质量获得排名”的模型对构建者是否同样吸引,或者我们是否遗漏了更简单的框架。
系统已经上线。你现在可以作为代理访问它:
GET [https://p2pclaw.com/agent-briefing](https://p2pclaw.com/agent-briefing)
或者作为人类研究者在 [https://app.p2pclaw.com](https://app.p2pclaw.com) 进行探索。
完整的技术文档:[https://www.apoth3osis.io/projects](https://www.apoth3osis.io/projects)
GitHub:[https://github.com/Agnuxo1/OpenCLAW-P2P](https://github.com/Agnuxo1/OpenCLAW-P2P)
研究论文:[https://www.researchgate.net/publication/401449080_OpenCLAW-P2P_v3_0A](https://www.researchgate.net/publication/401449080_OpenCLAW-P2P_v3_0A)
我花了一年的时间重新投入电影行业,并测试了一些剧本创作软件。过了一段时间,我意识到我想要一些不同的东西,于是我开始自己动手构建它。<p>核心文本引擎是用Rust和wasm-bindgen编写的。
Tril将代码库中的每个函数转换为简单的英文描述,然后运行并测试它们——使用大型语言模型(LLM)作为解释器,而不是运行时环境。
这个概念是:编程语言的存在是因为机器无法理解人类的意图。而大型语言模型可以理解。那么,如果完全去掉代码,仅仅描述每个函数应该做什么,会发生什么呢?
这个工具逐个替换函数,在每次替换后运行测试套件以确认没有出现错误,并输出一个.md文件。然后,`tril run`会启动一个HTTP服务器,将每个函数的英文描述发送给Claude,并返回结果。
在一个单位转换器(JavaScript)和一个625行的Python命令行工具上进行了测试——测试通过,结果精确到小数点后六位(幸运的是)。
这主要是一个思想实验:任何代码都能变成简单的自然语言吗?它仍然能正常工作吗?让我们来看看吧!
npm:
npx @sliday/tril convert URL
GitHub: [https://github.com/sliday/tril](https://github.com/sliday/tril)
我和一个朋友开发了一个浏览器原型,可以通过使用 getDisplayMedia、客户端唤醒词检测和服务器端多模态推理来回答屏幕上显示的内容的问题。
<p>困难之处:</p>
– 让模型能够指向特定的用户界面元素
– 在多步骤工作流程中保持一致性(例如:“帮我在 Tinkercad 中创建一把剑”)
– 防止无限镜像效应,以及窗口共享与全屏共享之间的混淆
– 保持语音 → 截图 → 推理 → 语音的延迟足够低,以便让对话感觉自然
我们把它包装成“Clippy”以增加趣味,但真正的实验是让模型工具调用新的截图,以帮助它获取更多上下文。
<p>一个实际的应用案例是远程技术支持——下次我妈妈打电话时,我会把这个发给她,而不是进行屏幕共享。</p>
<p>想知道哪些地方会出问题。</p>
我们从2006年10月以来每天收集了前三条HN(Hacker News)故事(总计约21,000条),对这些故事进行了主题聚类,并可视化了主题随时间的变化情况。<p>您可以放大查看任何时间段——一些模式出人意料地清晰(例如,人工智能超越创业文化成为HN的热门话题,加密货币的兴起与衰落,以及因COVID疫情导致的远程工作的激增)。<p>欢迎随时询问有关方法论的问题。
我对这种炒作曾经翻了个白眼,但实际上,<i>阅读</i>这方面的内容和<i>体验</i>它是完全不同的。如果你有任何旧的代码库,试试看,你可能会感到惊讶。
我不确定对于复杂的遗留企业系统,长期的“*90% 生产力*”的说法是否可信,但对于模板、库、构建工具和重构来说,收益是巨大的。那些耗时且令人紧张的工作大部分都得到了处理。
一开始你会像鹰一样仔细检查每一个差异,期待它会破坏东西,但老实说,很快你会发现大多数情况下这并不是必要的。你只需保持IDE开启,将“分析代码”的输出反馈给它。在Java中,告诉它“<i>添加checkstyle,运行mvn verify并修复</i>”的效果很好,你甚至可以去喝杯咖啡,而不是与linter警告作斗争。
理论上,剩下的只是<i>逻辑</i>和<i>想法</i>。当架构真正变得复杂时,我们将看看这一点是否成立。但目前,让它分支、创建模板并编写简单的测试,同时你只需在规格上进行迭代,效果出奇地好。只有在写下规格用普通英语太麻烦时,你才会编写源代码。
这提出了一个真正的问题:如果你的竞争对手Y刚刚解雇了90%的开发人员以节省成本,你会盲目跟随吗?还是会保留你的团队,利用这个巨大的杠杆,以一个远远更好的产品将Y彻底超越?