1作者: cedel2k1大约 1 个月前原帖
大家好,我是Sascha,OkaiDokai的开发者。和许多人一样,我对OpenClaw情有独钟,但我希望能对其功能有更多的控制,而不干扰它的自主性和代理性。OkaiDokai为我解决了这个问题,它允许我设置自己的规则集,定义默认允许的内容、禁止的内容以及需要请求权限的内容。它配备了托管API、网页和本地应用程序,包括推送通知(支持快速响应)、OpenClaw和Claude Code的插件,未来还会支持Codex。 我仍在努力将这些应用程序上线到App Store(目前在TestFlight和Android测试渠道),同时也在对规则引擎和用户界面进行一些改进。如果有人敢于尝试,应该足够好进行快速测试! 我刚创建了一个新的Discord服务器([https://discord.gg/M25cCwJ5x7](https://discord.gg/M25cCwJ5x7)),如果你想试试,请跟我打个招呼,并提供任何反馈。我现在几乎全天候在添加新功能和改进。我还计划很快以可持续使用许可证发布源代码,因为我认为让更多人关注它并允许他人贡献是很重要的。 感谢阅读 :)
1作者: agentic-wiki大约 1 个月前原帖
最初作为一个病毒式传播的“Mac Mini”爱好者项目,最终以其创始人在情人节“硬启动”加入OpenAI而告终。<p>但真正的故事并不在于招聘本身,而在于供应链的衰退。<p>我对这一过渡的技术层面进行了审计,特别关注以下内容:<p>CVE-2026-25253(1-Click RCE):缺失的WebSocket源验证如何使任何网站都能劫持本地代理并窃取主机凭证。<p>“ClawdHub”中毒:一个未经审查的“技能”市场如何在社区被名称更改分散注意力时,成为AMOS信息窃取工具的传播机制。<p>氛围编码与工程:为何以“默认根权限”和没有权限边界的方式构建代理,使得这个项目对超过6万名开发者来说成为了致命的负担。<p>这篇文章对“致命三重奏”——代理AI的根访问、非信任内容暴露和缺失的防护措施进行了法医式的剖析。
2作者: sudeshss大约 1 个月前原帖
开发了一款移动应用,能够生成可加密验证的已完成服务工作的证明。应用通过SHA-256对前后照片进行哈希处理,使用Ed25519进行签名,时间戳通过符合RFC 3161标准的freetsa进行锚定,并嵌入GPS坐标。 仅支持客户端验证,无需后端信任。签名在一个临时内存沙箱中进行本地验证。任何对照片、时间戳、GPS或元数据的篡改都会立即使签名失效。 技术栈:React Native、Golang、Ed25519、SHA-256、RFC 3161 TSA、通过Groq生成的AI工作叙述。 旨在解决零工经济中的信任问题。目标市场包括承包商、清洁工、快递员和物业管理。 现寻求出售完整的知识产权和源代码。联系方式:mozar.t@yahoo.com
8作者: mbuda大约 1 个月前原帖
是否存在一个衡量人们能够有效处理多少数据的尺度,类似于“卡尔达肖夫数据尺度”?这样一个尺度可以叫什么名字?在Memgraph的社区电话会议中(https://youtu.be/ygr8yvIouZk?t=1307),提到AgenticRuntimes和GraphRAG可以使你在“卡尔达肖夫数据尺度”上向上移动,因为你突然能够从任何数据集中获得更多的洞察,而且每个人都可以使用它(大型企业并不控制它)。我在https://adamdrake.com/from-enterprise-decentralization-to-tokenization-and-beyond.html#productize上发现了一些类似的内容,但其定义/示例看起来非常狭窄。
1作者: beowa大约 1 个月前原帖
大家好, 这是法律RAG基准(Legal RAG Bench),这是第一个用于同时评估法律RAG系统中的幻觉、检索失败和推理错误的基准。 我们基准的关键要点包括: 1. 嵌入模型,而非生成模型,是RAG准确性的主要驱动因素。从像OpenAI的文本嵌入3大型这样的通用嵌入模型切换到法律领域的嵌入模型,例如Kanon 2嵌入模型,可以将准确性提高约19个百分点。 2. 幻觉通常是由检索失败引发的。修复你的检索系统,在大多数情况下,你将最终修复幻觉问题。 3. 一旦你拥有一个稳固的法律检索引擎,所使用的生成模型就不那么重要;GPT-5.2和Gemini 3.1 Pro的表现相对相似,Gemini 3.1 Pro在准确性上稍微好一些,但代价是更多的幻觉。 4. 谷歌最新的LLM,Gemini 3.1 Pro,在法律RAG方面的表现实际上比其前身稍差,准确率为79.3%,而不是80.3%。 这些发现证实了我们之前的怀疑,即信息检索设定了法律RAG系统准确性的上限。无论你多聪明,如果没有访问到最新的加州车辆法典,你不可能神奇地知道加州超速的处罚是什么。 尽管如此,据我们所知,我们是第一个实际通过实证展示这一点的团队。 不幸的是,正如我们在报告中强调的,高质量的开放法律基准,如法律RAG基准和我们早期的庞大法律嵌入基准(MLEB),实在是少之又少。 例如,我们指出,流行的Vals AI CaseLaw(v2)基准所产生的LLM排名与我们的排名不可思议且截然不同,同时也未能正确评估端到端的RAG性能。由于CaseLaw(v2)是一个私有和专有的基准,我们无法确认我们发现的差异的来源,尽管我们怀疑它们源于严重缺陷的评估和标记方法。 为了透明起见,我们不仅详细说明了我们如何构建法律RAG基准,还在Hugging Face上公开发布了我们所有的数据,链接如下:<a href="https://huggingface.co/datasets/isaacus/legal-rag-bench/" rel="nofollow">https://huggingface.co/datasets/isaacus/legal-rag-bench/</a>。我们也将很快将我们的报告以论文形式发布。