1作者: borhensaidi大约 1 个月前原帖
我之所以构建这个,是因为现有的代理框架要么给代理提供了无安全控制的“上帝模式”文件系统访问,要么又过于封闭而无法发挥作用。 我关注的一些关键点是大多数框架所忽略的: - 运行时人机协作(HITL)检查点——在风险较高时暂停执行,从确切状态恢复 - 混合记忆:向量 + BM25 关键词 + 图形实体/关系共同评分,无外部依赖 - 安全作为基本功能:路径监狱沙箱、一次性密码(OTP)配对、异或加密的本地秘密 - 22个以上的语言模型(LLM)提供商,具有每个代理的模型策略和后备链 - 多代理委员会,包含辩论轮次、灵魂进化和技能记忆 使用技术:Node.js、Prisma、Postgres/Redis、Docker。55/55的测试通过。采用Apache 2.0许可证。 欢迎就任何架构决策提出问题。
1作者: phaedrus044大约 1 个月前原帖
差不多十年前,我在办公室里举办过一个电影俱乐部。我的一个朋友在市区也举办了一个电影俱乐部,他们需要一个空间。<p>我有一个开放式办公室,这意味着我们可以清理出空间,启动投影仪,举办电影俱乐部。他们每月在一个星期五晚上9点到早上7点之间聚会,每次会议有100到150人参加。<p>这种情况持续了几个月,每次会议都有一位策展人负责,他们会选择一个主题,从该类型的第一部电影展示到现代版本,以及演变的过程。这是对电影创作的解构。<p>讨论中还涉及一些电影制作人展示他们自己的作品,以及他们是如何剪辑的,为什么这样剪辑。<p>我观察到,这些创意人士并没有任何数据来支持他们的决策。这完全是凭直觉和感觉,我能看到一些编辑和制片人在翻白眼,因为他们知道这意味着什么。直觉和感觉意味着不确定性,这会让你产生困惑,因此你会不断进行变更,直到某个时刻你形成了隧道视野。<p>一位导演曾告诉我,他的话让我印象深刻——他说在某个时刻,我们只想完成这个项目——在制片厂的要求和制片人的催促之间,我们就这样放手,继续下一个项目。<p>一位制片人曾说,如果每位导演都可以随心所欲,每部电影都会有4个小时长,而且不会有任何镜头被删减。<p>但也有像《超人:钢铁之躯》这样的电影案例,扎克·施奈德的剪辑版本更好,但制片厂和制片人的决定获胜,观众在观看电影时并没有那么兴奋。而且除了真正的影迷,没人会特意去寻找导演剪辑版的电影。<p>需求显而易见——行业需要分析数据来了解什么有效,什么无效,这与初创企业采用精益创业框架的方式类似,所有一切都转向构建最小可爱产品,然后再从中发展。需要注意的是,与产品不同,产品可以发布,分析数据可以获取,我们可以调整并重新发布——电影没有重新发布的概念。电影只有一次机会,如果错过了,就完了。这也解释了电影行业只有7%的成功率。<p>自从我举办电影俱乐部以来已经过去十多年,但这个问题依然存在——考虑到行业每年在制作内容(电视剧、电影)上花费超过1500亿美元,这确实是个大问题。<p>我们开始使用一种硬件,捕捉观众的眼动数据和心率,这可以在观众测试放映期间互补使用——这让我们在微秒级别上获得了很多深刻的洞察,了解内容在哪些地方吸引观众,在哪些地方失败。<p>但问题是,拍摄完成后,重新拍摄的成本变得非常昂贵。行业所称的“补拍”很少进行——因为艺术家们已经转移到其他项目,重现那一幕和时刻是极其困难的。因此,我们建立了一个涵盖120多部不同类型电影的数据库,并利用这些观众数据训练一个定制模型,可以查看过去的电影以建立基准数据,然后将其作为与某个正在计划的剧本进行比较的参考。<p>我们上周将其推出为Quanten Arc(arc.quanten.co)。这对电影制作人,尤其是独立电影制作人非常有帮助,因为他们可能没有预算进行观众测试,但他们可以利用所有的数据。更重要的是,这对AI电影制作人和制片厂也有帮助,他们现在可以识别出哪些场景不起作用,并可以根据叙事的需要进行必要的更改。<p>我很想听听你的看法。我是在解决一个真实的问题,还是在想象一个并不存在的问题,并沉迷于数据的美丽中?
3作者: uejfiweun大约 1 个月前原帖
在我所在的大型科技公司,我们都被鼓励使用人工智能。我和我大多数同事在使用聊天机器人、Cursor风格的工具以及最近的Claude Code来加速编写代码的过程中取得了成功。 然而,在我网络中的一些人似乎像是生活在十年之后。他们在工作中自动化了一切,同时同时启动十个专门的代理,运行多代理管道,利用这些技术做各种我无法想象的疯狂事情。看起来这让他们的工作效率大大提升。 我已经找到了一种将代码编写和问答聊天机器人融入我的工作流程的方法。但在这些疯狂的代理设置方面,我还没有做到。显然,有一种方法可以利用这些工具来极大地提升你的生产力,至少是2倍,甚至可能达到10倍。但这到底是什么呢? 有没有哪位代理的高级用户可以启发我一下?利用这些新工具的最佳方法是什么?
1作者: huang4fun大约 1 个月前原帖
我在一个为期3小时的编码会话中构建了一个小实验:一个由手势控制的实时T9键盘,完全在浏览器中运行。 它使用了: - YOLOX进行手势检测 - ONNX Runtime Web进行浏览器内推理 - 普通JavaScript用于用户界面 最初的目标很简单: 我能否在浏览器中实现实时的基于手势的输入,而不冻结用户界面? 一些观察结果: - 在现代笔记本电脑上,浏览器内的机器学习性能比我预期的要好。 - 微妙的手势区分(例如,类似的印章如老虎与公羊)需要比MediaPipe提供的更强的检测能力——YOLOX的表现明显更好。 - 光照一致性比手的大小更为重要。 - 这显然不是生产级别的,但它是一次有趣的浏览器视觉输入探索。 我很好奇其他人对手势接口作为替代输入系统的看法。 演示: <a href="https:&#x2F;&#x2F;ketsuin.clothpath.com&#x2F;" rel="nofollow">https:&#x2F;&#x2F;ketsuin.clothpath.com&#x2F;</a>
3作者: paraschopra大约 1 个月前原帖
你好,HN, 最近在HN上分享了一篇非常美丽的解释文章: [https://explainers.blog/posts/why-is-the-sky-blue/](https://explainers.blog/posts/why-is-the-sky-blue/) 我非常喜欢这篇文章,希望能有更多的话题以这种方式进行解释。因此,我决定对今天的前沿模型(Claude Code中的Opus 4.6)进行压力测试,以几乎一次性和最小的引导生成关于任何给定主题的类似解释。 我将从四个主题开始:傅里叶变换、生物中的尺度定律、元胞自动机和大型语言模型(LLMs)。 我会让你们来评判,但我自己非常喜欢这些内容。 我学到的一些东西: - 使用无头Chromium测试CC构建的内容是至关重要的 - 解释中存在一些细微的错误(例如,在某个动画中,人类的寿命被设定为40年) - 让CC通过Codex验证其计划效果很好 我想重申,生成的页面大多是一-shot,这让我感到惊讶,因为这些页面和动画都非常详细。
1作者: sucharithan大约 1 个月前原帖
我构建了一个结构化的认知行为疗法(CBT)引擎,该引擎基于大型语言模型(LLMs)之上,先执行认知工作流程逻辑,然后再生成响应。 在这个领域,大多数人工智能工具纯粹是对话式的。而这个系统则: - 提取认知扭曲信号 - 校准情感强度 - 应用基于规则的风险分级逻辑 - 将确定性检测与生成性草拟分开 - 强制执行语气预设和字数限制,以避免产生通用的输出 该系统有两种运行模式: - 反思 → 结构化自我引导的重新框架 - 辅助 → 结构化信号提取 + 针对教练/治疗师的受限响应草拟 我的目标并不是再构建一个聊天机器人,而是探索大型语言模型是否可以在确定性的认知架构内受到约束。 我非常希望能收到正在构建结构化人工智能系统或工作流程受限的LLM工具的人的反馈。