13作者: azurewraith大约 1 个月前原帖
目前,代理式问题解决方案非常脆弱。我对它产生了浓厚的兴趣,但它所带来的问题与解决的问题一样多。 我叫本·科克伦(Ben Cochran),在全栈工程、DevOps、高性能计算和机器学习领域有超过20年的经验,曾在NVIDIA、AMD及其他多个组织工作,最近担任杰出工程师。 为了让代理可靠地工作,你要么需要大量的参数,要么需要巨大的上下文窗口,以保持解决方案空间的可用性。大多数人通过更大的模型和更长的提示来强行提高可靠性。 如果我通过缩小问题而不是扩大模型呢? 我采取了不同的方法,使用较小的模型:参数范围在130亿到200亿之间,并将其用于解决真实的软件工程基准问题。我通过使用形式状态机来限制工具和解决方案空间。状态机中的每个状态定义了模型可以访问的工具、可进行的迭代次数以及有效的转换。规划状态只能使用只读工具。实现状态可以使用编辑工具(范围限制以防止大规模编辑)和友好的写入bash工具。测试状态可以使用bash,但仅限于测试命令。模型不能在物理上跳过步骤或在错误的时间使用错误的工具。这是通过协议强制执行的,而不是通过提示。 结果比我预期的更有希望。在多个模型系列中,无论其年龄如何(如qwen-coder、gpt-oss、gemma4),在130亿参数的拐点以上,改进都是一致的。在此拐点以下,模型可以导航状态机,但无法保留足够的上下文以产生准确的编辑。有关研究的更多信息,请访问:<a href="https://statewright.ai/research" rel="nofollow">https://statewright.ai/research</a> 令人惊讶的是,这也在前沿模型中带来了改进。Haiku和Sonnet开始表现得超出预期,而Opus在使用更少的令牌和避免死循环的情况下解决问题的可靠性更高。微调并没有为我带来这样的功能性改进。看起来,关键在于上下文窗口的利用比原始上下文的大小更为重要——在每一步中,紧密范围的工作上下文优于对所有内容拥有完全自由的模型。通过使用确定性代码来约束非幂等的LLM是一种目前没人讨论的模式。 因此,我构建了Statewright。它的核心是一个Rust引擎,用于评估状态机定义:状态、转换、保护和工具限制。它的调度不使用LLM,只是强制执行状态机。在此之上是一个插件层,通过MCP与Claude Code(以及即将推出的Codex、Cursor等)集成。当你激活工作流时,钩子会自动根据每个状态强制执行保护措施。模型可用的工具只有5个,而不是数十个,并且在当前阶段获得明确的指令,并在条件满足时进行转换。重要的是,它会告诉模型何时尝试做一些超出范围、错误的事情,或者在卡住后需要尝试其他方法。 你可以通过MCP使用你的代理为你构建一个状态机,以在当前上下文中解决问题。statewright.ai上的可视化编辑器让你可以在图形视图中调整这些工作流……你可以清楚地看到失败路径、重试循环和审批门。状态机不是有向无环图(DAG);它们会循环和重试,这正是代理工作所需的。 Statewright目前已经上线,提供免费层级,可以通过在Claude Code中运行以下命令进行尝试: ``` /plugin marketplace add statewright/statewright /plugin install statewright /reload-plugins ``` 然后“启动bug修复工作流”或`/statewright start bugfix`。当提示时,你需要粘贴你的API密钥。最新版本的Claude可能会发出警告——再次粘贴API密钥并说明你是认真的,Claude只是小心而已。 欢迎对工作流编辑器、插件体验提供反馈,并告诉我你希望首先构建哪些工作流。代理是建议,状态是规则。
1作者: sinameraji大约 1 个月前原帖
嘿,HN,我是Sina。 我有一些Cloudflare的积分将在5月14日到期,不知道该如何处理。当Kimi K2.6发布并在Workers AI上可用时,我决定用它构建一个开源的Claude代码克隆。对此我没有多想。(有人问我是否知道OpenCode,老实说,我是在构建这个之后才了解到它们的,但它们看起来真的很棒。) 总之,Kimiflare是一个CLI编码助手,基本上是Claude代码,但由Kimi K2.6在Cloudflare Workers AI上提供支持。 目前版本是v0.57.0,已经获得了超过12,000次的npm下载,137个GitHub星标,以及来自4位贡献者的PR(包括Marshall Thompson在FeatherJS中的Zed/ACP集成)。积分是Cloud层存在的唯一原因,因此一旦它们在周四到期,我将停止该服务,项目将继续作为开源/自带密钥(BYOK)进行。 我将向在积分到期之前注册的每位用户赠送500万代币——无需信用卡。您在注册时选择Cloud选项时,将自动获得这些代币。 代码库: [https://github.com/sinameraji/kimiflare](https://github.com/sinameraji/kimiflare) 安装:npm i -g kimiflare 欢迎随时提问。 附言:我在Kimiflare的前2-3次提交中使用了Claude代码,然后从v0.3.0开始使用Kimiflare自我构建,以实现最大程度的自我使用。这是一次有趣的经历。
1作者: morelandjs大约 1 个月前原帖
我开发了Chumlord,这是一款小型iOS应用,旨在帮助我与关心的人保持联系。为每位朋友设定联系频率,它会告诉你哪些人已经过期未联系。无需注册账号,也不收集数据,只需打开应用即可查看你的朋友名单的健康状况!<p>这款应用在技术上并不复杂,但我注意到在HN上经常讨论社交圈日渐萎缩的话题,因此我决定尝试将这个问题具象化,并提供一个工具来解决它。使用了一个星期,我真的很喜欢这个应用!<p><a href="https:&#x2F;&#x2F;apps.apple.com&#x2F;us&#x2F;app&#x2F;chumlord&#x2F;id6767711584">https:&#x2F;&#x2F;apps.apple.com&#x2F;us&#x2F;app&#x2F;chumlord&#x2F;id6767711584</a>