2作者: tonyspiro11 天前原帖
嗨,我是Tony,Cosmic的创始人(一个基于AI的无头CMS和应用开发平台)。我们一直遇到同样的问题:借助AI代理创建博客文章,然后将输出用于另一个提示以生成社交媒体帖子,最后手动发布到X、LinkedIn和Facebook。每次都是如此。 因此,我们构建了AI工作流——将多个代理链在一起,让它们自主运行,每个步骤都接收来自前一步的输出。 您可以链式连接的三种代理类型: - 代码代理:在GitHub中构建功能,进行提交和拉取请求。 - 内容代理:根据前一步的上下文生成CMS内容。 - 计算机使用代理:自动化浏览器工作流程并录制演示。 工作原理: 1. 定义步骤,包括代理类型、提示和配置。 2. 步骤可以顺序或并行运行(可配置)。 3. 上下文在步骤之间自动传递。 4. 可以手动触发、按计划(cron)触发,或通过CMS和API事件(如object.created、object.edited等)触发。 5. 在关键步骤之前添加审批环节以供人工审核。 示例:自动化功能开发: 步骤1:内容代理根据用户反馈撰写功能规格。 步骤2:代码代理构建该功能,创建PR并部署到生产环境。 步骤3:内容代理生成文档和更新日志条目。 步骤4:计算机使用代理将更新发布到团队的Slack,附上PR链接和预览URL。 目前处于测试阶段。非常希望能收到您对工作流模型的反馈,以及您希望自动化的用例。
6作者: Flux15911 天前原帖
嗨,HN,我正在开发 Mystral Native——一个轻量级的本地运行时,让你可以使用标准的 Web API(WebGPU、Canvas 2D、Web Audio、fetch)用 JavaScript/TypeScript 编写游戏,并将其作为独立的桌面应用程序运行。可以把它想象成“游戏的 Electron”,但没有 Chromium。或者像 Node、Deno 或 Bun 的 JavaScript 运行时,但针对 WebGPU 进行了优化(并使用 SDL3 打包了窗口/事件系统)。 为什么要做这个:我最初是想基于 WebGPU 开发一个新的游戏引擎,我喜欢用 TypeScript 编写代码并通过热重载立即在浏览器中看到变化的迭代循环。在实现了一些功能并发布了一个演示后,我意识到如果我还希望同一代码库在移动设备上运行,发布一个完整的浏览器并不现实。当然,我可以使用 webview,但这并不总是能为用户提供良好或一致的体验——在 iOS 上,Safari 对 WebGPU 的支持存在细微差别,而桌面版 Chrome 则有不同的功能。我真正想要的是一个在任何平台上都一致且可用的 WebGPU 运行时。我受到 Deno 的 --unsafe-webgpu 标志的启发,但我意识到 Deno 可能不适合长期使用,因为它不支持 iOS 或 Android,并且不打包窗口/事件系统(他们有“自带窗口”,但这意味着需要编写大量自定义代码来处理事件、窗口管理,更不用说实现 WebAudio shim 等更具体的内容)。因此,我开始了构建一个专门为游戏设计的本地运行时的道路,这就是 Mystral Native。 现在,借助 Mystral Native,我可以拥有相同的开发体验(编写 JS,使用 WGSL 着色器,调用 requestAnimationFrame),但可以生成一个真正的本地二进制文件,能够在任何平台上交付给玩家,而无需依赖 webview 或浏览器。没有 200MB 的 Chromium 运行时,没有 CEF 的开销,只有游戏代码和大约 25MB 的运行时。 它的功能包括: - 通过 Dawn(Chrome 的实现)或 wgpu-native(Rust)提供完整的 WebGPU 支持 - 通过 SDL3 提供本地窗口和事件 - 支持 Canvas 2D(Skia)、Web Audio(SDL3)、fetch(文件/http/https) - 使用 V8 作为 JS 引擎(与 Chrome/Node 相同),同时支持 QuickJS 和 JSC - 支持 ES 模块,通过 SWC 使用 TypeScript - 编译为单个二进制文件(类似于“pkg”):`mystral compile game.js --include assets -o my-game` - macOS 的 .app 包含代码签名,Linux/Windows 的独立可执行文件 - 为 iOS 和 Android 提供嵌入 API(JSC/QuickJS + wgpu-native) 目前处于早期 alpha 阶段——核心渲染路径运行良好,我已经在 Mac、Linux(Ubuntu 24.04)和 Windows 11 上进行了测试,并为 iOS 和 Android 制作了一些自定义构建以验证它们的可行性,但还有很多需要改进的地方。非常希望能得到一些反馈,看看它能走向何方! MIT 许可证。 仓库: [https://github.com/mystralengine/mystralnative](https://github.com/mystralengine/mystralnative) 文档: [https://mystralengine.github.io/mystralnative/](https://mystralengine.github.io/mystralnative/)
5作者: lcolucci11 天前原帖
大家好,我们是LemonSlice的联合创始人(<a href="https://lemonslice.com">https://lemonslice.com</a>)。我们专注于训练互动头像视频模型。我们的API允许您上传照片,并立即与该角色进行类似FaceTime的通话。这里有一个演示:<a href="https://www.loom.com/share/941577113141418e80d2834c83a5a0a9" rel="nofollow">https://www.loom.com/share/941577113141418e80d2834c83a5a0a9</a>。 聊天机器人无处不在,语音AI最近也迅速发展。但我们相信,视频头像将成为对话式AI最常见的形式。大多数人更愿意观看视频而不是阅读文本。问题在于,实时生成视频是非常困难的,而克服“恐怖谷”现象则更具挑战性。 我们尚未突破“恐怖谷”。没有人做到过。但我们正在接近,我们的照片级真实头像目前是业内最佳(您可以自己判断:<a href="https://lemonslice.com/try/taylor">https://lemonslice.com/try/taylor</a>)。此外,我们是唯一能够生成动物和高度风格化卡通头像的模型。试试这个:<a href="https://lemonslice.com/try/alien">https://lemonslice.com/try/alien</a>。警告!与这个小家伙交谈可能会改善你的心情。 今天,我们发布了我们的新模型* - Lemon Slice 2,这是一个20亿参数的扩散变换器,能够在单个GPU上以20帧每秒生成无限长度的视频,并开放我们的API。 我们是如何让视频扩散模型实时运行的呢?并没有单一的技巧,而是许多技巧的叠加。第一个重大变化是使我们的模型具备因果性。标准的视频扩散模型是双向的(它们同时查看当前帧之前和之后的帧),这意味着无法进行流式传输。 接下来就是将所有内容适配到一个GPU上。我们从全窗口注意力切换到滑动窗口注意力,这解决了我们的内存瓶颈。我们将去噪步骤从40步精简到仅几步 - 质量下降的程度低于我们的预期,尤其是在使用基于GAN的蒸馏之后(尽管调整对抗损失以避免模式崩溃也是一段冒险的旅程)。 其余的工作是推理:将RoPE从复杂改为真实(这个很酷!),精度调优,融合内核,特殊的滚动KV缓存,许多其他缓存等等。我们尽可能地削减毫秒,最终达到了实时效果。 我们为HN设置了一个访客游乐场,您可以在不登录的情况下创建和与角色对话:www.lemonslice.com/hn。对于希望使用我们API构建的用户(我们有一个新的LiveKit集成,令人兴奋!),请在HN游乐场获取一个优惠码,享受您的第一个专业月免费(价值100美元)。查看文档:<a href="https://lemonslice.com/docs">https://lemonslice.com/docs</a>。定价基于使用,每分钟视频生成费用为0.12-0.20美元。 期待您的反馈!我们也很想看到您制作的任何酷炫角色 - 请在评论中分享它们的链接。 *我们去年为我们的V1模型做了一个Show HN:<a href="https://news.ycombinator.com/item?id=43785044">https://news.ycombinator.com/item?id=43785044</a>。从技术上讲,它令人印象深刻,但与我们今天的产品相比实在太差了。
3作者: Berticus1211 天前原帖
我创建Lightbox是因为我不断遇到同样的问题:一个代理在生产环境中失败,而我无法知道实际发生了什么。<p>日志分散,LLM的“我调用了工具”并不可靠,而重新运行也不是确定性的。<p>本周,大量Clawdbot事件进一步强调了这一点。具有完全系统访问权限的代理可能会暴露API密钥和聊天记录。提示注入现在成为一个主要的安全隐患。<p>当代理能够访问你的文件系统、执行代码和浏览网络时……你可能需要一个防篡改的记录,准确记录它采取的每一个行动,特别是当恶意提示或被攻陷的网页可能在会话中劫持代理时。<p>Lightbox是一个小型Python库,可以将代理进行的每一次工具调用(输入、输出、时间)记录到一个仅可追加的日志中,并附带加密哈希。你可以使用模拟响应重放运行,比较不同版本之间的执行,并在事后验证日志的完整性。<p>可以把它想象成飞机黑匣子,但用于你的黑客工具箱。<p>*它的功能:*<p>- 本地记录工具调用(无云端,使用你的基础设施)<p>- 防篡改日志(哈希链,可验证)<p>- 精确重放失败的记录响应<p>- 命令行界面用于检查、重放、比较和验证会话<p>- 与框架无关(适用于LangChain、Claude、OpenAI等)<p>*它不具备的功能:*<p>- 不重放LLM本身(仅记录工具调用)<p>- 不是仪表板或分析平台 <p>- 不试图取代LangSmith/Langfuse(解决的是不同的问题)<p>*我关心的使用案例:*<p>- 安全取证:代理表现异常,是不是提示注入?检查记录。<p>- 合规性:“证明你的代理上周二做了什么”<p>- 调试:在不重新运行昂贵的API调用的情况下重现失败<p>- 回归测试:比较不同代理版本之间的工具调用模式<p>随着代理变得越来越强大和自主(Clawdbot/Molt、Claude计算机使用、Manus、Devin),我认为我们将需要像航空业一样的黑匣子。<p>这是我对此原始需求的尝试。<p>目前还是早期版本(v0.1),故意保持简约,采用MIT许可证。<p>网站:&lt;<a href="https://uselightbox.app" rel="nofollow">https://uselightbox.app</a>&gt; <p>安装:`pip install lightbox-rec`<p>GitHub:&lt;<a href="https://github.com/mainnebula/Lightbox-Project" rel="nofollow">https://github.com/mainnebula/Lightbox-Project</a>&gt; <p>希望能得到反馈,特别是来自那些关注代理安全或在生产环境中运行自主代理的人的意见。