5作者: Visweshyc22 天前原帖
嗨,HN!我们是Aakash和Viswesh,我们正在构建Canary(<a href="https://www.runcanary.ai">https://www.runcanary.ai</a>)。我们开发的AI代理可以读取你的代码库,识别拉取请求(PR)实际更改了什么,并为每个受影响的用户工作流程生成并执行测试。 Aakash和我之前在Windsurf、Cognition和Google开发过AI编码工具。AI工具使每个团队在交付上变得更快,但在合并之前,没有人测试真实用户的行为。PR变得越来越大,审查仍然是在文件差异中进行的,而看似干净的更改在生产环境中却导致了结账、身份验证和计费等问题。我们亲眼目睹了这一切。我们创建Canary就是为了填补这个空白。以下是它的工作原理: Canary首先连接到你的代码库,并理解你的应用是如何构建的:路由、控制器、验证逻辑。你推送一个PR,Canary读取差异,理解更改背后的意图,然后生成并在你的预览应用上运行测试,检查真实用户的完整流程。它会直接在PR上发表评论,提供测试结果和录屏,展示更改内容,并标记任何不符合预期行为的部分。你还可以通过PR评论触发特定的用户工作流程测试。 除了PR测试外,从PR生成的测试可以移入回归测试套件。你也可以通过简单的英文提示创建测试。Canary会从你的代码库生成完整的测试套件,安排并持续运行它。我们的一个建筑科技客户在发票流程中发现应付金额与原始提案总额偏差了约1600美元。Canary在发布之前捕捉到了他们发票流程中的回归问题。 这并不是单一的基础模型能够独立完成的任务。质量保证(QA)涉及多个模态,如源代码、DOM/ARIA、设备模拟器、视觉验证、分析屏幕录制、网络/控制台日志、实时浏览器状态等,任何单一模型都难以专注于这些。你还需要定制的浏览器集群、用户会话、临时环境、设备农场和数据预置,以可靠地运行测试。此外,捕捉代码更改的二次效应需要一个专门的工具,以多种可能的方式破坏应用程序,而普通的顺利路径测试流程无法做到这一点。 为了衡量我们专门构建的QA代理的效果,我们发布了QA-Bench v0,这是第一个代码验证基准。给定一个真实的PR,AI模型能否识别每个受影响的用户工作流程并生成相关测试?我们将我们的专用QA代理与GPT 5.4、Claude Code(Opus 4.6)和Sonnet 4.6进行了测试,涵盖了Grafana、Mattermost、Cal.com和Apache Superset上的35个真实PR,从相关性、覆盖率和一致性三个维度进行评估。覆盖率是差距最大的地方。Canary在覆盖率上领先GPT 5.4 11分,领先Claude Code 18分,领先Sonnet 4.6 26分。有关完整的方法论和每个代码库的详细分析,请阅读我们的基准报告:<a href="https://www.runcanary.ai/blog/qa-bench-v0">https://www.runcanary.ai/blog/qa-bench-v0</a> 你可以在这里查看产品演示:<a href="https://youtu.be/NeD9g1do_BU" rel="nofollow">https://youtu.be/NeD9g1do_BU</a> 我们非常希望听到任何在代码验证方面工作或考虑如何以不同方式衡量此事的人的反馈。
1作者: saahithj22 天前原帖
我正在构建一个互动的3D + 2D可视化工具,用于展示GPT-2。它展示了在前向传播过程中从GPT-2 Small(124M)提取的真实激活值和注意力分数。这个工具的目标是通过展示模型内部的运作,帮助人们更容易理解大型语言模型(LLMs)的工作原理。 3D部分是使用Three.js构建的,而2D部分则是使用普通的HTML/CSS/JS制作的。 非常期待听到你的想法或反馈!
8作者: axotopia22 天前原帖
我经营一家建筑设计咨询公司。我厌倦了每月支付40美元给Wix,只为了一个无法回答简单服务问题的宣传册,同时还浪费了几个小时在同样的常见问题上。 于是我决定彻底放弃,花了4个月时间构建一个“对话者”: [https://axoworks.com](https://axoworks.com) 这个技术栈完全是临时拼凑的:Netlify的10秒无服务器超时迫使我将代理分成三个部分:大脑(边缘计算)、双手(浏览器)和声音(边缘计算)。我已经有30年没写代码了。这一过程就像是前进三步、后退两步,主要依靠人工智能的指导。 证明它有效的斗争:两周前,一位持证建筑师对我的机器人发起攻击,试图证明我的商业模式对这个行业有害。AI(DeepSeek-R3)完全驳倒了他的论点,过程非常幽默且尖锐。 日志: [https://logs.axoworks.com/chat-architect-vs-concierge-v147.html](https://logs.axoworks.com/chat-architect-vs-concierge-v147.html) 一些“战斗伤疤”: * 网络语音API工作得很好,直到有人在没有切换语言模式的情况下说中文。然后它会强行输出英语发音的胡言乱语,依然让人头疼。 * 责任是致命的。如果虚构了一条建筑规范条款?我们就完了。保险公司不会理会我们。 * 我们发布审计日志,以保持诚实并确保系统的安全性。 审计: [https://logs.axoworks.com/audit-2026-02-19-v148.html](https://logs.axoworks.com/audit-2026-02-19-v148.html) 最困难的部分是正确理解意图:让一个大型语言模型在与房主交流时无缝切换到温暖的校长语气,而在受到同行攻击时则变得像一只防御性的斗牛犬。这花了我2.5个月的调试时间。 我们通过一种“急切的RAG”黑客技术(预取猜测)快速消耗令牌,以提高响应速度。我还去掉了“必要的”持久数据库——不到5%的访客会再次访问,那何必呢?如果客户在查询过程中中途退出,他们的会话就会消失。没有服务器端的队列。 重点是:让我能够与一群经验丰富的专业人士合作,并精简流程。 试着去破坏它。我会在评论区等你。
2作者: rohan_joshi22 天前原帖
Kitten TTS 是一系列开源的小型且富有表现力的文本转语音模型,专为设备端应用而设计。(我们去年在这里有过相关讨论:<a href="https://news.ycombinator.com/item?id=44807868">https://news.ycombinator.com/item?id=44807868</a>。)今天,我们发布了三个新模型,参数分别为 8000 万、4000 万和 1400 万。 最大的模型具有最高的音质。尽管 14M 版本的大小不足 25MB,但在同类模型中,它在表现力方面达到了新的最优水平。这次发布是对之前版本的重大升级,支持八种声音的英语文本转语音应用:四种男性声音和四种女性声音。大多数模型经过量化处理,采用 int8 + fp16,并使用 ONNX 进行运行时支持。该模型设计为可以在任何地方运行,例如树莓派、低端智能手机、可穿戴设备、浏览器等,无需 GPU!此次发布旨在弥合设备端和云端模型在文本转语音应用中的差距。多语言模型的发布即将到来。 设备端 AI 的瓶颈在于缺乏真正高效的小型模型。我们的目标是开源更多模型,以便能够在设备端完全运行生产就绪的语音代理和应用。期待您的反馈!
2作者: stephanieriggs22 天前原帖
人工智能在终端中表现出色,但许多人对使用命令行并不感到舒适,这意味着他们无法访问或利用人工智能的全部潜力。 因此,我们构想了一种不同的体验,并围绕以下问题展开:如果人工智能有一个完整的桌面环境可以使用会怎样?如果人工智能成为体验而不是工具会怎样?如果这种体验是有趣的、令人愉悦的和直观的又会怎样?今天,我们发布了我们所创造的内容的首个预览视频。 PearlOS 是一个基于浏览器的桌面环境,人工智能助手(Pearl)可以与您对话,帮助您打开应用程序、管理窗口、构建角色、进行研究、记笔记、搜索网络以及控制整个用户界面。您只需与她交谈,屏幕上的事情就会发生。 这还处于早期阶段,但核心功能已经运作良好,我们整个(小型)团队都在日常任务中使用它。 演示视频:<a href="https://www.youtube.com/watch?v=aKO52ox0dx0" rel="nofollow">https://www.youtube.com/watch?v=aKO52ox0dx0</a> GitHub:<a href="https://github.com/NiaExperience/PearlOS/" rel="nofollow">https://github.com/NiaExperience/PearlOS/</a> 我们希望将其发展为“个人珍珠”,让每个人都可以使用,无需任何编码或人工智能经验。 我们正在寻找架构反馈、贡献者和诚实的批评。 打开它时您会得到的内容: * 一个包含应用程序的桌面环境(笔记、浏览器、YouTube、文件管理器、计算器、音乐播放器) * 一个可以自然对话的声音。支持打断处理、轮流发言、真实对话。 * 持久记忆。Pearl 会记住您的项目、偏好和跨会话的过去对话。她会从您上次停下的地方继续。 * 子代理群体。Pearl 可以将复杂任务分解为并行代理任务,在您继续对话的同时在后台运行。 技术栈: * Next.js 前端(桌面在浏览器中运行) * 多模型路由(快速模型用于聊天,较重模型用于复杂推理,可配置) * Pipecat 实时语音(Deepgram STT,PocketTTS 用于本地 TTS) * OpenClaw 用于代理编排 * 自带 API 密钥,可以替换任何大型语言模型(LLM) 它不是: * 另一个 ChatGPT 的包装 * 只是一个加上人工智能的终端 * 不收集您的数据(在您的硬件上运行,无遥测) 感谢大家! Stephanie 和 PearlOS 团队
48作者: adamamyl22 天前原帖
我遇到了一次“醒来后发现MacOS更新”的情况,结果发现我所有的Docker容器都无法通过我使用的dnsmasq访问。令人失望的是,这次更新悄然破坏了自定义DNS解析。希望苹果能关注我提交的错误报告。如果你在使用这个,建议暂时不要更新……
3作者: thequietmind22 天前原帖
嗨,HN!我是Ezra,MDX Docs的创建者。 我之所以开发这个工具,是因为我想要一个快速、简单的方法来使用Markdown和React结合MDX来记录组件。 我的目标是保持事情的简单明了:页面只是MDX文件,并且它们直接映射到路由。你可以编写文档,并在旁边直接插入React组件,而无需太多设置。 它还包括一个命令行工具: ``` npx create-mdx-docs@latest my-docs ``` 我一直在用它快速搭建文档网站,到目前为止,这个工作流程非常顺畅。 我很好奇现在其他人是如何处理组件和内部工具的文档的。如果有任何问题,欢迎提问。