返回首页

一周热榜

4作者: teilom7 天前原帖
“每个请求的令牌数”在我们的生产环境中一直是一个误导性的成本模型。真正的成本驱动因素似乎是一些乘数:重试/429错误、工具分发、P95上下文增长和安全检查。 在你的生产大语言模型系统中,最大的成本乘数是什么?哪些政策有效(如上限、降级模式、后备方案、硬失败)?
3作者: jellyotsiro4 天前原帖
介绍 Nia Vault,这是一个命令行工具(CLI),可以让你使用自然语言查询本地的 Markdown/文本文件。 它的功能: - 对本地文件夹和笔记进行语义搜索 - 支持多个同步目录 - 提供带有引用的 RAG 风格回答,引用自你自己的文件 它的工作原理: - 调用 `POST /search/query` 并传入 `local_folders` - 使用 `search_mode: sources` 返回答案及文件引用 示例: - vault ask “我关于项目规划的笔记有哪些?” 开源项目链接: [https://github.com/chenxin-yan/nia-vault](https://github.com/chenxin-yan/nia-vault)
3作者: letientai2992 天前原帖
在工作中,我需要使用 Teams。它支持一些 Markdown 功能,但对于长消息的编辑体验并不顺畅。因此,我经常在 nvim 中写作,然后在浏览器中预览,再复制粘贴到 Teams。这个工具帮助我省去了审查和复制的步骤。 <p>使用 Rust 和 Claude Code 构建。已在 Windows 和 Mac 上测试,应该也能在 Ubuntu 上运行。 <p>注意事项:仍然需要粘贴的应用程序来处理 HTML 剪贴板内容。
3作者: silviogutierrez6 天前原帖
大多数肽计算器问错了问题。 它们问:<i>你添加了多少水?</i> 但实际上,你真正知道的是你的 <i>小瓶大小</i> 和你的 <i>目标剂量</i>。 水的量应该是 <i>输出</i>,而不是 <i>输入</i>。 它还应该使你的剂量落在真实的注射器刻度上,而不是像17.3单位这样的数字。 我开发了一个以这种方式工作的肽计算器: <a href="https:&#x2F;&#x2F;www.joyapp.com&#x2F;peptides&#x2F;" rel="nofollow">https:&#x2F;&#x2F;www.joyapp.com&#x2F;peptides&#x2F;</a> 有什么不同: - 你选择小瓶大小和目标剂量 → 重新配制会为你计算 - 剂量与实际注射器刻度对齐 - 每种肽都有常见的剂量预设 - 在移动设备上运行良好(通常在这里进行操作) - 支持混合物和化合物(例如 GLOW 或 CJC-1295 + Ipamorelin) - 你可以保存你的小瓶,无需注册账户。 欢迎反馈或提出值得支持的特殊情况。
3作者: dsifry4 天前原帖
几周前,我发布了关于 GoodToGo 的帖子 <a href="https:&#x2F;&#x2F;news.ycombinator.com&#x2F;item?id=46656759">https:&#x2F;&#x2F;news.ycombinator.com&#x2F;item?id=46656759</a> —— 这是一个为 AI 代理提供确定性答案的工具,回答“这个 PR 准备好合并了吗?”许多人询问我提到的更大规模的协调系统。这就是那个系统。 我厌倦了作为 Claude Code 的项目经理。它写代码没问题,但将生产代码交付出去需要七八个工作——研究、规划、设计审查、实施、代码审查、安全审计、PR 创建、CI 监控。我一直在自己协调所有工作。虽然代理的输入速度很快,但我仍然是瓶颈。我真正需要的是一个协调者的协调者——成群的代理和具有确定性质量检查的群体。 因此,我构建了 metaswarm。它将工作分解为多个阶段,并将每个阶段分配给一个专业的群体协调者。它管理交接,并使用 BEADS 作为在 /compact、/clear 甚至跨会话的确定性门控。只需将其指向一个 GitHub 问题或进行头脑风暴(它使用 Superpowers 提出澄清问题),它就会创建史诗、任务和依赖关系,然后运行完整的管道,直到合并 PR——包括像 CodeRabbit、Greptile 和 Bugbot 这样的外部代码审查。 让我最惊讶的是设计审查门控。五个代理——项目经理、架构师、设计师、安全专家、CTO——在每行代码写入之前并行审查每个计划。所有五个都必须批准。最多三轮审查,然后升级到人工。我原以为只是走个过场,但它确实捕捉到了真实的设计问题、依赖关系问题和安全漏洞。 这个周末,我将其指向我的待办事项列表。合并了 127 个 PR。每一个都达到了 100% 的测试覆盖率。没有人编写代码、审查代码或点击合并。好吧,我稍微引导了一下,主要是帮助一些史诗的计划。 一些经验教训: 代理的检查清单只是形式。代理跳过了覆盖率检查、误读了阈值,或者决定它们不适用。仅靠提示是不够的。解决方案是确定性门控——BEADS、预推送钩子、CI 任务,所有这些都在代理完成检查之上。无论代理是否合作,这些门控都能阻止不良代码。 这些代理只是 markdown 文件。没有自定义运行时,没有服务器,虽然我是在 TypeScript 上构建的,但代理是语言无关的。你可以阅读它们,编辑它们,添加自己的内容。 它也会自我反思。在每次合并 PR 后,系统会提取模式、注意事项和决策,形成一个 JSONL 知识库。代理只加载与它们正在处理的文件相关的条目。它交付的越多,犯错的机会就越少。它在不断学习中进步。 metaswarm 基于两个项目:<a href="https:&#x2F;&#x2F;github.com&#x2F;steveyegge&#x2F;beads" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;steveyegge&#x2F;beads</a>(由 Steve Yegge 提供,支持 git 原生任务跟踪和知识准备)和 <a href="https:&#x2F;&#x2F;github.com&#x2F;obra&#x2F;superpowers" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;obra&#x2F;superpowers</a>(由 Jesse Vincent 提供,支持有纪律的代理工作流程——TDD、头脑风暴、系统调试)。这两个项目都是必不可少的。 背景:我创办了 Technorati、Linuxcare 和 Warmstart;曾在 Lyft 和 Reddit 担任技术高管。我构建 metaswarm 是因为我需要能够以与我对人类团队相同的标准交付生产代码的自主代理。 $ cd my-project-name $ npx metaswarm init MIT 许可证。我不是律师。具体情况可能有所不同。欢迎提出问题/PR!
3作者: ujjwalreddyks4 天前原帖
你好, 我创建了Axiomeer,这是一个开源的AI代理市场协议。这个想法是:与其将工具集成硬编码到每个代理中,不如让代理在运行时浏览目录,市场负责对所有内容进行排名、执行、验证和审计。 它的工作原理如下: - 提供者通过10行JSON清单发布产品(API、数据集、模型端点) - 代理用自然语言或结构化标签描述他们的需求 - 路由器根据能力匹配(70%)、延迟(20%)、成本(10%)以及硬性约束过滤器对所有选项进行评分 - 最高得分的选项被执行,输出结果经过验证(需要引用吗?时间戳?),证据质量被确定性地评估 - 如果证据是虚假/伪造/低质量的,代理会选择放弃,而不是产生幻觉 - 每次执行都会记录为不可变的收据 我认为现有方法中缺失的部分是信任层。MCP标准化了你如何连接到工具服务器。Axiomeer在更高的层面上运作:使用哪个工具,来自哪个提供者,你能信任返回的结果吗? 技术栈:Python、FastAPI、SQLAlchemy、Ollama(本地LLM,无需API密钥)。v1版本配备天气提供者(Open-Meteo + 模拟数据)。该架构支持返回结构化JSON的任何HTTP端点。 我们正在寻找贡献者,以便在各个领域(金融、搜索、文档、代码执行)添加真实的提供者。每个提供者大约需要30行代码加一个清单。
3作者: indie_max7 天前原帖
嗨,HN, 我是Linn,ToolKuai的创始人([https://toolkuai.com](https://toolkuai.com))。 和许多人一样,我一直对“免费”的在线文件转换器保持警惕。大多数转换器都是黑箱:你将私密的文档或图片上传到远程服务器,而你根本不知道这些数据最终会去哪里,或如何被用来训练模型。 我想构建一套完全在浏览器中运行的工具(视频/图片压缩、OCR、AI 背景去除)。没有文件会离开你的机器。 技术栈 为了使其性能足以与服务器端处理相媲美,我大量使用了现代网页API: - AI 背景去除:我使用的是在本地通过Transformers.js运行的ONNX模型(Xenova/modnet和ISNet)。处理过程是100%客户端的,当WebGPU不可用时会回退到WASM。 - 前端:使用SvelteKit(Svelte 5)构建,因其轻量和快速反应。 - 存储与交付:AI模型自托管在Cloudflare R2上,以避免巨大的带宽成本并确保快速交付。 当前统计(上线13天): 该网站仅上线2周。令人惊讶的是,我发现来自台湾和香港的自然流量非常强劲。当前平均停留时间约为3.5分钟,这表明用户实际上在处理多个文件,确认客户端速度达到了预期。 未来与盈利模式 该工具是免费的。我决定避免“专业版/高级版”订阅模式,因为我相信这些实用工具应该是可访问的。我正在探索非侵入性广告来覆盖基础设施成本(主要是R2和Vercel)。 我希望能从HN社区获得一些反馈: - 在不同硬件上的性能(特别是基于WebGPU的视频压缩器)。 - 隐私问题或建议,如何进一步加强“No-Server”的承诺。 - 你认为在“仅客户端”生态系统中目前缺少的任何特定媒体工具。 链接:[https://toolkuai.com](https://toolkuai.com) 谢谢!
3作者: jchung2 天前原帖
我看到一些独立程序员已经完全转向使用人工智能进行编码,但我对大型工程团队的情况很感兴趣。如果你在一个团队(比如说5名以上的工程师)中,已经采用了Claude Code、Cursor、Codex或其他类似工具,能否分享一下你们的情况?你们是否看到更多的代码行数(LOC)被创建?合并请求(PR)的速度或复杂性有变化吗?你发现自己在处理合并请求上花费的时间是相同的、更少还是更多?