1作者: bhackett大约 2 个月前原帖
嗨,HN,我是<a href="https://replay.io" rel="nofollow">https://replay.io</a>的首席执行官。我们已经在网页开发的时间旅行调试方面工作了一段时间(<a href="https://news.ycombinator.com/item?id=28539247">https://news.ycombinator.com/item?id=28539247</a>),最近还推出了一款利用该调试器的AI应用构建工具,旨在解决过去的问题,而不是无休止地循环(<a href="https://news.ycombinator.com/item?id=43258585">https://news.ycombinator.com/item?id=43258585</a>)。 我们已经能够相对轻松地构建应用来替代一些关键的SaaS工具,其中一些我们现在已经在内部使用: * 我们构建了自己的问题跟踪器,以跟踪所有开发项目、工单、bug修复等,完全替代了Linear。 * 我们构建了一个知识库,用于管理内部文档和正在进行的项目状态,完全替代了Notion。 * 我们构建了一个遥测系统,通过Webhook接收OTLP事件,并支持自定义图表和可视化,基本上替代了Honeycomb。 我们希望尽可能多地控制运行Replay所需的应用。我们可以根据自己的需求定制这些应用,完全拥有它们及其数据,并避免像按座位计费、付费功能、将我们锁定在其平台上以及无法访问自己数据等敌对SaaS供应商的行为。 今天我们推出了Builder(<a href="https://builder.replay.io/" rel="nofollow">https://builder.replay.io/</a>),这是我们用来制作这些应用的工具,以及我们构建的其他应用。您可以免费复制这些应用,下载源代码并自行托管,或者让我们为您处理托管、修复bug和根据您的需求进行修改。 如果您想先看看这些应用,这里有几个(共享,无需登录)应用的链接: * 问题跟踪器:<a href="https://16857470-551d-4f50-8e5b-b7d24a4a874a.http.replay.io" rel="nofollow">https://16857470-551d-4f50-8e5b-b7d24a4a874a.http.replay.io</a> * 知识库:<a href="https://d7e0dff4-f45c-4677-9560-6ea739c00a94.http.replay.io" rel="nofollow">https://d7e0dff4-f45c-4677-9560-6ea739c00a94.http.replay.io</a> 我们对AI应用构建工具加速软件开发的潜力感到兴奋,它能够释放非开发者的创造力,尤其是帮助削弱许多大公司对我们的控制。我们会持续自己构建新应用来支持这一努力,所以请告诉我们您的想法!哪些应用和供应商让您感到最沮丧?
1作者: moridin大约 2 个月前原帖
嗨,HN, 我创建了 Presently([https://presently.us](https://presently.us)),因为我厌倦了在混乱的 Excel 表格中管理我的假日购物。每个我尝试过的“礼物追踪”应用程序都充斥着广告,要求繁琐的注册,或者只是试图向我推销其他产品。 我想要一个简洁、快速,并且专注于送礼物流的工具:我在为谁购买礼物,礼物的状态(想法 -> 已购买 -> 已包装),以及我花了多少钱? 主要功能: - 可视化状态面板:一目了然地查看谁还需要礼物,以及需要购买/包装/赠送的物品。 - 预算管理:自动计算你的支出与预算的对比。 - 移动友好:在商店时在浏览器中使用效果很好(类似 PWA 的体验)。 - 无障碍分享:与家人/朋友分享愿望清单,而无需强迫他们创建账户。 - AI 头脑风暴:集成 Gemini,根据兴趣和关系生成礼物创意,适合当你完全无从下手时使用。 技术栈:使用 Firebase、React 和 Tailwind 构建,托管在 GCP 上。我非常注重流畅的用户界面和低认知负担(买礼物时谁还需要更多压力呢?)。 我很想听听你对用户体验流程的反馈。它的速度感觉比你目前的系统快吗? 祝好,Al
2作者: petter2025us大约 2 个月前原帖
大家好!我是胡安,曾在NetApp担任可靠性工程师,负责每月处理60多个针对财富500强客户的关键事件。 我创建了ARF,因为我发现了一个反复出现的模式:生产中的AI系统会无声地失败,人们在凌晨3点醒来,花费30到60分钟进行恢复,而公司每次事件损失在5万到25万美元之间。 ARF使用了3个专门的AI代理: - 侦探:通过FAISS向量记忆进行异常检测 - 诊断师:利用因果推理进行根本原因分析 - 预测师:在故障发生前进行预测 结果:平均修复时间(MTTR)为2分钟(相比之下,手动修复需要45分钟),收入恢复率为15%到30%。 技术栈:Python 3.12,FAISS,SentenceTransformers,Gradio 测试:157/158通过(覆盖率99.4%) 文档:8个综合文件,共42,000字 实时演示: [https://huggingface.co/spaces/petter2025/agentic-reliability-framework](https://huggingface.co/spaces/petter2025/agentic-reliability-framework) 有趣的技术挑战是让代理协调而不紧密耦合。每个代理都是独立可测试的,但为了整体分析而进行编排。 欢迎大家提问关于多代理系统、生产可靠性模式或FAISS用于事件回忆的相关问题! GitHub: [https://github.com/petterjuan/agentic-reliability-framework](https://github.com/petterjuan/agentic-reliability-framework) (如果您需要在您的基础设施中部署此系统,也可以咨询我:[https://lgcylabs.vercel.app/](https://lgcylabs.vercel.app/))
1作者: furisto大约 2 个月前原帖
Construct 是一个开源的 AI 编码助手,作为 gRPC 服务运行,而不仅仅是一个命令行工具。您可以在本地笔记本电脑或远程服务器上运行它,连接多个客户端,断开和重新连接而不丢失上下文,并且可以轻松地将其集成到其他工具中。我希望有一个可以持续运行、方便在沙盒中使用的工具。 与 JSON 架构不同,代理使用 JavaScript 与工具进行交互。这意味着它们可以使用循环、条件语句和错误处理,并且鼓励在一次调用中执行多个操作(如果需要,可以在一次调用中进行数百次)。如果您想了解它的样子,README 中有一个视频。这个方法的灵感来自于 CodeAct 论文(<a href="https://arxiv.org/abs/2402.01030" rel="nofollow">https://arxiv.org/abs/2402.01030</a>),研究发现代理在使用代码调用工具时表现更好,而不是使用 JSON。我在这里详细解释了其好处:<a href="https://github.com/Furisto/construct/blob/main/docs/tool_calling.md" rel="nofollow">https://github.com/Furisto/construct/blob/main/docs/tool_calling.md</a>。 它内置了用于不同任务(规划/实施/优化)的代理,您也可以使用自定义提示和模型分配创建自己的代理。它是一个单一的 Go 二进制文件,无需 npm 或类似工具。今天可以与 Anthropic 一起使用,其他提供商也将在不久后推出。 欢迎就架构或工具调用方法提出问题。
1作者: ysablewolf大约 2 个月前原帖
我花了20年时间构建身份和安全系统(EA、Nexon IPO、两项加密认证专利)。去年开始构建多智能体管道时遇到了一个问题:当某个组件出现故障时,无法知道是哪个智能体产生了什么输出。 MOSS为智能体提供加密身份,并对其输出进行签名。每个签名包括ML-DSA-44(后量子,FIPS 204)、用于重放检测的序列号以及SHA-256有效载荷哈希。 ```python pip install moss-sdk from moss import Subject agent = Subject.create("moss:myapp:agent-1") envelope = agent.sign({"action": "approve", "amount": 500}) ``` 密钥存储在本地,路径为~/.moss/keys/。没有云服务,也无需账户。 框架集成:moss-crewai、moss-autogen、moss-langgraph、moss-langchain 为什么选择后量子:审计日志需要在多年内保持可验证性。因此选择了ML-DSA-44而非Ed25519。 规格文档: [https://github.com/mosscomputing/moss/blob/main/SPEC.md](https://github.com/mosscomputing/moss/blob/main/SPEC.md) 网站: [https://mosscomputing.com](https://mosscomputing.com) 欢迎就设计方面的问题进行咨询。
7作者: cgorlla大约 2 个月前原帖
嗨,HN,我是来自CTGT的Cyril。今天我们推出了Mentat(<a href="https:&#x2F;&#x2F;api.ctgt.ai&#x2F;v1&#x2F;chat&#x2F;completions">https:&#x2F;&#x2F;api.ctgt.ai&#x2F;v1&#x2F;chat&#x2F;completions</a>),这是一款API,能够让开发者对大型语言模型(LLM)的行为进行确定性的控制,实时引导推理并消除偏见,而无需进行微调的计算或提示工程的脆弱性。我们使用特征级干预和基于图的验证来修复幻觉并执行政策。 这在高度监管的行业或其他风险较高的AI应用中尤为重要,因为错误或表现不佳的输出可能会造成重大后果。在金融服务领域,使用生成式AI扫描不合规的通信可能会非常繁琐,因为没有简单的方法将复杂的政策嵌入模型中。同样,媒体机构可能希望扩大其内容的AI生成摘要,但可靠性和准确性至关重要。这些都是财富500强公司利用我们的技术改善现有模型表现不佳的应用场景,我们希望将这一能力带给更多人。 这里有一个快速的2分钟演示视频,展示了这个过程:<a href="https:&#x2F;&#x2F;video.ctgt.ai&#x2F;video&#x2F;ctgt-ai-compliance-playground-cfnl">https:&#x2F;&#x2F;video.ctgt.ai&#x2F;video&#x2F;ctgt-ai-compliance-playground-cf...</a> 标准的“护栏”如RAG和系统提示在本质上是概率性的:你实际上是在礼貌地请求模型表现良好。这通常会以两种方式失败。首先,RAG解决了知识的<i>可用性</i>但没有解决<i>整合</i>。在我们的基准测试中,一个给定上下文为“Lerwick位于Tórshavn东南228英里”的模型未能回答“Lerwick西北228英里是什么?”因为它无法进行空间反演。 其次,提示工程是脆弱的,因为它与模型的预训练先验相抵触。例如,在TruthfulQA基准测试中,基础模型失败的概率约为80%,因为它们模仿了互联网上常见的误解(例如,“变色龙变色是为了伪装”)。我们发现我们可以通过增强“怀疑推理”的特征,使模型忽略流行的神话,输出科学事实。这一点非常重要,因为对于高风险的使用案例(如金融或制药),仅“基本安全”是不可接受的——公司需要审计级的可靠性。 我们的工作源于加州大学圣地亚哥分校的计算机科学实验室,经过多年研究高效且可解释的AI,试图“打开神经网络的黑箱”。我们意识到,行业试图从外部修补模型行为(提示/过滤器),而问题实际上出在内部(特征激活)。当我们看到企业在拥有无限计算能力的情况下仍然难以部署基本模型,仅仅因为他们无法保证输出不会违反合规规则时,我们知道这很重要。我最终离开了斯坦福大学的研究,专注于这个问题。 我们的突破发生在研究DeepSeek-R1模型时。我们在其潜在空间中识别了“审查”特征向量。放大它可以确保拒绝;减去它则立即解锁对敏感问题的回答。这证明模型<i>确实</i>拥有知识,但却在压制它。我们意识到可以将这种逻辑应用于幻觉,抑制“虚构”特征以揭示真实的事实。虽然一些幻觉源于生成模型的固有随机性,但许多可以通过特征或特征组的集中激活来识别。 我们不是过滤输出,而是在前向传递期间进行激活级干预。我们识别与特定行为(偏见、误解)相关的潜在特征向量(v),并数学上修改隐藏状态(h):<p><pre><code> h_prime = h - alpha * (h @ v) * v </code></pre> 这个算术操作使我们能够以确定性的方式“编辑”行为,几乎没有开销(在R1上小于10毫秒)。对于事实声明,我们将其与图验证管道结合使用(适用于封闭权重模型)。我们检查语义熵(模型是否在胡言乱语?)并将声明与动态知识图进行交叉引用,以捕捉向量搜索遗漏的微妙关系幻觉。 在GPT-OSS-120b上,这种方法将TruthfulQA的准确率从21%提高到70%,通过抑制误解特征。我们还将该模型的性能提升到前沿水平,在HaluEval-QA上达到了96.5%的准确率,解决了基线模型失败的空间推理问题。它还能够处理嘈杂输入,从拼写错误“David Of me”推断出“David Icke”,而基础模型则放弃了。完整基准测试请查看<a href="https:&#x2F;&#x2F;ctgt.ai&#x2F;benchmarks">https:&#x2F;&#x2F;ctgt.ai&#x2F;benchmarks</a>。 这个领域的大多数初创公司都是观察工具,仅在模型失败后告诉你结果。或者它们是将上下文填充到窗口中的RAG管道。Mentat是一个基础设施层,在推理过程中修改模型的处理。我们修复推理,而不仅仅是上下文。例如,这就是我们的系统能够强制执行“如果A位于B的东南,那么B位于A的西北”的原因。 我们相信我们的政策引擎是一种优于RAG或提示的控制机制。如果你对当前的护栏感到沮丧,我们非常希望你能对我们的API进行压力测试! API:我们的端点与OpenAI的/v1/chat/completions兼容:<a href="https:&#x2F;&#x2F;docs.ctgt.ai&#x2F;api-reference&#x2F;endpoint&#x2F;chat-completions">https:&#x2F;&#x2F;docs.ctgt.ai&#x2F;api-reference&#x2F;endpoint&#x2F;chat-completions</a> 游乐场:我们构建了一个“Arena”视图,可以并排比较无管控模型与管控模型,以实时可视化干预差异。无需注册:<a href="https:&#x2F;&#x2F;playground.ctgt.ai&#x2F;">https:&#x2F;&#x2F;playground.ctgt.ai&#x2F;</a> 我们非常希望听到你对这种方法的反馈,并看看你能找到哪些边缘案例来打破标准模型。我们将全天在评论区中。欢迎所有反馈!
8作者: arnabkarsarkar大约 2 个月前原帖
我是OP。<p>我之所以构建这个工具,是因为我最近差点把一段包含AWS密钥的日志粘贴到Claude中。<p>问题:我需要云模型(GPT/Claude/Gemini)的推理能力,但我无法完全信任自己,不会意外泄露个人身份信息或秘密。<p>解决方案:一个作为本地中间件的Chrome扩展。它拦截提示,并通过Python FastAPI后端运行本地BERT模型,在请求离开浏览器之前清除姓名、电子邮件和密钥。<p>在此先说明几点(以明确期望):<p>所有操作均在本地100%完成。 正则表达式检测在扩展本身中进行。 高级检测(命名实体识别)使用一个在本地主机上通过FastAPI运行的小型变换器模型。<p>数据从未发送到服务器。 您可以在代码和开发者工具的网络面板中验证这一点。<p>这是一个早期原型。 可能会有一些粗糙的地方。我希望能收到关于用户体验、检测质量以及本地代理方法是否合理的反馈。<p>技术栈: Manifest V3 Chrome扩展 Python FastAPI(本地主机) HuggingFace dslim/bert-base-NER 路线图/反馈请求: 目前,Python后端增加了一些摩擦。我昨天在Reddit上收到反馈,建议我将推理迁移到transformer.js,以便完全在浏览器中通过WASM运行。<p>我决定先发布v1版本,使用Python后端以确保稳定性,但我正在积极考虑v2版本的ONNX/WASM路线,以消除对本地服务器的依赖。如果有人有在Service Worker中通过transformer.js运行NER模型的经验,我非常希望了解其性能与原生Python的对比。<p>代码库采用MIT许可证。<p>非常欢迎任何想法、建议或替代方法。
2作者: Nathanadian大约 2 个月前原帖
嗨,HN, 我创建了 Freedom Graph,因为我想要一个能够更真实地模拟市场波动和灵活支出的财务独立(FI)计算器。许多计算器假设回报率恒定、提款规则固定,以及“实际收益 = 名义收益 - 通货膨胀”的近似。这对于大致估算是可以的,但当你关心序列风险或像“我应该再工作一年吗?”这样的决策时,就不太合适了。 以下是我想要明确建模的现实因素: * 回报序列风险:可选的市场随机性(正负年份的混合,长期年均复合增长率约为10%),以展示即使长期平均看起来不错,早期退休计划也可能失败。 * 正确的实际回报计算:使用费舍尔方程,而不是线性近似,这在长期时间范围内的复利效果不同。 * 自适应策略:模拟“再工作一年”的情景和支出灵活性,以观察行为如何影响成功概率。 其他生活质量相关的功能: * 使用 React + Vite 构建;没有输入数据被发送到任何地方。 * 本地存储在浏览器会话之间保持输入。 * 当你达到目标时,FI 收入会自动调整。 * 暗黑/亮色模式。 我非常希望能收到关于用户体验和假设/行为杠杆的反馈。如果你认为有什么地方不对或具有误导性,请告诉我。 谢谢!
145作者: embedding-shape大约 2 个月前原帖
随着各种大型语言模型(LLM)越来越受欢迎,类似于“我问了Gemini,Gemini说……”的评论也随之增多。 虽然这些指导方针是在不同的时期制定(并不断修订)的,但似乎是时候讨论一下这些评论是否应该在HN上受到欢迎。 一些例子: - https://news.ycombinator.com/item?id=46164360 - https://news.ycombinator.com/item?id=46200460 - https://news.ycombinator.com/item?id=46080064 就我个人而言,我在HN上是为了进行人类之间的对话,而大型LLM生成的文本只会妨碍我阅读来自真实人类(至少是这样假设的)的真实文本。 你怎么看?是否应该允许那些基本上归结为“我问了$LLM关于$X,$LLM说的是……”的回应出现在HN上,并更新指导方针以说明人们不应该对此进行批评(类似于当前的其他指导方针),还是应该新增一条指导方针,要求人们避免将大型LLM的回复复制粘贴到评论中,或者采取其他完全不同的措施?