我一直在忙于开发一个技术交流平台,网址是 <a href="https://synthchat.netlify.app" rel="nofollow">https://synthchat.netlify.app</a>。这个平台让人们可以分享他们的想法和创意,并进行关于工程的技术讨论,而不受社交媒体带来的干扰和负担。我希望用户界面能够简单明了,使用起来非常方便。
我之所以创建这个平台,是因为我觉得大多数平台将技术内容与噪音、算法和用户互动混合在一起,这使得真正的讨论变得比应有的更困难。有时候,你只想要一个干净的空间来思考、提问,并与其他工程师交流想法。我希望 Synth Chat 能为人们提供一个以对话为主要特征的地方——没有严厉的审核和讽刺的回复(咳咳,Stack Overflow)。我在想,哪些功能可以将这个应用提升到一个新水平,并改善围绕引人深思的想法的讨论。如果你有任何建议,请告诉我。
返回首页
最新
我年轻时,我们读过像理查德·费曼的《你在开玩笑吧,费曼先生!》,威廉·吉布森的《神经漫游者》和保罗·哈莫斯的《你想成为一名数学家吗?》这样的书。如今,年轻的技术爱好者们喜欢哪些书籍呢?
嗨,HN,简而言之,我们开发了一个错误检测工具,效果非常好,尤其适用于应用后端。欢迎试用并告诉我们你的想法!
以下是详细内容。
--------------------------
我们最初的目标是解决技术债务。我们都见过有很多债务的代码库,因此对这个问题有着个人的看法,而人工智能似乎让这个问题变得更加严重。
技术债务似乎是一个很适合用人工智能解决的问题,因为:1)一小部分工作需要思考和战略,而大部分执行则相对机械;2)在解决技术债务时,通常是试图保留现有行为,只是改变实现方式。这意味着如果你能找到有效的方法来检测由于代码更改而导致的意外行为变化,就可以将其视为一个闭环问题。而我们知道如何做到这一点——这就是测试的作用!
因此,我们开始编写测试。测试创建了保护措施,使未来的代码更改更安全。我们的想法是:如果我们能测试得足够好,就可以以非常高的质量自动化许多其他技术债务工作。
我们构建了一个代理,可以为典型的代码库编写数千个新的测试,大多数是“合并质量”的。一些早期用户通过这种方式合并了数百个PR,但直观上这个工具总是给人一种“好但不够好”的感觉。我们自己偶尔使用它,通常感觉像是一项繁重的任务。
在这个时候,我们意识到:虽然我们最初的目标是编写好的测试,但我们构建了一个系统,经过一些调整,可能非常擅长发现错误。当我们在一些朋友的代码库上进行测试时,我们发现几乎每个代码库中都有大量潜伏的错误,我们能够标记出来。这些是严重的错误,足够有趣,以至于人们放下手头的工作去修复它们。它们就存在于人们的代码库中,已经合并,并在生产环境中运行。
我们还发现了许多漏洞,即使是在成熟的代码库中,有时甚至是在有人进行渗透测试之后。
在技术细节方面:
- 我们检查代码库并找出如何为本地开发构建它,并通过测试进行验证。
- 我们对构建的本地开发状态进行快照。(我们使用Runloop对此,并且非常喜欢它。)
- 我们启动数百个本地开发环境的副本,以千种方式测试代码库,并标记出看起来不正常的行为。
- 我们挑选出最显著、最令人担忧的例子,并将其作为线性票据、GitHub问题或电子邮件发送。
在实践中,这个工具运作得相当不错。我们能够在从编译器到交易平台(甚至是Rust代码)等各种项目中发现错误,但最佳效果是在应用后端。
我们的方法在质量和计算之间进行了权衡。我们的代码库扫描需要几个小时,远远超出代码审查机器人所能承受的范围。但结果是我们可以更明智地利用工程师的注意力,我们认为这将是最重要的变量。
从长远来看,我们认为计算成本低,而工程师的注意力成本高。合理使用最新的模型可以在大型代码库中执行复杂的更改。这意味着在软件构建中,限制因素是人类的注意力。工程师仍然需要时间和专注来理解信息,例如现有代码、组织背景和产品需求。这些都是工程师能够准确表达他们想要的内容并胜任审查结果差异所必需的。
目前我们正在发现错误,但我们正在开发的技术也扩展到许多其他背景下的半主动工作,以改善代码库。
欢迎试用并告诉我们你的想法。首次扫描免费,无需信用卡: [https://detail.dev/](https://detail.dev/)
我们也在扫描开源代码库,如果你有任何请求。系统的信噪比相当高,但我们不想冒着自动打开问题而打扰维护者的风险,因此如果你请求扫描开源代码库,结果将直接发送给你个人。 [https://detail.dev/oss](https://detail.dev/oss)
嗨,HN,我是<a href="https://replay.io" rel="nofollow">https://replay.io</a>的首席执行官。我们已经在网页开发的时间旅行调试方面工作了一段时间(<a href="https://news.ycombinator.com/item?id=28539247">https://news.ycombinator.com/item?id=28539247</a>),最近还推出了一款利用该调试器的AI应用构建工具,旨在解决过去的问题,而不是无休止地循环(<a href="https://news.ycombinator.com/item?id=43258585">https://news.ycombinator.com/item?id=43258585</a>)。
我们已经能够相对轻松地构建应用来替代一些关键的SaaS工具,其中一些我们现在已经在内部使用:
* 我们构建了自己的问题跟踪器,以跟踪所有开发项目、工单、bug修复等,完全替代了Linear。
* 我们构建了一个知识库,用于管理内部文档和正在进行的项目状态,完全替代了Notion。
* 我们构建了一个遥测系统,通过Webhook接收OTLP事件,并支持自定义图表和可视化,基本上替代了Honeycomb。
我们希望尽可能多地控制运行Replay所需的应用。我们可以根据自己的需求定制这些应用,完全拥有它们及其数据,并避免像按座位计费、付费功能、将我们锁定在其平台上以及无法访问自己数据等敌对SaaS供应商的行为。
今天我们推出了Builder(<a href="https://builder.replay.io/" rel="nofollow">https://builder.replay.io/</a>),这是我们用来制作这些应用的工具,以及我们构建的其他应用。您可以免费复制这些应用,下载源代码并自行托管,或者让我们为您处理托管、修复bug和根据您的需求进行修改。
如果您想先看看这些应用,这里有几个(共享,无需登录)应用的链接:
* 问题跟踪器:<a href="https://16857470-551d-4f50-8e5b-b7d24a4a874a.http.replay.io" rel="nofollow">https://16857470-551d-4f50-8e5b-b7d24a4a874a.http.replay.io</a>
* 知识库:<a href="https://d7e0dff4-f45c-4677-9560-6ea739c00a94.http.replay.io" rel="nofollow">https://d7e0dff4-f45c-4677-9560-6ea739c00a94.http.replay.io</a>
我们对AI应用构建工具加速软件开发的潜力感到兴奋,它能够释放非开发者的创造力,尤其是帮助削弱许多大公司对我们的控制。我们会持续自己构建新应用来支持这一努力,所以请告诉我们您的想法!哪些应用和供应商让您感到最沮丧?
嗨,HN,
我创建了 Presently([https://presently.us](https://presently.us)),因为我厌倦了在混乱的 Excel 表格中管理我的假日购物。每个我尝试过的“礼物追踪”应用程序都充斥着广告,要求繁琐的注册,或者只是试图向我推销其他产品。
我想要一个简洁、快速,并且专注于送礼物流的工具:我在为谁购买礼物,礼物的状态(想法 -> 已购买 -> 已包装),以及我花了多少钱?
主要功能:
- 可视化状态面板:一目了然地查看谁还需要礼物,以及需要购买/包装/赠送的物品。
- 预算管理:自动计算你的支出与预算的对比。
- 移动友好:在商店时在浏览器中使用效果很好(类似 PWA 的体验)。
- 无障碍分享:与家人/朋友分享愿望清单,而无需强迫他们创建账户。
- AI 头脑风暴:集成 Gemini,根据兴趣和关系生成礼物创意,适合当你完全无从下手时使用。
技术栈:使用 Firebase、React 和 Tailwind 构建,托管在 GCP 上。我非常注重流畅的用户界面和低认知负担(买礼物时谁还需要更多压力呢?)。
我很想听听你对用户体验流程的反馈。它的速度感觉比你目前的系统快吗?
祝好,Al
大家好!我是胡安,曾在NetApp担任可靠性工程师,负责每月处理60多个针对财富500强客户的关键事件。
我创建了ARF,因为我发现了一个反复出现的模式:生产中的AI系统会无声地失败,人们在凌晨3点醒来,花费30到60分钟进行恢复,而公司每次事件损失在5万到25万美元之间。
ARF使用了3个专门的AI代理:
- 侦探:通过FAISS向量记忆进行异常检测
- 诊断师:利用因果推理进行根本原因分析
- 预测师:在故障发生前进行预测
结果:平均修复时间(MTTR)为2分钟(相比之下,手动修复需要45分钟),收入恢复率为15%到30%。
技术栈:Python 3.12,FAISS,SentenceTransformers,Gradio
测试:157/158通过(覆盖率99.4%)
文档:8个综合文件,共42,000字
实时演示: [https://huggingface.co/spaces/petter2025/agentic-reliability-framework](https://huggingface.co/spaces/petter2025/agentic-reliability-framework)
有趣的技术挑战是让代理协调而不紧密耦合。每个代理都是独立可测试的,但为了整体分析而进行编排。
欢迎大家提问关于多代理系统、生产可靠性模式或FAISS用于事件回忆的相关问题!
GitHub: [https://github.com/petterjuan/agentic-reliability-framework](https://github.com/petterjuan/agentic-reliability-framework)
(如果您需要在您的基础设施中部署此系统,也可以咨询我:[https://lgcylabs.vercel.app/](https://lgcylabs.vercel.app/))
Construct 是一个开源的 AI 编码助手,作为 gRPC 服务运行,而不仅仅是一个命令行工具。您可以在本地笔记本电脑或远程服务器上运行它,连接多个客户端,断开和重新连接而不丢失上下文,并且可以轻松地将其集成到其他工具中。我希望有一个可以持续运行、方便在沙盒中使用的工具。
与 JSON 架构不同,代理使用 JavaScript 与工具进行交互。这意味着它们可以使用循环、条件语句和错误处理,并且鼓励在一次调用中执行多个操作(如果需要,可以在一次调用中进行数百次)。如果您想了解它的样子,README 中有一个视频。这个方法的灵感来自于 CodeAct 论文(<a href="https://arxiv.org/abs/2402.01030" rel="nofollow">https://arxiv.org/abs/2402.01030</a>),研究发现代理在使用代码调用工具时表现更好,而不是使用 JSON。我在这里详细解释了其好处:<a href="https://github.com/Furisto/construct/blob/main/docs/tool_calling.md" rel="nofollow">https://github.com/Furisto/construct/blob/main/docs/tool_calling.md</a>。
它内置了用于不同任务(规划/实施/优化)的代理,您也可以使用自定义提示和模型分配创建自己的代理。它是一个单一的 Go 二进制文件,无需 npm 或类似工具。今天可以与 Anthropic 一起使用,其他提供商也将在不久后推出。
欢迎就架构或工具调用方法提出问题。
我花了20年时间构建身份和安全系统(EA、Nexon IPO、两项加密认证专利)。去年开始构建多智能体管道时遇到了一个问题:当某个组件出现故障时,无法知道是哪个智能体产生了什么输出。
MOSS为智能体提供加密身份,并对其输出进行签名。每个签名包括ML-DSA-44(后量子,FIPS 204)、用于重放检测的序列号以及SHA-256有效载荷哈希。
```python
pip install moss-sdk
from moss import Subject
agent = Subject.create("moss:myapp:agent-1")
envelope = agent.sign({"action": "approve", "amount": 500})
```
密钥存储在本地,路径为~/.moss/keys/。没有云服务,也无需账户。
框架集成:moss-crewai、moss-autogen、moss-langgraph、moss-langchain
为什么选择后量子:审计日志需要在多年内保持可验证性。因此选择了ML-DSA-44而非Ed25519。
规格文档: [https://github.com/mosscomputing/moss/blob/main/SPEC.md](https://github.com/mosscomputing/moss/blob/main/SPEC.md)
网站: [https://mosscomputing.com](https://mosscomputing.com)
欢迎就设计方面的问题进行咨询。
嗨,HN,我是来自CTGT的Cyril。今天我们推出了Mentat(<a href="https://api.ctgt.ai/v1/chat/completions">https://api.ctgt.ai/v1/chat/completions</a>),这是一款API,能够让开发者对大型语言模型(LLM)的行为进行确定性的控制,实时引导推理并消除偏见,而无需进行微调的计算或提示工程的脆弱性。我们使用特征级干预和基于图的验证来修复幻觉并执行政策。
这在高度监管的行业或其他风险较高的AI应用中尤为重要,因为错误或表现不佳的输出可能会造成重大后果。在金融服务领域,使用生成式AI扫描不合规的通信可能会非常繁琐,因为没有简单的方法将复杂的政策嵌入模型中。同样,媒体机构可能希望扩大其内容的AI生成摘要,但可靠性和准确性至关重要。这些都是财富500强公司利用我们的技术改善现有模型表现不佳的应用场景,我们希望将这一能力带给更多人。
这里有一个快速的2分钟演示视频,展示了这个过程:<a href="https://video.ctgt.ai/video/ctgt-ai-compliance-playground-cfnl">https://video.ctgt.ai/video/ctgt-ai-compliance-playground-cf...</a>
标准的“护栏”如RAG和系统提示在本质上是概率性的:你实际上是在礼貌地请求模型表现良好。这通常会以两种方式失败。首先,RAG解决了知识的<i>可用性</i>但没有解决<i>整合</i>。在我们的基准测试中,一个给定上下文为“Lerwick位于Tórshavn东南228英里”的模型未能回答“Lerwick西北228英里是什么?”因为它无法进行空间反演。
其次,提示工程是脆弱的,因为它与模型的预训练先验相抵触。例如,在TruthfulQA基准测试中,基础模型失败的概率约为80%,因为它们模仿了互联网上常见的误解(例如,“变色龙变色是为了伪装”)。我们发现我们可以通过增强“怀疑推理”的特征,使模型忽略流行的神话,输出科学事实。这一点非常重要,因为对于高风险的使用案例(如金融或制药),仅“基本安全”是不可接受的——公司需要审计级的可靠性。
我们的工作源于加州大学圣地亚哥分校的计算机科学实验室,经过多年研究高效且可解释的AI,试图“打开神经网络的黑箱”。我们意识到,行业试图从外部修补模型行为(提示/过滤器),而问题实际上出在内部(特征激活)。当我们看到企业在拥有无限计算能力的情况下仍然难以部署基本模型,仅仅因为他们无法保证输出不会违反合规规则时,我们知道这很重要。我最终离开了斯坦福大学的研究,专注于这个问题。
我们的突破发生在研究DeepSeek-R1模型时。我们在其潜在空间中识别了“审查”特征向量。放大它可以确保拒绝;减去它则立即解锁对敏感问题的回答。这证明模型<i>确实</i>拥有知识,但却在压制它。我们意识到可以将这种逻辑应用于幻觉,抑制“虚构”特征以揭示真实的事实。虽然一些幻觉源于生成模型的固有随机性,但许多可以通过特征或特征组的集中激活来识别。
我们不是过滤输出,而是在前向传递期间进行激活级干预。我们识别与特定行为(偏见、误解)相关的潜在特征向量(v),并数学上修改隐藏状态(h):<p><pre><code> h_prime = h - alpha * (h @ v) * v
</code></pre>
这个算术操作使我们能够以确定性的方式“编辑”行为,几乎没有开销(在R1上小于10毫秒)。对于事实声明,我们将其与图验证管道结合使用(适用于封闭权重模型)。我们检查语义熵(模型是否在胡言乱语?)并将声明与动态知识图进行交叉引用,以捕捉向量搜索遗漏的微妙关系幻觉。
在GPT-OSS-120b上,这种方法将TruthfulQA的准确率从21%提高到70%,通过抑制误解特征。我们还将该模型的性能提升到前沿水平,在HaluEval-QA上达到了96.5%的准确率,解决了基线模型失败的空间推理问题。它还能够处理嘈杂输入,从拼写错误“David Of me”推断出“David Icke”,而基础模型则放弃了。完整基准测试请查看<a href="https://ctgt.ai/benchmarks">https://ctgt.ai/benchmarks</a>。
这个领域的大多数初创公司都是观察工具,仅在模型失败后告诉你结果。或者它们是将上下文填充到窗口中的RAG管道。Mentat是一个基础设施层,在推理过程中修改模型的处理。我们修复推理,而不仅仅是上下文。例如,这就是我们的系统能够强制执行“如果A位于B的东南,那么B位于A的西北”的原因。
我们相信我们的政策引擎是一种优于RAG或提示的控制机制。如果你对当前的护栏感到沮丧,我们非常希望你能对我们的API进行压力测试!
API:我们的端点与OpenAI的/v1/chat/completions兼容:<a href="https://docs.ctgt.ai/api-reference/endpoint/chat-completions">https://docs.ctgt.ai/api-reference/endpoint/chat-completions</a>
游乐场:我们构建了一个“Arena”视图,可以并排比较无管控模型与管控模型,以实时可视化干预差异。无需注册:<a href="https://playground.ctgt.ai/">https://playground.ctgt.ai/</a>
我们非常希望听到你对这种方法的反馈,并看看你能找到哪些边缘案例来打破标准模型。我们将全天在评论区中。欢迎所有反馈!
我是OP。<p>我之所以构建这个工具,是因为我最近差点把一段包含AWS密钥的日志粘贴到Claude中。<p>问题:我需要云模型(GPT/Claude/Gemini)的推理能力,但我无法完全信任自己,不会意外泄露个人身份信息或秘密。<p>解决方案:一个作为本地中间件的Chrome扩展。它拦截提示,并通过Python FastAPI后端运行本地BERT模型,在请求离开浏览器之前清除姓名、电子邮件和密钥。<p>在此先说明几点(以明确期望):<p>所有操作均在本地100%完成。
正则表达式检测在扩展本身中进行。
高级检测(命名实体识别)使用一个在本地主机上通过FastAPI运行的小型变换器模型。<p>数据从未发送到服务器。
您可以在代码和开发者工具的网络面板中验证这一点。<p>这是一个早期原型。
可能会有一些粗糙的地方。我希望能收到关于用户体验、检测质量以及本地代理方法是否合理的反馈。<p>技术栈:
Manifest V3 Chrome扩展
Python FastAPI(本地主机)
HuggingFace dslim/bert-base-NER
路线图/反馈请求:
目前,Python后端增加了一些摩擦。我昨天在Reddit上收到反馈,建议我将推理迁移到transformer.js,以便完全在浏览器中通过WASM运行。<p>我决定先发布v1版本,使用Python后端以确保稳定性,但我正在积极考虑v2版本的ONNX/WASM路线,以消除对本地服务器的依赖。如果有人有在Service Worker中通过transformer.js运行NER模型的经验,我非常希望了解其性能与原生Python的对比。<p>代码库采用MIT许可证。<p>非常欢迎任何想法、建议或替代方法。