嗨,HN,我们是 InspectMind 的 Aakash 和 Shuangling(<a href="https://www.inspectmind.ai">https://www.inspectmind.ai</a>),我们是一款 AI “计划检查器”,可以发现建筑图纸、细节和规范中的问题。
建筑图纸常常存在许多错误:尺寸冲突、协调缺口、材料不匹配、缺失细节等等。这些错误在施工过程中会导致延误和数十万美元的返工。InspectMind 可以在几分钟内审核一个建筑项目的完整图纸集。它交叉检查建筑、工程和规范,以在施工开始前捕捉可能导致返工的问题。
这里有一个包含一些示例的视频:<a href="https://www.youtube.com/watch?v=Mvn1FyHRlLQ" rel="nofollow">https://www.youtube.com/watch?v=Mvn1FyHRlLQ</a>。
在此之前,我(Aakash)创建了一家工程公司,参与了大约 10,000 幢建筑的项目。我们一直感到沮丧的一件事是:许多设计协调问题在施工开始之前并不会显现出来。到那时,错误的成本可能高达 10 到 100 倍,所有人都在忙着修复本可以更早发现的问题。
我们尝试了各种方法,包括检查清单、叠加审查、同行检查,但在 500 到 2000 页 PDF 文档中滚动并记住每个细节与其他页面的连接是一项脆弱的过程。城市审查员和总承包商的预施工团队也在努力捕捉问题,但仍然会有问题漏网。
我们想:如果模型可以解析代码并生成可运行的软件,也许它们也可以帮助我们在纸面上推理建筑环境。因此,我们构建了我们希望拥有的工具!
您只需上传图纸和规范(PDF 格式)。系统会将它们拆分为不同学科和细节层次,解析几何和文本,并寻找不一致之处:- 各页之间不一致的尺寸;- 被机械/建筑元素阻挡的间隙;- 缺失或不匹配的消防/安全细节;- 从未出现在图纸中的规范要求;- 引用不存在细节的标注。
输出结果是一个潜在问题的列表,包含页面引用和位置,供人工审核。我们并不期望自动化取代设计判断,只是希望帮助建筑、土木工程和电气专业人士不遗漏明显的问题。当前的 AI 在处理明显问题方面表现良好,并且可以处理超出人类准确处理能力的数据量,因此这是一个很好的应用场景。
建筑图纸并没有标准化,每个公司对事物的命名方式也不同。早期的“自动检查”工具在很大程度上依赖于客户手动编写的规则,当命名约定发生变化时就会失效。相反,我们使用多模态模型进行 OCR + 向量几何、跨整个图纸集的标注图、基于约束的空间检查和增强检索的代码解释。再也不需要硬编码规则了!
我们目前正在处理住宅、商业和工业项目。延迟时间从几分钟到几个小时不等,具体取决于图纸数量。无需任何入门培训,只需上传 PDF 文件。仍然存在许多边缘案例(PDF 提取异常、不一致的图层、行业术语),因此我们从失败中学到了很多,或许比成功学到的还要多。但这项技术已经能够提供以前工具无法实现的结果。
定价采用按需付费的方式:在您上传项目图纸后,我们会立即提供每个项目的在线报价。由于一个项目可能是家庭改造,而另一个可能是高层建筑,因此很难采用常规的 SaaS 定价。我们也欢迎对此的反馈,我们仍在摸索中。
如果您作为建筑师、工程师、机电工程师、总承包商预施工人员、房地产开发商或图纸审查员与图纸打交道,我们非常希望有机会运行一组样本,并听取您的反馈,了解哪些地方出现问题,哪些功能有用,以及哪些功能缺失!
我们将全天候在这里讨论几何解析、聚类失败、代码推理尝试或关于施工过程中如何出错的真实故事。感谢您的阅读!我们乐意回答任何问题,并期待您的评论!
返回首页
一周热榜
嗨,独立开发者们
我们正在构建 Kinkora,这是一个创意平台,将多个图像和视频人工智能模型集中在一个地方,供用户进行实验和创作。
像许多开发者一样,我们发现自己不断切换工具,只为测试不同的模型或创意方向。每个平台似乎都局限于单一的工作流程或使用案例。因此,我们决定创建一个更模块化、探索性强且以创作者为中心的空间。
Kinkora 的重点是:
- 支持流行的生成模型
- 让实验过程快速而愉快
- 为创意社区奠定基础,而不仅仅是一个生成器
我们的长期目标不仅仅是“生成内容”,而是创造一个创作者可以玩耍、迭代和发现新想法的地方,随着模型和技术的发展而不断演变。
我们处于早期阶段,正在积极迭代,非常希望能听到其他独立开发者的反馈,特别是在以下方面:
- 功能方向
- 社区机制
- 友好的创作者工作流程
欢迎随时提问!
嗨,HN——我想了好几年想开一个个人博客,但总是犹豫不决。
我私下里写了很多(笔记、小文章、思考问题)。保罗·格雷厄姆的观点,即文章是一种学习的方式,深深触动了我。但我很少发布任何内容,除了偶尔在LinkedIn上的帖子。
我面临的障碍有:
• “没人需要这个” / “这并不新颖”
• “人工智能能比我更好地解释大多数主题”
• 一点恐惧:发布一些感觉幼稚或信息量低的东西
与此同时,我阅读了很多个人博客和LinkedIn,确实从中获得了真实的价值——主要来自于视角、生活经验和清晰的思考,而不是新颖性。
对于那些写博客(或曾经写过的人):
• 对你来说,写博客的价值是什么?
• 哪些类型的帖子实际上有效(在学习、职业、网络、机会方面)?
• 有没有什么实用的格式可以降低门槛(长度、频率、主题)?
• 如果你今天重新开始,你会有什么不同的做法?
我并不想建立一个媒体业务——更像是建立一个“公共笔记本”,随着时间的推移不断积累。
今天我很难过地发现,我所有的Dall-E图像生成都消失了,整个https://labs.openai.com/网站也不见了。显然,今年早些时候有些用户收到了关于网站即将关闭的邮件,但我没有收到。我历史中有很多图像我本希望能够保存下来。
也许更糟糕的是,这让我对OpenAI的信任度进一步降低,甚至比之前还要低。Dall-E并不是一个小平台;它是一个文化现象,数亿用户都在使用。OpenAI竟然如此默默地“将其处理掉”,真让人感到困惑。
我在搜索,但似乎连HN(Hacker News)上都没有关于关闭的帖子。所以,这件事甚至没有引起这个地方的关注。有多少人是第一次听说这个消息?
我不明白像OpenAI这样的公司怎么会对用户数据的完整性和访问如此不负责任,尤其是在关闭一个产品时。所有大型科技平台都有相对完善的通知用户和允许他们下载数据的协议(即使需要一些步骤)。他们怎么能希望成为这样的公司,同时又表现得像一个“快速行动、打破常规”的初创企业?我真的很喜欢他们所“打破”的东西。
嗨,HN,我是来自CTGT的Cyril。今天我们推出了Mentat(<a href="https://api.ctgt.ai/v1/chat/completions">https://api.ctgt.ai/v1/chat/completions</a>),这是一款API,能够让开发者对大型语言模型(LLM)的行为进行确定性的控制,实时引导推理并消除偏见,而无需进行微调的计算或提示工程的脆弱性。我们使用特征级干预和基于图的验证来修复幻觉并执行政策。
这在高度监管的行业或其他风险较高的AI应用中尤为重要,因为错误或表现不佳的输出可能会造成重大后果。在金融服务领域,使用生成式AI扫描不合规的通信可能会非常繁琐,因为没有简单的方法将复杂的政策嵌入模型中。同样,媒体机构可能希望扩大其内容的AI生成摘要,但可靠性和准确性至关重要。这些都是财富500强公司利用我们的技术改善现有模型表现不佳的应用场景,我们希望将这一能力带给更多人。
这里有一个快速的2分钟演示视频,展示了这个过程:<a href="https://video.ctgt.ai/video/ctgt-ai-compliance-playground-cfnl">https://video.ctgt.ai/video/ctgt-ai-compliance-playground-cf...</a>
标准的“护栏”如RAG和系统提示在本质上是概率性的:你实际上是在礼貌地请求模型表现良好。这通常会以两种方式失败。首先,RAG解决了知识的<i>可用性</i>但没有解决<i>整合</i>。在我们的基准测试中,一个给定上下文为“Lerwick位于Tórshavn东南228英里”的模型未能回答“Lerwick西北228英里是什么?”因为它无法进行空间反演。
其次,提示工程是脆弱的,因为它与模型的预训练先验相抵触。例如,在TruthfulQA基准测试中,基础模型失败的概率约为80%,因为它们模仿了互联网上常见的误解(例如,“变色龙变色是为了伪装”)。我们发现我们可以通过增强“怀疑推理”的特征,使模型忽略流行的神话,输出科学事实。这一点非常重要,因为对于高风险的使用案例(如金融或制药),仅“基本安全”是不可接受的——公司需要审计级的可靠性。
我们的工作源于加州大学圣地亚哥分校的计算机科学实验室,经过多年研究高效且可解释的AI,试图“打开神经网络的黑箱”。我们意识到,行业试图从外部修补模型行为(提示/过滤器),而问题实际上出在内部(特征激活)。当我们看到企业在拥有无限计算能力的情况下仍然难以部署基本模型,仅仅因为他们无法保证输出不会违反合规规则时,我们知道这很重要。我最终离开了斯坦福大学的研究,专注于这个问题。
我们的突破发生在研究DeepSeek-R1模型时。我们在其潜在空间中识别了“审查”特征向量。放大它可以确保拒绝;减去它则立即解锁对敏感问题的回答。这证明模型<i>确实</i>拥有知识,但却在压制它。我们意识到可以将这种逻辑应用于幻觉,抑制“虚构”特征以揭示真实的事实。虽然一些幻觉源于生成模型的固有随机性,但许多可以通过特征或特征组的集中激活来识别。
我们不是过滤输出,而是在前向传递期间进行激活级干预。我们识别与特定行为(偏见、误解)相关的潜在特征向量(v),并数学上修改隐藏状态(h):<p><pre><code> h_prime = h - alpha * (h @ v) * v
</code></pre>
这个算术操作使我们能够以确定性的方式“编辑”行为,几乎没有开销(在R1上小于10毫秒)。对于事实声明,我们将其与图验证管道结合使用(适用于封闭权重模型)。我们检查语义熵(模型是否在胡言乱语?)并将声明与动态知识图进行交叉引用,以捕捉向量搜索遗漏的微妙关系幻觉。
在GPT-OSS-120b上,这种方法将TruthfulQA的准确率从21%提高到70%,通过抑制误解特征。我们还将该模型的性能提升到前沿水平,在HaluEval-QA上达到了96.5%的准确率,解决了基线模型失败的空间推理问题。它还能够处理嘈杂输入,从拼写错误“David Of me”推断出“David Icke”,而基础模型则放弃了。完整基准测试请查看<a href="https://ctgt.ai/benchmarks">https://ctgt.ai/benchmarks</a>。
这个领域的大多数初创公司都是观察工具,仅在模型失败后告诉你结果。或者它们是将上下文填充到窗口中的RAG管道。Mentat是一个基础设施层,在推理过程中修改模型的处理。我们修复推理,而不仅仅是上下文。例如,这就是我们的系统能够强制执行“如果A位于B的东南,那么B位于A的西北”的原因。
我们相信我们的政策引擎是一种优于RAG或提示的控制机制。如果你对当前的护栏感到沮丧,我们非常希望你能对我们的API进行压力测试!
API:我们的端点与OpenAI的/v1/chat/completions兼容:<a href="https://docs.ctgt.ai/api-reference/endpoint/chat-completions">https://docs.ctgt.ai/api-reference/endpoint/chat-completions</a>
游乐场:我们构建了一个“Arena”视图,可以并排比较无管控模型与管控模型,以实时可视化干预差异。无需注册:<a href="https://playground.ctgt.ai/">https://playground.ctgt.ai/</a>
我们非常希望听到你对这种方法的反馈,并看看你能找到哪些边缘案例来打破标准模型。我们将全天在评论区中。欢迎所有反馈!
大家正在做什么?
如果你听说过 [Haven](<a href="https://github.com/guardianproject/haven" rel="nofollow">https://github.com/guardianproject/haven</a>),那么 Tripwire 就是 Haven 暂停更新后,为强大的反恶意管理员解决方案填补的空白。<p>GitHub 仓库详细描述了该概念和设置过程。想要快速了解,可以观看演示视频。<p>此外,Tripwire 还在 Counter Surveil 播客中进行了介绍:<a href="https://www.youtube.com/watch?v=s-wPrOTm5qo" rel="nofollow">https://www.youtube.com/watch?v=s-wPrOTm5qo</a>
我在寻找一款价格实惠的智能手表,最好是可以进行修改的。理想情况下,我只想设置一个自定义的背景图像,并锁定或禁用所有其他智能功能,特别是游戏之类的功能。而且希望价格足够便宜,这样当我的孩子不可避免地弄丢或弄坏它时,我就不会为浪费的钱而感到心痛。
这是我获得的关于如何在飞速发展的人工智能驱动开发中适应的建议——甚至到让人工智能工具编写和交付项目,而“操作员”甚至不懂这些编程语言的地步。如何在一个工作流程中建立信心,例如,一个代理团队负责开发,另一个代理团队负责代码审查和测试,然后在没有人验证实现的情况下直接交付?
我听说初创公司的开发者每天部署1万到3万行以上的代码,并且一个开发者现在应该能够在不到一个月的时间里构建出通常需要工程师数年才能完成的完整产品。这现实吗?我们该如何学习以这种方式运作?