返回首页
最新
(原文链接为 <a href="https://www.theinformation.com/articles/deepseek-using-banned-nvidia-chips-race-build-next-model" rel="nofollow">https://www.theinformation.com/articles/deepseek-using-banne...</a>,但已被封锁)
嗨,HN,我们是 InspectMind 的 Aakash 和 Shuangling(<a href="https://www.inspectmind.ai">https://www.inspectmind.ai</a>),我们是一款 AI “计划检查器”,可以发现建筑图纸、细节和规范中的问题。
建筑图纸常常存在许多错误:尺寸冲突、协调缺口、材料不匹配、缺失细节等等。这些错误在施工过程中会导致延误和数十万美元的返工。InspectMind 可以在几分钟内审核一个建筑项目的完整图纸集。它交叉检查建筑、工程和规范,以在施工开始前捕捉可能导致返工的问题。
这里有一个包含一些示例的视频:<a href="https://www.youtube.com/watch?v=Mvn1FyHRlLQ" rel="nofollow">https://www.youtube.com/watch?v=Mvn1FyHRlLQ</a>。
在此之前,我(Aakash)创建了一家工程公司,参与了大约 10,000 幢建筑的项目。我们一直感到沮丧的一件事是:许多设计协调问题在施工开始之前并不会显现出来。到那时,错误的成本可能高达 10 到 100 倍,所有人都在忙着修复本可以更早发现的问题。
我们尝试了各种方法,包括检查清单、叠加审查、同行检查,但在 500 到 2000 页 PDF 文档中滚动并记住每个细节与其他页面的连接是一项脆弱的过程。城市审查员和总承包商的预施工团队也在努力捕捉问题,但仍然会有问题漏网。
我们想:如果模型可以解析代码并生成可运行的软件,也许它们也可以帮助我们在纸面上推理建筑环境。因此,我们构建了我们希望拥有的工具!
您只需上传图纸和规范(PDF 格式)。系统会将它们拆分为不同学科和细节层次,解析几何和文本,并寻找不一致之处:- 各页之间不一致的尺寸;- 被机械/建筑元素阻挡的间隙;- 缺失或不匹配的消防/安全细节;- 从未出现在图纸中的规范要求;- 引用不存在细节的标注。
输出结果是一个潜在问题的列表,包含页面引用和位置,供人工审核。我们并不期望自动化取代设计判断,只是希望帮助建筑、土木工程和电气专业人士不遗漏明显的问题。当前的 AI 在处理明显问题方面表现良好,并且可以处理超出人类准确处理能力的数据量,因此这是一个很好的应用场景。
建筑图纸并没有标准化,每个公司对事物的命名方式也不同。早期的“自动检查”工具在很大程度上依赖于客户手动编写的规则,当命名约定发生变化时就会失效。相反,我们使用多模态模型进行 OCR + 向量几何、跨整个图纸集的标注图、基于约束的空间检查和增强检索的代码解释。再也不需要硬编码规则了!
我们目前正在处理住宅、商业和工业项目。延迟时间从几分钟到几个小时不等,具体取决于图纸数量。无需任何入门培训,只需上传 PDF 文件。仍然存在许多边缘案例(PDF 提取异常、不一致的图层、行业术语),因此我们从失败中学到了很多,或许比成功学到的还要多。但这项技术已经能够提供以前工具无法实现的结果。
定价采用按需付费的方式:在您上传项目图纸后,我们会立即提供每个项目的在线报价。由于一个项目可能是家庭改造,而另一个可能是高层建筑,因此很难采用常规的 SaaS 定价。我们也欢迎对此的反馈,我们仍在摸索中。
如果您作为建筑师、工程师、机电工程师、总承包商预施工人员、房地产开发商或图纸审查员与图纸打交道,我们非常希望有机会运行一组样本,并听取您的反馈,了解哪些地方出现问题,哪些功能有用,以及哪些功能缺失!
我们将全天候在这里讨论几何解析、聚类失败、代码推理尝试或关于施工过程中如何出错的真实故事。感谢您的阅读!我们乐意回答任何问题,并期待您的评论!
这最初是我个人的一个烦恼。<p>我在Instagram和TikTok上保存了很多健身视频,但当我在健身房时,它们基本上毫无用处——因为它们都混在一个杂乱的“已保存”文件夹里,根本无法再次找到。<p>我想要一种方法,将这些短视频转化为我可以跟随的实际锻炼。<p>于是我开发了一个应用程序:
这是该应用程序的快速MVP演示:
<a href="https://vimeo.com/1144764933?fl=pl&fe=sh" rel="nofollow">https://vimeo.com/1144764933?fl=pl&fe=sh</a><p>粘贴一个Instagram或TikTok视频链接
提取锻炼动作 + 组数/次数
自动创建结构化的锻炼卡片
允许你保存、标记、组织,甚至从你最喜欢的创作者那里构建完整的锻炼计划
可以按“胸部”、“臀部”、“推举日”等进行分类<p>这就像拥有一个你曾经保存过的每个锻炼的个人图书馆。<p>如果有人感兴趣:<a href="https://lavender-staple-090021.framer.app/" rel="nofollow">https://lavender-staple-090021.framer.app/</a><p>我真心觉得这有点像是Z世代的健身应用。
大家好,HN!我们是来自DeepSource(YC W20)的Jai和Sanket,今天我们推出了Autofix Bot,这是一款结合静态分析和人工智能的混合代理,专为与AI编码代理协同使用而设计。
AI编码代理使得代码生成几乎变得免费,但这也将瓶颈转移到了代码审查上。仅依靠固定检查器的静态分析已经不够。仅依赖大型语言模型(LLM)的审查存在几个局限性:运行之间的非确定性、对安全问题的低召回率、在大规模应用时的高成本,以及容易“分心”的倾向。
在过去的六年里,我们一直在构建一个确定性的、仅基于静态分析的代码审查产品。今年早些时候,我们从头开始思考这个问题,并意识到静态分析能够解决LLM审查中的关键盲点。在过去的六个月中,我们构建了一个新的“混合”代理循环,结合静态分析和前沿的AI代理,以超越仅依赖静态分析和仅依赖LLM的工具,在发现和修复代码质量及安全问题方面表现更佳。今天,我们将其公开发布。
以下是混合架构的工作原理:
```
- 静态检查:5000多个确定性检查器(代码质量、安全性、性能)建立了一个高精度的基线。子代理抑制上下文特定的误报。
- AI审查:代理使用静态发现作为锚点来审查代码。它可以访问抽象语法树(AST)、数据流图、控制流图和导入图等工具,而不仅仅是grep和常规的shell命令。
- 修复:子代理生成修复建议。静态工具验证所有编辑,然后生成干净的git补丁。
```
静态分析解决了LLM的一些关键问题:运行之间的非确定性、对安全问题的低召回率(LLM容易被风格分散注意力)以及成本(静态分析缩小了提示大小和工具调用)。
在OpenSSF CVE基准测试中(200多个真实的JS/TS漏洞),我们的准确率达到了81.2%,F1值为80.0%;相比之下,Cursor Bugbot的准确率为74.5%(F1值77.42%),Claude Code的准确率为71.5%(F1值62.99%),CodeRabbit的准确率为59.4%(F1值36.19%),Semgrep CE的准确率为56.9%(F1值38.26%)。在秘密检测方面,我们的F1值为92.8%;相比之下,Gitleaks为75.6%,detect-secrets为64.1%,TruffleHog为41.2%。我们在这方面使用了我们的开源分类模型。
完整的方法论以及我们如何评估每个工具的详细信息,请访问: [https://autofix.bot/benchmarks](https://autofix.bot/benchmarks)
您可以通过我们的终端用户界面(TUI)在任何代码库上交互式使用Autofix Bot,或作为Claude Code的插件,或者通过我们的MCP在任何兼容的AI客户端(如OpenAI Codex)上使用。我们特别为AI编码代理优先的工作流程进行构建,因此您可以要求您的代理在每个检查点自动运行Autofix Bot。
今天就来试试吧:[https://autofix.bot](https://autofix.bot)。我们期待您的反馈!
---
[1] [https://github.com/ossf-cve-benchmark/ossf-cve-benchmark](https://github.com/ossf-cve-benchmark/ossf-cve-benchmark)
[2] [https://huggingface.co/deepsource/Narada-3.2-3B-v1](https://huggingface.co/deepsource/Narada-3.2-3B-v1)
[3] [https://autofix.bot/manual/#terminal-ui](https://autofix.bot/manual/#terminal-ui)
YouTube上,Steve Yegge和Gene Kim讨论了人工智能编码工具如何可能取代当前的集成开发环境(IDE),成为主要的编程环境,以及人工智能工作流程。
<p>网址:https://www.youtube.com/watch?v=7Dtu2bilcFs
<p>在我从事未来编码工具领域的工作时,你们怎么看:
<p>– 在接下来的几年里,IDE究竟会发生多大的变化
<p>– 我们在日常工作中是否仍会阅读和推理代码,还是几乎完全依赖更高级的构造
<p>– 这对资深开发者意味着什么?
<p>– 这对现在刚入门的学生意味着什么?
我们正在发布关于编码代理治理的早期尝试,名为 Cupcake [1] - 这是一个开源的政策执行层,具有原生集成。您可以使用政策即代码(OPA/Rego)编写规则,Cupcake 通过 Hooks 将这些规则集成到代理运行时中。
<p>查看实际演示(仅限桌面):<a href="https://cupcake-policy-studio.vercel.app/example-policies/security/protecting-paths?harness=claude-code&format=rego" rel="nofollow">https://cupcake-policy-studio.vercel.app/example-policies/security/protecting-paths?harness=claude-code&format=rego</a></p>
<p>帮助我们构建:<a href="https://github.com/eqtylab/cupcake" rel="nofollow">https://github.com/eqtylab/cupcake</a></p>
<p>我们是 EQTY Lab,我们的使命是可验证的人工智能(身份、来源和治理)。随着像 Claude Code 这样的强大代理的崛起,部署这些代理的人员需要能够进行自己的对齐和安全控制,这一点变得非常明显。我们不能仅仅依赖前沿实验室。</p>
<p>这就是为什么我们为 Claude Code [2] 创建了 Hooks 的功能请求,并在这些 Hooks 实现后转向不再依赖文件系统和操作系统级别的监控。Hooks 提供了我们所需的关键点:</p>
* 评估:检查代理的意图和行为。
* 预防:阻止不安全或不希望的行为。
* 修改:在执行之前调整代理的输出。
<p>使用 OPA/Rego 的政策即代码 - 尽管许多代理安全论文建议使用自创的领域特定语言(DSL)来构建类似的政策架构,但 Cupcake 基本上是建立在开放政策代理(OPA)及其政策语言 Rego [3] 之上的。</p>
<p>我们选择 Rego 是因为它:</p>
* 行业稳健:在企业 DevSecOps 和云原生环境中被广泛采用。
* 专门构建:为定义、管理和执行政策即代码提供独特且成熟的优势。
* 企业导向:这使得 Cupcake 与现有的企业治理框架兼容。
<p>Cupcake 采用 Apache-2.0 许可发布。我们将在 2026 年第一季度正式制定通往 v1.0.0 的路径。这是一个早期预览版本。Cupcake 的目标不是压制,而是确保代理能够快速运行而不崩溃。若要合作或联合,请联系 ramos@eqtylab.io。</p>
<p>[1] <a href="https://github.com/eqtylab/cupcake" rel="nofollow">https://github.com/eqtylab/cupcake</a></p>
<p>[2] <a href="https://github.com/anthropics/claude-code/issues/712" rel="nofollow">https://github.com/anthropics/claude-code/issues/712</a></p>
<p>[3] <a href="https://www.openpolicyagent.org/" rel="nofollow">https://www.openpolicyagent.org/</a></p>