我正在舒适地使用 gpt-5.1-codex-max 进行编码,有时会达到每周的使用限制(但通常会有一些额外的积分来覆盖)。<p>我听说 Opus 4.5 可能在编码方面表现更好。SWE-bench 显示出 8% 的提升,但我很难猜测这在实际中会产生什么样的影响。对于那些已经切换的人,你们看到了什么变化,这对你的工作有什么影响?每月 100 美元的升级值得吗?
返回首页
最新
你好,
我创建了 weekinpapers.com,以解决我认为的计算机科学领域 arXiv 论文的“可发现性”问题。
随着一周的进程,主页将更新以显示新发布的论文。这个过程将在下周重新开始。
每篇论文都有一个 AI 生成的“ELI5”摘要,旨在揭示并明确任何关键词或假设知识。我认为这是大型语言模型(LLMs)的一个有效应用场景。希望前沿研究能够让更广泛的受众所接触。
马特
我是一名曾在思科和VMware担任系统架构师的专业人士,现在在泰国从事开发工作。TheAuditor v2.0 是我三个月前发布的原型的全面架构重写(超过800次提交)。
对我来说,“顿悟”并不是来自成功,而是源于一次巨大的失败。我试图利用人工智能重构一个复杂的架构变更(将“产品”基础更改为“产品变体”),但由于变更的范围太大,结果失败得非常惨烈。我意识到两件事:
* 上下文崩溃:人工智能无法在其上下文窗口中保持足够的文件,以理解重构的全部范围,因此它开始出现幻觉,“修复”表面问题。如果我继续逼迫它,它会真的感到恐慌,编造问题“以便可以修复它们”,这只会导致情况陷入恶性循环。这就是这个工具的“反派起源故事”。:D
* 过时知识:它不断尝试在Node 22项目中实现Node 16的模式,或者默认使用过时的库(例如使用glob v7而不是v11),因为它的训练数据已经过时。
我意识到,人工智能代理在输出可运行代码方面表现出色,但它对代码本身没有任何理解。它优化的目标是“无论代价如何让其运行”——通常是通过引入安全漏洞或技术债务来绕过错误。这是一个有趣的悖论,因为当被“逼迫”使用最新版本、语法和最佳实践时,它执行或编写代码毫无问题。然而,它对周围环境的无知是如此可笑,以至于除非得到明确的指导,否则它会做任何其他事情。
我构建了v2作为“理智检查”,解决了许多这些问题,并旨在继续解决我面临的更多类似问题。与其让人工智能猜测,TheAuditor将整个代码库索引到本地SQLite图数据库中。这为人工智能提供了一个可查询的现实地图,使其能够验证依赖关系和导入,而无需将“所有”文件加载到上下文中。
A/B演示: [https://www.youtube.com/watch?v=512uqMaZlTg](https://www.youtube.com/watch?v=512uqMaZlTg)
在演示视频中,可以看到它不再尝试读取10多个完整文件或grep来弥补幻觉,而是可以运行“aud explain”,获取500行确定性的“事实”信息。它获取所需的信息,而不是阅读10多个文件,试图将它们保持在上下文中,寻找所需内容,并试图记住最初为什么要寻找。
我还了解到,正则表达式/字符串/启发式方法根本无法扩展,并且速度非常慢(小时与分钟的对比)。我尝试了基于正则表达式的规则/解析器方法,但它们在复杂文件上经常默默失败,并且受到持续的限制(最糟糕的是必须根据一组规则读取所有文件)。我放弃了这种方法,构建了一个“三重条目保真度”系统。
现在,这个工具就像一个账本:解析器生成一个清单,数据库生成一张收据。如果它们不匹配,系统会故意崩溃。
它不再仅仅是一个扫描器;它是一个护栏。在我的日常工作流程中,我不会让人工智能写一行代码,直到人工智能(我选择的正好是CC/Codex)对我当前面临的问题进行了预调查。这确保它是基于事实,而不是推断假设或更糟的幻觉。
话虽如此,我的工具并不完美。为了支持这一切,我不得不为Python/JS/TS构建一个伪编译器,这意味着需要为每个框架、每种语法准备提取器——真的,所有的一切。有时我做得不够好,有时我根本没有足够的时间去构建以支持所有内容。
因此,我的建议是将该工具与您选择的人工智能代理集成,而不是将其视为供您使用的工具。我喜欢将该工具用作“确认或否定”,让人工智能运行该工具,验证源代码,并提供预实施审计。根据该审计,我将创建一个“审计计划”。
v2.0的一些主要里程碑:
* 混合污点:我扩展了Oracle Labs的IFDS研究,以跟踪跨微服务边界的数据流(例如,React fetch → Express中间件 → 控制器)。
* 三重条目保真度:这在每一层(索引器 → 提取器 → 解析器 → 存储)中都有效。每一步都有保真度检查协同工作。如果管道中的任何地方出现静默数据丢失,工具会故意崩溃。
* 图数据库:从基于文件的解析迁移到SQLite图数据库,以处理正则表达式遗漏的复杂关系。
* 范围:新增对Rust、Go、Bash、AWS CDK和Terraform的支持(v1仅支持Python/JS)。
* 代理功能:新增规划和重构引擎,使人工智能代理不仅能够扫描代码,还能安全地规划和执行架构变更。