返回首页

一周热榜

1作者: neom6 天前原帖
嗨,HN!真不敢相信我已经在这里待了超过12年,这是我第一次参加Show HN。 我想这有两个原因。第一,我正在做另一个创业项目!Charlie是一个专注于增强的TypeScript团队的代理。:) 第二:在过去的一周左右,我们将GPT-5(通过我们的Charlie代理)与Claude Code/Opus在10个来自活跃开源项目的真实TypeScript问题上进行了对比。 我们的结果: 在所有10个逐个比较中,GPT-5都击败了Claude Code。 GPT-5生成的拉取请求解决了比o3多29%的问题。 PR审查质量比o3提高了5%。 逐对案例研究: 我们在10个逐对PR中测量了可测试性、描述和整体质量。可测试性衡量代码更改通过有意义、以行为为中心的测试的全面性。它考虑测试是否存在并与差异对齐,是否探索边缘情况和真实场景,以及是否避免了LLM生成的代码中常见的空洞、误导性或依赖实现的模式。 描述评估拉取请求的标题和摘要在多大程度上清晰准确地传达了代码更改的目的、范围和结构。它强调技术的正确性、与差异的相关性以及对未来读者的清晰度——惩罚模糊、冗长或虚构的解释,这些通常是代码生成代理产生的。 质量评估代码更改本身的实质和工艺——判断其是否正确、简洁、符合习惯用法,并且没有虚构的构造。 它强调清晰度、与项目规范的一致性和逻辑完整性,同时识别代理特有的陷阱,如过度工程、无序的抽象或虚构的工具。 可测试性:Charlie (0.69) vs Claude (0.55) 描述:Charlie (0.84) vs Claude (0.90) 整体质量:Charlie (0.84) vs Claude (0.65) 注意事项: 单次运行;没有人类反馈循环。 质量评分使用了一个次级LLM评审者——主观但透明。 我确实希望能获得关于我们可以进行更多评估的反馈,也请对提示、想法、工具设计等进行挑剔。告诉我们这个标准(CI + 类型)是否合适,或者你希望追踪什么。 在个人层面上:我在职业生涯中一直致力于帮助创作者创造的工具,我对使人们更轻松地实现目标充满热情。然而,我对生成AI仍然有些不安,但我相信未来是光明的,事情肯定会发生变化——我鼓励大家保持乐观,继续建设。 感谢你的关注!