1作者: felipemesquita6 个月前原帖
我发现当任务仅仅需要“写作”时——不涉及编码、工具使用或推理——这是最佳模型。比如校对和建议更好的措辞。我认为在像 progress.openai.com 上的写作任务中,它与 GPT-5 的表现会相当不错。我对它被弃用感到失望,并且在 GPT-5 的演示中没有与它进行任何比较。附言:如果这里有人订阅了专业计划,并且仍然可以访问 4.5,能否请你在 progress.openai.com 上给它输入提示,以看看它与 5 的比较如何?
1作者: neom6 个月前原帖
嗨,HN!真不敢相信我已经在这里待了超过12年,这是我第一次参加Show HN。 我想这有两个原因。第一,我正在做另一个创业项目!Charlie是一个专注于增强的TypeScript团队的代理。:) 第二:在过去的一周左右,我们将GPT-5(通过我们的Charlie代理)与Claude Code/Opus在10个来自活跃开源项目的真实TypeScript问题上进行了对比。 我们的结果: 在所有10个逐个比较中,GPT-5都击败了Claude Code。 GPT-5生成的拉取请求解决了比o3多29%的问题。 PR审查质量比o3提高了5%。 逐对案例研究: 我们在10个逐对PR中测量了可测试性、描述和整体质量。可测试性衡量代码更改通过有意义、以行为为中心的测试的全面性。它考虑测试是否存在并与差异对齐,是否探索边缘情况和真实场景,以及是否避免了LLM生成的代码中常见的空洞、误导性或依赖实现的模式。 描述评估拉取请求的标题和摘要在多大程度上清晰准确地传达了代码更改的目的、范围和结构。它强调技术的正确性、与差异的相关性以及对未来读者的清晰度——惩罚模糊、冗长或虚构的解释,这些通常是代码生成代理产生的。 质量评估代码更改本身的实质和工艺——判断其是否正确、简洁、符合习惯用法,并且没有虚构的构造。 它强调清晰度、与项目规范的一致性和逻辑完整性,同时识别代理特有的陷阱,如过度工程、无序的抽象或虚构的工具。 可测试性:Charlie (0.69) vs Claude (0.55) 描述:Charlie (0.84) vs Claude (0.90) 整体质量:Charlie (0.84) vs Claude (0.65) 注意事项: 单次运行;没有人类反馈循环。 质量评分使用了一个次级LLM评审者——主观但透明。 我确实希望能获得关于我们可以进行更多评估的反馈,也请对提示、想法、工具设计等进行挑剔。告诉我们这个标准(CI + 类型)是否合适,或者你希望追踪什么。 在个人层面上:我在职业生涯中一直致力于帮助创作者创造的工具,我对使人们更轻松地实现目标充满热情。然而,我对生成AI仍然有些不安,但我相信未来是光明的,事情肯定会发生变化——我鼓励大家保持乐观,继续建设。 感谢你的关注!
6作者: reissbaker6 个月前原帖
嗨,HN!我们今天发布了Octofriend,一个可爱的编码助手,它可以在对话中根据需要切换GPT-5、Claude、本地或开源的LLM等。它非常擅长处理推理令牌(包括来自OpenAI和Anthropic的加密令牌),并且还包含了一些自定义训练的机器学习模型,用于修复小的差异编辑和JSON编码错误,我们也将这些模型开源了。祝你玩得开心!