3作者: vcf6 天前原帖
Faceoff 是一款用 Python 编写的 TUI 应用程序,旨在实时跟踪 NHL 比赛,并浏览排名和统计数据。我受到 Playball 的启发,这是一款类似的 TUI 应用程序,专注于 MLB 比赛,并曾在 HN 上被推荐。 该应用程序主要是通过 Claude Code 编写的,但并不是一次性完成的。我在使用过程中添加了新功能并修复了错误,因为在过去几个月里我在终端上花费了太多时间。 可以通过 `uvx faceoff` 来尝试该应用程序(需要 uv)。
1作者: agentseal6 天前原帖
我今天花了一些时间比较了Opus 4.6和4.7,使用了我自己的使用数据来观察它们的实际表现。<p>虽然4.7还处于早期阶段,但有一些事情让我感到惊讶。<p>在我的会话中,4.7在第一次尝试时正确的概率低于4.6。一击成功率约为74.5%,而4.6为83.8%;每次编辑的重试次数大约是前者的两倍(0.46对比0.22)。<p>此外,4.7每次调用产生的输出也明显更多,大约800个标记,而4.6为372个,这使得它的成本显著增加。每次调用的成本为0.185美元,而4.6为0.112美元。<p>当我按任务类型进行分析时,4.7在编码和调试方面的表现都较弱。编码的一击成功率从84.7%降至75.4%,调试则从85.3%降至76.5%。在功能开发方面,4.7稍微好一些(75%对比71.4%),但样本量较小。委派任务的表现差距较大(100%对比33.3%),不过4.7的样本仅有3个,因此我不想对此过于解读。<p>4.7每次调用使用的工具也较少(1.83对比2.77),几乎没有委派给子代理(0.6%对比3.1%)。目前还不确定这是否是风格差异,还是样本量较小造成的。<p>有几点需要注意。这是4.7大约3天的数据(3,592次调用)与4.6的8天数据(8,020次调用)进行的比较。有些类别只有少量示例。这些数字会随着使用量的增加而变化,您的结果可能会因工作类型的不同而有所不同。<p>npx codeburn compare