2作者: haoranchg大约 1 个月前原帖
我使用Codex和Claude Code进行编码已经有一段时间了,但实际上一个编码任务需要多长时间呢?当我请Claude Code进行估算时,结果往往来自训练数据,这些数据是基于人类的工作速度。因此,我开发了这个工具,以估算人工智能代理的工作效率。我每天早上在将编码任务分配给我的代理之前都会运行它。 工具的功能包括: - 任务规模评估:根据描述自动将任务分类为XS到XL,然后在该层级上运行PERT分析。 - 人类等效比较:为每种任务类型提供一个乘数,以便您可以看到效率提升。 - METR p80阈值:当估算超过模型的可靠性范围时发出警告。 - 波浪规划:在多代理团队中并行安排独立任务。 估算数据来自我过去几周的日常编码任务: - 每次运行的校准:Opus 4.7,GPT-5.5,不同模型具有不同的可靠性范围和成本。 - 每种任务类型的先验:后端、前端、应用开发、文档和头脑风暴。 - PR审查:我通常让Codex和Claude Code互相审查代码,工具会考虑这一点。 - 一个保持我诚实的校准循环:分配数据在当天结束时由我的协调代理进行验证。 试试吧:使用命令 `pip install agent-estimate`,查看代码 [https://github.com/kiloloop/agent-estimate](https://github.com/kiloloop/agent-estimate),或查看详细说明 [https://kiloloop.com/agent-estimate/](https://kiloloop.com/agent-estimate/)。
1作者: thingoptimizer大约 1 个月前原帖
可能是我做过的最无用的事情。这是一个通用图灵机(UTM),运行在一条(无限长、懒惰初始化的)带上,带上编码了UTM的描述以及相同的带内容。 “L0”机器已经运行了大约1.5个月,速度大约为每秒10亿步。 它正在模拟的L1机器大约每秒执行十几步。 它正在模拟的L2机器每小时执行大约一步。 在大约2070年,L3机器将迈出它的第一步。
2作者: adinhitlore大约 1 个月前原帖
好的,这只是社会科学,但请注意以下几点:<p>马斯克今天发帖邀请人们提供三条卓越能力的证明,如果他们想加入这家有史以来最昂贵和“最具创新性”的公司——SpaceX。<p>但是,当你遵循规则时,如何能够创新呢?如果你只提供1、2或4个理由,那又如何?为什么会有人愿意为一个观点非常可疑且有争议的人工作呢?看起来SpaceX不可能彻底改变世界,尽管他们已经努力了20多年,但在这20多年里,他们并没有实现真正的革命性变化。原因显而易见。