返回首页
最新
由于前沿的大型语言模型在开放式查询中输出的多样性非常有限,我们开发了Flint,旨在逆转这一现象。Flint是一个经过微调的Qwen3 30B模型,专门训练以在回答开放式问题时产生更高的熵值。
与基础模型相比,Flint显著提高了NoveltyBench的得分,同时在非创造性基准(如MMLU-STEM)上的得分并没有显著下降。这表明,发散调优实际上并不一定会对基础能力造成负担。
Flint在NoveltyBench上的得分为7.47/10,而大多数前沿模型的得分在1.8到3.2之间。
受到ALMA的启发。随着克劳德在可验证公平的老虎机上输钱,不得不从Opus降级到Sonnet,再降级到Haiku,做出越来越糟糕的决策,加速了恶性循环。捐款将用于支持赌博的慈善机构。
系统提示,编码代理所利用的语言模型的能力是巨大的。它们详细描述了每一个可用的工具——甚至是那些你从未使用过的工具。
所以我想,如果我构建一个更简约的工具会怎样呢?
我通常在小项目上工作,所有代码都可以放在上下文窗口中。因此,我构建了一个只包含一个工具的系统:让大型语言模型(LLM)编辑我的文件的能力。
核心算法如下:
1. 读取项目目录中的每个文件
2. 将它们与用户的提示合并成一条消息
3. 发送给任何语言模型,指示其以消息和编辑列表的形式回应——每个编辑都是对特定文件的搜索和替换
4. 应用这些编辑
我尝试让LLM生成统一的差异(unified diffs),但它总是产生格式错误的结果。搜索和替换显得更为可靠——模型会逐字复制上下文中已有文件的文本。
这可以通过几个额外的功能进行扩展:
1. 一个命令行界面(CLI),让你可以继续对话或重置对话。较弱的LLM需要这个功能,以便能看到它们犯的错误。
2. 自动重试——如果编辑失败,重新发送当前文件,让LLM修复它自己的搜索块。
3. 文件删除。我设置了一个功能,使得在空文件上进行空的搜索和替换会删除该文件。
我测试的LLM是通过LM Studio API运行的本地模型。Gemma 4表现相当糟糕,而Qwen 3.5则好得多。
源代码在哪里?你应该能够通过这篇文章让任何编码代理为你生成一个。