4作者: thmsmxwll9 天前原帖
由于前沿的大型语言模型在开放式查询中输出的多样性非常有限,我们开发了Flint,旨在逆转这一现象。Flint是一个经过微调的Qwen3 30B模型,专门训练以在回答开放式问题时产生更高的熵值。 与基础模型相比,Flint显著提高了NoveltyBench的得分,同时在非创造性基准(如MMLU-STEM)上的得分并没有显著下降。这表明,发散调优实际上并不一定会对基础能力造成负担。 Flint在NoveltyBench上的得分为7.47/10,而大多数前沿模型的得分在1.8到3.2之间。
1作者: pyrolistical9 天前原帖
系统提示,编码代理所利用的语言模型的能力是巨大的。它们详细描述了每一个可用的工具——甚至是那些你从未使用过的工具。 所以我想,如果我构建一个更简约的工具会怎样呢? 我通常在小项目上工作,所有代码都可以放在上下文窗口中。因此,我构建了一个只包含一个工具的系统:让大型语言模型(LLM)编辑我的文件的能力。 核心算法如下: 1. 读取项目目录中的每个文件 2. 将它们与用户的提示合并成一条消息 3. 发送给任何语言模型,指示其以消息和编辑列表的形式回应——每个编辑都是对特定文件的搜索和替换 4. 应用这些编辑 我尝试让LLM生成统一的差异(unified diffs),但它总是产生格式错误的结果。搜索和替换显得更为可靠——模型会逐字复制上下文中已有文件的文本。 这可以通过几个额外的功能进行扩展: 1. 一个命令行界面(CLI),让你可以继续对话或重置对话。较弱的LLM需要这个功能,以便能看到它们犯的错误。 2. 自动重试——如果编辑失败,重新发送当前文件,让LLM修复它自己的搜索块。 3. 文件删除。我设置了一个功能,使得在空文件上进行空的搜索和替换会删除该文件。 我测试的LLM是通过LM Studio API运行的本地模型。Gemma 4表现相当糟糕,而Qwen 3.5则好得多。 源代码在哪里?你应该能够通过这篇文章让任何编码代理为你生成一个。