返回首页
最新
构建了一个系统,自动确定需要多少次LLM作为评判者的运行,以获得统计上可靠的评分。<p>关键见解:将每次LLM评估视为一个噪声样本,然后使用置信区间来决定何时停止采样。数学分析表明,提高可靠性是相对便宜的(将置信度从95%提升到99%仅需增加1.7倍的成本),但提高精度则成本高昂(将规模粒度加倍需要增加4倍的成本)。<p>还实现了“混合专家采样”——在同一批次中轮换使用多个模型(如GPT-4、Claude等),以增强稳健性。<p>分析了在这种方法中延迟、成本和可靠性如何变化。<p>典型结果:需要5到20个样本,而不是随意猜测。这在AI安全评估和模型比较中尤其有用,因为可靠性至关重要。<p>代码:<a href="https://github.com/sunnybak/precision-based-sampling">https://github.com/sunnybak/precision-based-sampling</a>
博客:<a href="https://www.sunnybak.net/blog/precision-based-sampling" rel="nofollow">https://www.sunnybak.net/blog/precision-based-sampling</a>