返回首页
最新
构建了一个系统,自动确定需要多少次LLM作为评判者的运行,以获得统计上可靠的评分。<p>关键见解:将每次LLM评估视为一个噪声样本,然后使用置信区间来决定何时停止采样。数学分析表明,提高可靠性是相对便宜的(将置信度从95%提升到99%仅需增加1.7倍的成本),但提高精度则成本高昂(将规模粒度加倍需要增加4倍的成本)。<p>还实现了“混合专家采样”——在同一批次中轮换使用多个模型(如GPT-4、Claude等),以增强稳健性。<p>分析了在这种方法中延迟、成本和可靠性如何变化。<p>典型结果:需要5到20个样本,而不是随意猜测。这在AI安全评估和模型比较中尤其有用,因为可靠性至关重要。<p>代码:<a href="https://github.com/sunnybak/precision-based-sampling">https://github.com/sunnybak/precision-based-sampling</a>
博客:<a href="https://www.sunnybak.net/blog/precision-based-sampling" rel="nofollow">https://www.sunnybak.net/blog/precision-based-sampling</a>
嗨,HN,
我开发了一款名为 Weather2Geo 的 OSINT 工具,旨在根据可见的天气小部件数据(例如温度、天气状况和任务栏中的当地时间)帮助定位截图拍摄地点。人们常常在不意识到这些数值组合的具体性的情况下发布这些截图。
该工具通过将给定的天气状况、温度和时间与来自成千上万座城市的当前数据进行比较来工作。它能够识别时区,支持模糊匹配,并且按地理位置对结果进行分组,以减少噪音。
该工具在最近的截图上效果最佳,理想情况下是在过去一小时内拍摄的,因为天气和日照条件变化迅速。
当截图缺乏 EXIF 数据或其他传统的 OSINT 线索时,该工具有助于准确定位可能的位置。
该工具是开源的,链接如下:
[https://github.com/elliott-diy/Weather2Geo](https://github.com/elliott-diy/Weather2Geo)
欢迎反馈、报告bug,或者告诉我您认为它是否有其他用途。
- Elliott