返回首页

一周热榜

1作者: yz-yu1 天前原帖
简而言之:LLM Fighter 是一个小型的开源可玩基准,用于评估智能体行为。你只需提供一个与 OpenAI 兼容的 API;演示版本可以在浏览器中运行。它创建了面对面的“对战”,考验工具使用、规划能力和效率,并展示可以下载的逐步日志。 它的优点:能够快速、真实地感知智能体在相同规则下的表现。 它的不足:不是一个正式的学术基准,也不是一个单一的“分数”。 我创建它的原因:我想要一个可以在几分钟内玩并且仍能从中学习的工具。
1作者: etherus1 天前原帖
我似乎记得在这里看到过一篇特定的博客文章,作为一种跳出思维框架的练习,概述了在我们通常将资源限制在特定情境下时,可以做的一些事情。例如,你可以出于各种原因与许多政治人物或名人交谈。他们的联系方式可能是公开的——只需与他们交谈即可! 无论如何,我想进一步探讨这个话题,但发现很难进行搜索。有什么建议吗?谢谢 :)