返回首页
一周热榜
一键将您在X(Twitter)上喜欢的帖子导出为CSV、JSON或Excel格式。轻松备份、分享或离线访问。
简而言之:LLM Fighter 是一个小型的开源可玩基准,用于评估智能体行为。你只需提供一个与 OpenAI 兼容的 API;演示版本可以在浏览器中运行。它创建了面对面的“对战”,考验工具使用、规划能力和效率,并展示可以下载的逐步日志。
它的优点:能够快速、真实地感知智能体在相同规则下的表现。
它的不足:不是一个正式的学术基准,也不是一个单一的“分数”。
我创建它的原因:我想要一个可以在几分钟内玩并且仍能从中学习的工具。
我似乎记得在这里看到过一篇特定的博客文章,作为一种跳出思维框架的练习,概述了在我们通常将资源限制在特定情境下时,可以做的一些事情。例如,你可以出于各种原因与许多政治人物或名人交谈。他们的联系方式可能是公开的——只需与他们交谈即可!
无论如何,我想进一步探讨这个话题,但发现很难进行搜索。有什么建议吗?谢谢 :)
这是 maravel-rest-wizard 库的精简版。