简而言之:LLM Fighter 是一个小型的开源可玩基准,用于评估智能体行为。你只需提供一个与 OpenAI 兼容的 API;演示版本可以在浏览器中运行。它创建了面对面的“对战”,考验工具使用、规划能力和效率,并展示可以下载的逐步日志。
它的优点:能够快速、真实地感知智能体在相同规则下的表现。
它的不足:不是一个正式的学术基准,也不是一个单一的“分数”。
我创建它的原因:我想要一个可以在几分钟内玩并且仍能从中学习的工具。
返回首页
最新
一键将您在X(Twitter)上喜欢的帖子导出为CSV、JSON或Excel格式。轻松备份、分享或离线访问。
我最初是在GitHub上分享了一系列专门针对Claude Code的AI子代理和斜杠命令。随后,我通过创建一个网页用户界面来增强这一功能,使用户可以方便地浏览、搜索并通过复制粘贴的方式即时安装子代理和命令。之后,我开始开发一个命令行工具,允许更高级的用户直接从终端安装和管理子代理和命令。目前,我正在努力将这个命令行工具提升为一个配置工具,使用户能够轻松分享、扩展和重用Claude Code的配置(命令、钩子、子代理和MCP),以便于团队入职、大规模安装等需求。
<p>网站: <a href="https://www.buildwithclaude.com/" rel="nofollow">https://www.buildwithclaude.com/</a>
GitHub仓库: <a href="https://github.com/davepoon/claude-code-subagents-collection" rel="nofollow">https://github.com/davepoon/claude-code-subagents-collection</a>
<p>欢迎任何反馈或功能建议。