2作者: joshmlewis8 个月前原帖
我厌倦了将我为构建代理所写的提示复制粘贴到各个地方,并且厌倦了当我要求 ChatGPT 或 Claude 进行简单修改时,它们完全搞砸了。因此,我开发了这个工具。工具定义和你的提示是成功率的重要组成部分,但没有人真正将它们结合起来测试或尝试优化。 我计划为你的提示和工具定义添加自动评估功能,每次你进行更改时,可以针对你想要的任何模型进行评估。想知道你能使用多“简单”的模型吗?我也想将这个作为一个选项添加进来。新的模型发布了,你需要看看它的表现如何?你明白我的意思了。 我还没有设置计费/定价,这就是它目前在等待名单上的原因,但请注册,我会让你进入测试并提供反馈。