嗨,HN!<p>运行命令:OPENROUTER_API_KEY="sk" npx bff-eval --demo<p>我们开发了一个工具,帮助人们对大型语言模型(LLM)的输出进行评分和评估,以了解助手的响应质量。<p>我们构建了多个LLM应用,虽然我们能够推出不错的技术演示,但对它们随时间的表现感到失望。我们与一些有相同问题的公司合作,发现科学地构建提示和评估远未解决……编写这些内容更像是在导演一场戏,而不是编码。<p>受到Anthropic的宪法人工智能概念和像DSPy这样的优秀软件的启发,我们决定将微调提示,而不是模型,作为使用实际指标和结构化调试技术来提高质量的默认方法。<p>我们的方法相当简单:你提供一个包含输入和输出的JSONL文件,选择你想要测试的模型(通过OpenRouter),然后使用一个在JS中运行的LLM评分器文件,来判断你的输出与原始查询的匹配程度。<p>如果你是从零开始,我们发现测试驱动开发(TDD)是创建提示的一个很好的方法……首先请LLM生成合成数据,然后你作为第一位评判者来创建评分,接着创建一个评分器并不断完善,直到它的评分与真实评分匹配。<p>如果你正在构建LLM应用并关心可靠性,希望这对你有帮助!欢迎任何反馈。我们团队今天整天都在这里潜伏,乐意聊天。或者直接通过WhatsApp联系我:+1 (646) 670-1291<p>我们有更大的长期计划,但希望先从这个简单(并且希望有用!)的工具开始。<p>运行命令:OPENROUTER_API_KEY="sk" npx bff-eval --demo
返回首页
最新
在大约2002年至2017年期间,一些博客、网站和出版商始终处于前沿:Ajaxian、Jesse James Garrett、Dion Almaer、Douglas Crockford、PragProg、Martin Fowler、Dave Thomas、DHH、Andy Hunt、John Resig、37signals等。
如今,HN本身还不错,但大多数帖子并不是关于前沿的<i>软件开发</i>。
如今,您去哪里获取关于软件开发前沿的最新新闻和信息呢?
我很想知道其他人都在他们的 claude.md 记忆文件中添加了什么,哪些效果很好,哪些效果不好。