返回首页
最新
嘿,HN社区——两个月前,我们与HN社区分享了我们的第一个产品(<a href="https://news.ycombinator.com/item?id=43362535">https://news.ycombinator.com/item?id=43362535</a>)。尽管我们从HN获得了大量流量,但并没有看到任何用户增长或留存。我们最大的收获之一是我们的产品过于复杂。因此,在过去的两个月里,我们一直在迭代,朝着一个更加专注的产品方向努力,力求将一件事情做到极致。今天,我们想与HN分享我们的第二次发布。
我们最初的想法是帮助软件工程师通过将他们的领域知识整合到评分系统中,构建高质量的LLM应用,这样可以驱动从提示调整到微调、强化学习和数据过滤等一系列操作。但我们很快意识到(在HN的帮助下——谢谢大家!),大多数人并不是在第一、第二甚至第三步就进行优化——他们只是想使用系统提示和现成模型快速交付一些合理的东西。
为了构建一个对更广泛受众有用的产品,我们发现了原始产品中大多数人确实注意到并希望拥有的一项功能:检查他们的AI应用输出是否良好的能力。无论你是在调整提示、切换模型,还是仅仅测试某个功能,你仍然需要一种方式来捕捉回归并评估你的更改。除了基本的正确性,开发者们还希望衡量更微妙的品质——比如响应是否友好。
因此,我们围绕这个单一用例重建了产品:帮助开发者定义和应用主观、细致的评估标准来评估他们的LLM输出。我们称之为Pi Co-pilot。
你可以从以下任意一项开始:
- 一些好的/坏的示例
- 一个系统提示或应用描述
- 你之前写的评估提示
这个助手帮助你将这些转化为评分规范——一组大约10到20个具体问题,针对你关心的质量维度来探测输出(例如:“是否冗长?”,“是否专业?”等)。对于每个问题,它会选择:
- 一个快速的基于编码器的模型(经过评分训练)——Pi评分器。有关为什么这比“LLM作为评判者”模式更适合评分的更多细节,请参见我们的原始帖子[1]。
- 或者在更合适的情况下生成Python函数(字数统计、正则表达式等)。
你可以在示例上迭代,调整问题,调整评分行为,并快速达到一个反映你实际品味的规范——而不是一些通用基准或现成的指标。然后,你可以将评分系统集成到你自己的工作流程中:Python、TypeScript、Promptfoo、Langfuse、电子表格等等。我们提供与这些系统的简单集成。
我们从v0和Bolt等工具中获得灵感:左侧是自然语言,右侧是结构化的工件。这种模式感觉直观——以对话的方式探索,让底层系统将其凝聚成你可以检查和使用的东西(评分规范、示例和代码)。这里有一个演示视频:<a href="https://www.loom.com/share/82c2e7b511854a818e8a1f4eabb1a8c2" rel="nofollow">https://www.loom.com/share/82c2e7b511854a818e8a1f4eabb1a8c2</a>
我们非常希望社区能反馈这个产品的第二次迭代是否更有用。我们提供10美元的免费积分(约2500万个输入令牌),以便你可以尝试Pi Co-pilot来满足你的用例。无需注册即可开始探索:<a href="https://withpi.ai" rel="nofollow">https://withpi.ai</a>
整体技术栈:Co-pilot使用next.js和Vercel在GCP上。模型:在Azure上使用4o,在GCP上微调的Llama和ModernBert。训练:Runpod和SFCompute。
—— Achint(联合创始人,Pi Labs)