嘿,HN社区——两个月前,我们与HN社区分享了我们的第一个产品(<a href="https://news.ycombinator.com/item?id=43362535">https://news.ycombinator.com/item?id=43362535</a>)。尽管我们从HN获得了大量流量,但并没有看到任何用户增长或留存。我们最大的收获之一是我们的产品过于复杂。因此,在过去的两个月里,我们一直在迭代,朝着一个更加专注的产品方向努力,力求将一件事情做到极致。今天,我们想与HN分享我们的第二次发布。
我们最初的想法是帮助软件工程师通过将他们的领域知识整合到评分系统中,构建高质量的LLM应用,这样可以驱动从提示调整到微调、强化学习和数据过滤等一系列操作。但我们很快意识到(在HN的帮助下——谢谢大家!),大多数人并不是在第一、第二甚至第三步就进行优化——他们只是想使用系统提示和现成模型快速交付一些合理的东西。
为了构建一个对更广泛受众有用的产品,我们发现了原始产品中大多数人确实注意到并希望拥有的一项功能:检查他们的AI应用输出是否良好的能力。无论你是在调整提示、切换模型,还是仅仅测试某个功能,你仍然需要一种方式来捕捉回归并评估你的更改。除了基本的正确性,开发者们还希望衡量更微妙的品质——比如响应是否友好。
因此,我们围绕这个单一用例重建了产品:帮助开发者定义和应用主观、细致的评估标准来评估他们的LLM输出。我们称之为Pi Co-pilot。
你可以从以下任意一项开始:
- 一些好的/坏的示例
- 一个系统提示或应用描述
- 你之前写的评估提示
这个助手帮助你将这些转化为评分规范——一组大约10到20个具体问题,针对你关心的质量维度来探测输出(例如:“是否冗长?”,“是否专业?”等)。对于每个问题,它会选择:
- 一个快速的基于编码器的模型(经过评分训练)——Pi评分器。有关为什么这比“LLM作为评判者”模式更适合评分的更多细节,请参见我们的原始帖子[1]。
- 或者在更合适的情况下生成Python函数(字数统计、正则表达式等)。
你可以在示例上迭代,调整问题,调整评分行为,并快速达到一个反映你实际品味的规范——而不是一些通用基准或现成的指标。然后,你可以将评分系统集成到你自己的工作流程中:Python、TypeScript、Promptfoo、Langfuse、电子表格等等。我们提供与这些系统的简单集成。
我们从v0和Bolt等工具中获得灵感:左侧是自然语言,右侧是结构化的工件。这种模式感觉直观——以对话的方式探索,让底层系统将其凝聚成你可以检查和使用的东西(评分规范、示例和代码)。这里有一个演示视频:<a href="https://www.loom.com/share/82c2e7b511854a818e8a1f4eabb1a8c2" rel="nofollow">https://www.loom.com/share/82c2e7b511854a818e8a1f4eabb1a8c2</a>
我们非常希望社区能反馈这个产品的第二次迭代是否更有用。我们提供10美元的免费积分(约2500万个输入令牌),以便你可以尝试Pi Co-pilot来满足你的用例。无需注册即可开始探索:<a href="https://withpi.ai" rel="nofollow">https://withpi.ai</a>
整体技术栈:Co-pilot使用next.js和Vercel在GCP上。模型:在Azure上使用4o,在GCP上微调的Llama和ModernBert。训练:Runpod和SFCompute。
—— Achint(联合创始人,Pi Labs)
返回首页
最新
我创建了一个简单的工具 <a href="https://aboutmepro.com" rel="nofollow">https://aboutmepro.com</a>,用于生成个人简介。
这个想法是在我尝试使用大型语言模型(LLMs)更快速地构建软件时的副产品。我的过程主要集中在以下几个方面:
- 编写清晰、简单的规则来指导开发
- 使用结构化的提示与AI模型进行沟通
- 创建轻量级的产品文档(PRD)以概述功能
- 将工作拆分为小而专注的任务,以加快进度
在AI支持方面,我在两个高级模型之间切换——Gemini 2.5 Pro和Claude 3.7 Sonnet,这帮助我进行规划、编写代码,甚至生成像类别和工具这样的种子数据。
用户界面受到V0(用于快速布局)、Cursor(我每天使用的AI驱动代码编辑器)和Replit的启发——我在Replit的核心计划上托管该应用。Replit让我能够快速构建、测试和部署,而无需担心基础设施。唯一的实际成本是购买域名(我已经有了Cursor的订阅)。
我还应用了SEO最佳实践,如sitemap.xml、robots.txt和静态网站生成,以使页面快速且易于查找。
你可以在这里试用: <a href="https://aboutmepro.com" rel="nofollow">https://aboutmepro.com</a>
期待反馈。
你有什么其他技巧或窍门可以加速开发工作吗?
你好,HN,
Embedo 是一个文字方程谜题游戏,你需要猜出像 A + B − C 这样的表达式的答案。在每次猜测后,你可以看到你的词嵌入与正确答案的接近程度,这有助于你快速收敛。
今天的谜题是:意大利面 + 面条 − 千层面 = ?
我做这个是为了好玩。希望你们喜欢!
<a href="https://plan9.kr/embedo/" rel="nofollow">https://plan9.kr/embedo/</a>
我有一个与我的工作相关的副项目想法,希望能进一步完善。这个项目涉及一个低功耗的显示终端,配备电子墨水屏幕,能够连接到一个后端,该后端从各种企业系统中聚合数据,并接受来自终端的请求,以便发送到其他系统。我已经有超过15年没有编写代码,也没有接触过硬件,正在考虑全面使用人工智能来帮助实现一个概念验证(POC)。有没有人做过类似的事情,能否推荐一些人工智能/语言/框架,尤其是如何充分利用人工智能的建议?