最新

我过去一年一直在构建人工智能代理，发现了一个令人担忧的问题：我与每个人交谈时，他们评估代理的方式都是一样的——只看最终输出，并问“这个结果正确吗？” 但这完全是错误的。一个代理可能通过错误的路径得出正确答案。它在中间步骤中可能会出现幻觉，但仍然能够得出正确的结论。它可能在技术上达成目标的同时违反约束条件。传统的机器学习指标（准确率、精确率、召回率）忽视了这一切，因为它们只关注最终输出。我一直在尝试一种不同的方法：将代理的系统提示作为真实标准，评估整个过程（而不仅仅是最终输出），并使用多维评分（而不仅仅是单一指标）。结果截然不同。突然间，我能够看到幻觉、约束违反、低效路径和一致性问题，而这些都是传统指标完全忽视的。我是不是疯了？还是整个行业都在错误地评估代理？我很想听听其他构建代理的人的看法。你们是如何评估它们的？遇到了什么问题？

年轻人为何在沟通上感到困难

1 分•作者: seinvak•大约 2 个月前•原帖

慢速汽车电梯教会了我关于产品设计的道理

1 分•作者: violinar•大约 2 个月前•原帖

圣诞节解谜者：GCHQ发布年度节日贺卡，献给谜题爱好者

2 分•作者: beardyw•大约 2 个月前•原帖

展示HN：用于Twitter的炫目HDR头像

1 分•作者: mesmertech•大约 2 个月前•原帖

在推特上看到这个话题有点火，所以我想尝试一下用代码实现。主要是想练习一下从构想到生产一个简单的无数据库应用需要多长时间。<p>结果发现，从购买域名到部署大约需要一个小时。如果我只使用 Vercel，时间可能会更短，但这个项目需要使用 ImageMagick 作为命令行工具，而设置 ImageMagick 的 WebAssembly 环境花了我太多时间。

梅尔维尔的《白鲸》从失败之作变成了文学杰作的畅销书

1 分•作者: tosh•大约 2 个月前•原帖

如何在获得首位付费客户后进行扩展？

1 分•作者: machopanko•大约 2 个月前•原帖

大家好，我非常激动，因为在推出两周后，我的第一个付费客户让我尝到了成功的滋味。在完成我的论文和做合同工作时，我构建了这个项目。我节省了18,000美元，花了六个月的时间来开发功能和修复bug，老实说，我并不确定会有人使用它。所以看到第一个客户的到来，感觉简直不真实。接下来该怎么办？我对此感到非常高兴，但同时我也想要一个现实检查，并希望学习如何扩展我的产品，而不是被我现在的创始人兴奋感所困住。所以我的问题是，我该如何从这里扩展？欢迎大家提供反馈、想法和评论。着陆页（说明） -> https://haxiom.io 产品页（应用） -> https://app.haxiom.io 技术栈：后端：ElysiaJS + Axum 前端：SolidJS + Rust WASM markdown 渲染器数据库：PostgreSQL + PgVector 分析数据库：Turso CDN：Cloudflare LLM/嵌入：Gemini 基础设施：DigitalOcean

上一页 1...883 884 885 886 887...4739 下一页