返回首页
最新
我已经写了几年的Python代码了。但我觉得大型语言模型(LLMs)能写出比我更好的代码。我以前会保持对新技术的关注,但现在我失去了兴趣。我曾经对学习Rust很感兴趣,但现在我找不到任何动力,因为我可以轻松地用Rust编写代码。对此你有什么看法吗?
大家正在做什么?
我过去一年一直在构建人工智能代理,发现了一个令人担忧的问题:我与每个人交谈时,他们评估代理的方式都是一样的——只看最终输出,并问“这个结果正确吗?”
但这完全是错误的。
一个代理可能通过错误的路径得出正确答案。它在中间步骤中可能会出现幻觉,但仍然能够得出正确的结论。它可能在技术上达成目标的同时违反约束条件。
传统的机器学习指标(准确率、精确率、召回率)忽视了这一切,因为它们只关注最终输出。
我一直在尝试一种不同的方法:将代理的系统提示作为真实标准,评估整个过程(而不仅仅是最终输出),并使用多维评分(而不仅仅是单一指标)。
结果截然不同。突然间,我能够看到幻觉、约束违反、低效路径和一致性问题,而这些都是传统指标完全忽视的。
我是不是疯了?还是整个行业都在错误地评估代理?
我很想听听其他构建代理的人的看法。你们是如何评估它们的?遇到了什么问题?
在推特上看到这个话题有点火,所以我想尝试一下用代码实现。主要是想练习一下从构想到生产一个简单的无数据库应用需要多长时间。<p>结果发现,从购买域名到部署大约需要一个小时。如果我只使用 Vercel,时间可能会更短,但这个项目需要使用 ImageMagick 作为命令行工具,而设置 ImageMagick 的 WebAssembly 环境花了我太多时间。
大家好,
我非常激动,因为在推出两周后,我的第一个付费客户让我尝到了成功的滋味。
在完成我的论文和做合同工作时,我构建了这个项目。我节省了18,000美元,花了六个月的时间来开发功能和修复bug,老实说,我并不确定会有人使用它。所以看到第一个客户的到来,感觉简直不真实。
接下来该怎么办?我对此感到非常高兴,但同时我也想要一个现实检查,并希望学习如何扩展我的产品,而不是被我现在的创始人兴奋感所困住。所以我的问题是,我该如何从这里扩展?
欢迎大家提供反馈、想法和评论。
着陆页(说明) -> https://haxiom.io
产品页(应用) -> https://app.haxiom.io
技术栈:
后端:ElysiaJS + Axum
前端:SolidJS + Rust WASM markdown 渲染器
数据库:PostgreSQL + PgVector
分析数据库:Turso
CDN:Cloudflare
LLM/嵌入:Gemini
基础设施:DigitalOcean