1作者: xparadigm大约 2 个月前原帖
我已经写了几年的Python代码了。但我觉得大型语言模型(LLMs)能写出比我更好的代码。我以前会保持对新技术的关注,但现在我失去了兴趣。我曾经对学习Rust很感兴趣,但现在我找不到任何动力,因为我可以轻松地用Rust编写代码。对此你有什么看法吗?
1作者: imshashank大约 2 个月前原帖
我过去一年一直在构建人工智能代理,发现了一个令人担忧的问题:我与每个人交谈时,他们评估代理的方式都是一样的——只看最终输出,并问“这个结果正确吗?” 但这完全是错误的。 一个代理可能通过错误的路径得出正确答案。它在中间步骤中可能会出现幻觉,但仍然能够得出正确的结论。它可能在技术上达成目标的同时违反约束条件。 传统的机器学习指标(准确率、精确率、召回率)忽视了这一切,因为它们只关注最终输出。 我一直在尝试一种不同的方法:将代理的系统提示作为真实标准,评估整个过程(而不仅仅是最终输出),并使用多维评分(而不仅仅是单一指标)。 结果截然不同。突然间,我能够看到幻觉、约束违反、低效路径和一致性问题,而这些都是传统指标完全忽视的。 我是不是疯了?还是整个行业都在错误地评估代理? 我很想听听其他构建代理的人的看法。你们是如何评估它们的?遇到了什么问题?