1作者: terryjiang2020大约 1 个月前原帖
我一直在构建多步骤的人工智能工作流,涉及多个智能体(规划、推理、工具使用等),有时会遇到最终输出不正确的情况,尽管技术上没有任何故障。没有运行时错误——只是结果错误。 主要挑战在于找出问题出在哪里。问题可能出现在早期的推理步骤、步骤之间的上下文传递,或者是一个微妙的错误在系统中传播。等我看到最终输出时,哪个步骤导致了问题并不明显。 我一直在使用Langfuse进行追踪,这有助于捕捉输入和输出,但在实际操作中,我仍然需要逐步手动检查每个步骤以诊断问题,这很快就让人感到疲惫。 我很好奇其他人是如何处理这个问题的。有没有更好的方法来构建或工具化这些工作流,以便更容易定位故障?有没有什么模式、工具或技术对你们有效?