返回首页

一周热榜

1作者: hestefisk4 天前原帖
您好, 我刚刚将Recursant发布给公众。我已经为此工作了一段时间。Recursant是一个用于管理跨多个技术栈的AI代理的控制平面。它通过将所有流量路由通过一个侧车,提供全面的可观察性、保护措施和网络层的控制。 问题陈述:许多大型受监管企业(例如银行、电信公司)在LangGraph上有一个工程团队,在CrewAI上有另一个团队,市场营销团队在AgentForce上,而数据团队则在Databricks Agent Bricks上。他们需要让这些代理之间能够相互沟通,并保持一致的政策执行、单一的审计轨迹和一套统一的保护措施,同时允许不同功能在各自的技术栈上独立运行。Recursant通过服务网格模式解决了这个问题。 Recursant有两个组件:注册中心和网格。注册中心包含所有活跃的代理,而网格则使用侧车来路由流量并在网络层执行控制。 Recursant的目标是提供实时的欧盟AI法案附录IV合规性,因此它不是从静态文档生成的。这为受此要求约束的大型企业节省了时间和精力。 限制条件: - Recursant目前可以与CrewAI、LangGraph和n8n集成。目标是尽可能支持ServiceNow和AgentForce等专有平台。 - Recursant SDK仍需改进,以支持尽可能多的代理。 - 我还希望为一些“个人代理”平台提供支持,例如OpenClaw、NanoClaw和Hermes。 - 目前仅在Kubernetes上测试,未在公共云上测试。 - 文档较少,需要进一步开发。 我希望这个项目对你们中的一些人有帮助。
1作者: alcray7 天前原帖
大家好, 我开发了 TrainForgeTester,这是一个开源的场景测试运行器,专门用于测试执行动作(调用工具)的 AI 代理。 这个想法是:测试代理在特定公司场景中的表现,而不仅仅是在一般基准测试中。更具体地说,测试代理是否会采取错误的行动、跳过必要的步骤、调用错误的工具或传递错误的参数。 TrainForgeTester 允许您运行多轮场景(您可以根据个人用例和数据,按照提供的场景架构创建这些场景),并检查: * 工具调用和参数 * 严格或无序的工具执行 * 预期的响应 * 在模型、提示或工具更改后的回归 这个场景测试器是项目的第一部分(类似于版本 0.1.0)。 我现在正在开发下一部分:一个“场景生成器”,它可以处理杂乱的历史公司数据(客户支持日志、代理记录、工具调用、转录等),并将其转化为可测试的场景,以便在这个框架中使用。再次尝试使其尽可能确定性。 代码库: [https://github.com/TrainForge/TrainForgeTester](https://github.com/TrainForge/TrainForgeTester) 我非常希望能收到以下方面的反馈: * 目前尚未覆盖的真实代理测试用例(浏览器使用、音频、视频、鼠标使用) * 这个方向是否合理 * 这个项目作为产品/开发工具的潜在发展方向 * 代码库中的问题、边缘案例或缺失功能 任何 GitHub 问题、分支或拉取请求都将非常感谢。