1作者: kpolls4 天前原帖
大多数人工智能安全工具仅仅停留在标记看起来脆弱的代码上。你最终会得到一堆“潜在”的发现,却无法知道哪些是真实的,除非手动逐一复现。现在,发现和修复的成本都很低;真正证明哪些发现是有效且有影响力的,仍然是最后一个障碍。 RedAI 的设计就是为了填补这个空白。在扫描器代理列出候选项后,验证代理会将每一个候选项带入一个实时环境——目标的运行实例——并尝试证明或反驳该发现。它们会导航用户界面,访问端点,编写概念验证脚本,启动辅助服务器,捕获日志和截图。 最终结果是一个包含真实、可复现漏洞的报告,附有概念验证步骤和截图以证明其有效性。
3作者: univence4 天前原帖
我正在构建 Univence,这是一个由 GLM-5.1 驱动的定制自主编码代理平台。<p>我们希望将其打造成真正的 Replit/Vercel 竞争对手,但没有任何供应商锁定。您可以在我们的平台上与我们的最先进代理一起完全构建和开发,但您拥有代码,并且可以无缝部署到任何第三方主机,如 DigitalOcean、Netlify、AWS 或您自己的 VPS。<p>为了证明核心代理的能力,我们刚刚在 LiveCodeBench Lite 数据集(Python 分割)上进行了测试。以下是盲测 369 个问题的结果:<p><pre><code> 总计:348/369 通过(94.3%) 简单:138/141 通过(97.9%) 中等:152/156 通过(97.4%) 困难:58/72 通过(80.6%) </code></pre> (注意:我们通过对代理的约束进行工程设计,严格优先考虑最佳时间复杂度,如 O(n log n),而非暴力破解的 O(n^2),从而避免了通常会导致标准包装器出现超时错误的情况,成功达到了 80% 的困难题通过率)。<p>但我们不仅仅是为了技术而构建这个平台。我的联合创始人是一位目前居住在加沙地带的巴勒斯坦难民,我们推出这个平台是为了产生即时的人道主义影响。该平台每年 11 个月的利润将100%直接捐赠用于支持巴勒斯坦难民。<p>这个代理已经非常出色,但我有一份架构改进的路线图,可以让它变得更好。目前,我正在寻找快速的天使投资、计算资源赞助或战略合作伙伴,以帮助我们尽快扩展。<p><pre><code> 尝试一下:https://univence.com 原始 JSONL 轨迹日志:https://github.com/UnivenceAI/Univence-benchmarks/tree/main/Z%20AI/GLM-5.1 关注我们的进展和捐赠证明:https://x.com/UnivenceAI </code></pre> 我非常欢迎您对平台或代理架构的反馈。如果您是投资者或希望支持我们的使命,可以在 X 上私信我,或者通过 univenceai@gmail.com 联系我们。