1作者: imshashank大约 2 个月前原帖
我过去一年一直在构建人工智能代理,发现了一个令人担忧的问题:我与每个人交谈时,他们评估代理的方式都是一样的——只看最终输出,并问“这个结果正确吗?” 但这完全是错误的。 一个代理可能通过错误的路径得出正确答案。它在中间步骤中可能会出现幻觉,但仍然能够得出正确的结论。它可能在技术上达成目标的同时违反约束条件。 传统的机器学习指标(准确率、精确率、召回率)忽视了这一切,因为它们只关注最终输出。 我一直在尝试一种不同的方法:将代理的系统提示作为真实标准,评估整个过程(而不仅仅是最终输出),并使用多维评分(而不仅仅是单一指标)。 结果截然不同。突然间,我能够看到幻觉、约束违反、低效路径和一致性问题,而这些都是传统指标完全忽视的。 我是不是疯了?还是整个行业都在错误地评估代理? 我很想听听其他构建代理的人的看法。你们是如何评估它们的?遇到了什么问题?
1作者: mesmertech大约 2 个月前原帖
在推特上看到这个话题有点火,所以我想尝试一下用代码实现。主要是想练习一下从构想到生产一个简单的无数据库应用需要多长时间。<p>结果发现,从购买域名到部署大约需要一个小时。如果我只使用 Vercel,时间可能会更短,但这个项目需要使用 ImageMagick 作为命令行工具,而设置 ImageMagick 的 WebAssembly 环境花了我太多时间。
1作者: machopanko大约 2 个月前原帖
大家好, 我非常激动,因为在推出两周后,我的第一个付费客户让我尝到了成功的滋味。 在完成我的论文和做合同工作时,我构建了这个项目。我节省了18,000美元,花了六个月的时间来开发功能和修复bug,老实说,我并不确定会有人使用它。所以看到第一个客户的到来,感觉简直不真实。 接下来该怎么办?我对此感到非常高兴,但同时我也想要一个现实检查,并希望学习如何扩展我的产品,而不是被我现在的创始人兴奋感所困住。所以我的问题是,我该如何从这里扩展? 欢迎大家提供反馈、想法和评论。 着陆页(说明) -> https://haxiom.io 产品页(应用) -> https://app.haxiom.io 技术栈: 后端:ElysiaJS + Axum 前端:SolidJS + Rust WASM markdown 渲染器 数据库:PostgreSQL + PgVector 分析数据库:Turso CDN:Cloudflare LLM/嵌入:Gemini 基础设施:DigitalOcean
1作者: muragekibicho大约 2 个月前原帖
我不知道你们是否也有同样的感受。上个月我停止向GitHub提交代码,因为我非常讨厌在提交时强制要求的AI摘要。 今天我需要为我的客户提交一次代码,而在提交时没有遇到那些大语言模型的垃圾内容。 我实际上对他们倾听我们的意见并去掉这些AI废话感到相当惊讶。 不过,我也意识到我可能是某种奇怪的A/B测试的一部分,所以我不太确定你们是否还在看到那些大语言模型的摘要垃圾。
1作者: tosh大约 2 个月前原帖
1作者: Anh_Nguyen_vn大约 2 个月前原帖
我正在构建 *StillMe*,一个开源的“透明RAG”框架,努力做到不假装自己知道一切。 与其仅仅提示一个大型语言模型(LLM)并寄希望于结果,StillMe 采取了以下措施: - 通过一个 *多层验证链* 处理所有答案(6个核心验证器 + 条件验证器,根据上下文最多可达13个) - 自动修复缺失的引用和虚构的“经验” - 记录 *系统级步骤*(RAG检索、验证器、时间分解) - 将“我不知道”视为一种 *一流的、诚实的状态*,并进行明确的认识追踪 --- ## StillMe 实际上做了什么 对于每个用户查询,StillMe: 1. 检测意图(哲学、技术或事实) 2. 相应地路由和过滤 RAG 上下文 3. 构建安全提示(考虑到令牌和语言) 4. 调用底层的 LLM(本地或云端) 5. 运行 *验证器链*: - `CitationRequired` → 添加 `[基础知识]` 或真实的网络/RAG 引用 - `EvidenceOverlap` → 检查答案与检索到的上下文(仅在上下文可用时) - `Ego-Neutrality` → 移除拟人化语言(“我感觉”,“我的经验”等) - `SourceConsensus` → 检测多个来源之间的矛盾(仅在有2个以上来源时) - `EthicsAdapter` → 避免不安全的建议,同时保持诚实 6. 记录结构化时间: - RAG 检索延迟 - LLM 推理延迟 - 验证与后处理 --- ## 真实的日志摘录(单一哲学问题) ```log StillMe 哲学查询跟踪(真实后端日志摘录) [INFO] 检测到哲学问题 — 正在过滤技术 RAG 文档 [INFO] 检索到3个基础知识文档(RAG缓存命中) [WARNING] 估计令牌超过安全限制 — 切换到最小哲学提示 [WARNING] 检测到缺失引用 — 自动修复为 [基础知识] [WARNING] Ego-Neutrality 验证器移除了拟人化术语:[‘trải nghiệm’] --- 延迟 --- RAG: 3.30s | LLM: 5.41s | 总计: 12.04s ``` --- ## 我为什么要构建这个 如今大多数 LLM 系统: - 隐藏它们的推理过程 - 草率处理引用 - 夸大信心 - 将“我不知道”视为失败 而 StillMe 则走向相反的方向: - *透明优先*:每个重大决策都有记录 - *认识诚实*:允许(并鼓励)说“我不知道” - *模型无关*:与本地和云端 LLM(DeepSeek、OpenAI、Ollama)兼容 - *无需微调*:所有行为在框架层面强制执行 --- ## 寻求反馈与贡献者 我是一名来自越南的独立开发者。StillMe 已经: - 作为后端 + 仪表板运行 - 集成了真实的学习管道(RSS、arXiv、维基百科 - 每4小时更新一次) - 使用了一个实时的 RAG 系统和基础文档 仓库链接:[https://github.com/anhmtk/StillMe-Learning-AI-System-RAG-Foundation](https://github.com/anhmtk/StillMe-Learning-AI-System-RAG-Foundation) 我希望能得到关于以下方面的反馈: - 验证器架构 - 更好的日志结构和可观察性 - 使项目更友好于贡献者 - 任何可以压力测试“诚实/透明”声明的想法 感谢阅读 — 如果有人感兴趣,我很乐意回答问题并分享更多日志、图表或内部信息。