返回首页

一周热榜

8作者: AbhinavX3 天前原帖
嗨,HN,我们是 Abhinav、Andy 和 Jeremy,我们正在开发 Lucidic AI([https://dashboard.lucidic.ai](https://dashboard.lucidic.ai)),这是一款 AI 代理可解释性工具,旨在帮助观察和调试 AI 代理。 这里是一个演示:[https://youtu.be/Zvoh1QUMhXQ](https://youtu.be/Zvoh1QUMhXQ)。 开始使用非常简单,只需一行代码。您只需在代理代码中调用 `lai.init()` 并登录到仪表板。您可以查看每次运行的跟踪、跨会话的累积趋势、内置或自定义评估以及分组的失败模式。调用 `lai.create_step()` 并添加您想要的任何元数据、内存快照、工具输出、状态信息,我们会为调试进行索引。 我们曾在斯坦福 AI 实验室(SAIL)进行 NLP 研究,致力于创建一个 AI 代理(使用微调模型和 DSPy)来解决数学奥林匹克问题(专注于 AIME/USAMO);我们意识到调试这些代理是非常困难的。但最后一根稻草是我们构建了一个可以在线购买商品的电子商务代理。它在结账时不断失败,每次一行代码的更改、调整提示、切换到 Llama、调整工具逻辑,都意味着需要重新运行 10 分钟,只是为了看看是否能到达同一个结账页面。 在这个时候,我们都觉得这太糟糕了,因此我们通过更好的调试、监控和评估来改善代理的可解释性。 我们首先倾听用户的反馈,他们告诉我们传统的 LLM 可观察性平台无法捕捉代理的复杂性。代理不仅仅是输入/输出对,它们还有工具、记忆和事件。因此,我们自动将 OTel(和/或常规)代理日志转换为交互式图形可视化,基于记忆和行动模式对相似状态进行聚类。 我们听说人们希望即使在图形中也能测试小的更改,因此我们创建了“时间旅行”功能,您可以修改任何状态(内存内容、工具输出、上下文),然后重新模拟 30-40 次,以查看结果分布。我们嵌入响应,按相似性聚类,并展示哪些修改导致稳定与发散的行为。 然后我们发现人们在同一任务上运行代理 10 次,逐个观察每次运行,浪费了几个小时查看大部分重复的状态。因此,我们构建了基于相似状态嵌入的轨迹聚类(如相似工具或记忆),以在大规模模拟中揭示行为模式。 接着,我们利用这些信息创建了一种力导向布局,自动将代理采取的相似路径分组,状态显示为节点,动作显示为边,失败概率则用颜色强度表示。聚类使失败模式变得明显;您可以看到数百次运行中的趋势,而不是单个跟踪。 最后,当人们看到我们的可观察性功能时,他们自然希望拥有评估能力。因此,我们开发了一个概念,让人们可以创建自己的评估标准,称为“评分标准”,这让您可以定义具体的标准,为每个标准分配权重,并设定评分定义,从而为您提供一种结构化的方法,以根据您的具体要求衡量代理性能。 为了评估这些标准,我们利用自己的平台构建了一个调查代理,它比传统的 LLM 作为评判者的方法更有效地审查您的标准并评估性能。 要开始使用,请访问 [dashboard.lucidic.ai](https://dashboard.lucidic.ai) 和 [https://docs.lucidic.ai/getting-started/quickstart](https://docs.lucidic.ai/getting-started/quickstart)。您可以免费使用 1,000 次事件和步骤创建。 期待您的想法!如有任何疑问,请随时联系 team@lucidic.ai。
8作者: tahaygun3 天前原帖
我得出的结论是,谷歌地图不再是选择德国餐厅的可靠工具。其评论系统在悄然无声中彻底崩溃——被商家及其法律团队武器化,清除任何稍微负面的评价。剩下的基本上是经过精心策划的营销,而不是真实的顾客反馈。 这一切对我来说始于大约三年前,当时我在谷歌上给一位医生留下了评论,表示我感到受到歧视。不久之后,我就收到了法律威胁,要求赔偿40,000欧元。我最终选择和解,支付了1,000欧元的法律费用,只为避免上法庭的噩梦。那是我的警钟——但当时我认为这只是个例。 实际上并非如此。 最近,这种情况严重影响了餐饮行业。在过去几周里,我收到了大约15封来自谷歌的邮件,通知我我的评论被删除。每一条都是低于5星的评价。没有仇恨言论,没有人身攻击——只是一些诚实的反馈,比如“服务很慢”或“性价比低”。这些评论统统消失了。 更糟糕的是:谷歌现在要求我证明我所说的关于我的经历是真实的。想想这有多荒谬。你怎么“证明”一次糟糕的用餐体验?难道我还需要把整个用餐过程拍下来,以备后用? 与此同时,商家在声称诽谤时不需要证明任何事情。他们只需要一个知道如何发起正确删除请求的律师,谷歌就会妥协。 结果是什么?你再也无法信任评论分数了。负面反馈正在消失,一切看起来都像是4.7星的宝石——即使它们客观上只是平庸。曾经是众包推荐引擎的谷歌地图,现在变成了一个精心包装的公关平台。 这真令人感到遗憾。评论曾经是互联网中最有用的部分之一——混乱、有缺陷,但真实。在德国,至少在谷歌地图上,它们现在基本上是假的。
8作者: whoishiring1 天前原帖
请以“寻找工作”或“寻找自由职业者”开头,注明您的位置,以及是否可以远程工作。<p>请仅在您本人希望雇佣自由职业者或作为自由职业者工作的情况下发布信息。代理机构、招聘人员、招聘网站等内容不在讨论范围内。
8作者: wordbricks4 天前原帖
我希望能够随时随地与Claude进行编程——无论是走路、通勤还是在咖啡馆。因此,我为Claude Code构建了一个基于浏览器的终端!<p>- 零配置,瞬时REPL<p>- 支持移动设备和平板电脑(Chrome、Safari)<p>- 基于WASM的高性能<p>欢迎告诉我你的想法。
8作者: stelcodes2 天前原帖
我创建并开源了一个Astro开发者博客模板,配备了一个互动主题切换器,包含所有60种主题,并与JS代码高亮工具Shiki捆绑在一起。更改主题会影响整个网站,包括代码示例和Giscus评论。受到原始Markdown美学的启发,我希望创建一个美丽的博客,类似于<a href="https://github.com/panr/hugo-theme-terminal">https://github.com/panr/hugo-theme-terminal</a>,但进行了现代化的重新设计,并融入了Astro的强大功能。 <p>功能:</p> <pre><code> - 简单的配置文件 - 多种主题模式(单一、亮色/暗色/自动、选择) - Giscus评论 - RSS订阅 - SEO最佳实践 + 社交卡片生成 - Markdown扩展(目录、提示、阅读时间等)</code></pre>
7作者: silentpuck3 天前原帖
我编写C语言的代码,常常看到有人评论或发帖称其危险、过时或不必要地复杂。<p>但对我来说,C语言就像是一种自由。<p>我可以精确地构建我想要的东西——小工具、安全的实用程序,没有魔法,没有垃圾回收,也没有遥测。<p>是的,我必须更加关注内存和安全性。但这正是重点。我想要接近机器。我想知道我的代码每一个字节在做什么。<p>尽管如此,我还是不禁思考:<p>为什么这么多人似乎不喜欢C语言?这只是因为它不保护你自己吗?还是我遗漏了什么,日后会后悔的事情?<p>我非常希望能听到诚实的看法——尤其是那些已经离开C语言的人。<p>谢谢。