返回首页
最新
一个小项目,旨在抵制那些为了迎合短暂注意力而设计的产品趋势。<p>与其在你的人工智能思考时让大脑处于无脑状态或像赌场一样的参与方式(嗨,Chad IDE),这个扩展提供逻辑谜题,让你的大脑保持活跃和敏锐。<p>在Cursor扩展中搜索“反脑腐烂IDE”,点击右下角的按钮,来玩一些能刺激思维的游戏。
这是一个未经过打磨的版本0,所以我发布它是为了获取一般反馈。它在很大程度上是借助人工智能构建的。
嗨,HN,
我们为数据分析师开发了一款人工智能助手,它将令人疲惫的电子表格和商业智能工具的工作转变为快速、可验证且愉悦的体验。早期用户反馈称,他们在常见的实际数据处理任务上,从几个小时缩短到了几分钟。
它比Excel的助手更智能:不可变的数据步骤、SQL视图的有向无环图,以及利用DuckDB对数百万行数据进行即时处理。我们的早期代理原型在Spider2-DBT基准测试中排名第一。 [https://spider2-sql.github.io](https://spider2-sql.github.io)
欢迎试用,我们期待您的反馈!
谢谢,
Di Wu及Shadowfax团队
P.S. Shadowfax是《指环王》中甘道夫的马。我们有一个隐藏的彩蛋网站,里面有三个不同的触发点,看看你能否找到它们。
我们的人工智能招聘流程自动拒绝了所有在2023年后成立公司的求职者。它无法识别像Harvey或Snorkel AI这样的公司名,也没有意识到由于训练数据截止日期,它们将变得多么重要。
我们有追踪记录、评估、Langfuse仪表板——一切看起来都很好——但我们还是不断发现一些早该发现的失败。
这个模式不断重复:
- 发布一个改进
- 它有效一段时间
- 遇到一个边缘案例导致其失效
- 直到我们失去优秀候选人时才注意到
这时我们意识到,问题不仅仅在于我们的招聘流程——几乎每个AI产品都有评估遗漏的盲点。
因此,我们构建了Verse,这是一种直接从真实AI交互中发现问题的工具——无论是候选人与招聘流程的对话,用户与代理的互动,还是任何做出决策的AI。
我们不再仅仅依赖评估,而是对对话进行聚类,识别出需要审查的关键对话,并标记出显示失败模式的对话。我们使用OpenTelemetry进行追踪数据的摄取,因此它与Langfuse、Langsmith、Braintrust和其他AI可观察性工具兼容——你可以将其与现有设置一起添加。
我发布这条信息是因为我想知道其他团队是否也遇到了同样的问题。如果你愿意,我很乐意免费审计你的AI实施,告诉你常见的故障点——即使你从未使用过Verse。
欢迎提出任何技术问题。