我们正在生产环境中运行大型语言模型(LLMs)用于内容生成、客户支持和代码审查辅助。我们尝试了几个月来建立一个合适的评估管道,但我们测试的每个工具都有显著的局限性。
我们评估过的工具:
- OpenAI的Evals框架:在基准测试方面表现良好,但在定制用例上存在挑战。通过YAML文件进行配置可能会很复杂,扩展功能需要深入其代码库。主要设计用于批处理,而非实时监控。
- LangSmith:具有强大的追踪能力,但评估功能似乎次于其可观察性重点。免费层之后,定价从每千条追踪0.50美元起,对于高容量使用来说,费用迅速累积。处理较大数据集时,用户界面可能会变得缓慢。
- Weights & Biases:强大的平台,但主要用于传统机器学习实验跟踪。设置复杂,需要较高的机器学习专业知识。我们的产品团队在有效使用上遇到困难。
- Humanloop:界面简洁,专注于提示版本控制,具备基本的评估能力。可用的评估类型有限,功能集的定价较高。
- Braintrust:对评估的有趣方法,但感觉像是一个早期阶段的产品。文档稀少,集成选项有限。
我们实际需要的:
- 实时评估监控(不仅仅是批处理)
- 不需要博士级设置的自定义评估功能
- 针对主观任务的人机协作工作流程
- 每个模型/提示的成本跟踪
- 与我们现有可观察性栈的集成
- 产品团队能够实际使用的工具
当前解决方案:
自定义脚本 + 基本指标的监控仪表板。每周在电子表格中进行手动审查。虽然可行,但无法扩展,并且我们会错过一些边缘情况。
有没有人找到能够很好处理生产环境中LLM评估的工具?我们是否期望过高,还是这些工具确实不成熟?特别希望听到没有专职机器学习工程师的团队的反馈。
返回首页
最新
我们是Oliver和Royce,Clearspace的创始人。我们开发工具,帮助人们减少屏幕使用时间(这是我们两年前的样子:<a href="https://news.ycombinator.com/item?id=35888644">https://news.ycombinator.com/item?id=35888644</a>)。
我们收到用户的各种请求,希望能够利用他们的屏幕时间数据。比如:
“每次我超过限制或试图绕过限制时,自动向慈善机构捐赠$x。”
“我的75 Hard小组有屏幕时间要求,我们能否设置小组可见性?”
“如果是处理待办事项的好时机,请通知我的个人助手。”
“自动向我的治疗师报告我屏幕时间的大幅偏差。”
我们无法满足所有请求,因此我们推出了这个API。
这是iOS屏幕时间首次在网络上可用。苹果并没有公开这个数据,但由于我们自己进行测量,因此可以通过用户界面或API访问。我们推出这个API是为了让开发者能够构建这些工具以及更多功能。我们的目标是提供更多解决方案,以应对我们认为是当今世界最大的问题——数字世界中人类注意力与意图的不匹配。
以下是设置和使用该API的快速演示:<a href="https://drive.google.com/file/d/1QahETj3xaaIsn0JiNbuqvTaSLdxo-eTu/view?usp=sharing" rel="nofollow">https://drive.google.com/file/d/1QahETj3xaaIsn0JiNbuqvTaSLdx...</a>
大家好!我们是来自HyperDX(现在是ClickHouse的一部分)的Mike和Warren!我们正在构建ClickStack,这是一个开源的可观察性栈,帮助您在几分钟内收集、集中、搜索/可视化/警报您的遥测数据(日志、指标、追踪)——所有这些都由ClickHouse(Apache2)提供存储支持,HyperDX(MIT)用于可视化,OpenTelemetry(Apache2)用于数据摄取。
您可以在这里查看快速入门指南,了解如何在仓库中启动: [https://github.com/hyperdxio/hyperdx](https://github.com/hyperdxio/hyperdx)
ClickStack使得为您的应用程序添加监控变得非常简单,您可以从“我的结账没有通过”的错误报告,快速查看用户的会话重放、后端API调用、与该特定请求相关的数据库查询和基础设施指标,所有信息都在一个视图中。
对于那些可能从非常昂贵的可观察性供应商(TM)迁移到开源、性能更强且不需要大量限制保留时间和采样率的解决方案的人,ClickStack提供了一种开箱即用的方式来开始这一迁移之旅。
对于不熟悉ClickHouse的人,它是一种高性能数据库,已经被Anthropic、Cloudflare和DoorDash等公司用于大规模的核心可观察性,因为它的灵活性、易用性和成本效益。然而,这需要团队专门派工程师来构建自定义的可观察性栈,难以轻松将遥测数据导入ClickHouse,并且缺乏原生的用户界面体验。
这就是我们构建ClickStack的原因——我们希望提供一种简单的方式来摄取您的遥测数据,无论是来自Node.js或Ruby的日志和追踪,还是来自Kubernetes或您的裸金属基础设施的指标。同样重要的是,我们希望用户能够享受一种可视化体验,允许用户使用熟悉的类似Lucene的搜索语法(类似于您在Google中使用的语法)快速搜索。不过,我们也意识到,对于最复杂的查询,SQL模式是必需的。我们还通过绘制异常事件与正常事件之间的差异,增加了高基数异常分析——我们发现这在缩小回归/异常原因以及日志模式的聚类方面非常有帮助。
我们对未来ClickStack产品的改进和ClickHouse核心数据库的可观察性提升感到非常兴奋。我们非常希望听到大家的反馈和看法!
启动一个容器非常简单:`docker run -p 8080:8080 -p 4317:4317 -p 4318:4318 docker.hyperdx.io/hyperdx/hyperdx-all-in-one`
浏览器实时演示(无需注册或其他繁琐操作,完全在您的浏览器中运行!): [https://play.hyperdx.io/](https://play.hyperdx.io/)
登录页面: [https://clickhouse.com/o11y](https://clickhouse.com/o11y)
GitHub仓库: [https://github.com/hyperdxio/hyperdx](https://github.com/hyperdxio/hyperdx)
Discord社区: [https://hyperdx.io/discord](https://hyperdx.io/discord)
文档: [https://clickhouse.com/docs/use-cases/observability/clickstack/getting-started](https://clickhouse.com/docs/use-cases/observability/clickstack/getting-started)
Vibe 在喝了大约 12 瓶啤酒后,曾经编写了这个游戏创作工具。觉得很酷,想在这里分享一下。
我需要一种方法来随机获取arXiv上的论文,因此我构建了一个工具,并想与大家分享。<p>这个工具:
1) 随机选择一个主题(包括所有的 cs.<i>、econ.</i>、math.* 等主题)
2) 找到该主题下论文的最大数量,并
3) 查询该主题中的一篇随机论文。<p>请注意,这种方法会使得不太常见的主题的分布严重偏向,但它应该能够完成任务。欢迎提出改进建议。
大家好!希望你们今天过得愉快。今天我想分享一个我过去几个月一直在开发的实验性开源项目,名为Wildcat。Wildcat是一个嵌入式持久存储引擎,采用了类似于RocksDB和LevelDB的LSM树结构。开发这个系统的动机是为了尝试解决大多数嵌入式系统所面临的多写入者瓶颈。在这个过程中,尤其是在处理日志结构存储系统时,我实现了许多有趣的优化和算法,涉及到写入和读取路径。
希望你们能去看看 :)
亚历克斯
我们为结构化上下文稀疏性构建了融合操作符内核,以避免加载和计算最终因激活而归零的前馈层权重的激活值。<p>结果如何?我们在变换器中观察到多层感知器(MLP)层的性能提升了5倍,同时内存消耗减少了50%,避免了每个令牌预测中的休眠节点。对于Llama 3.2,前馈层占总权重和前向传播计算的30%,导致吞吐量增加了1.6到1.8倍:<p>稀疏LLaMA 3.2 3B与LLaMA 3.2 3B(基于HuggingFace实现):<p>- 首个令牌生成时间(TTFT):快1.51倍(1.209秒 → 0.803秒)
- 输出生成速度:快1.79倍(0.7 → 1.2个令牌/秒)
- 总吞吐量:快1.78倍(0.7 → 1.3个令牌/秒)
- 内存使用:减少26.4%(6.125GB → 4.15GB)<p>在github/sparse_transformers上找到开源的带有差异权重缓存的操作符内核。让我们让大型语言模型(LLMs)快速运行起来!