返回首页
最新
嗨,HN,
我一直在开发一个名为SELVIV的工具,旨在减轻工作日晚餐的压力。
核心流程很简单:
• 根据您的偏好生成每周晚餐计划
• 自动创建一个有序的购物清单,并提供简单的替代选项
• 跟随清晰、简单的烹饪步骤
目前,这只是一个等待名单和一些初步设计,但我希望能听到您的反馈:
• 这个工具是否解决了一个足够真实的问题?
• 哪个部分更重要:计划、购物清单还是烹饪指导?
• 对于第一个最小可行产品(MVP),您会削减或添加什么?
感谢您的提前反馈——我知道这是一个竞争激烈的领域,所以我很想了解大家对“晚餐吃什么?”这个问题的看法。
我正在构建一个我称之为 Async LoRA 的工具,以解决我在使用便宜的 GPU(如 Salad、runpod、临时实例等)进行长时间训练时遇到的问题。这种情况非常糟糕:一个随机节点崩溃,几小时的训练成果就会消失。大多数调度器只是重新启动整个容器,这并没有真正解决问题。到目前为止,我所做的工作包括:
- 聚合器/工作节点设置,聚合器分配小的“租约”工作(按令牌大小而非时间切片)
- 异步检查点保存,进度可以持续保存而无需暂停训练
- 预占处理——当一个工作节点崩溃时,它已经完成的工作仍然有效,剩余的工作会被重新分配
- 训练感知逻辑(步骤、令牌、损失),而不是将作业视为黑箱容器
- 开箱即用的 PyTorch/DeepSpeed 接口,这样你就不需要自己将所有组件拼接在一起。我的目标是让不稳定的集群表现得更像可靠的集群
我希望能得到大家的反馈:
- 如果你在临时/可抢占的 GPU 上进行训练,通常是如何处理检查点和故障的?
- 有什么可以让这个工具更容易集成到现有的工作流程中(如 Airflow、K8s、Ray 等)?
- 在监控方面,你更希望看到原生的训练指标(损失、令牌、过时程度),还是只显示日志/事件,让你可以接入自己的监控系统?