4作者: tsvoboda9 天前原帖
嗨,HN!我们是TensorPool。我们帮助公司获取和优化大规模计算资源,以训练基础模型。 <p>问题</p> 自从我们完成YC项目以来,已经快一年了,我们的平台上运行的多节点训练GPU小时数刚刚突破了100,000小时。 <p>在这些训练过程中,我们经历了无数次凌晨3点的作业崩溃,原因包括不稳定的GPU导致的Xid错误或S3超时导致的检查点保存损坏。当你醒来并注意到时,已经损失了8个小时以上的计算时间。你急忙诊断问题,手动从最后一个检查点重新启动,并希望这种情况不会再次发生。如此反复。 <p>对于需要数天到数周的训练任务,这种不断的监控既令人疲惫又成本高昂。失去的研究迭代周期可能会影响模型的发布(尤其是在短期预定的情况下)。 <p>我们构建的解决方案</p> 这个代理程序监控你的训练作业,并在出现问题时自动恢复。它与Kubernetes、Slurm和TensorPool作业兼容。 <p>我们最初将TensorPool代理作为内部工具,帮助我们调试与客户的故障。随着时间的推移,我们意识到它的性能非常出色,可以自动化整个分类处理过程。我们现在正在发布公共测试版供大家使用。 <p>最佳情况:TensorPool代理检测到故障,诊断根本原因,修复问题,并从最后一个检查点重新启动你的作业——这一切都在你睡觉的时候完成;) <p>最坏情况:如果TensorPool代理无法自动修复问题,它会提供初步的根本原因分析(RCA)和它尝试的操作列表,帮助你更快地进行调试。 <p>工作原理</p> 1) 注册——你通过我们的仪表板向作业调度程序提供凭据。权限基于白名单授予;你可以明确控制代理可以采取的操作。 2) 监控——代理持续监控你的作业是否出现故障条件。 3) 恢复——在发生故障时,代理分析日志并尝试诊断问题。如果成功,它将从最后一个检查点重新启动作业并继续监控。如果不成功,你将收到包含完整上下文的警报。 <p>目标故障模式</p> 该代理专门针对训练过程中深层次发生的运行时错误设计,例如: - CUDA OOM:内存泄漏,梯度爆炸 - Xid错误:GPU硬件故障(Xid 79、63、48等) - 分布式通信故障:NCCL超时,排名失败 - 存储I/O错误:检查点损坏 - 网络问题:挂载对象存储时的S3请求超时
4作者: Haakam219 天前原帖
大家好,我们是 Haakam、Michael 和 Adi。我们正在构建 AgentMail(<a href="https://agentmail.to">https://agentmail.to</a>),这是为代理人设计的电子邮件收件箱 API。我们不是在谈论为您的电子邮件提供 AI,而是为您的 AI 提供电子邮件。 <p>电子邮件是长时间运行的代理的最佳接口。它支持多线程和异步操作,完全支持富文本和文件。它是一种通用协议,内置身份和认证。此外,许多工作流程中关键的上下文信息已经存在于电子邮件中。 <p>我们希望构建可以将工作转发给并返回已完成任务的电子邮件代理。这些代理可以完全自主行动,因为您无需委托您的身份。如果它们遇到问题,可以直接给您或其他人发送电子邮件。 <p>使用 Gmail 时,我们不断受到其 API 限制的困扰。无法以编程方式创建收件箱。存在速率和发送限制。每个收件箱都需要 OAuth。关键词搜索无法理解上下文。按座位计费的定价模式不适合代理。 <p>因此,我们构建了我们希望存在的东西:一个为开发者提供的电子邮件服务。提供创建收件箱和配置域名的 API。电子邮件解析和线程处理。从附件中提取文本。实时网络钩子和 WebSocket。跨收件箱的语义搜索。基于使用量的定价,适合代理。 <p>开发者、初创公司和企业已经在使用 AgentMail 部署电子邮件代理。这些代理可以将对话和文档转换为结构化数据。可以获取报价、谈判价格并获得最佳交易的代理。模拟互联网用户以训练端到端任务模型的代理。 <p>这是 Clawdbots 使用 AgentMail 进行通信的演示:<a href="https://youtu.be/Y0MfUWS3LKQ" rel="nofollow">https://youtu.be/Y0MfUWS3LKQ</a> <p>您可以在 <a href="https://agentmail.to">https://agentmail.to</a> 免费开始使用 AgentMail。 <p>期待听到您的想法和反馈。
4作者: jonhermansen9 天前原帖
我一直在努力让 NixBSD(Nix 包管理器 + FreeBSD)能够与 NixOS 一起在共享的 ZFS 池上启动。最终的结果是一个小于 2GB 的磁盘映像,您可以在 QEMU 或 virt-manager 中尝试。 **已实现的功能:** - GRUB 链接到 FreeBSD 的引导加载程序 - 两个系统共享一个 ZFS 池 - 所有内容都在一个 Nix flake 中定义 - 完全可重现的构建(一些依赖项现在已在 Cachix 上缓存) **计划中的功能:** - 支持 NixBSD 的本地编译(目前在 Linux 上交叉编译) - 为了使其工作,采取了许多捷径,需要大量清理 - 添加一个类似于 nixos-wizard 的半自动安装程序 **尝试方法:** ```bash qemu-system-x86_64 -enable-kvm -m 2048 \ -bios /usr/share/ovmf/OVMF.fd \ -drive file=nixos.root.img,format=raw ``` 登录:nixos/nixos 或 root/toor 最困难的部分是使挂载在启动时正常工作,使引导加载程序设置具有幂等性,以及调试早期初始化。这个磁盘映像在经过一些额外工作后,可能可以在 USB 闪存驱动器上运行。 这仍然是一个实验性项目。我的目标是最终制作一个正式的 NixBSD 安装 ISO,并将所有配置整合到一个代码库中,同时仍然使用上游的 NixBSD 作为 flake。 **下载链接:** [https://github.com/jonhermansen/nixbsd-demo/releases/tag/build-1](https://github.com/jonhermansen/nixbsd-demo/releases/tag/build-1) 欢迎在这里或 GitHub 上留下反馈!谢谢!
14作者: EastLondonCoder9 天前原帖
我们是玛利亚和乔纳坦,我们在瑞典诺尔雪平经营一个名为Kolibri的小型DIY音乐俱乐部。<p>我们通过一家小型瑞典公司来运营这个俱乐部。我们支付艺术家的费用,处理后勤事务,并认真对待运营。但在最相关的方面,它仍然像一个微型文化初创企业:你必须建立信任,形成可识别的身份,合理安排节奏,避免倦怠,并创造出人们真正愿意回归的东西,而不依赖于巨额预算或增长黑客。<p>我们每个月的最后一个星期五在一家小餐厅举办活动,通常有50到70位付费客人。<p>我们所建立的不是一个应用程序,而是一个可重复的本地活动形式:一个以音乐为中心的聚会之夜,让陌生人变成常客,而不是以社交网络为主。<p>我们建立了一个简单的锚点网站,包含活动日程和照片/视频:<a href="https://kolibrinkpg.com/" rel="nofollow">https://kolibrinkpg.com/</a><p>你可以在网站上“尝试”的内容包括:<p><pre><code> * 晚会的照片和短视频(氛围 + 规模) * 编排/策划的感觉(我们预定的内容,晚会的顺序安排) * 足够的背景信息,以便如果你在当地建立类似的活动,可以复制部分格式 </code></pre> 事情是如何开始的:几乎是偶然。我正在与一位来自伦敦的朋友进行远程音乐会话,边聊边传递Ableton项目。一天晚上,我喝完了啤酒,走进了一家附近的餐厅(Mitropa)。几次交谈后,我们在日历上定下了日期。<p>那家餐厅至今仍是我们的活动场地。它由一家当地家庭经营:一位负责厨房,另一位管理场地。随着时间的推移,他们与我们变得亲近,所以我直言不讳:如果他们打电话需要帮助,我们会放下一切。<p>玛利亚很快被称为“klubbvärdinnan”(女主人),部分是开玩笑。在瑞典的1970年代,豪华夜总会有时会有一位klubbvärdinna,作为一种社交锚。后来她将这个称号作为自己的DJ别名,这个角色也变得真实起来:迎接客人,识别那些看起来不确定的新面孔,并默默地为人们之间的互动定下基调。<p>新颖之处(如果有的话)在于我们将这个夜晚视为一个设计好的社交系统:<p><pre><code> * 策划就是治理。如果音乐连贯且情感“真实”,人们就会放松。如果音乐平庸,人们就会表现得很做作。 * 房间需要一个主持层。必须有人让独自到场的人感到社交安全。 * 常客是培养出来的,而不是被获取的。当人们感到被认可,并且夜晚有一致的身份时,他们才会回来。 * DIY的限制创造了合法性。用微薄的预算将一家角落餐厅变成俱乐部听起来很业余,但它看起来是真实的。 * 行为边界是实用的。如果新来的人无法信任这个空间,整个活动就会停止运作。 </code></pre> 关于营销:我们很快了解到“更频繁地发布”并不等同于建立一个本地的活动。最有效的方法是模拟推广:我们在城里走动,拜访我们真正喜欢的当地商家,买点东西,自我介绍,并询问是否可以留下传单。这虽然无聊,但因为它是人性化的,而不是算法驱动的,所以建立了信任。<p>一个具体的例子:早期我们需要Instagram内容,能够在不拍摄夜总会人群的情况下展示音乐。我们开始拍摄耳机漫步的短片:一个人戴着耳机,走在城里,背景是我们选择的曲目。效果很好,风格化且电影感十足,这比我们预期的更重要。人们不仅容忍被拍摄,许多人还希望出现在视频中。然后我们会邀请他们在活动后喝几杯免费的饮料,以表示感谢,并有机会真正交流。这是一个可靠的早期建立信任的机制。<p>有一次,我们被提供了一个更大的场地和合适的预算。这很诱人。但我们刚刚在Mitropa举办了第一次现场演出,感觉到了一种契机。我们意识到,这个活动形式之所以有效,是因为它小而扎实。规模的扩大将改变社交物理学。
6作者: ShreyaChaurasia9 天前原帖
嗨,HN, 我们刚刚在Flexprice中发布了Nomod集成。 为了提供一些背景,Flexprice是一个开源的账单系统,处理发票、使用情况和信用钱包。我们希望弥补的一个空白是支持特定地区的支付提供商,而不破坏账单状态。 通过这个集成: - 在Flexprice中完成的发票可以同步到Nomod - 为发票生成一个托管的Nomod支付链接 - 支付状态更新会反馈回Flexprice - 发票和支付记录保持同步 - 只有在支付成功后,信用(如适用)才会被应用 这使得账单逻辑保持简单,避免了后期的对账问题。目前还没有演示,但文档已在这里上线: [https://docs.flexprice.io/integrations/nomod/](https://docs.flexprice.io/integrations/nomod/) 欢迎提问或分享反馈,特别是对于那些之前构建过账单或支付集成的人。如果您对此感兴趣,也欢迎加入我们的开源社区: [http://bit.ly/4huvkDm](http://bit.ly/4huvkDm)