2作者: pveldandi大约 1 个月前原帖
我们开发了InferX,这是一种模型运行时,可以快照完整的GPU执行状态、权重、内存布局和KV缓存,并在大约2秒内恢复任何模型。无需重新初始化,无需重新加载权重,也无需容器。 借助这一技术,我们在仅使用2个A1000 GPU的情况下运行了50多个大型语言模型,消除了冷启动问题,并将内存像线程一样进行调度。传统上,如果为每个模型分配单独的GPU,这将需要70个以上的GPU。 我们并没有进行推测性批处理或模型合并,而是在运行时层面进行原生调度。 这一技术旨在支持: • 代理堆栈(每个代理使用自己的模型) • 特定租户的微调 • 长尾工作负载,即模型不持续接收流量的情况 我们非常希望听到其他人在这个多模型推理领域的解决方案或观察到的情况。乐意深入讨论快照、内存管理或调度策略的技术细节。 请随时问我任何问题。
1作者: nsiradze大约 1 个月前原帖
你好, 我19岁,是一名全职软件开发人员,目前在欧洲现场工作。我在一月份访问了美国和旧金山。期间我参加了拉斯维加斯的一场会议,随后搬到了旧金山,在那里工作了一个月。我可以说,这里就是我想要生活的地方。 我认为每个人的生活中都有这样一个时刻,始终在寻找自己的归属,而我可以说我找到了。旧金山、洛杉矶或附近的地方是我真正想要搬去的地方。 我没有上大学,因为我从14岁开始就一直在工作,现在我正在寻找搬到旧金山的方法。 我知道我的全职工作无法实现这个目标,所以我对其他事情都很开放。我可以做些什么呢?附近有没有我可以申请的学习项目? 对于那些问我为什么需要这个的人,我不喜欢欧盟的运作方式、创业生活或其他一切复杂的事情。我喜欢美国的自由,他们懂得正义的价值。这真的很符合我的想法。 所以,请告诉我是否有任何实现这个目标的方法。作为一名开发者,我可以在这里创造出伟大的东西。我正在从事人工智能的工作,这对我来说是一个提升的顶级领域。 我会非常感激任何反馈,谢谢!
1作者: amosoraptor大约 1 个月前原帖
我通过 Linux Shell 为任何公共 GitHub 仓库构建了一个快速的树形构建器。<p>`gitterbugs`(gbgs)可以在几秒钟内克隆、分析并渲染出任何 GitHub 仓库的美观、可读且带有大小注释的树形结构。<p>例如,运行 `gbgs <a href="https:&#x2F;&#x2F;github.com&#x2F;torvalds&#x2F;linux">https:&#x2F;&#x2F;github.com&#x2F;torvalds&#x2F;linux</a>` 会生成:<p>``` linux&#x2F; ├── README (4.3K) ├── Makefile (7.1K) ├── arch&#x2F; │ └── x86&#x2F; │ └── entry.S (1.5K) └── init&#x2F; └── main.c (5.9K) ```<p>文件大小以人类可读的形式显示,没有杂乱信息,使用干净的 Unicode 管道以确保最大可读性。