返回首页
最新
我想为专有的人工智能模型构建一个推理提供者,但我没有一个庞大的GPU集群。我开始尝试无服务器的AI推理,但发现冷启动的延迟非常大。我深入研究,开发出一个引擎,可以将大型模型从SSD加载到显存中,速度比其他方案快十倍。它与vLLM、变换器等兼容,更多功能即将推出。
通过这个项目,您可以按需热交换整个大型模型(32B)。
它非常适合于:
- 无服务器AI推理
- 机器人技术
- 本地部署
- 本地代理
而且它是开源的。
如果有人想要贡献,请告诉我 :)
大家好!我正在开发 OtterLang,这是一种小型实验性脚本语言,旨在让人感觉像 Python,但通过 LLVM 编译为本地二进制文件。
<p>我们的目标不是要重新发明 Python 或 Rust,而是找到它们之间的平衡点:
<p>具备 Python 风格的可读性和语法
Rust 水平的性能和类型安全
快速构建和透明的 Rust FFI(您可以直接导入 Rust crate,而无需编写绑定)
<p>OtterLang 仍处于早期阶段,非常实验性。编译器、运行时和 FFI 桥接正在频繁重写。
<p>请给这个项目加星,并贡献您的力量来帮助它发展。