返回首页
最新
我已经开源了 awesome-jax-flax-llms,这是一个使用 JAX 和 Flax 从零开始构建的大型语言模型(LLM)实现的精心整理的集合。该仓库旨在支持在 TPU/GPU 上进行高性能训练,非常适合研究人员、机器学习工程师和希望探索或扩展现代变换器模型的好奇者。
主要特点:
- 模块化、可读性强且可扩展的代码库
- 纯 JAX/Flax 实现的 GPT-2 和 LLaMA 3
- 使用 XLA + Optax 加速训练
- 支持 Google Colab(TPU 兼容)
- 集成 Hugging Face 数据集
- 即将支持微调、Mistral 和 DeepSeek-R
这主要是一个教育资源,但它在设计时考虑了性能,可以适应更严肃的使用。欢迎贡献,无论是提升性能、添加新模型,还是尝试不同的注意力机制。
类似于 Airflow、Prefect、Dagster、Argo 等工具,哪个在使用时产生的困惑程度最低?
介绍Bonsai 0.5B,这是首批能够与相似规模的全精度模型(如Qwen 2.5 0.5B和MobileLLM 0.5B)竞争的三元权重大型语言模型之一。<p>该模型仅在3.8B个标记上进行训练,使用的数据量比其他模型少1000倍,Bonsai重新定义了低位模型中超高效训练的可能性。<p>接下来,我们将为边缘计算构建更大更强的三元权重模型。<p>技术报告:<a href="https://github.com/deepgrove-ai/Bonsai/blob/main/paper/Bonsai.pdf" rel="nofollow">https://github.com/deepgrove-ai/Bonsai/blob/main/paper/Bonsai.pdf</a>
模型(解压后):<a href="https://huggingface.co/deepgrove/Bonsai" rel="nofollow">https://huggingface.co/deepgrove/Bonsai</a><p>联系我们:team@deepgrove.ai