返回首页
最新
我需要一种方法来随机获取arXiv上的论文,因此我构建了一个工具,并想与大家分享。<p>这个工具:
1) 随机选择一个主题(包括所有的 cs.<i>、econ.</i>、math.* 等主题)
2) 找到该主题下论文的最大数量,并
3) 查询该主题中的一篇随机论文。<p>请注意,这种方法会使得不太常见的主题的分布严重偏向,但它应该能够完成任务。欢迎提出改进建议。
大家好!希望你们今天过得愉快。今天我想分享一个我过去几个月一直在开发的实验性开源项目,名为Wildcat。Wildcat是一个嵌入式持久存储引擎,采用了类似于RocksDB和LevelDB的LSM树结构。开发这个系统的动机是为了尝试解决大多数嵌入式系统所面临的多写入者瓶颈。在这个过程中,尤其是在处理日志结构存储系统时,我实现了许多有趣的优化和算法,涉及到写入和读取路径。
希望你们能去看看 :)
亚历克斯
我们为结构化上下文稀疏性构建了融合操作符内核,以避免加载和计算最终因激活而归零的前馈层权重的激活值。<p>结果如何?我们在变换器中观察到多层感知器(MLP)层的性能提升了5倍,同时内存消耗减少了50%,避免了每个令牌预测中的休眠节点。对于Llama 3.2,前馈层占总权重和前向传播计算的30%,导致吞吐量增加了1.6到1.8倍:<p>稀疏LLaMA 3.2 3B与LLaMA 3.2 3B(基于HuggingFace实现):<p>- 首个令牌生成时间(TTFT):快1.51倍(1.209秒 → 0.803秒)
- 输出生成速度:快1.79倍(0.7 → 1.2个令牌/秒)
- 总吞吐量:快1.78倍(0.7 → 1.3个令牌/秒)
- 内存使用:减少26.4%(6.125GB → 4.15GB)<p>在github/sparse_transformers上找到开源的带有差异权重缓存的操作符内核。让我们让大型语言模型(LLMs)快速运行起来!