一个专门为学习大型语言模型内部机制而创建的博客:分词、注意力机制、位置编码等内容。
我最近深入研究了大型语言模型(LLMs)的内部机制,并开始记录我的发现。我的博客涵盖了以下主题:
- 分词技术(例如,BBPE)
- 注意力机制(例如,MHA、MQA、MLA)
- 位置编码和外推(例如,RoPE、NTK感知插值、YaRN)
- 像QWen和LLaMA这样的模型的架构细节
- 包括SFT和强化学习在内的训练方法
如果你对LLMs的内部工作原理感兴趣,欢迎访问我的博客:http://comfyai.app
我非常欢迎任何反馈或讨论!
查看原文
I've been diving deep into the internals of Large Language Models (LLMs) and started documenting my findings. My blog covers topics like:<p>Tokenization techniques (e.g., BBPE)<p>Attention mechanism (e.g. MHA, MQA, MLA)<p>Positional encoding and extrapolation (e.g. RoPE, NTK-aware interpolation, YaRN)<p>Architecture details of models like QWen, LLaMA<p>Training methods including SFT and Reinforcement Learning<p>If you're interested in the nuts and bolts of LLMs, feel free to check it out: http://comfyai.app/<p>I'd appreciate any feedback or discussions!