一个专门为学习大型语言模型内部机制而创建的博客:分词、注意力机制、位置编码等内容。

2作者: zljdanceholic10 个月前原帖
我最近深入研究了大型语言模型(LLMs)的内部机制,并开始记录我的发现。我的博客涵盖了以下主题: - 分词技术(例如,BBPE) - 注意力机制(例如,MHA、MQA、MLA) - 位置编码和外推(例如,RoPE、NTK感知插值、YaRN) - 像QWen和LLaMA这样的模型的架构细节 - 包括SFT和强化学习在内的训练方法 如果你对LLMs的内部工作原理感兴趣,欢迎访问我的博客:http://comfyai.app 我非常欢迎任何反馈或讨论!
查看原文
I&#x27;ve been diving deep into the internals of Large Language Models (LLMs) and started documenting my findings. My blog covers topics like:<p>Tokenization techniques (e.g., BBPE)<p>Attention mechanism (e.g. MHA, MQA, MLA)<p>Positional encoding and extrapolation (e.g. RoPE, NTK-aware interpolation, YaRN)<p>Architecture details of models like QWen, LLaMA<p>Training methods including SFT and Reinforcement Learning<p>If you&#x27;re interested in the nuts and bolts of LLMs, feel free to check it out: http:&#x2F;&#x2F;comfyai.app&#x2F;<p>I&#x27;d appreciate any feedback or discussions!