HackerNews中文版

我最近深入研究了大型语言模型（LLMs）的内部机制，并开始记录我的发现。我的博客涵盖了以下主题： - 分词技术（例如，BBPE） - 注意力机制（例如，MHA、MQA、MLA） - 位置编码和外推（例如，RoPE、NTK感知插值、YaRN） - 像QWen和LLaMA这样的模型的架构细节 - 包括SFT和强化学习在内的训练方法如果你对LLMs的内部工作原理感兴趣，欢迎访问我的博客：http://comfyai.app 我非常欢迎任何反馈或讨论！

查看原文

I've been diving deep into the internals of Large Language Models (LLMs) and started documenting my findings. My blog covers topics like:Tokenization techniques (e.g., BBPE)Attention mechanism (e.g. MHA, MQA, MLA)Positional encoding and extrapolation (e.g. RoPE, NTK-aware interpolation, YaRN)Architecture details of models like QWen, LLaMATraining methods including SFT and Reinforcement LearningIf you're interested in the nuts and bolts of LLMs, feel free to check it out: http://comfyai.app/I'd appreciate any feedback or discussions!

一个专门为学习大型语言模型内部机制而创建的博客：分词、注意力机制、位置编码等内容。