Transformer内部原理四部曲3D动画展示

为理解Transformer的内部工作原理，从端到端（从最初的用户输入，到最终的模型输出）的角度看看数据是如何在Transformer中流转的。从宏观来看，输入数据在Transformer中经历如下四个处理阶段：

Embedding

首先，输入内容会被拆分成许多小片段（这个过程称为tokenization），这些小片段被称为词元 (Tokens)。

对于文本：token 通常是单词、词根、标点符号，或者其他常见的字符组合；
对于图像或声音：Token 则可能代表图像的一小块区域或声音的一段小片段。

每个Token会对应到一个向量上，也就是一串数字，这串数字的目的是以某种方式来表达该片段的含义。如果你把这些向量看作是在一个高维空间中的坐标，那么含义相似的词汇倾向于彼此接近的向量上。每当我说到”含义”这个词时，完全通过向量中的数字来表达。

Attention-语义交流

embedding向量间的语义交流。这些向量序列接下来会经过一个称为”Attention模块”的处理过程，使得向量能够相互”交流”并根据彼此信息更新自身的值。

例如”model”这个单词在在“machine learning model”（机器学习模型）和在“fashion model”（时尚模特）中的意思是完全不一样的。
虽然是同一个单词（token），但对应的 embedding 向量是不同的。Attention模块的作用就是要确定上下文中哪些词对更新其他词的意义有关，以及应该如何准确地更新这些含义。

Attention模块的作用就是确定上下文中哪些词之间有语义关系，以及如何准确地理解这些含义（更新相应的向量）。这里说的“含义”meaning指的是编码在向量中的信息。

MLPs-感知反馈

Attention模块让输入向量们彼此充分交换了信息（例如，单词“model”指的应该是“模特”还是“模型”），然后，这些向量会进入第三个处理阶段：Feed-forward / MLPs。

这些向量会经过另一种处理，这个过程根据资料的不同，可能被称作多层感知机或者前馈层。

针对所有向量做一次性变换。这个阶段，向量不再互相”交流”，而是并行地经历同一处理。

虽然这个步骤比较难以理解，但我们会在后面讨论，这个步骤有点像对每个向量提出一系列的问题，然后根据这些问题的答案来更新向量。

这两个处理阶段的操作本质上都是海量的矩阵乘法，从宏观概述上省略了一些中间步骤的归一化细节，主要学习的是如何解读这些背后的矩阵。

重复上述Attention+Feed-forward过程组成多层网络。Transformer基本不断重复Attention和Feed-forward这两个基本结构，这两个模块的组合成为神经网络的一层。

输入向量通过attention更新彼此；

feed-forward 模块将这些更新之后的向量做统一变换，得到这一层的输出向量；

在Attention模块和多层感知机（MLP）模块之间不断切换，直到最后期望通过某种方式，使得文章的核心意义已经被完全融入到序列的最后一个向量中。

Unembedding-概率

最后一层feed-forward输出中的最后一个向量the very last vector in the sequence的备选列表及其概率，产生一个覆盖所有可能Token的概率分布，这些Token代表的是可能接下来出现的任何小段文本，包含句子的核心意义essential meaning of the passage。对这个向量进行 unembedding 操作（也是一次性矩阵运算），得到的就是下一个单词的备选列表及其概率。