Linear & Softmax

Transformer最终会为需要预测的下一个 token 生成一个高维向量。从高维向量到具体的词，例如“猫”、“学习”或者“天空”，需要经过 Linear & Softmax 层。

1 Linear

通过一次线性变换，将输入的上下文向量投影到词表空间。输出的长向量被称为 Logits，Logits中的每个元素都对应词汇表中的一个单词，其数值代表模型认为该单词是下一个正确单词的原始、未经归一化的置信度分数。分数越高，代表模型的信心越足。

Logits分数虽然直观地表达了模型的偏好，但它们并不是标准的概率，存在两个问题：

Softmax的工作过程：

经过了Softmax之后的元素的值，代表了对应单词是下一个正确单词的最终预测概率。

Last updated 9 days ago