上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.2.4 线性层和softmax层
解码器最终的输出是一个浮点向量,我们需要将其转换为一个单词。为了实现这一点,Transformer模型中使用了一个线性层,它是一个全连接神经网络,将解码器的输出向量投影到一个更大的向量,称为logits向量,它的维度和词表大小一致,向量中的每一个元素对应一个词元的分数。
接下来让logits向量通过softmax层,将这些分数转化为概率,确保所有概率都是正数且总和为1.0。最后选择概率最大的元素对应的索引,并将与其关联的词元作为该时间步的输出。
整个过程从线性层开始,通过线性层将解码器的输出转换为一个向量。然后,该向量经过softmax层,将分数转化为概率,选择概率最大的单元格,并将与其关联的单词作为输出内容。