本文是对 Hugging Face 的 Transformers 库的快速入门,包括如何快速使用该库来建立一个文本生成器,以及简单介绍「分词器」和「模型」。
Transformer 完全图解指南
本文会对 transformer 进行一个非常详细的图解介绍,其中还会包含对「multi-head attention」,「self-attention」,「attention s...
Transformer 结构介绍
本文会介绍 Transformer 的结构,主要包含 Encoder 和 Decoder 部分,其中包含的知识点有 self-attention,cross-attention,l...
自注意力和位置编码
本文会介绍「自注意力」模型,自注意力的关键就是一句话,查询、键和值都来自同一组输入。同时也会介绍位置编码的内容,来克服「自注意力」没有考虑输入的顺序。
多头注意力
在实际中,我们希望给定相同的 queries、keys 和 values,我们希望模型可以学习到不同的内容,然后将这些内容给组合起来。这就会用到「多头注意力」机制。本文会介绍「多头...
使用注意力机制的 seq2seq
这一篇中,我们介绍使用注意力机制的 Seq2Seq。我们会将「注意力机制」用在 Seq2Seq 模型上面。这样在预测词元时,如果不是所有输入词元都相关,模型将仅对齐(或参与)输入序...
注意力分数
本文会来介绍「注意力分数」的计算。特别的,这里我们会使用高维的 query ,key 和 value 来举例子。可以将「注意力分数」理解为 query 和 key 的相似度。会介...
注意力机制
本文会介绍「注意力机制」的相关内容。主要会介绍「非参注意力机制」和「带有参数的注意力」。这里均使用一维数据作为例子。通过本文对 query,key-value 有所了解。也知道什么...