注意力机制 | 文艺数学君

Hugging Face 的 Transformers 库快速入门（一）-- pipelines 使用与模型

Hugging Face 的 Transformers 库快速入门（一）– pipelines 使用与模型

本文是对 Hugging Face 的 Transformers 库的快速入门，包括如何快速使用该库来建立一个文本生成器，以及简单介绍「分词器」和「模型」。

12月13日评论

Transformer 完全图解指南

Transformer 完全图解指南

本文会对 transformer 进行一个非常详细的图解介绍，其中还会包含对「multi-head attention」，「self-attention」，「attention s...

10月27日评论

Transformer 结构介绍

Transformer 结构介绍

本文会介绍 Transformer 的结构，主要包含 Encoder 和 Decoder 部分，其中包含的知识点有 self-attention，cross-attention，l...

10月24日评论

自注意力和位置编码

自注意力和位置编码

本文会介绍「自注意力」模型，自注意力的关键就是一句话，查询、键和值都来自同一组输入。同时也会介绍位置编码的内容，来克服「自注意力」没有考虑输入的顺序。

10月17日评论

多头注意力

多头注意力

在实际中，我们希望给定相同的 queries、keys 和 values，我们希望模型可以学习到不同的内容，然后将这些内容给组合起来。这就会用到「多头注意力」机制。本文会介绍「多头...

10月16日评论

使用注意力机制的 seq2seq

使用注意力机制的 seq2seq

这一篇中，我们介绍使用注意力机制的 Seq2Seq。我们会将「注意力机制」用在 Seq2Seq 模型上面。这样在预测词元时，如果不是所有输入词元都相关，模型将仅对齐（或参与）输入序...

10月15日评论

注意力分数

注意力分数

本文会来介绍「注意力分数」的计算。特别的，这里我们会使用高维的 query ，key 和 value 来举例子。可以将「注意力分数」理解为 query 和 key 的相似度。会介...

09月28日评论

注意力机制

注意力机制

本文会介绍「注意力机制」的相关内容。主要会介绍「非参注意力机制」和「带有参数的注意力」。这里均使用一维数据作为例子。通过本文对 query，key-value 有所了解。也知道什么...

09月27日评论

目录

繁
本页二维码