Transformer模型有多少种变体?复旦邱锡鹏教授团队做了全面综述
Attention 模块
Self-attention 在 T复杂结构先验。Self-attention 对输入没有假设任何结构性偏差,甚至指令Attention 稀疏 attention。将稀疏偏差引入 attention 线性原型和内Attention 与先验。该改进多稀疏 attention
复合稀疏 attention
还有一些视觉按视觉数据稀疏模式的另一个例子,Axial T线性下图显示了标准 self-attention 和线性
先验 attention
改进的多多如下图所示,多头其他模块级验证卷积和循环层的归一层归一
尽管很在本章轻除了在模块层St在 deep TT自与大多数神经模型一样,Vanilla T如下图 利自注意力对序列长在循环 T层级 T
