- 1-浅谈Transformer
- 初学者必备学习路线图
- 2-(延申)Transformer (上)
- 3-(延申)Transformer (下)
- 4-输入部分实现-part1
- 5-输入部分实现-part2
- 6-输入部分实现-part3
- 7-输入部分实现-part4
- 8-输入部分实现-part5
- 9-输入部分实现-part6
- 10-掩码张量-part1
- 11-掩码张量-part2
- 12-掩码张量-part3
- 13-注意力机制-part1
- 14-注意力机制-part2
- 15-注意力机制-part3
- 16-注意力机制-part4
- 17-多头注意力机制-part1
- 18-多头注意力机制-part2
- 19-多头注意力机制-part3
- 20-多头注意力机制-part4
- 21-前馈全连接层-part1
- 22-前馈全连接层-part2
- 23-规范化层-part1
- 24-规范化层-part2
- 25-子层连接结构-part1
- 26-子层连接结构-part2
- 27-编码器层-part1
- 28-编码器层-part2
- 29-编码器-part1
- 30-编码器-part2
- 31-解码器层-part1
- 32-解码器层-part2
- 33-解码器-part1
- 34-解码器-part2
- 35-输出部分实现-part1
- 36-输出部分实现-part2
- 37-模型构建-part1
- 38-模型构建-part2
- 39-模型构建-part3
- 40-模型构建-part4
- 41-认识BERT-part1
- 42-认识BERT-part2
- 43-认识BERT-part3
- 44-认识BERT-part4
- 45-Transformer的结构详解-part1
- 46-Transformer的结构详解-part2
- 47-Transformer中Decoder的输入详解
- 48-Transformer中的自注意力机制以及为什么采用QKV三元组
- 49-采用Multi-head Attention的原因和计算规则
- 50-Transformer相比于RNN的优势和原因
- 51-为什么说Transformer可以代替seq2seq
- 52-self-attention公式中添加scaled的原因
- 53-self-attention公式中添加scaled的原因
- 54-self-attention公式中添加scaled的原因
- 55-Transformer架构的并行化是如何进行的
- 56-BERT模型的优点和缺点
- 57-BERT的MLM任务为什么采用80% 10% 10%的策略
- 58-长文本预测任务使用BERT如何构造训练样本
李宏毅 2025 年 Transformer 课程是其人工智能课程体系中的重要组成部分,在台大李宏毅 2025 人工智能课程合集中有所涵盖。以下是该课程的简介:
课程内容
Transformer 架构基础:从 Sequence-to-sequence(Seq2seq)模型的工作原理及其局限性讲起,介绍如何利用自注意力机制改进传统 Seq2seq 模型,引入 Transformer 模型。讲解 Transformer 采用的 Encoder - Decoder 框架,包括编码器如何接收输入序列并将其转换成一系列特征表示,解码器如何基于编码后的信息逐步生成目标序列。
核心机制详解:深入剖析 Self - Attention 的基本原理与具体过程,包括输入如何通过乘上不同的变换矩阵产生不同的向量。介绍 “多头” 注意力(“multi - headed” attention)机制,进一步完善自注意力层。为解决 Self - Attention 中词的顺序信息问题,讲解 Position Encoding 操作。
模型细节与优化:介绍 Transformer 内部的子层,如自注意力机制(Multi - Head Attention)和前馈神经网络(Feed Forward),以及每个子层处理之后如何使用残差连接和层归一化(Add&Norm)对结果进行处理得到最后的输出。探讨 Transformer 架构的一些变形,以及如何根据不同的设计思路,将 Decoder 部分设计为自回归(Autoregressive)模型和非自回归(Non - Autoregressive)模型。
实际应用与案例:展示多个真实世界的例子,说明 Transformer 如何应用于自然语言处理等领域,如语音翻译、Text - to - Speech(TTS)Synthesis 等。
课程资料
课程资料丰富,不仅有视频讲座,还包括配套的幻灯片和笔记。
学习目标
通过该课程的学习,学生能够深入理解 Transformer 的工作原理、内部组件的功能,掌握 Transformer 在自然语言处理等领域的应用,为进一步研究和应用 Transformer 模型,以及从事相关的人工智能研究和开发工作打下坚实的基础。
