课程目录

李宏毅 2025 年 Transformer 课程是其人工智能课程体系中的重要组成部分,在台大李宏毅 2025 人工智能课程合集中有所涵盖。以下是该课程的简介:

课程内容

Transformer 架构基础:从 Sequence-to-sequence(Seq2seq)模型的工作原理及其局限性讲起,介绍如何利用自注意力机制改进传统 Seq2seq 模型,引入 Transformer 模型。讲解 Transformer 采用的 Encoder - Decoder 框架,包括编码器如何接收输入序列并将其转换成一系列特征表示,解码器如何基于编码后的信息逐步生成目标序列。

核心机制详解:深入剖析 Self - Attention 的基本原理与具体过程,包括输入如何通过乘上不同的变换矩阵产生不同的向量。介绍 “多头” 注意力(“multi - headed” attention)机制,进一步完善自注意力层。为解决 Self - Attention 中词的顺序信息问题,讲解 Position Encoding 操作。

模型细节与优化:介绍 Transformer 内部的子层,如自注意力机制(Multi - Head Attention)和前馈神经网络(Feed Forward),以及每个子层处理之后如何使用残差连接和层归一化(Add&Norm)对结果进行处理得到最后的输出。探讨 Transformer 架构的一些变形,以及如何根据不同的设计思路,将 Decoder 部分设计为自回归(Autoregressive)模型和非自回归(Non - Autoregressive)模型。

实际应用与案例:展示多个真实世界的例子,说明 Transformer 如何应用于自然语言处理等领域,如语音翻译、Text - to - Speech(TTS)Synthesis 等。

课程资料

课程资料丰富,不仅有视频讲座,还包括配套的幻灯片和笔记。

学习目标

通过该课程的学习,学生能够深入理解 Transformer 的工作原理、内部组件的功能,掌握 Transformer 在自然语言处理等领域的应用,为进一步研究和应用 Transformer 模型,以及从事相关的人工智能研究和开发工作打下坚实的基础。


邮箱
huangbenjincv@163.com