- 1-0 序言
- 1-1 基于统计的语言模型
- 1-2 基于学习的语言模型
- 1-3 RNN与Transformer
- 1-4 语言模型的采样和评测
- 2-0 模型架构概览
- 2-1 基于Encoder-only架构的大语言模型
- 2-2 基于Encoder-Decoder架构的大语言模型
- 2-3 基于Decoder-only架构的大语言模型
- 2-4 Mamba原理
- 3-0 Prompt工程简介
- 3-1 上下文学习(In-context Learning)
- 3-2 思维链(CoT ToT GPT-o1)
- 3-3 prompt技巧
- 3-4 Prompt工程应用
- 4-0 参数高效微调简介
- 4-1 参数附加方法 Prompt-tuning,Adapter-tuning,Proxy-tuning等
- 4-2 参数选择方法 BitFit,Child-tuning等
- 4-3 低秩适配方法 LoRA及其变体
- 4-4 参数高效微调的应用
浙江大学《大模型应用及原理》课程简介
在人工智能蓬勃发展的时代浪潮下,大模型作为其中的关键技术,正深刻改变着各个领域的发展格局。浙江大学开设的《大模型应用及原理》课程,旨在为学生深入剖析大模型的奥秘,助力学生掌握其核心原理与多元应用,培养适应时代需求的创新型人才。
一、课程目标
本课程的首要目标是让学生全面理解大模型的基本概念与发展脉络。学生将深入探究大模型从基础理论奠基到如今广泛应用的演进历程,明晰其在人工智能领域的关键地位与作用。通过系统学习,学生能够精准掌握大模型的核心技术原理,包括但不限于深度学习架构、参数训练优化方法、数据处理机制等,为后续应用实践筑牢理论根基。更为重要的是,课程致力于培养学生运用大模型解决实际问题的能力,引导学生将大模型技术与自身专业领域相结合,无论是在科研创新、产业升级,还是社会服务等方面,都能发挥大模型的优势,实现跨学科的创新应用。同时,课程注重培养学生的批判性思维与创新意识,鼓励学生在学习过程中对现有大模型技术进行反思与改进,激发学生探索未知领域的热情,为推动大模型技术的持续发展贡献智慧。
二、课程内容架构
(一)大模型基础理论模块
课程开篇,着重介绍大模型的基础理论知识。详细讲解深度学习的基本概念与原理,涵盖神经网络结构、神经元模型、激活函数等内容,让学生理解深度学习如何模拟人类大脑的学习过程,为大模型的构建提供基础支撑。深入剖析大模型的架构设计,如 Transformer 架构及其变体,阐释其在处理序列数据、捕捉长距离依赖关系等方面的独特优势。在这一模块中,学生将学习到 Transformer 架构中的多头注意力机制、前馈神经网络等关键组件的工作原理,明白其如何协同工作实现高效的信息处理与特征提取。同时,对大模型的训练机制进行深入探讨,包括数据预处理、模型训练算法、超参数调整等环节。通过实际案例分析,让学生了解如何构建高质量的训练数据集,选择合适的训练算法(如随机梯度下降及其变种)来优化模型参数,以及如何通过调整超参数提升模型性能。
(二)大模型应用领域剖析模块
此模块聚焦于大模型在不同领域的实际应用。在自然语言处理领域,深入讲解大语言模型(LLM)的应用场景,如文本生成、机器翻译、智能问答系统等。以 GPT 系列、文心一言等知名大语言模型为例,分析其在文本生成任务中的表现,包括生成文本的质量评估指标、如何控制生成文本的风格与内容等。在机器翻译方面,探讨大模型如何利用大量平行语料库进行训练,实现不同语言之间的高效准确翻译。在智能问答系统中,研究大模型如何理解用户问题的语义,并从海量知识中提取准确答案。在计算机视觉领域,介绍大模型在图像识别、目标检测、图像生成等方面的应用。例如,在图像识别任务中,大模型如何通过学习大量图像数据的特征,实现对不同物体类别的准确分类;在目标检测中,如何定位图像中感兴趣的目标物体,并确定其类别与位置信息;在图像生成方面,如 DALL - E 等模型如何根据文本描述生成逼真的图像。此外,课程还将拓展到大模型在医疗、金融、教育等领域的应用。在医疗领域,大模型可辅助疾病诊断、医疗影像分析、药物研发等;在金融领域,可用于风险评估、智能投顾、欺诈检测等;在教育领域,可实现个性化学习辅导、智能作业批改等。通过对这些应用案例的深入分析,让学生了解大模型在不同领域的应用价值与挑战,拓宽学生的应用视野。
(三)大模型实践操作模块
实践操作是本课程的重要环节。课程配备专业的实验室与计算资源,让学生亲身体验大模型的训练与应用过程。在实践中,学生将首先学习如何使用开源的大模型框架,如 PyTorch、TensorFlow 等,搭建简单的深度学习模型。通过实际编程操作,掌握模型的搭建、训练与测试流程,熟悉数据加载、模型优化、结果评估等关键步骤。在此基础上,引导学生利用公开的数据集对模型进行微调,以适应特定的任务需求。例如,学生可以选择一个预训练的图像分类模型,在自己构建的特定图像数据集上进行微调,提高模型对该类图像的识别准确率。同时,鼓励学生尝试进行一些创新性的实践项目,如基于大模型开发一个智能应用系统。学生可以结合自己的专业兴趣与实际需求,确定项目主题,如开发一个面向医学影像诊断的智能辅助系统,或者一个基于自然语言处理的智能教育辅导平台等。在项目实施过程中,学生将综合运用所学的大模型知识与技术,解决实际问题,提升实践能力与创新能力。
三、教学特色
浙江大学该课程的教学团队由一批在人工智能领域造诣深厚的专家学者组成,他们不仅在大模型的理论研究方面成果丰硕,还拥有丰富的实践经验,能够为学生提供专业且前沿的教学指导。在教学方法上,采用理论讲解与实践操作相结合的方式。理论课堂上,教师运用生动形象的案例与通俗易懂的语言,将复杂的大模型原理深入浅出地讲解清楚,激发学生的学习兴趣。实践教学环节,教师为学生提供详细的操作指导与个性化的问题解答,确保学生能够顺利完成实践任务,将理论知识转化为实际技能。同时,课程还引入项目式学习与小组协作学习模式。学生以小组形式完成实践项目,在项目实施过程中,小组成员分工协作,共同探讨问题解决方案,培养学生的团队协作能力与沟通能力。此外,邀请行业内的资深专家走进课堂,分享大模型在实际产业应用中的最新案例与经验,让学生了解行业发展动态,增强学生的职业素养与行业洞察力。