Skip to content

大模型开发 · 课程规划

🍁 2025版 🍁

📌 课程定位

🔎 前置要求

  • 了解基本的 Python 语法
  • 可以回想起基本的数学概念
  • 了解一些基本的自然语言处理概念

🔎 课程收益

  • 顺应时代,入行最先进的人工智能领域
  • 独立开发大模型相关项目

📌 课程大纲

🔎 模块1:开发环境搭建

  • 操作系统:Ubuntu 22.04 LTS
  • 通过 Python 解释器安装环境
    1. https://www.python.org/
    2. pip install jupyterlab -U
    3. pip install torch -U
    4. pip install transformers vllm langchain langchain_core langchain_community LangGraph -U
    
  • 通过 Anaconda 安装环境
    1. https://www.anaconda.com/
    2. pip install jupyterlab -U
    3. pip install torch -U
    4. pip install transformers vllm langchain langchain_core langchain_community LangGraph -U
    
  • 安装 VS Code 编辑器
    1. https://code.visualstudio.com/
    2. Python 扩展
    3. Markdown 扩展
    4. 通义灵码 扩展
    

🔎 模块2:Transformer 架构

  • Seq2Seq 架构回顾: 问题 --> 编码器 --> 中间向量 --> 解码器 --> 答案
  • Seq2Seq 架构优劣势分析: 串行抽取特征,不能处理长序列,不能堆叠大模型,架构简单,容易理解和实现
  • Transformer 优劣势分析: 并行抽取特征,可以处理长序列,可以堆叠大模型,架构复杂,不好理解和实现
  • Transformer 架构剖析: src 输入预处理 --> encoder 编码器 --> tgt 输入预处理 --> decoder 解码器 --> generator 生成处理
  • src 输入预处理: 分词 --> 编码 --> 向量化 --> 位置编码
  • encoder 编码器: 多头注意力 MHA --> 前馈网络 FFN
  • tgt 输入预处理: 分词 --> 编码 --> 向量化 --> 位置编码
  • decoder 解码器: 带掩码的多头注意力 Masked MHA --> 前馈网络 FFN
  • generator 生成处理: 线性映射 --> 概率输出

🔎 模块3:大语言模型架构

  • Encoder-Decoder 架构: 使用完整 Transformer 架构,比如:T5 和 BART 大模型
  • Encoder-Only 架构:使用 Encoder 部分,比如:BERT 大模型
  • Decoder-Only 架构:使用 Decoder 部分,比如:GPT 大模型, LLaMA 大模型,Qwen 大模型等绝大多数大模型
  • GLM 架构:智谱公司的大模型,基于 Encoder 部分改造而来,理解问题时双向自注意力,生成时单向自注意力

🔎 模块4:大语言模型部署

  • 完全从零部署:1,使用 transformers 库加载模型,并做推理;2,使用 FastAPI 框架搭建 API 接口
  • 使用 vLLM 部署大模型: 大语言模型
  • 使用 Xinference 部署大模型:底层使用 transformers 或是 vLLM,可以推理 大语言模型,向量化模型,重排序模型等

🔎 模块5:大模型 Prompt 开发

  • 基于 langchain 连接大语言模型
  • Prompt 设计理念
  • Prompt 实战1:语言翻译,情感识别,文案助手,阅读理解 ...
  • Prompt 实战2:Few Shot Examples, 结构化输出,消息占位符 ...

🔎 模块6:大模型 RAG 系统

  • RAG 系统核心思想:问题 query --> 检索 retrieve ---> 聚合 augment --> 生成 generate --> 答案 answer
  • 私有知识入库:文本读取 load --> 分段 split --> 向量化 embed --> 入库 vectorstore
  • 知识检索:多路召回,重排序
  • RAG系统融合历史消息

🔎 模块7:大模型 Agent 系统

  • 大模型的能力以及外部工具调用
  • 工具的定义和绑定
  • 大模型跟工具之间的交互
  • ReAct 类型的 Agent 架构思想和具体实现
  • Plan-and-Execute 类型的 Agent 架构思想和具体实现
  • 多 Agent 系统设计和具体实现

🔎 模块8:大语言模型的测评

  • 相似度测评指标:BLEU, ROUGE
  • 大模型能力测评 benchmark:MMLU, CMMU, C-Eval, ...
  • 大模型测评实战

🔎 模块9:大语言模型的微调

  • 大模型训练和微调的联系和区别
  • Full Parameter 全参数微调
  • LoRA 低秩适配微调
  • 第 1 阶段微调:预训练 PT(Pre-Train)原理及实战
  • 第 2 阶段微调:指令监督微调 SFT(Supervised Fine-Tune)原理及实战
  • 第 3 阶段微调:偏好优化 RLHF (Reinforcement Learning with Human Feedback)和 DPO(Direct Preference Optimization)原理及实战
  • 综合实战:从零微调一个行业大模型

🔎 模块10:多模态大语言模型

  • 多模态大模型的原理和架构
  • 视觉-语言 VL 多模态大模型微调实操
  • 音频-语言 AL 多模态大模型微调实操
  • 综合实战:基于多模态大模型的人机协同系统