Skip to content

自然语言处理 · 课程规划

🍁 2025版 🍁

📌 课程定位

🔎 前置要求

  • 了解基本的 Python 语法
  • 可以回想起基本的数学概念
  • 了解一些基本的深度学习概念

🔎 课程收益

  • 顺应时代,入行人工智能这个崭新的领域,能够独立开发自然语言处理项目
  • 夯实自然语言处理基础,为将来深入其它领域(大模型等)做好算法准备

📌 课程大纲

🔎 模块1:开发环境搭建

  • 通过 Python 解释器安装环境
    1. https://www.python.org/
    2. pip install jupyterlab -U
    3. pip install numpy pandas matplotlib scikit-learn -U
    4. pip install torch -U
    5. pip install jieba -U
    
  • 通过 Anaconda 安装环境
    1. https://www.anaconda.com/
    2. pip install jupyterlab -U
    3. pip install numpy pandas matplotlib scikit-learn -U
    4. pip install torch -U
    5. pip install jieba -U
    
  • 安装 VS Code 编辑器
    1. https://code.visualstudio.com/
    2. Python 扩展
    3. Markdown 扩展
    4. 通义灵码 扩展
    

🔎 模块2:自然语言及其特点

  • 自然语言(本意):汉语,英语,日语 ...
  • 自然语言(拓展):语言,语音,公式,代码 ...
  • 时序数据: 特征和顺序都很重要

🔎 模块3:自然语言处理的两大方向

  • 自然语言理解: Natural Language Understanding
  • 自然语言生成: Natural Language Generation

🔎 模块4:自然语言处理的流程

  • 文本分词
  • 向量化
  • 抽取时序特征
  • 具体任务
  • 结果解析

🔎 模块5:循环神经网络 RNN

  • Embedding: 词向量,核心API,输入张量,输出张量
  • Simple RNN: 基本RNN,核心API,输入张量,输出张量
  • LSTM: Long Short Term Memory 长短期记忆网络,核心API,输入张量,输出张量
  • GRU: Gated Recurrent Unit 门控循环神经网络,核心API,输入张量,输出张量

🔎 模块6:TextRNN 文本分类算法

  • 基于 Simple RNN 的文本分类算法
  • 基于 LSTM 的文本分类算法
  • 基于 GRU 的文本分类算法

🔎 模块7:文本分类算法实战(情感识别)

  • 文本读取
  • 文本分词:jieba
  • 构建字典
  • 批量化打包
  • 模型搭建
  • 模型训练
  • 模型评估
  • 模型预测

🔎 模块8:Seq2Seq 文本生成算法

  • Seq2Seq网络架构
  • 编码器部分: encoder, RNN
  • 中间表达: context, hidden state
  • 解码器部分: decoder, RNN
  • Seq2Seq推理流程: autoregressive, beam search
  • Seq2Seq训练流程: teacher forcing

🔎 模块9:Seq2Seq算法实战(文本翻译)

  • 文本读取
  • 文本分词:jieba
  • 构建字典
  • 批量化打包
  • 模型搭建
  • 模型训练
  • 模型评估
  • 模型预测