深度学习框架
PyTorch 核心用法
张量操作、自动求导、模型定义、训练循环与 GPU 加速的完整流程。
TensorFlow 基础
Keras API、模型构建、TensorFlow Hub 与 TF Lite 模型转换。
模型训练工具
Hugging Face Transformers
Transformers 库的模型加载、微调、训练与推理完整流程。
Accelerate 分布式训练
使用 Accelerate 简化多 GPU/TPU 训练,实现大规模模型分布式训练。
DeepSpeed 实战
ZeRO 优化、混合精度、Gradient Checkpointing 与 DeepSpeed 训练配置。
超参数调优
使用 Optuna、Ray Tune 进行自动化超参数搜索与模型优化。
数据处理
NumPy 核心操作
数组操作、广播机制、矩阵运算与常用统计函数。
Pandas 数据处理
DataFrame 操作、数据清洗、聚合与可视化。
数据可视化
常用图表绘制、风格定制与 AI 相关可视化(t-SNE、特征重要性)。
数据增强库
图像数据的多样化增强策略,提升模型泛化能力。
实验管理
MLflow 实验追踪
MLflow Tracking 记录参数、指标、模型与可视化对比。
Weights & Biases
W&B 的实验记录、超参数搜索与团队协作功能。
部署与服务
ONNX 模型转换与优化
跨框架模型转换与推理加速
TorchServe 部署
PyTorch 模型的 RESTful API 部署
TensorFlow Serving
TF模型的容器化部署与版本管理
NVIDIA Triton Inference Server
高性能推理服务与模型并行
常用命令速查
# 安装 PyTorch (CUDA 11.8)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# 安装 transformers
pip install transformers datasets accelerate
# 克隆模型并推理
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("model_name")
# 多卡训练
from accelerate import Accelerator
accelerator = Accelerator()
model, optimizer, data = accelerator.prepare(model, optimizer, dataloader)
# 使用 DeepSpeed
deepspeed train.py --deepspeed ds_config.json