工具使用 - AI 学习知识库

深度学习框架

🔥

PyTorch 核心用法

框架 · 20 分钟

张量操作、自动求导、模型定义、训练循环与 GPU 加速的完整流程。

PyTorch Tensor GPU

🔢

TensorFlow 基础

框架 · 18 分钟

Keras API、模型构建、TensorFlow Hub 与 TF Lite 模型转换。

TensorFlow Keras

模型训练工具

⚙️

Hugging Face Transformers

预训练模型库 · 15 分钟

Transformers 库的模型加载、微调、训练与推理完整流程。

Hugging Face Transformers

🚀

Accelerate 分布式训练

分布式 · 12 分钟

使用 Accelerate 简化多 GPU/TPU 训练，实现大规模模型分布式训练。

Accelerate 分布式训练

🧪

DeepSpeed 实战

训练优化 · 15 分钟

ZeRO 优化、混合精度、Gradient Checkpointing 与 DeepSpeed 训练配置。

DeepSpeed ZeRO

🎛️

超参数调优

Optuna · Ray Tune · 12 分钟

使用 Optuna、Ray Tune 进行自动化超参数搜索与模型优化。

Optuna 超参数调优

数据处理

🔢

NumPy 核心操作

数值计算 · 15 分钟

数组操作、广播机制、矩阵运算与常用统计函数。

NumPy 数组

🐼

Pandas 数据处理

数据分析 · 15 分钟

DataFrame 操作、数据清洗、聚合与可视化。

Pandas 数据处理

📊

数据可视化

Matplotlib · Seaborn · 12 分钟

常用图表绘制、风格定制与 AI 相关可视化（t-SNE、特征重要性）。

Matplotlib Seaborn

🏷️

数据增强库

Albumentations · 10 分钟

图像数据的多样化增强策略，提升模型泛化能力。

Albumentations 数据增强

实验管理

📝

MLflow 实验追踪

实验管理 · 12 分钟

MLflow Tracking 记录参数、指标、模型与可视化对比。

MLflow 实验追踪

🎯

Weights & Biases

在线实验管理 · 10 分钟

W&B 的实验记录、超参数搜索与团队协作功能。

W&B 实验管理

部署与服务

📦

ONNX 模型转换与优化

跨框架模型转换与推理加速

🚀

TorchServe 部署

PyTorch 模型的 RESTful API 部署

☁️

TensorFlow Serving

TF模型的容器化部署与版本管理

⚡

NVIDIA Triton Inference Server

高性能推理服务与模型并行

常用命令速查

      # 安装 PyTorch (CUDA 11.8)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 安装 transformers
pip install transformers datasets accelerate

# 克隆模型并推理
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("model_name")

# 多卡训练
from accelerate import Accelerator
accelerator = Accelerator()
model, optimizer, data = accelerator.prepare(model, optimizer, dataloader)

# 使用 DeepSpeed
deepspeed train.py --deepspeed ds_config.json