词向量与表示
词嵌入技术
理解 CBOW 与 Skip-gram 模型,以及如何通过词向量捕捉语义关系。
GloVe 与 FastText
基于全局词频统计的 GloVe,以及如何处理 OOV 问题的 FastText。
序列建模
Attention 机制
Self-Attention、Multi-Head Attention 工作原理详解,理解 Query-Key-Value 架构。
位置编码
理解 Transformer 中位置编码的作用,绝对位置编码与相对位置编码的区别。
预训练语言模型
BERT 原理与实践
理解 BERT 的 Masked Language Model 与 Next Sentence Prediction 预训练任务。
GPT 系列
从 GPT 到 GPT-4,理解因果语言建模与 Few-Shot Learning 能力。
T5 与 BART
理解 Text-to-Text 统一框架,以及 BART 的降噪预训练目标。
RoBERTa、ALBERT、ELECTRA
BERT 的各项改进与优化策略,理解模型轻量化与训练效率的平衡。
NLP 任务与应用
文本分类
使用预训练模型进行文本分类,理解 Fine-tuning 策略与文本数据增强。
问答系统
抽取式问答与生成式问答,RAG 技术与检索增强的原理。
机器翻译
从 RNN 机器翻译到 Transformer,理解 BLEU 评估指标与翻译质量优化。
文本生成
贪婪解码、束搜索、温度采样等生成策略,理解重复控制与内容质量优化。
Hugging Face 示例
from transformers import AutoTokenizer, AutoModel
# 加载预训练模型
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
model = AutoModel.from_pretrained("bert-base-chinese")
# 编码文本
inputs = tokenizer("深度学习是机器学习的子领域", return_tensors="pt")
# 获取词向量
outputs = model(**inputs)
embeddings = outputs.last_hidden_state
print(embeddings.shape) # [1, 序列长度, 768]