三篇经典论文解读：Transformer、LoRA、ReAct

本文档对深度学习/大模型领域三篇里程碑式论文进行解读，按"提出背景 → 核心思想 → 方法细节 → 关键结论 → 影响与延伸"五个维度展开。

#一、Attention Is All You Need（Transformer，2017）

作者：Vaswani et al.（Google Brain / Google Research）
arXiv：1706.03762
领域：序列建模 / 机器翻译

#1. 提出背景

在 2017 年之前，序列建模（机器翻译、语言模型）主流是 RNN/LSTM/GRU + Attention，存在两大瓶颈：

串行计算：RNN 必须按时间步顺序计算，无法充分利用 GPU 的并行能力，训练慢。
长程依赖衰减：序列越长，梯度越难传播，远距离 token 之间的关系建模效果差。

CNN（如 ConvS2S）能并行，但需要堆很多层才能让远距离 token 进入同一个感受野。

#2. 核心思想

完全抛弃循环和卷积，只用注意力机制（Attention）建模 token 间依赖。

任意两个位置之间的距离都是 O(1)，长程依赖直接打通。
矩阵乘法本质，天然并行，训练效率大幅提升。

#3. 方法细节

#3.1 Scaled Dot-Product Attention

$$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$

$\sqrt{d_k}$ 缩放防止点积过大导致 softmax 饱和（梯度消失）。

#3.2 Multi-Head Attention

把 Q/K/V 投影到 h 个子空间分别计算 Attention，再拼接：让模型在不同子空间里捕捉不同层面的语义关系（语法、语义、共指等）。

#3.3 整体结构（Encoder-Decoder）

Encoder：6 层，每层 = Multi-Head Self-Attention + FFN，残差 + LayerNorm。
Decoder：6 层，每层 = Masked Self-Attention + Cross-Attention（关注 Encoder 输出）+ FFN。
Positional Encoding：因为没有循环/卷积，需要显式注入位置信息（sin/cos 函数）。

#3.4 关键超参（Base 模型）

d_model=512, h=8, d_ff=2048, layers=6, dropout=0.1

#4. 关键结论

WMT 2014 英德翻译 BLEU 28.4，超过当时所有模型（含集成模型）。
WMT 2014 英法 BLEU 41.8，训练成本只有最强基线的 1/4。
证明"纯 Attention 架构"可行，且可大规模并行训练。

#5. 影响与延伸

方向	代表工作
Encoder-only	BERT、RoBERTa、DeBERTa
Decoder-only	GPT 系列、LLaMA、Claude、DeepSeek
Encoder-Decoder	T5、BART、mT5
跨模态	ViT、CLIP、Whisper
长上下文	FlashAttention、ALiBi、RoPE、Sliding Window

Transformer 是过去 8 年所有大模型的地基，本论文是必读经典。

#二、LoRA: Low-Rank Adaptation of Large Language Models（2021）

作者：Edward Hu et al.（Microsoft）
arXiv：2106.09685
领域：参数高效微调（PEFT）

#1. 提出背景

GPT-3 等大模型规模达到 175B 参数，**全量微调（Full Fine-tuning）**面临三大问题：

显存爆炸：训练一个 175B 模型需要数百 GB 显存（优化器状态 + 梯度 + 激活）。
存储成本：每个下游任务都要保存一份完整模型副本。
部署复杂：多任务切换需要加载多个完整模型。

此前已有 Adapter、Prefix Tuning 等方法，但要么推理增加额外延迟，要么效果不稳定。

#2. 核心思想

冻结预训练权重 W₀，只训练一个低秩"增量"ΔW = BA。

基于一个观察：模型在适配下游任务时，权重更新 ΔW 具有低秩特性（intrinsic rank 很低）。

#3. 方法细节

#3.1 数学形式

对预训练权重矩阵 $W_0 \in \mathbb{R}^{d \times k}$，引入低秩分解：

$$ W = W_0 + \Delta W = W_0 + BA, \quad B \in \mathbb{R}^{d \times r}, ; A \in \mathbb{R}^{r \times k}, ; r \ll \min(d, k) $$

训练时：冻结 $W_0$，只更新 A、B。
初始化：A 用高斯初始化，B 初始化为 0，保证训练开始时 ΔW = 0，不破坏预训练效果。
缩放因子：$\Delta W x = \frac{\alpha}{r} BAx$，α 是超参，方便切换不同 r 时不需要重调学习率。

#3.2 应用位置

实验表明，对 Transformer 的 W_q 和 W_v（Query/Value 投影矩阵） 应用 LoRA 效果最好，性价比最高。

#3.3 关键优势

维度	全量微调	LoRA
可训练参数	100%	0.01% ~ 1%
显存占用	极高	大幅降低
推理延迟	0	0（推理时可合并 W = W₀ + BA）
任务切换	加载完整模型	只切换小 LoRA 权重（几 MB）

#4. 关键结论

在 GPT-3 175B 上，LoRA 用 可训练参数减少 10000 倍、GPU 显存减少 3 倍，效果持平或超过全量微调。
在 RoBERTa、DeBERTa、GPT-2 等多个基线上均验证有效。
r=1 或 r=2 就能在多数任务上取得不错效果，证明权重更新确实低秩。

#5. 影响与延伸

QLoRA：4-bit 量化 + LoRA，让消费级 GPU（24GB）可微调 65B 模型。
LoRA Hub / LoRA Merge：多个 LoRA 模块组合，实现技能拼装。
生态影响：HuggingFace PEFT 库、Stable Diffusion 社区的"画风 LoRA"、商业模型的多租户定制。
LoRA 已成为 2026 年大模型微调的事实标准。

#三、ReAct: Synergizing Reasoning and Acting in Language Models（2022）

作者：Shunyu Yao et al.（Princeton & Google）
arXiv：2210.03629
领域：LLM Agent / 工具调用

#1. 提出背景

2022 年大模型在两类任务上已有突破，但各自独立：

Chain-of-Thought（CoT）：让模型"想清楚再答"，擅长推理，但只能用模型内部知识，无法获取外部信息，容易事实性幻觉。
Act-only Agent（如 WebGPT、SayCan）：会调用工具/动作，但没有显式推理过程，决策不稳定，难解释。

两者割裂：CoT 不会"行动"，Action 不会"思考"。

#2. 核心思想

让 LLM 在同一个上下文里交替生成"思考（Thought）"和"动作（Action）"，形成 Thought → Action → Observation 循环。

Thought：模型用自然语言推理"现在该做什么、为什么"。
Action：调用一个具体工具（如 Search、Lookup、Calculator）。
Observation：环境返回的执行结果，作为下一轮上下文。

Thought 1: 我需要先查 X 是什么。
Action 1: Search[X]
Observation 1: X 是一种 ...
Thought 2: 那么我应该再查 ...
Action 2: Lookup[Y]
...
Action N: Finish[答案]

#3. 方法细节

#3.1 实现方式

Few-shot Prompting——不需要训练，直接在 prompt 里给几个示范样例（Thought/Action/Observation 交错的轨迹），模型就能学会这种行为模式。

#3.2 两个实验领域

任务	工具集	评估
知识密集型 QA（HotpotQA, FEVER）	Wikipedia API：Search / Lookup / Finish	答案准确率
决策任务（ALFWorld, WebShop）	环境动作（移动、拿取、点击）	任务完成率

#3.3 与对比方法

Standard：直接输出答案
CoT：只推理不行动
CoT-SC：CoT + Self-Consistency 投票
Act：只行动不推理
ReAct：推理 + 行动交替

#4. 关键结论

HotpotQA / FEVER：ReAct 单独不一定最强，但 ReAct + CoT-SC 混合策略（CoT 失败时切换 ReAct，反之亦然）取得最佳效果。
ALFWorld：ReAct 成功率比 Act-only 绝对提升 34%。
WebShop：ReAct 比此前模仿学习/强化学习 SOTA 提升 10%。
可解释性：Thought 轨迹让人类能直接看懂、调试、纠正 Agent 行为。

#5. 影响与延伸

ReAct 范式直接催生了现代 LLM Agent 框架：

LangChain / LlamaIndex / AutoGPT：早期 Agent 框架的默认 loop 形态。
Function Calling / Tool Use（OpenAI、Anthropic、Google）：把 Action 标准化为结构化 API 调用。
后续演进：
- Reflexion：在 ReAct 基础上加自我反思。
- Plan-and-Execute / ReWOO：先整体规划再分步执行，减少 token。
- Tree of Thoughts / Graph of Thoughts：把线性轨迹扩展为搜索树/图。

ReAct 是"LLM 从聊天机器人走向 Agent"的关键一步。

#总结：三篇论文的内在脉络

如果按"大模型发展史"串起来看：

2017  Transformer  →  提供了可扩展的架构地基
                       ↓ 让 GPT/BERT/LLaMA 等大模型成为可能
2021  LoRA        →  解决了大模型"如何便宜地适配下游任务"
                       ↓ 让每个人/每个业务都能定制大模型
2022  ReAct       →  解决了大模型"如何与外部世界交互"
                       ↓ 让大模型从"会说话"变成"会做事"

论文	解决的核心问题	当前地位
Transformer	如何高效建模序列	所有大模型的架构基础
LoRA	如何低成本微调大模型	PEFT 事实标准
ReAct	如何让大模型使用工具	Agent 范式起点

三篇分别对应大模型时代的架构层、训练层、应用层三个关键突破。