Agent 论文与解读 · Markdown
三篇经典论文解读:Transformer、LoRA、ReAct
本文档对深度学习/大模型领域三篇里程碑式论文进行解读,按"提出背景 → 核心思想 → 方法细节 → 关键结论 → 影响与延伸"五个维度展开。
本文档对深度学习/大模型领域三篇里程碑式论文进行解读,按"提出背景 → 核心思想 → 方法细节 → 关键结论 → 影响与延伸"五个维度展开。
#一、Attention Is All You Need(Transformer,2017)
- 作者:Vaswani et al.(Google Brain / Google Research)
- arXiv:1706.03762
- 领域:序列建模 / 机器翻译
#1. 提出背景
在 2017 年之前,序列建模(机器翻译、语言模型)主流是 RNN/LSTM/GRU + Attention,存在两大瓶颈:
- 串行计算:RNN 必须按时间步顺序计算,无法充分利用 GPU 的并行能力,训练慢。
- 长程依赖衰减:序列越长,梯度越难传播,远距离 token 之间的关系建模效果差。
CNN(如 ConvS2S)能并行,但需要堆很多层才能让远距离 token 进入同一个感受野。
#2. 核心思想
完全抛弃循环和卷积,只用注意力机制(Attention)建模 token 间依赖。
- 任意两个位置之间的距离都是 O(1),长程依赖直接打通。
- 矩阵乘法本质,天然并行,训练效率大幅提升。
#3. 方法细节
#3.1 Scaled Dot-Product Attention
$$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$
- $\sqrt{d_k}$ 缩放防止点积过大导致 softmax 饱和(梯度消失)。
#3.2 Multi-Head Attention
把 Q/K/V 投影到 h 个子空间分别计算 Attention,再拼接: 让模型在不同子空间里捕捉不同层面的语义关系(语法、语义、共指等)。
#3.3 整体结构(Encoder-Decoder)
- Encoder:6 层,每层 = Multi-Head Self-Attention + FFN,残差 + LayerNorm。
- Decoder:6 层,每层 = Masked Self-Attention + Cross-Attention(关注 Encoder 输出)+ FFN。
- Positional Encoding:因为没有循环/卷积,需要显式注入位置信息(sin/cos 函数)。
#3.4 关键超参(Base 模型)
- d_model=512, h=8, d_ff=2048, layers=6, dropout=0.1
#4. 关键结论
- WMT 2014 英德翻译 BLEU 28.4,超过当时所有模型(含集成模型)。
- WMT 2014 英法 BLEU 41.8,训练成本只有最强基线的 1/4。
- 证明"纯 Attention 架构"可行,且可大规模并行训练。
#5. 影响与延伸
| 方向 | 代表工作 |
|---|---|
| Encoder-only | BERT、RoBERTa、DeBERTa |
| Decoder-only | GPT 系列、LLaMA、Claude、DeepSeek |
| Encoder-Decoder | T5、BART、mT5 |
| 跨模态 | ViT、CLIP、Whisper |
| 长上下文 | FlashAttention、ALiBi、RoPE、Sliding Window |
Transformer 是过去 8 年所有大模型的地基,本论文是必读经典。
#二、LoRA: Low-Rank Adaptation of Large Language Models(2021)
- 作者:Edward Hu et al.(Microsoft)
- arXiv:2106.09685
- 领域:参数高效微调(PEFT)
#1. 提出背景
GPT-3 等大模型规模达到 175B 参数,**全量微调(Full Fine-tuning)**面临三大问题:
- 显存爆炸:训练一个 175B 模型需要数百 GB 显存(优化器状态 + 梯度 + 激活)。
- 存储成本:每个下游任务都要保存一份完整模型副本。
- 部署复杂:多任务切换需要加载多个完整模型。
此前已有 Adapter、Prefix Tuning 等方法,但要么推理增加额外延迟,要么效果不稳定。
#2. 核心思想
冻结预训练权重 W₀,只训练一个低秩"增量"ΔW = BA。
基于一个观察:模型在适配下游任务时,权重更新 ΔW 具有低秩特性(intrinsic rank 很低)。
#3. 方法细节
#3.1 数学形式
对预训练权重矩阵 $W_0 \in \mathbb{R}^{d \times k}$,引入低秩分解:
$$ W = W_0 + \Delta W = W_0 + BA, \quad B \in \mathbb{R}^{d \times r}, ; A \in \mathbb{R}^{r \times k}, ; r \ll \min(d, k) $$
- 训练时:冻结 $W_0$,只更新 A、B。
- 初始化:A 用高斯初始化,B 初始化为 0,保证训练开始时 ΔW = 0,不破坏预训练效果。
- 缩放因子:$\Delta W x = \frac{\alpha}{r} BAx$,α 是超参,方便切换不同 r 时不需要重调学习率。
#3.2 应用位置
实验表明,对 Transformer 的 W_q 和 W_v(Query/Value 投影矩阵) 应用 LoRA 效果最好,性价比最高。
#3.3 关键优势
| 维度 | 全量微调 | LoRA |
|---|---|---|
| 可训练参数 | 100% | 0.01% ~ 1% |
| 显存占用 | 极高 | 大幅降低 |
| 推理延迟 | 0 | 0(推理时可合并 W = W₀ + BA) |
| 任务切换 | 加载完整模型 | 只切换小 LoRA 权重(几 MB) |
#4. 关键结论
- 在 GPT-3 175B 上,LoRA 用 可训练参数减少 10000 倍、GPU 显存减少 3 倍,效果持平或超过全量微调。
- 在 RoBERTa、DeBERTa、GPT-2 等多个基线上均验证有效。
- r=1 或 r=2 就能在多数任务上取得不错效果,证明权重更新确实低秩。
#5. 影响与延伸
- QLoRA:4-bit 量化 + LoRA,让消费级 GPU(24GB)可微调 65B 模型。
- LoRA Hub / LoRA Merge:多个 LoRA 模块组合,实现技能拼装。
- 生态影响:HuggingFace PEFT 库、Stable Diffusion 社区的"画风 LoRA"、商业模型的多租户定制。
- LoRA 已成为 2026 年大模型微调的事实标准。
#三、ReAct: Synergizing Reasoning and Acting in Language Models(2022)
- 作者:Shunyu Yao et al.(Princeton & Google)
- arXiv:2210.03629
- 领域:LLM Agent / 工具调用
#1. 提出背景
2022 年大模型在两类任务上已有突破,但各自独立:
- Chain-of-Thought(CoT):让模型"想清楚再答",擅长推理,但只能用模型内部知识,无法获取外部信息,容易事实性幻觉。
- Act-only Agent(如 WebGPT、SayCan):会调用工具/动作,但没有显式推理过程,决策不稳定,难解释。
两者割裂:CoT 不会"行动",Action 不会"思考"。
#2. 核心思想
让 LLM 在同一个上下文里交替生成"思考(Thought)"和"动作(Action)",形成 Thought → Action → Observation 循环。
- Thought:模型用自然语言推理"现在该做什么、为什么"。
- Action:调用一个具体工具(如 Search、Lookup、Calculator)。
- Observation:环境返回的执行结果,作为下一轮上下文。
Thought 1: 我需要先查 X 是什么。
Action 1: Search[X]
Observation 1: X 是一种 ...
Thought 2: 那么我应该再查 ...
Action 2: Lookup[Y]
...
Action N: Finish[答案]
#3. 方法细节
#3.1 实现方式
Few-shot Prompting——不需要训练,直接在 prompt 里给几个示范样例(Thought/Action/Observation 交错的轨迹),模型就能学会这种行为模式。
#3.2 两个实验领域
| 任务 | 工具集 | 评估 |
|---|---|---|
| 知识密集型 QA(HotpotQA, FEVER) | Wikipedia API:Search / Lookup / Finish | 答案准确率 |
| 决策任务(ALFWorld, WebShop) | 环境动作(移动、拿取、点击) | 任务完成率 |
#3.3 与对比方法
- Standard:直接输出答案
- CoT:只推理不行动
- CoT-SC:CoT + Self-Consistency 投票
- Act:只行动不推理
- ReAct:推理 + 行动交替
#4. 关键结论
- HotpotQA / FEVER:ReAct 单独不一定最强,但 ReAct + CoT-SC 混合策略(CoT 失败时切换 ReAct,反之亦然)取得最佳效果。
- ALFWorld:ReAct 成功率比 Act-only 绝对提升 34%。
- WebShop:ReAct 比此前模仿学习/强化学习 SOTA 提升 10%。
- 可解释性:Thought 轨迹让人类能直接看懂、调试、纠正 Agent 行为。
#5. 影响与延伸
ReAct 范式直接催生了现代 LLM Agent 框架:
- LangChain / LlamaIndex / AutoGPT:早期 Agent 框架的默认 loop 形态。
- Function Calling / Tool Use(OpenAI、Anthropic、Google):把 Action 标准化为结构化 API 调用。
- 后续演进:
- Reflexion:在 ReAct 基础上加自我反思。
- Plan-and-Execute / ReWOO:先整体规划再分步执行,减少 token。
- Tree of Thoughts / Graph of Thoughts:把线性轨迹扩展为搜索树/图。
ReAct 是"LLM 从聊天机器人走向 Agent"的关键一步。
#总结:三篇论文的内在脉络
如果按"大模型发展史"串起来看:
2017 Transformer → 提供了可扩展的架构地基
↓ 让 GPT/BERT/LLaMA 等大模型成为可能
2021 LoRA → 解决了大模型"如何便宜地适配下游任务"
↓ 让每个人/每个业务都能定制大模型
2022 ReAct → 解决了大模型"如何与外部世界交互"
↓ 让大模型从"会说话"变成"会做事"
| 论文 | 解决的核心问题 | 当前地位 |
|---|---|---|
| Transformer | 如何高效建模序列 | 所有大模型的架构基础 |
| LoRA | 如何低成本微调大模型 | PEFT 事实标准 |
| ReAct | 如何让大模型使用工具 | Agent 范式起点 |
三篇分别对应大模型时代的架构层、训练层、应用层三个关键突破。