Agent 论文与解读 · Markdown

三篇经典论文解读:Transformer、LoRA、ReAct

本文档对深度学习/大模型领域三篇里程碑式论文进行解读,按"提出背景 → 核心思想 → 方法细节 → 关键结论 → 影响与延伸"五个维度展开。

来源文件:论文解读_Transformer_LoRA_ReAct.md · 阅读时间 4 分钟

本文档对深度学习/大模型领域三篇里程碑式论文进行解读,按"提出背景 → 核心思想 → 方法细节 → 关键结论 → 影响与延伸"五个维度展开。


#一、Attention Is All You Need(Transformer,2017)

  • 作者:Vaswani et al.(Google Brain / Google Research)
  • arXiv:1706.03762
  • 领域:序列建模 / 机器翻译

#1. 提出背景

在 2017 年之前,序列建模(机器翻译、语言模型)主流是 RNN/LSTM/GRU + Attention,存在两大瓶颈:

  1. 串行计算:RNN 必须按时间步顺序计算,无法充分利用 GPU 的并行能力,训练慢。
  2. 长程依赖衰减:序列越长,梯度越难传播,远距离 token 之间的关系建模效果差。

CNN(如 ConvS2S)能并行,但需要堆很多层才能让远距离 token 进入同一个感受野。

#2. 核心思想

完全抛弃循环和卷积,只用注意力机制(Attention)建模 token 间依赖。

  • 任意两个位置之间的距离都是 O(1),长程依赖直接打通。
  • 矩阵乘法本质,天然并行,训练效率大幅提升。

#3. 方法细节

#3.1 Scaled Dot-Product Attention

$$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$

  • $\sqrt{d_k}$ 缩放防止点积过大导致 softmax 饱和(梯度消失)。

#3.2 Multi-Head Attention

把 Q/K/V 投影到 h 个子空间分别计算 Attention,再拼接: 让模型在不同子空间里捕捉不同层面的语义关系(语法、语义、共指等)。

#3.3 整体结构(Encoder-Decoder)

  • Encoder:6 层,每层 = Multi-Head Self-Attention + FFN,残差 + LayerNorm。
  • Decoder:6 层,每层 = Masked Self-Attention + Cross-Attention(关注 Encoder 输出)+ FFN。
  • Positional Encoding:因为没有循环/卷积,需要显式注入位置信息(sin/cos 函数)。

#3.4 关键超参(Base 模型)

  • d_model=512, h=8, d_ff=2048, layers=6, dropout=0.1

#4. 关键结论

  • WMT 2014 英德翻译 BLEU 28.4,超过当时所有模型(含集成模型)。
  • WMT 2014 英法 BLEU 41.8,训练成本只有最强基线的 1/4
  • 证明"纯 Attention 架构"可行,且可大规模并行训练。

#5. 影响与延伸

方向 代表工作
Encoder-only BERT、RoBERTa、DeBERTa
Decoder-only GPT 系列、LLaMA、Claude、DeepSeek
Encoder-Decoder T5、BART、mT5
跨模态 ViT、CLIP、Whisper
长上下文 FlashAttention、ALiBi、RoPE、Sliding Window

Transformer 是过去 8 年所有大模型的地基,本论文是必读经典。


#二、LoRA: Low-Rank Adaptation of Large Language Models(2021)

  • 作者:Edward Hu et al.(Microsoft)
  • arXiv:2106.09685
  • 领域:参数高效微调(PEFT)

#1. 提出背景

GPT-3 等大模型规模达到 175B 参数,**全量微调(Full Fine-tuning)**面临三大问题:

  1. 显存爆炸:训练一个 175B 模型需要数百 GB 显存(优化器状态 + 梯度 + 激活)。
  2. 存储成本:每个下游任务都要保存一份完整模型副本。
  3. 部署复杂:多任务切换需要加载多个完整模型。

此前已有 Adapter、Prefix Tuning 等方法,但要么推理增加额外延迟,要么效果不稳定

#2. 核心思想

冻结预训练权重 W₀,只训练一个低秩"增量"ΔW = BA。

基于一个观察:模型在适配下游任务时,权重更新 ΔW 具有低秩特性(intrinsic rank 很低)

#3. 方法细节

#3.1 数学形式

对预训练权重矩阵 $W_0 \in \mathbb{R}^{d \times k}$,引入低秩分解:

$$ W = W_0 + \Delta W = W_0 + BA, \quad B \in \mathbb{R}^{d \times r}, ; A \in \mathbb{R}^{r \times k}, ; r \ll \min(d, k) $$

  • 训练时:冻结 $W_0$,只更新 A、B。
  • 初始化:A 用高斯初始化,B 初始化为 0,保证训练开始时 ΔW = 0,不破坏预训练效果。
  • 缩放因子:$\Delta W x = \frac{\alpha}{r} BAx$,α 是超参,方便切换不同 r 时不需要重调学习率。

#3.2 应用位置

实验表明,对 Transformer 的 W_q 和 W_v(Query/Value 投影矩阵) 应用 LoRA 效果最好,性价比最高。

#3.3 关键优势

维度 全量微调 LoRA
可训练参数 100% 0.01% ~ 1%
显存占用 极高 大幅降低
推理延迟 0 0(推理时可合并 W = W₀ + BA)
任务切换 加载完整模型 只切换小 LoRA 权重(几 MB)

#4. 关键结论

  • GPT-3 175B 上,LoRA 用 可训练参数减少 10000 倍、GPU 显存减少 3 倍,效果持平或超过全量微调。
  • 在 RoBERTa、DeBERTa、GPT-2 等多个基线上均验证有效。
  • r=1 或 r=2 就能在多数任务上取得不错效果,证明权重更新确实低秩。

#5. 影响与延伸

  • QLoRA:4-bit 量化 + LoRA,让消费级 GPU(24GB)可微调 65B 模型。
  • LoRA Hub / LoRA Merge:多个 LoRA 模块组合,实现技能拼装。
  • 生态影响:HuggingFace PEFT 库、Stable Diffusion 社区的"画风 LoRA"、商业模型的多租户定制。
  • LoRA 已成为 2026 年大模型微调的事实标准

#三、ReAct: Synergizing Reasoning and Acting in Language Models(2022)

  • 作者:Shunyu Yao et al.(Princeton & Google)
  • arXiv:2210.03629
  • 领域:LLM Agent / 工具调用

#1. 提出背景

2022 年大模型在两类任务上已有突破,但各自独立:

  1. Chain-of-Thought(CoT):让模型"想清楚再答",擅长推理,但只能用模型内部知识,无法获取外部信息,容易事实性幻觉
  2. Act-only Agent(如 WebGPT、SayCan):会调用工具/动作,但没有显式推理过程,决策不稳定,难解释。

两者割裂:CoT 不会"行动",Action 不会"思考"。

#2. 核心思想

让 LLM 在同一个上下文里交替生成"思考(Thought)"和"动作(Action)",形成 Thought → Action → Observation 循环。

  • Thought:模型用自然语言推理"现在该做什么、为什么"。
  • Action:调用一个具体工具(如 Search、Lookup、Calculator)。
  • Observation:环境返回的执行结果,作为下一轮上下文。
Thought 1: 我需要先查 X 是什么。
Action 1: Search[X]
Observation 1: X 是一种 ...
Thought 2: 那么我应该再查 ...
Action 2: Lookup[Y]
...
Action N: Finish[答案]

#3. 方法细节

#3.1 实现方式

Few-shot Prompting——不需要训练,直接在 prompt 里给几个示范样例(Thought/Action/Observation 交错的轨迹),模型就能学会这种行为模式。

#3.2 两个实验领域

任务 工具集 评估
知识密集型 QA(HotpotQA, FEVER) Wikipedia API:Search / Lookup / Finish 答案准确率
决策任务(ALFWorld, WebShop) 环境动作(移动、拿取、点击) 任务完成率

#3.3 与对比方法

  • Standard:直接输出答案
  • CoT:只推理不行动
  • CoT-SC:CoT + Self-Consistency 投票
  • Act:只行动不推理
  • ReAct:推理 + 行动交替

#4. 关键结论

  • HotpotQA / FEVER:ReAct 单独不一定最强,但 ReAct + CoT-SC 混合策略(CoT 失败时切换 ReAct,反之亦然)取得最佳效果。
  • ALFWorld:ReAct 成功率比 Act-only 绝对提升 34%
  • WebShop:ReAct 比此前模仿学习/强化学习 SOTA 提升 10%
  • 可解释性:Thought 轨迹让人类能直接看懂、调试、纠正 Agent 行为。

#5. 影响与延伸

ReAct 范式直接催生了现代 LLM Agent 框架

  • LangChain / LlamaIndex / AutoGPT:早期 Agent 框架的默认 loop 形态。
  • Function Calling / Tool Use(OpenAI、Anthropic、Google):把 Action 标准化为结构化 API 调用。
  • 后续演进
    • Reflexion:在 ReAct 基础上加自我反思。
    • Plan-and-Execute / ReWOO:先整体规划再分步执行,减少 token。
    • Tree of Thoughts / Graph of Thoughts:把线性轨迹扩展为搜索树/图。

ReAct 是"LLM 从聊天机器人走向 Agent"的关键一步


#总结:三篇论文的内在脉络

如果按"大模型发展史"串起来看:

2017  Transformer  →  提供了可扩展的架构地基
                       ↓ 让 GPT/BERT/LLaMA 等大模型成为可能
2021  LoRA        →  解决了大模型"如何便宜地适配下游任务"
                       ↓ 让每个人/每个业务都能定制大模型
2022  ReAct       →  解决了大模型"如何与外部世界交互"
                       ↓ 让大模型从"会说话"变成"会做事"
论文 解决的核心问题 当前地位
Transformer 如何高效建模序列 所有大模型的架构基础
LoRA 如何低成本微调大模型 PEFT 事实标准
ReAct 如何让大模型使用工具 Agent 范式起点

三篇分别对应大模型时代的架构层、训练层、应用层三个关键突破。

返回 Agent 资料库