强化学习

1. RLHF 基础框架

  • 两阶段流程详解:Reward Model(RM)训练 + 强化学习策略优化(PPO)

  • 偏好数据构造:Bradley-Terry 模型假设、成对比较数据标注(Chosen vs Rejected)、Elo 评分体系在数据筛选中的应用

2. Reward Model(奖励模型)

  • 模型架构:基于预训练模型的输出头改造(Regression Head)、共享参数 vs 冻结部分层

  • 损失函数:Pairwise Ranking Loss、Margin 设置、In-batch Negative Sampling

  • RM 的陷阱与局限:Reward Hacking(奖励作弊)、分布外(OOD)泛化能力差、长度偏好(Length Bias)问题

3. PPO(Proximal Policy Optimization)算法深度解析

  • Actor-Critic 架构:策略模型(Actor)与价值模型(Critic)的初始化与更新策略

  • 关键组件

    • KL 散度约束(KL Penalty):参考模型(Reference Model)的固定与约束系数(β)调优

    • Generalized Advantage Estimation(GAE):λ 参数设置与回报计算

    • Clipped Surrogate Objective:PPO 核心裁剪机制(ε 参数)

  • 训练稳定性:Value Loss 爆炸、Entropy Collapse、KL 散度突然增大的诊断与修复

4. Direct Preference Optimization(DPO)及变体(现代主流,必须包含)

  • DPO 原理:跳过显式 RM,直接偏好优化,交叉熵损失与 Bradley-Terry 模型的等价推导

  • DPO 的改进变体

    • IPO(Identity Preference Optimization):解决 DPO 的过拟合问题

    • KTO(Kahneman-Tversky Optimization):无需成对偏好,仅需二元好坏标签

    • RPO(Robust Preference Optimization):处理噪声偏好数据

    • SimPO(Simple Preference Optimization):去除参考模型,降低显存占用

  • DPO vs PPO:显存效率对比、数据效率对比、何时选择何种算法

5. 进阶 RL 方法(前沿必备)

  • RLAIF(AI Feedback):Constitutional AI(CAI)流程,LLM 作为标注者生成 Critique 与修订

  • Self-Play 与对抗训练:SPIN(Self-Play Fine-Tuning)、Gouda(基于博弈论的方法)

  • 过程奖励模型(PRM)与结果奖励模型(ORM):OpenAI O1 背后的技术,Math/代码推理场景中的 Step-by-step 奖励建模

  • 迭代优化(Iterative RL):拒绝采样微调(Rejection Sampling Fine-Tuning, RFT)、在线 DPO(Online DPO)、Iterative DPO

6. RL 工程实践与稳定性

  • 长度控制:Length Penalty 设计,防止模型生成冗长无意义内容骗取高分

  • 重复抑制:针对重复生成(Repetition)的奖励塑形(Reward Shaping)

  • 多轮 RL 的数据构造:从 SFT 模型采样 → RM 打分 → 筛选高价值样本 → 继续训练(STaR、Vicuna 方法)

Last updated