强化学习

Actor-Critic 架构：策略模型（Actor）与价值模型（Critic）的初始化与更新策略
关键组件：
- KL 散度约束（KL Penalty）：参考模型（Reference Model）的固定与约束系数（β）调优
- Generalized Advantage Estimation（GAE）：λ 参数设置与回报计算
- Clipped Surrogate Objective：PPO 核心裁剪机制（ε 参数）
训练稳定性：Value Loss 爆炸、Entropy Collapse、KL 散度突然增大的诊断与修复

DPO 原理：跳过显式 RM，直接偏好优化，交叉熵损失与 Bradley-Terry 模型的等价推导
DPO 的改进变体：
- IPO（Identity Preference Optimization）：解决 DPO 的过拟合问题
- KTO（Kahneman-Tversky Optimization）：无需成对偏好，仅需二元好坏标签
- RPO（Robust Preference Optimization）：处理噪声偏好数据
- SimPO（Simple Preference Optimization）：去除参考模型，降低显存占用
DPO vs PPO：显存效率对比、数据效率对比、何时选择何种算法

RLAIF（AI Feedback）：Constitutional AI（CAI）流程，LLM 作为标注者生成 Critique 与修订
Self-Play 与对抗训练：SPIN（Self-Play Fine-Tuning）、Gouda（基于博弈论的方法）
过程奖励模型（PRM）与结果奖励模型（ORM）：OpenAI O1 背后的技术，Math/代码推理场景中的 Step-by-step 奖励建模
迭代优化（Iterative RL）：拒绝采样微调（Rejection Sampling Fine-Tuning, RFT）、在线 DPO（Online DPO）、Iterative DPO

Last updated 6 days ago