监督微调(Supervised Fine-Tuning, SFT)
核心思想
- 在预训练模型的基础上,使用标注数据进行有监督的微调,使模型适应特定任务。
- 通过最小化损失函数(如交叉熵)优化模型参数。
关键特点
- 数据要求:需要高质量的输入-输出配对数据(如问答对、文本摘要对)。
- 典型应用:文本生成(对话系统、翻译)。 分类任务(情感分析、意图识别)。
优势: 简单直接,适合任务明确、数据充足的场景。
局限: 依赖标注数据质量,无法直接优化人类偏好。
视觉微调(Vision Fine-Tuning)
核心思想
- 针对视觉任务(如图像分类、目标检测)对预训练模型(如ViT、CLIP)进行微调。
- 通常结合视觉-文本多模态数据(如对比学习)。
关键特点
- 数据要求:图像-标签对或图像-文本对。
- 典型应用:图像分类(ResNet、ViT)。多模态对齐(CLIP的图文匹配)。
技术变体:
- Adapter Tuning:插入轻量适配层,冻结主干模型。
- Prompt Tuning:通过视觉提示(如像素块)调整模型。
直接偏好优化(Direct Preference Optimization, DPO)
核心思想
- 通过人类偏好数据直接优化模型,无需强化学习(RL)。
- 替代传统的RLHF(如PPO),简化训练流程。
关键特点
- 数据要求:三元组(输入、优选回答、劣选回答)。
优势:
- 避免RL的不稳定性和复杂超参调优。
- 直接优化偏好对数似然。
典型应用:
- 对话模型对齐(如ChatGPT风格优化)。
- 摘要生成(偏好更流畅的结果)。
强化微调(Reinforcement Fine-Tuning, RFT) 核心思想 使用强化学习(RL)优化模型,以奖励信号(如人类反馈、自动指标)为指导。
典型方法 PPO(Proximal Policy Optimization)
关键特点
- 数据要求:奖励模型(Reward Model)或人工反馈。
典型应用:
- 复杂决策任务(游戏AI)。
- 对齐人类价值观(如无害性、有用性)。
流程:
- SFT微调:初始化一个监督微调模型。
- 奖励建模:训练奖励模型(如基于人类评分)。
- RL优化:通过PPO最大化预期奖励。
方法对比总结
参考网址:
Fine-tune models for better results and efficiency.
| 方法 | 数据需求 | 优势 | 局限 | 适用场景 |
|---|---|---|---|---|
| SFT | 标注输入-输出对 | 简单高效 | 依赖标注质量 | 任务明确的生成/分类 |
| Vision FT | 图像-标签/文本对 | 适配多模态任务 | 计算成本高 | 图像分类、图文匹配 |
| DPO | 偏好三元组 | 免RL,稳定高效 | 需高质量偏好数据 | 对话/摘要对齐 |
| RFT (RLHF/PPO) | 奖励模型或人工反馈 | 处理复杂目标(如安全性) | 训练复杂,超参敏感 | 价值观对齐、复杂决策 |