DELT: 数据效力——被忽视的语言模型训练优化维度
论文: Data Efficacy for Language Model Training
链接: https://arxiv.org/abs/2506.21545
机构: Microsoft Research
时间: 2025 年 6 月(ICLR 2026 投稿)
1. 问题背景
在大语言模型的训练流水线里,”数据”始终是最具决定性的变量之一。围绕”如何更好地使用数据”,研究社区在过去几年沉淀出了一条相对成熟的研究方向——数据效率(Data Efficiency):通过过滤(filtering)、采样(sampling)、选择(selection)、去重(deduplication)等手段,从原始语料中挑出最有价值的子集,以更少的 token 训练出更强的模型。代表性工作包括 KenLM(基于困惑度的难度评分)、PDS(基于梯度方向一致性的质量评分)、DSIR(基于重要性采样的子集筛选)、MATES(动态适配训练阶段偏好的数据影响模型)、SemDeDup(基于 embedding 语义去重)等。
但 Microsoft Research 这篇论文敏锐地指出了一个长期被忽视的维度:一旦子集已经被选出来,所有保留下来的样本通常都被”平等对待”,且呈现给模型的顺序是随机的。换言之,“如何组织已经选好的数据”几乎是一片研究空白。论文将这个新的研究方向命名为 数据效力(Data Efficacy)——通过优化训练数据的组织方式(而非选择内容)来最大化模型性能。
这个问题在当代 LLM 的训练范式下显得尤为重要。作者引用了 Kaplan 等人的 Scaling Laws 和 Goyal 等人的 QQT 工作指出:新一代 LLM 通常只在大规模语料上训练 1 个 epoch(甚至更少),高质量数据被反复重用很快就会”过时”。这与之前 RNN/LSTM 时代依赖多 epoch 训练的范式形成鲜明对比。在”训得少、看得多”的新范式下,数据呈现的顺序本身就成了一种重要的归纳偏置——它决定了模型在有限步骤内能学到什么、忘掉什么。
围绕这一问题,论文提出了 DELT(Data Efficacy for LM Training) 范式,包含三个组件:
- Data Scoring(数据评分):为每条样本根据质量、难度、可学习性等属性打分;
- Data Selection(数据选择,可选):基于评分挑选子集——这一步关联到传统的数据效率;
- Data Ordering(数据排序):基于评分重新组织样本顺序,让模型按特定路径学习。
并配套提出两个具体方法:
- LQS(Learnability-Quality Scoring):从梯度一致性视角,同时考虑样本的”可学习性”与”质量”的新评分方法;
- FO(Folding Ordering):通过对排序后的数据做”多层折叠”的新排序方法,缓解课程学习的模型遗忘与分布偏置问题。
四点主要贡献:(a) 提出”数据效力”这一基础性研究方向并定义了通用范式 DELT;(b) 设计 LQS 数据评分方法,结合可学习性与质量;(c) 设计 FO 数据排序方法,缓解课程学习的固有缺陷;(d) 在 160M~1B 参数规模、1B~50B token 数据规模上系统验证,确认 LQS + FO 组合显著优于现有方法。
值得指出的是,论文有意将”数据效力(efficacy)”与”数据效率(efficiency)”区分开来——后者关注子集质量,前者关注组织方式——并强调两者正交且可叠加:DELT 既可以在保留全量数据时单独使用(efficacy),也可以与数据选择联合使用(efficacy + efficiency),且联合使用能带来更大收益。
2. 整体框架
DELT 的整体结构如下图(论文 Fig. 2)所示:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
┌────────────────────────────────────────────────────────────────────┐
│ DELT Paradigm │
│ │
│ Raw Data 𝒟 │
│ │ │
│ ▼ │
│ ┌──────────────┐ γ = [γ₁, γ₂, ..., γ_|𝒟|] │
│ │ Data Scoring │ ───► scoring vector │
│ │ f(𝒟) │ (LQS / KenLM / PDS / ...) │
│ └──────────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────┐ (Optional, for efficiency) │
│ │Data Selection│ ───► 𝒟ˢᵘᵇ ⊆ 𝒟 │
│ │ f_s(𝒟;γ,K) │ (top-K selection) │
│ └──────────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────┐ 𝒟′ = permuted dataset │
│ │Data Ordering │ ───► (Folding / Sorting / Shuffle / ...) │
│ │ f_o(𝒟;γ) │ │
│ └──────────────┘ │
│ │ │
│ ▼ │
│ Language Model Training on 𝒟′ │
└────────────────────────────────────────────────────────────────────┘
形式化地,设语言模型参数 $\theta \in \mathbb{R}^N$,原始数据集 $\mathcal{D} = \lbrace x_n \rbrace_{n=1}^{\lvert\mathcal{D}\rvert}$。
Step 1: Data Scoring——给每条样本打分。评分函数 $f$ 为每条样本输出一个标量分数:
\[\boldsymbol{\gamma} = f(\mathcal{D}) = [\gamma_1, \gamma_2, \dots, \gamma_{|\mathcal{D}|}]^\top\]分数 $\gamma_n$ 越高,表示样本 $x_n$ 越”有价值”(具体含义取决于 scoring 方法:KenLM 用困惑度衡量”难度”,PDS 用梯度方向衡量”质量”,LQS 同时衡量”质量 + 可学习性”)。
Step 2: Data Selection(可选)——挑出最好的子集。给定选择比例 $r$(例如 $r = 0.5$ 表示只保留一半数据),计算要保留的样本数 $K = \lfloor r \cdot \lvert\mathcal{D}\rvert \rfloor$,然后按分数从高到低取 top-K:
\[\mathcal{D}^{\text{sub}} = \{ x_k \mid \gamma_k \text{ 排在前 } K \text{ 名} \}\]举例:10 条样本分数为 $[0.3, 0.8, 0.1, 0.9, 0.5, 0.7, 0.2, 0.6, 0.4, 0.95]$,选择比例 $r=0.5$(保留 5 条),则取分数最高的 5 条:$x_4(0.9),\, x_{10}(0.95),\, x_2(0.8),\, x_6(0.7),\, x_8(0.6)$。这一步是传统”数据效率”研究关注的内容,在 DELT 中是可选的。
Step 3: Data Ordering——重新排列训练顺序。这是 DELT 的核心贡献。不改变数据集内容,只改变样本呈现给模型的顺序。排列函数 $\pi$ 基于分数 $\boldsymbol{\gamma}$ 决定新的顺序:
\[\mathcal{D}' = [x_{\pi_1}, x_{\pi_2}, \dots, x_{\pi_{|\mathcal{D}|}}]\]不同的排列策略对应不同的 ordering 方法:
- Shuffle(随机打乱):$\pi$ 是一个随机排列——这就是传统做法,完全不利用分数信息;
- Sorting(课程学习):$\pi$ 按分数从低到高排列,即先学简单样本、再学难样本;
- Folding(本文提出):把排好序的数据”折叠” $L$ 次(详见第 4 节),每层都包含从易到难的完整覆盖。
举例:6 条样本按分数升序为 $[x_1, x_2, x_3, x_4, x_5, x_6]$($x_1$ 最简单,$x_6$ 最难)。三种 ordering 的结果:
| Ordering | 训练顺序 | 直觉 |
|---|---|---|
| Shuffle | $[x_3, x_1, x_6, x_2, x_5, x_4]$ | 完全随机,无策略 |
| Sorting | $[x_1, x_2, x_3, x_4, x_5, x_6]$ | 由易到难,严格课程 |
| Folding ($L=2$) | $[x_1, x_3, x_5, x_2, x_4, x_6]$ | 两轮”从易到难”交替 |
三步合在一起就是 DELT 的完整流程:先打分,再(可选地)筛选子集,最后排序子集中样本的呈现顺序。论文指出,由于 data scoring 计算成本较高,实际部署中 selection 和 ordering 通常共享同一份分数向量 $\boldsymbol{\gamma}$——这就把 efficacy 和 efficiency 自然地编织在了同一条流水线里。
这个范式的优雅之处在于其统一性:课程学习(curriculum learning)可视为 ordering 函数为”按难度升序”的特殊情况;退火学习(annealing learning,Llama 3 等使用)可视为”先大批噪声数据、最后小批高质量数据”的特殊 ordering 策略。两者都只是 DELT 框架下的具体实例,论文则进一步提出了更通用的 LQS + FO 组合。
3. LQS:Learnability-Quality Scoring
3.1 现有评分方法的局限
论文先对比了两个代表性的数据评分基线:
- KenLM(Heafield 2011):训练一个小型 n-gram 模型估计每条样本的困惑度,将困惑度作为”难度”分数。优势是计算便宜、与 LM 训练独立;局限是仅捕捉到表面统计层面的难度,无法反映样本在真实 LM 训练动力学中的实际贡献。
- PDS(Gu et al. 2024):基于梯度方向一致性($\nabla \ell(x_n, \theta_t)$ 与目标方向 $\boldsymbol{\lambda}_t$ 的余弦相似度)来评估样本质量,目标方向通过反向递推算出。优势是与 LM 训练动力学直接对齐;局限是仅关注”样本好不好”,不关注”样本应该出现在训练的哪个阶段”。
LQS 的设计动机正是补上 PDS 缺失的”时机维度”——把”样本质量”和”何时使用这个样本最有效”统一在一个分数里。
3.2 Learnability Score:捕捉样本的”难度变化轨迹”
定义样本 $x_n$ 在训练步 $t$ 的梯度模长 $l_{n,t} = |\nabla \ell(x_n, \theta_t)|$。Learnability 分数定义为:
\[\mathcal{L}(x_n) = \sum_{t=1}^{T-1} \frac{l_{n,t}}{l_{n,t+1}} = \sum_{t=1}^{T-1} \frac{\|\nabla \ell(x_n, \boldsymbol{\theta}_t)\|}{\|\nabla \ell(x_n, \boldsymbol{\theta}_{t+1})\|}\]其中:
- $\nabla \ell(x_n, \boldsymbol{\theta}_t)$ 是样本 $x_n$ 在训练步 $t$、参数 $\boldsymbol{\theta}_t$ 下的损失梯度;
- $l_{n,t}$ 是其模长,物理意义是当前样本对模型还有多少”信息增量”——梯度大说明模型还没学会这条样本。
直觉上:
- 若一条样本初始梯度大(难学),随着训练逐步降低(被学会),则 $l_{n,t}/l_{n,t+1} > 1$ 持续成立,累加后 $\mathcal{L}(x_n)$ 较大——这是”有挑战性但可学习”的样本,更适合放到训练后期;
- 若一条样本梯度始终震荡(噪声样本)或始终很小(过于简单),分数都会较低;
- 这个分数天然带”时序信号”——既要难(早期梯度大),又要能被学会(后期梯度小)。
这种设计极妙地把”难度”和”可学习性”绑在一起:传统课程学习直接按”难度”排序,但忽略了有些难的样本根本学不会(噪声),把它们放到后期反而损害训练。
3.3 Quality Score:梯度方向与下游目标的对齐度
Quality 分数沿用 PDS 的”梯度方向一致性”思想:
\[Q(x_n) = \sum_{t=1}^{T-1} \cos(\alpha_{n,t}) = \sum_{t=1}^{T-1} \frac{\boldsymbol{\lambda}_{t+1}^\top \nabla \ell(x_n, \boldsymbol{\theta}_t)}{\|\boldsymbol{\lambda}_{t+1}\| \cdot \|\nabla \ell(x_n, \boldsymbol{\theta}_t)\|}\]其中 $\boldsymbol{\lambda}_{t+1}$ 是目标方向向量,反向递推计算:
\[\boldsymbol{\lambda}_t = \begin{cases} \boldsymbol{\lambda}_{t+1} + \nabla J(\boldsymbol{\theta}_t) - \eta \cdot \nabla^2 L(\boldsymbol{\theta}_t, \boldsymbol{\gamma}) \cdot \boldsymbol{\lambda}_{t+1}, & t < T \\ \nabla J(\boldsymbol{\theta}_T), & t = T \end{cases}\]$J(\boldsymbol{\theta})$ 是下游评测损失(计算在一个高质量的小规模 reference 集上,如 LIMA、MiniF2F、Epicoder-380k),$L(\boldsymbol{\theta}, \boldsymbol{\gamma})$ 是加权训练损失,$\eta$ 是学习率,$\nabla^2 L$ 涉及二阶 Hessian 信息。
这条递推公式的直觉是什么? $\boldsymbol{\lambda}_t$ 可以理解为:“在第 $t$ 步,如果我要让最终的下游损失 $J$ 降低最多,理想的梯度方向是什么?” $\nabla J(\boldsymbol{\theta}_t)$ 是当前 $J$ 关于参数的下降方向;$-\eta \nabla^2 L \cdot \boldsymbol{\lambda}_{t+1}$ 这一项则是把”下一步的理想方向”经过参数更新的 Hessian 校正映射回当前步。整体上是个反向传播的”理想方向链”。
样本 $x_n$ 的梯度 $\nabla \ell(x_n, \boldsymbol{\theta}_t)$ 与 $\boldsymbol{\lambda}_{t+1}$ 的余弦相似度越高,说明这条样本越能朝着”对下游有利”的方向推动训练。
3.4 LQS:合成可学习性、质量、模型能力
附录 D 给出了 LQS 的完整推导。论文进一步引入模型能力分数(Reliability Score):
\[R(\boldsymbol{\theta}_{t+1}) = \|\boldsymbol{\lambda}_{t+1}\|\]目标向量模长越大,说明当前模型的”目标信号”越强、评分越可靠。
最终 LQS 分数定义为三者的乘积:
\[\gamma_n = R(\boldsymbol{\theta}_{t+1}) \cdot Q(x_n) \cdot \mathcal{L}(x_n)\]代入展开并化简后得到一个相当简洁的最终形式:
\[\gamma_n = \sum_{t=1}^{T-1} \frac{\boldsymbol{\lambda}_{t+1}^\top \nabla \ell(x_n, \boldsymbol{\theta}_t)}{\|\nabla \ell(x_n, \boldsymbol{\theta}_{t+1})\|}\]化简推导链:
\[\gamma_n = \sum_{t=1}^{T-1} \|\boldsymbol{\lambda}_{t+1}\| \cdot \frac{\boldsymbol{\lambda}_{t+1}^\top \nabla \ell(x_n, \boldsymbol{\theta}_t)}{\|\boldsymbol{\lambda}_{t+1}\|\cdot\|\nabla \ell(x_n, \boldsymbol{\theta}_t)\|} \cdot \frac{\|\nabla \ell(x_n, \boldsymbol{\theta}_t)\|}{\|\nabla \ell(x_n, \boldsymbol{\theta}_{t+1})\|}\]- $|\boldsymbol{\lambda}_{t+1}|$(模型能力)与分母的 $|\boldsymbol{\lambda}_{t+1}|$ 相消;
- $|\nabla \ell(x_n, \boldsymbol{\theta}_t)|$(learnability 分子)与质量分数分母中的 $|\nabla \ell(x_n, \boldsymbol{\theta}_t)|$ 相消。
最终只剩下 $\frac{\boldsymbol{\lambda}_{t+1}^\top \nabla \ell(x_n, \boldsymbol{\theta}_t)}{|\nabla \ell(x_n, \boldsymbol{\theta}_{t+1})|}$。
这个化简结果非常具有启发性:
- 分子 $\boldsymbol{\lambda}_{t+1}^\top \nabla \ell(x_n, \boldsymbol{\theta}_t)$:样本梯度在”理想方向”上的投影长度——衡量”这条样本对下游有多大的方向性贡献”;
- 分母 $|\nabla \ell(x_n, \boldsymbol{\theta}_{t+1})|$:下一步的梯度模长——衡量”这条样本是否已经被学会”。
最终分数自然地集成了:
- 对下游目标的贡献方向(PDS 已有,质量维度);
- 训练过程中样本被”消化”的速率(learnability 维度);
- 模型当前能力的可靠性加权(reliability 维度)。
3.5 LQS 的工程实现:两步走的代理评分流水线
直接对全量预训练语料计算 LQS 分数代价不可承受(需要保存完整训练轨迹)。论文沿用 PDS 的工程思路,分四步走(Appendix E):
- Proxy Data Sampling:从原始语料 $\mathcal{D}$ 中均匀采样小规模代理集 $\mathcal{D}^{\text{prx}}$;
- Proxy Data Annotation:用算法 1(bi-level optimization)在 $\mathcal{D}^{\text{prx}}$ 上计算 ground-truth 分数 $\boldsymbol{\gamma}^\ast$——前向循环训练 $T$ 步、反向循环按 Eq. 8 递推 $\boldsymbol{\lambda}_t^\ast$、再按 Eq. 9 更新分数;
- Data Scorer Training:用一个小型 LM(论文用 Fairseq-Dense-125M)作为 scorer,在 $\mathcal{D}^{\text{prx}}$ 上用 MSE loss 拟合 $\boldsymbol{\gamma}^\ast$;
- Full Data Scoring:把训好的 scorer 应用到全量 $\mathcal{D}$ 上推断分数。
scorer 训练用的是均值池化的隐状态 $\overline{\boldsymbol{h}}(x_n^{\text{prx}}, \boldsymbol{\phi}) \in \mathbb{R}^{768}$,外接一个线性头 $(\boldsymbol{w}, b)$ 输出标量分数。MSE 损失:
\[\mathcal{L}_{\text{MSE}} = \frac{1}{|\mathcal{D}^{\text{prx}}|}\sum_{n=1}^{|\mathcal{D}^{\text{prx}}|}\left(\boldsymbol{w}^\top \overline{\boldsymbol{h}}(x_n^{\text{prx}}, \boldsymbol{\phi}) + b - \gamma_n^\ast\right)^2\]这是个相当典型的”小数据精算 + 大数据外推”的两步式架构。值得提的两个实现细节:
- 训练时按 Spearman 相关系数在 10% 验证集上选 checkpoint——比 MSE 直接选更鲁棒,因为 ordering 任务关心的是相对排序的稳定性而非绝对数值;
- 二阶 Hessian 项 $\nabla^2 L(\boldsymbol{\theta}_t, \boldsymbol{\gamma}) \cdot \boldsymbol{\lambda}_{t+1}$ 通过 Hessian-vector product(HVP)计算,避免显式构造 Hessian 矩阵。
4. FO:Folding Ordering
4.1 课程学习的两个先天问题
朴素的课程学习(curriculum learning)就是按分数升序排序,从易到难训练。但这种”单调推进”的方式有两个被广泛观察到的问题:
- 模型遗忘(Model Forgetting):训练后期模型只见到难样本,前期学到的简单模式可能因为长时间不被巩固而被遗忘——尤其是单 epoch 设定下不会有第二次”复习”机会;
- 数据分布偏置(Data Distribution Bias):相似难度的样本天然倾向于来自相似的数据分布(如简单数据多为短句、新闻摘要,难数据多为代码、学术文本)。连续投喂同分布数据会让模型局部过拟合,破坏 SGD 的 i.i.d. 假设,损害泛化。
降序排序(descending sorting)问题更严重——消融实验显示 LQS + 降序比基线还差(36.36 vs 36.37),说明”从难到易”完全违背 LM 的训练动力学。
4.2 Folding 的核心想法:把课程”叠起来”重复几次
Folding 的核心想法可以用一个简单的比喻:把按难度排好的一长串数据”折叠”成 $L$ 层,每一层都是一个完整的”从易到难”的小课程。
形式化定义(Eq. 10):
\[\pi_{\text{fold}}(\boldsymbol{\gamma}; L) = \bigcup_{\ell=0}^{L-1} \langle \pi_{\text{sort}}(\boldsymbol{\gamma})_i \mid i \in \{ j \mid j \equiv \ell \pmod{L},\ 1 \le j \le |\mathcal{D}|\}\rangle\]其中 $\pi_{\text{sort}}(\boldsymbol{\gamma})$ 是按分数升序的全局排列。Folding 的操作是:从全局排序后的序列中,按固定间隔 $L$ 采样——先取索引 $1, 1+L, 1+2L, \dots$ 组成第 0 层;再取索引 $2, 2+L, 2+2L, \dots$ 组成第 1 层;以此类推到第 $L-1$ 层。每一层都覆盖了从易到难的完整光谱(因为间隔采样保留了原排序的趋势),但每一层内部相邻样本之间的”难度跨度”是 $L$ 倍。
| **示意($L=3$, $ | \mathcal{D} | =9$)**: |
- 排序后:$[x_{(1)}, x_{(2)}, x_{(3)}, x_{(4)}, x_{(5)}, x_{(6)}, x_{(7)}, x_{(8)}, x_{(9)}]$(下标为按分数升序的位置);
- 折叠后:$[\underbrace{x_{(1)}, x_{(4)}, x_{(7)}}_{\text{Layer 0}}, \underbrace{x_{(2)}, x_{(5)}, x_{(8)}}_{\text{Layer 1}}, \underbrace{x_{(3)}, x_{(6)}, x_{(9)}}_{\text{Layer 2}}]$
每层都是 mini-curriculum(易→难),但层与层之间的衔接也保持了一定连续性(第 0 层的最后是 $x_{(7)}$,第 1 层的开始是 $x_{(2)}$,难度有明显跳变但整体仍呈现”反复推进”的模式)。
为什么 Folding 能同时缓解遗忘和分布偏置?
- 缓解遗忘:每个”难度区段”在训练过程中出现 $L$ 次(虽然样本不重复),模型在见到难样本之前会再次见到中等难度样本,相当于做了 $L$ 次”近似复习”;
- 缓解分布偏置:相同难度的样本不再被连续投喂——L=3 时,每 3 步内的样本难度跨度覆盖了全局排序的 1/3 到 2/3 跨度,分布多样性显著增加;
- 零数据重复:与重复 epoch 相比,Folding 保持了”每条样本只看一次”的 token efficiency。
4.3 与其他 ordering 方法的对比
论文 Fig. 4 用 500 个 RedPajama 样本可视化对比了三种 ordering:
- Random Shuffle:分数分布完全打散,无明显趋势;
- Ascending Sorting:分数严格单调递增,呈现明显的”难度光谱”;
- Folding(L=3):呈现三段递增的”锯齿”结构,每段都是 mini-curriculum。
直观上,Folding 是”Shuffle 的有序版本”或”Sorting 的多次扫描版本”——把两者的优点合在一起。
4.4 折叠层数 $L$ 的选择
这是 Folding 的核心超参。论文 Fig. 7 + Table 12 给出了详细的 $L$ 敏感性分析(160M 模型,1B tokens,OLMo 8 个 benchmark 平均):
| $L$ | ARC-c | ARC-e | HS | LAMB | OBQA | PIQA | SciQ | Wino | Avg. |
|---|---|---|---|---|---|---|---|---|---|
| —(baseline) | 21.27 | 34.32 | 27.85 | 20.25 | 24.40 | 55.19 | 56.93 | 50.72 | 36.37 |
| 1(curriculum) | 22.18 | 35.40 | 28.01 | 23.48 | 23.80 | 55.60 | 56.80 | 51.07 | 37.04 |
| 2 | 21.57 | 34.26 | 28.34 | 23.29 | 25.80 | 55.88 | 58.70 | 49.80 | 37.21 |
| 3 | 21.59 | 36.07 | 28.41 | 23.79 | 25.60 | 56.37 | 59.80 | 53.04 | 38.08 |
| 4 | 22.83 | 34.98 | 28.50 | 22.35 | 24.90 | 56.67 | 59.80 | 50.10 | 37.52 |
| 5 | 22.91 | 35.57 | 28.16 | 22.85 | 26.70 | 55.41 | 57.30 | 52.08 | 37.62 |
观察:
- $L > 1$ 始终优于 $L = 1$(curriculum learning),验证了折叠确实有效;
- $L = 3$ 是甜蜜点(Avg. 38.08),相比 baseline +1.71%,相比 curriculum +1.04%;
$L \geq 4$ 开始下降:折叠过多会让每层内部的”课程梯度”过于稀疏(如 $L=5$ 时每层只有 $ \mathcal{D} /5$ 个样本),失去了 mini-curriculum 的连贯性,逐渐退化成接近 random shuffle 的状态。
这种”$L=3$ 最优”的结果非常有意思——它暗示着 LM 训练中存在一个”复习与新学的最优比例”。我的解读:$L=3$ 大致对应人类教育中”温故而知新”的节奏感——每个新阶段都伴随两次回顾。但论文未深挖这个数字的理论根源,可作为未来的开放问题。
5. 实验分析
5.1 实验设置
数据:
- 通用预训练:RedPajama 子集(采自 CommonCrawl,1B/10B/50B token 三档),评分的 reference 集为 LIMA(1030 条高质量指令-响应对);
- 数学后训练:OpenWebMath,reference 为 MiniF2F(488 条形式化数学题);
- 代码后训练:The-Stack-v2,reference 为 Epicoder-380k(38 万条代码生成对)。
模型:
- 通用预训练:Mistral 架构,160M / 470M / 1B / 1.7B 四档(详见论文 Table 5);
- 后训练:Qwen1.5(0.5B 与 1.8B),用官方预训练权重;
- Data scorer:Fairseq-Dense-125M。
评测:8 个标准 NLU benchmark——ARC-c/e、Hellaswag、LAMBADA、OpenbookQA、PIQA、SciQ、Winogrande(沿用 OLMo 评测套件);代码评测 HumanEval pass@1(0-shot)、MBPP pass@1(3-shot);数学评测 MathQA、GPQA Diamond。
训练:batch size 256,max length 1024,1 epoch,cosine LR scheduler + 2000 步 warmup。常规结果取 3 个随机种子的平均。
5.2 主实验:跨模型规模与数据规模(Table 1)
(a) 1B token 数据,不同模型规模:
| 模型规模 | 方法 | ARC-c | ARC-e | HS | LAMB | OBQA | PIQA | SciQ | Wino | Avg. |
|---|---|---|---|---|---|---|---|---|---|---|
| 160M | Conventional | 21.27 | 34.32 | 27.85 | 20.25 | 24.40 | 55.19 | 56.93 | 50.72 | 36.37 |
| 160M | Ours (LQS+FO) | 21.59 | 36.07 | 28.41 | 23.79 | 25.60 | 56.37 | 59.80 | 53.04 | 38.08 (+1.71) |
| 470M | Conventional | 21.16 | 34.91 | 28.11 | 21.88 | 23.90 | 56.07 | 58.75 | 50.04 | 36.85 |
| 470M | Ours (LQS+FO) | 22.33 | 35.88 | 28.45 | 23.26 | 26.60 | 57.20 | 60.10 | 52.81 | 38.33 (+1.48) |
| 1B | Conventional | 20.58 | 36.12 | 28.32 | 23.56 | 25.00 | 56.49 | 60.05 | 52.07 | 37.77 |
| 1B | Ours (LQS+FO) | 22.76 | 37.95 | 29.95 | 26.38 | 26.00 | 58.07 | 60.90 | 51.28 | 39.17 (+1.40) |
(b) 160M 模型,更大数据规模:
| 数据规模 | 方法 | Avg. |
|---|---|---|
| 10B | Conventional | 40.24 |
| 10B | Ours (LQS+FO) | 41.62 (+1.38) |
| 50B | Conventional | 42.20 |
| 50B | Ours (LQS+FO) | 43.03 (+0.83) |
几个关键观察:
- 跨模型规模稳定增益:从 160M 到 1B 模型,DELT 都能带来 +1.4% 以上的 8-benchmark 平均提升,且增益不随模型增大而显著衰减(160M: +1.71%, 470M: +1.48%, 1B: +1.40%)。这表明 data efficacy 与 model scaling 是正交的优化维度——增益不会被更大的模型”自动吸收”。
- 跨数据规模也稳定但有衰减:10B 数据 +1.38%、50B 数据 +0.83%。数据越多,单条样本的边际价值越低,data ordering 的相对收益也随之降低——但即便在 50B token 这种已经接近实际 LLM 预训练规模的设定下,仍能稳定 lift 近 1 个点。
- 个别 benchmark 异常:例如 1B 模型上 Winogrande 反而下降 0.79(52.07 → 51.28),但 ARC-c +2.18、ARC-e +1.83、LAMBADA +2.82 等都有显著上涨——综合平均仍正向。论文未具体解释 Winogrande 的衰退,推测基于论文 5.2 节:Winogrande 强烈依赖常识推理(指代消歧),可能对训练后期数据偏好特定模式比较敏感;Folding 的”反复推进”对常识类任务的收益不如对知识/数学任务明显。
5.3 LQS vs 其他 scoring 方法(Table 2)
固定 160M 模型 + 1B token 数据,对比所有 scoring × ordering 组合:
| Scoring | Selection | Ordering | Avg. |
|---|---|---|---|
| —(baseline) | — | — | 36.37 |
| KenLM | — | Sorting | 36.43 |
| KenLM | — | Folding | 37.08 |
| PDS | — | Sorting | 36.45 |
| PDS | — | Folding | 37.40 |
| LQS | — | Sorting | 37.49 |
| LQS | — | Folding | 38.08 |
| KenLM | ✓ | Sorting | 36.80 |
| KenLM | ✓ | Folding | 37.22 |
| PDS | ✓ | Sorting | 37.38 |
| PDS | ✓ | Folding | 37.99 |
| LQS | ✓ | Sorting | 37.35 |
| LQS | ✓ | Folding | 38.08 |
几个非常有价值的观察:
- Folding 在所有 scoring 上都优于 Sorting:KenLM + Folding(37.08)> KenLM + Sorting(36.43),PDS + Folding(37.40)> PDS + Sorting(36.45),LQS + Folding(38.08)> LQS + Sorting(37.49)。这印证了 Folding 是一种通用的 ordering 改进——它的优势独立于 scoring 方法本身的精度;
- LQS 在所有 ordering 下都优于 KenLM 和 PDS:说明 LQS 提供的”质量 + 可学习性 + 模型能力”三维信号确实比单一维度更有判别力;
- 是否加 Selection(top-K 筛选)对最终结果影响不大:加入 selection 后 LQS + Folding 仍是 38.08,说明对 RedPajama 这种已经预清洗过的语料而言,进一步选择并不带来额外收益——但 selection 仍能在保留分数高的子集(减少数据规模)的同时维持性能,让 efficacy 与 efficiency 共存。
5.4 Ordering 消融(Table 4):升序 vs 降序 vs Folding
| Scoring | Ordering | Avg. | Δ vs baseline |
|---|---|---|---|
| Baseline | — | 36.37 | — |
| PDS | Sorting_des(降序) | 35.08 | −1.29 |
| PDS | Sorting_asc(升序) | 36.45 | +0.08 |
| PDS | Folding | 37.39 | +1.02 |
| LQS | Sorting_des(降序) | 36.36 | −0.01 |
| LQS | Sorting_asc(升序) | 37.04 | +0.67 |
| LQS | Folding | 38.08 | +1.71 |
观察:
- 降序排序明显损害性能——尤其在 PDS 下骤降 1.29%。这与 LM 训练动力学一致:早期模型能力弱,先扔难数据会导致梯度震荡、loss 难以收敛;
- 升序(课程学习)带来小幅提升——PDS 几乎持平、LQS +0.67%。说明朴素课程学习在 LM 上的增益有限,与文献中的观察一致;
- Folding 带来显著增益——PDS +1.02%、LQS +1.71%。LQS + Folding 是双优组合。
值得一提的是,2025 年 11 月 Luo 等人的工作《How Learning Rate Decay Wastes Your Best Data in Curriculum-Based LLM Pretraining》也对课程学习做了批判性研究,指出升序排序与学习率衰减不兼容——后期 LR 已经很小,最有价值的高质量数据反而没法被充分吸收。这个发现可以与本文的 Folding 观点形成有趣的对照:Folding 之所以更好,部分原因可能是它把高质量数据均匀分布到了训练的各个阶段(包括 LR 较大的早中期),自动避免了”LR-quality mismatch”问题。论文未明确讨论这个角度,是一个潜在的延伸方向。
5.5 Cross-Domain:数学与代码场景(Table 3)
| 模型 | 域 | 任务 | Conventional | Ours | Uplift |
|---|---|---|---|---|---|
| Qwen1.5-0.5B | Code | HumanEval | 7.00 | 9.76 | +2.76 |
| Qwen1.5-0.5B | Code | MBPP | 7.93 | 9.40 | +1.47 |
| Qwen1.5-1.8B | Code | HumanEval | 9.15 | 16.46 | +7.31 |
| Qwen1.5-1.8B | Code | MBPP | 12.00 | 13.20 | +1.20 |
| Qwen1.5-0.5B | Math | MathQA | 21.23 | 22.73 | +1.50 |
| Qwen1.5-0.5B | Math | GPQA Diamond | 24.92 | 26.83 | +1.91 |
| Qwen1.5-1.8B | Math | MathQA | 22.72 | 24.75 | +2.03 |
| Qwen1.5-1.8B | Math | GPQA Diamond | 27.17 | 28.94 | +1.77 |
观察:
- 代码场景 Qwen1.5-1.8B HumanEval +7.31% 的提升非常显著——pass@1 从 9.15% 跳到 16.46%,几乎接近翻倍。这种”非线性放大”通常出现在数据组织恰好命中了模型的能力门槛时;
- 跨模型规模、跨域、跨任务都正向——证明 LQS + Folding 不只对通用语料的 NLU 任务有效,在专业域的 post-training 上同样有效;
- 数学场景增益普遍稳定在 +1.5 ~ +2%——这是因为数学评测的判别度本身较低(MathQA 是多选题、GPQA Diamond 难度极高),Folding 通过更好地组织”难梯度数据”的呈现节奏,对模型推理能力的塑造有正面作用。
5.6 多 epoch 设定下的稳定性(Table 11)
虽然论文聚焦的是单 epoch 的现代 LLM 训练范式,但也提供了多 epoch 实验来检验泛化性:
| Epoch | Conventional | DELT (Ours) | Δ |
|---|---|---|---|
| 1 | 36.37 | 38.08 | +1.71 |
| 2 | 38.16 | 38.77 | +0.61 |
| 3 | 38.51 | 39.10 | +0.59 |
| 4 | 38.44 | 39.93 | +1.49 |
| 5 | 38.92 | 39.98 | +1.06 |
观察:
- 多 epoch 下 DELT 仍持续优于 Conventional——所有 epoch 上都正向;
- 第 4 epoch 后 Conventional 出现微微衰减(38.51 → 38.44),DELT 仍单调上升——Folding 由于已经在层间引入了”近似复习”,对多 epoch 的过拟合相对更鲁棒;
- 第 4 epoch 增益反弹(+1.49):可能是 Folding 的”反复推进”结构与 epoch 边界产生了正向共振,每个 epoch 都相当于在已经折叠的序列上做了”二次折叠”——这是一个有趣但论文未深究的现象。
5.7 数据效率维度的对比(Table 10)
DELT 与单纯”数据效率”方法的对比(160M 模型,1B token):
| Pipeline | Scoring | Selection | Ordering | Avg. |
|---|---|---|---|---|
| Conventional | — | — | — | 36.37 |
| Efficiency | KenLM | ✓ | — | 36.38 |
| Efficiency | PDS | ✓ | — | 37.01 |
| Efficiency | LQS (Ours) | ✓ | — | 37.14 |
| DELT | LQS (Ours) | ✓ | Folding | 38.08 |
观察:
- 单纯做数据选择(KenLM/PDS/LQS + ✓ selection)相比 baseline 只能小幅提升 0.0~0.8%——说明 RedPajama 本身已经相当干净;
- 加上 Folding ordering 后增益跳到 +1.71%——验证了 ordering 是被忽视的优化维度,其单独贡献甚至超过 scoring/selection;
- LQS 作为 scorer 即使单独用也优于 KenLM 和 PDS(37.14 vs 36.38 / 37.01),但增益规模与 ordering 相比仍处下风。
这个结果强化了论文的核心论点:对当代 LLM 训练而言,data ordering 的价值至少不低于 data selection——而长期被研究社区低估。
6. 关键结论与争议点讨论
6.1 核心结论
- 重新定义了”数据”在 LM 训练中的优化维度:从”选什么样本”扩展到”按什么顺序看样本”,是对传统数据效率研究的根本性补充;
- DELT 是一个统一的范式:课程学习、退火学习都是其特例,且 efficacy 与 efficiency 可以无缝叠加;
- LQS 是一个理论与实践兼具的评分方法:从梯度一致性视角统一了”质量”、”可学习性”、”模型能力”三个维度,化简后形式非常优雅;
- Folding Ordering 是对课程学习的实质性改进:用 $L$ 次”折叠”同时缓解模型遗忘和分布偏置,$L=3$ 在多个规模下都是甜蜜点;
- 跨规模、跨域、跨任务的稳定增益:160M~1B 模型、1B~50B token 数据、NLU/code/math 任务上均稳定正向,且增益不被 model scaling 抵消。
6.2 几个值得讨论的问题
(1) Folding 的最优 $L$ 是否会随训练规模变化?
论文所有实验都用 $L = 3$,但 $L$ 的最优值本质上应该与”数据规模 / batch size / 训练步数”之间的相对关系有关:
若数据集很大、训练步数多,每层 $ \mathcal{D} /L$ 个样本仍然足够覆盖完整的”难度光谱”——可以适当增大 $L$; - 若数据集很小、batch 内 i.i.d. 假设很重要,$L$ 过大会导致每层难度跨度过大,可能损害收敛——应保守取 $L = 2$ 或 $3$。
论文只在 160M / 1B token 的固定配置下验证了 $L$ 敏感性,未给出”如何根据数据规模自适应选择 $L$”的指导。这是个工程上有实际价值的开放问题——尤其在工业 LLM 训练中,数据规模动辄数 T token、训练步数百万级,沿用 $L=3$ 是否仍然最优值得进一步验证。
(2) LQS 计算成本能否进一步降低?
LQS 的工程瓶颈在 proxy data annotation 阶段——bi-level optimization 需要保存完整的训练轨迹(forward 循环 $T$ 步、reverse 循环 $T$ 步),且 reverse 循环涉及 Hessian-vector product。论文用 Fairseq-Dense-125M 作为 scorer 的小模型方案确实大幅降低了”全量打分”的成本,但 proxy annotation 阶段对大型 LLM 而言仍然是个不轻量级的开销。
潜在的优化方向:
- 用一阶 Taylor 近似替代二阶 Hessian——准确度会下降,但 annotation 成本可以减半;
- 用 in-context learning 让 LLM 直接做”自评分”——绕开梯度计算,但可能丢失训练动力学的真实信号;
- 跨任务复用 scorer——一个在 RedPajama 上训练的 LQS scorer 是否能直接迁移到 The-Stack?论文做了 Mistral → Qwen1.5 的跨架构迁移(5.5 节),但未做”scorer 跨数据集迁移”的实验,这是个延伸方向。
(3) Folding 与 Learning Rate Schedule 的协同设计
如 5.4 节末尾所提,2025 年 11 月 Luo 等人的工作指出课程学习与 LR decay 之间存在不兼容性——后期 LR 已经很小,高质量数据无法被充分吸收。Folding 似乎天然规避了这个问题,因为它把高质量数据均匀分布到了整个训练过程,包括 LR 较大的早中期。但论文未明确分析”为什么 Folding 对 LR schedule 鲁棒”,也未尝试”Folding + 适配 LR schedule”的联合设计。
一个有趣的延伸方向是:能否让 LR schedule 与 ordering 协同优化? 例如在 Folding 的每一”层”的末尾(即将进入下一层时)短暂回调 LR,模拟”准备进入新课程前的复习增强”。这种 ordering-aware LR scheduling 在 DELT 框架下完全可表达,但论文未涉及。
(4) Reliability Score 的引入是否必要?
LQS 引入了 $R(\boldsymbol{\theta}_{t+1}) = |\boldsymbol{\lambda}_{t+1}|$ 作为”模型能力分数”,并通过乘法把它整合进最终分数。但化简推导显示这一项最终与质量分数分母中的 $|\boldsymbol{\lambda}_{t+1}|$ 相消了——也就是说,这项设计在数学上等价于”取消 cosine 的归一化、改用未归一化的内积”。
这个化简虽然让最终形式优雅,但也带来一个问题:未归一化的内积 $\boldsymbol{\lambda}_{t+1}^\top \nabla \ell$ 会同时被两个向量的模长影响——梯度模长大的样本可能仅因”信号强”就拿到高分,而不是因为”方向对”。这与 cosine 相似度只看方向的设计哲学是相违背的。
论文给出的解释是”更可靠的模型应该给样本更高的权重”,但更细致的实证分析(例如 LQS 是否系统性地偏好长样本/复杂样本)会让这个设计选择更有说服力。论文未提供这方面的详细分析,可作为后续工作的方向。
(5) DELT 是否能扩展到多模态?
论文在 Appendix C 主动承认这是个限制——目前所有实验都在文本 LM 上。但 LQS 的核心思想(梯度一致性 + 训练动力学)在视觉、语音模型上同样适用,Folding Ordering 更是与模态完全无关——它只依赖一个分数向量。
视觉模型的预训练(如 ViT、SAM)和多模态模型(如 LLaVA、Gemini)的训练数据组织目前仍以随机为主,DELT 直接迁移过去理论上应该有效——但需要解决两个工程问题:(a) 多模态数据的”质量”如何定义(图像质量?图文一致性?);(b) Hessian-vector product 在视觉模型的训练中代价会更大。这是个明显的扩展方向,论文也主动提及。
7. 与相关工作的关系
7.1 与 Curriculum Learning 的关系
DELT 在形式上把课程学习视为 $L=1$ 的 Folding 特例——这种”统一性”的视角是论文最重要的理论贡献之一。但其实 Folding 的思想更接近 interleaved practice(教育心理学中的”穿插练习”概念)——相比于”先练简单后练复杂”的 blocked practice,interleaved practice 通过反复切换不同难度的练习来提升长期保留率。Folding 用 $L$ 控制”穿插密度”——$L=1$ 是 blocked,$L=N$ 是完全 interleaved。这种对应关系论文未明确提及,但理论根源是相通的。
7.2 与 Data Selection 工作的关系
DSIR、MATES、PDS、SemDeDup 等数据选择工作的目标都是”选出最有价值的子集”——它们与 DELT 是互补关系而非替代关系。Table 10 的实验显式验证了这一点:在 DELT 框架下加入 selection 不会损害 ordering 的收益,反而能保留 efficiency 优势。
值得一提的是 PDS——LQS 的设计直接借鉴了它的目标方向递推公式,可视为 PDS 的”加上 learnability 维度”的进化版。这种”在前人方法上做加法”而非”颠覆性创新”的研究路径很有借鉴价值。
7.3 与 Annealing Learning 的关系
Llama 3 等模型在预训练末期使用 annealing learning——切到一个高质量小数据集做最后的 fine-tuning。这本质上是一种特殊的 ordering 策略(按 epoch 切分质量分布)。DELT 框架可以表达这种策略:定义 ordering 为”前 90% 步用 mixed quality 数据、后 10% 步用 high quality 子集”。
更进一步,Folding 的多层结构与 annealing 在某种意义上是互补的——Folding 让每个阶段都见到完整的质量光谱,annealing 让最后阶段集中在高质量数据。两者结合(例如”先 Folding 多 epoch,最后一个 epoch 切换到 annealing”)可能带来叠加收益,但论文未做这方面的实验。
7.4 一个被忽视的视角:Data Ordering 与 In-Context Learning 的关系
LM 在推理阶段对 ICL 样本的顺序非常敏感——这已经是被广泛观察到的现象。但训练阶段的 data ordering 与推理阶段 ICL ordering 之间的内在联系,是个尚未被深入研究的问题。
一个推测:训练阶段如果用 Folding ordering 让模型多次见到”从易到难”的模式,模型可能学到一种”内在的课程跟随能力”——在推理阶段对 ICL 中”从易到难”排列的样本特别敏感。这是个完全开放的实证问题,但 DELT 提供了一个合适的研究坐标系。
8. 总结
DELT 在数据为王的大语言模型时代提供了一个被广泛忽视的洞察:数据的价值不仅取决于”选了什么”,更取决于”怎么呈现”。论文最难得之处不在于具体的 LQS 或 FO 方法本身——这两个方法的核心组件(梯度方向一致性、课程学习的折叠)在已有文献中都能找到影子——而在于第一次系统地把 data efficacy 作为一个独立的研究方向提出来,并给出了一个能容纳现有方法(curriculum / annealing / selection)的统一理论框架。
技术上最值得借鉴的几个 design choice:
- LQS 的”乘法合成”设计:把 learnability、quality、reliability 三个维度通过乘法整合,化简后得到了一个非常优雅的最终形式,体现了”在数学上追求简洁性是工程设计的良好直觉”;
- Folding Ordering 的”间隔采样”实现:用一个简单的 modulo 操作就同时解决了模型遗忘和分布偏置两个问题,工程实现复杂度近乎为零却能稳定带来 +1% 量级的增益;
- 代理评分的两步走流水线:通过”小模型做精算 + 大模型做外推”的工程拆解,把原本不可行的 bi-level optimization 变成了实际可部署的方案;
- DELT 框架的可组合性:scoring、selection、ordering 三个组件可以独立替换、灵活组合,让 DELT 不只是一个具体方法而是一个可扩展的研究平台。
从 ICLR 投稿和 GitHub 开源的状态来看,这个工作正在快速被社区接受。它的真正威力可能要在更大规模(万亿 token、千亿参数)的训练实验中才能完全体现——但即便在论文呈现的 1B 参数 / 50B token 规模下,+0.83% ~ +1.71% 的平均 benchmark 增益已经超过了许多需要数月工作量的架构改进。这是 data engineering 这条赛道在 LLM 时代的一次有力宣示:比起改模型,改数据可能是更省事且更有效的优化路径。
对 LLM 训练社区而言,DELT 提供了一个新的研究坐标系:在追求 scaling laws 的同时,不要忘记每条样本的呈现顺序本身就是一种归纳偏置——这是被随机洗牌掩盖了十几年的优化空间。