DELT: 数据效力——被忽视的语言模型训练优化维度

Posted May 27, 2026 Updated May 28, 2026

By li.yaozong

56 min read

论文: Data Efficacy for Language Model Training
链接: https://arxiv.org/abs/2506.21545
机构: Microsoft Research
时间: 2025 年 6 月（ICLR 2026 投稿）

1. 问题背景

在大语言模型的训练流水线里，”数据”始终是最具决定性的变量之一。围绕”如何更好地使用数据”，研究社区在过去几年沉淀出了一条相对成熟的研究方向——数据效率（Data Efficiency）：通过过滤（filtering）、采样（sampling）、选择（selection）、去重（deduplication）等手段，从原始语料中挑出最有价值的子集，以更少的 token 训练出更强的模型。代表性工作包括 KenLM（基于困惑度的难度评分）、PDS（基于梯度方向一致性的质量评分）、DSIR（基于重要性采样的子集筛选）、MATES（动态适配训练阶段偏好的数据影响模型）、SemDeDup（基于 embedding 语义去重）等。

但 Microsoft Research 这篇论文敏锐地指出了一个长期被忽视的维度：一旦子集已经被选出来，所有保留下来的样本通常都被”平等对待”，且呈现给模型的顺序是随机的。换言之，“如何组织已经选好的数据”几乎是一片研究空白。论文将这个新的研究方向命名为 数据效力（Data Efficacy）——通过优化训练数据的组织方式（而非选择内容）来最大化模型性能。

这个问题在当代 LLM 的训练范式下显得尤为重要。作者引用了 Kaplan 等人的 Scaling Laws 和 Goyal 等人的 QQT 工作指出：新一代 LLM 通常只在大规模语料上训练 1 个 epoch（甚至更少），高质量数据被反复重用很快就会”过时”。这与之前 RNN/LSTM 时代依赖多 epoch 训练的范式形成鲜明对比。在”训得少、看得多”的新范式下，数据呈现的顺序本身就成了一种重要的归纳偏置——它决定了模型在有限步骤内能学到什么、忘掉什么。

围绕这一问题，论文提出了 DELT（Data Efficacy for LM Training） 范式，包含三个组件：

Data Scoring（数据评分）：为每条样本根据质量、难度、可学习性等属性打分；
Data Selection（数据选择，可选）：基于评分挑选子集——这一步关联到传统的数据效率；
Data Ordering（数据排序）：基于评分重新组织样本顺序，让模型按特定路径学习。

并配套提出两个具体方法：

LQS（Learnability-Quality Scoring）：从梯度一致性视角，同时考虑样本的”可学习性”与”质量”的新评分方法；
FO（Folding Ordering）：通过对排序后的数据做”多层折叠”的新排序方法，缓解课程学习的模型遗忘与分布偏置问题。

四点主要贡献：(a) 提出”数据效力”这一基础性研究方向并定义了通用范式 DELT；(b) 设计 LQS 数据评分方法，结合可学习性与质量；(c) 设计 FO 数据排序方法，缓解课程学习的固有缺陷；(d) 在 160M~1B 参数规模、1B~50B token 数据规模上系统验证，确认 LQS + FO 组合显著优于现有方法。

值得指出的是，论文有意将”数据效力（efficacy）”与”数据效率（efficiency）”区分开来——后者关注子集质量，前者关注组织方式——并强调两者正交且可叠加：DELT 既可以在保留全量数据时单独使用（efficacy），也可以与数据选择联合使用（efficacy + efficiency），且联合使用能带来更大收益。

2. 整体框架

DELT 的整体结构如下图（论文 Fig. 2）所示：

┌────────────────────────────────────────────────────────────────────┐
│                       DELT Paradigm                                │
│                                                                    │
│  Raw Data 𝒟                                                        │
│      │                                                             │
│      ▼                                                             │
│  ┌──────────────┐   γ = [γ₁, γ₂, ..., γ_|𝒟|]                       │
│  │ Data Scoring │ ───►  scoring vector                             │
│  │   f(𝒟)       │       (LQS / KenLM / PDS / ...)                  │
│  └──────────────┘                                                  │
│      │                                                             │
│      ▼                                                             │
│  ┌──────────────┐   (Optional, for efficiency)                     │
│  │Data Selection│ ───►  𝒟ˢᵘᵇ ⊆ 𝒟                                   │
│  │  f_s(𝒟;γ,K)  │       (top-K selection)                          │
│  └──────────────┘                                                  │
│      │                                                             │
│      ▼                                                             │
│  ┌──────────────┐   𝒟′ = permuted dataset                          │
│  │Data Ordering │ ───►  (Folding / Sorting / Shuffle / ...)        │
│  │  f_o(𝒟;γ)    │                                                  │
│  └──────────────┘                                                  │
│      │                                                             │
│      ▼                                                             │
│  Language Model Training on 𝒟′                                     │
└────────────────────────────────────────────────────────────────────┘

形式化地，设语言模型参数 $\theta \in \mathbb{R}^N$，原始数据集 $\mathcal{D} = \lbrace x_n \rbrace_{n=1}^{\lvert\mathcal{D}\rvert}$。

Step 1: Data Scoring——给每条样本打分。评分函数 $f$ 为每条样本输出一个标量分数：

\[\boldsymbol{\gamma} = f(\mathcal{D}) = [\gamma_1, \gamma_2, \dots, \gamma_{|\mathcal{D}|}]^\top\]

分数 $\gamma_n$ 越高，表示样本 $x_n$ 越”有价值”（具体含义取决于 scoring 方法：KenLM 用困惑度衡量”难度”，PDS 用梯度方向衡量”质量”，LQS 同时衡量”质量 + 可学习性”）。

Step 2: Data Selection（可选）——挑出最好的子集。给定选择比例 $r$（例如 $r = 0.5$ 表示只保留一半数据），计算要保留的样本数 $K = \lfloor r \cdot \lvert\mathcal{D}\rvert \rfloor$，然后按分数从高到低取 top-K：

\[\mathcal{D}^{\text{sub}} = \{ x_k \mid \gamma_k \text{ 排在前 } K \text{ 名} \}\]

举例：10 条样本分数为 $[0.3, 0.8, 0.1, 0.9, 0.5, 0.7, 0.2, 0.6, 0.4, 0.95]$，选择比例 $r=0.5$（保留 5 条），则取分数最高的 5 条：$x_4(0.9),\, x_{10}(0.95),\, x_2(0.8),\, x_6(0.7),\, x_8(0.6)$。这一步是传统”数据效率”研究关注的内容，在 DELT 中是可选的。

Step 3: Data Ordering——重新排列训练顺序。这是 DELT 的核心贡献。不改变数据集内容，只改变样本呈现给模型的顺序。排列函数 $\pi$ 基于分数 $\boldsymbol{\gamma}$ 决定新的顺序：

\[\mathcal{D}' = [x_{\pi_1}, x_{\pi_2}, \dots, x_{\pi_{|\mathcal{D}|}}]\]

不同的排列策略对应不同的 ordering 方法：

Shuffle（随机打乱）：$\pi$ 是一个随机排列——这就是传统做法，完全不利用分数信息；
Sorting（课程学习）：$\pi$ 按分数从低到高排列，即先学简单样本、再学难样本；
Folding（本文提出）：把排好序的数据”折叠” $L$ 次（详见第 4 节），每层都包含从易到难的完整覆盖。

举例：6 条样本按分数升序为 $[x_1, x_2, x_3, x_4, x_5, x_6]$（$x_1$ 最简单，$x_6$ 最难）。三种 ordering 的结果：

Ordering	训练顺序	直觉
Shuffle	$[x_3, x_1, x_6, x_2, x_5, x_4]$	完全随机，无策略
Sorting	$[x_1, x_2, x_3, x_4, x_5, x_6]$	由易到难，严格课程
Folding ($L=2$)	$[x_1, x_3, x_5, x_2, x_4, x_6]$	两轮”从易到难”交替

三步合在一起就是 DELT 的完整流程：先打分，再（可选地）筛选子集，最后排序子集中样本的呈现顺序。论文指出，由于 data scoring 计算成本较高，实际部署中 selection 和 ordering 通常共享同一份分数向量 $\boldsymbol{\gamma}$——这就把 efficacy 和 efficiency 自然地编织在了同一条流水线里。

这个范式的优雅之处在于其统一性：课程学习（curriculum learning）可视为 ordering 函数为”按难度升序”的特殊情况；退火学习（annealing learning，Llama 3 等使用）可视为”先大批噪声数据、最后小批高质量数据”的特殊 ordering 策略。两者都只是 DELT 框架下的具体实例，论文则进一步提出了更通用的 LQS + FO 组合。

3. LQS：Learnability-Quality Scoring

3.1 现有评分方法的局限

论文先对比了两个代表性的数据评分基线：

KenLM（Heafield 2011）：训练一个小型 n-gram 模型估计每条样本的困惑度，将困惑度作为”难度”分数。优势是计算便宜、与 LM 训练独立；局限是仅捕捉到表面统计层面的难度，无法反映样本在真实 LM 训练动力学中的实际贡献。
PDS（Gu et al. 2024）：基于梯度方向一致性（$\nabla \ell(x_n, \theta_t)$ 与目标方向 $\boldsymbol{\lambda}_t$ 的余弦相似度）来评估样本质量，目标方向通过反向递推算出。优势是与 LM 训练动力学直接对齐；局限是仅关注”样本好不好”，不关注”样本应该出现在训练的哪个阶段”。

LQS 的设计动机正是补上 PDS 缺失的”时机维度”——把”样本质量”和”何时使用这个样本最有效”统一在一个分数里。

3.2 Learnability Score：捕捉样本的”难度变化轨迹”

定义样本 $x_n$ 在训练步 $t$ 的梯度模长 $l_{n,t} = |\nabla \ell(x_n, \theta_t)|$。Learnability 分数定义为：

\[\mathcal{L}(x_n) = \sum_{t=1}^{T-1} \frac{l_{n,t}}{l_{n,t+1}} = \sum_{t=1}^{T-1} \frac{\|\nabla \ell(x_n, \boldsymbol{\theta}_t)\|}{\|\nabla \ell(x_n, \boldsymbol{\theta}_{t+1})\|}\]

其中：

$\nabla \ell(x_n, \boldsymbol{\theta}_t)$ 是样本 $x_n$ 在训练步 $t$、参数 $\boldsymbol{\theta}_t$ 下的损失梯度；
$l_{n,t}$ 是其模长，物理意义是当前样本对模型还有多少”信息增量”——梯度大说明模型还没学会这条样本。

直觉上：

若一条样本初始梯度大（难学），随着训练逐步降低（被学会），则 $l_{n,t}/l_{n,t+1} > 1$ 持续成立，累加后 $\mathcal{L}(x_n)$ 较大——这是”有挑战性但可学习”的样本，更适合放到训练后期；
若一条样本梯度始终震荡（噪声样本）或始终很小（过于简单），分数都会较低；
这个分数天然带”时序信号”——既要难（早期梯度大），又要能被学会（后期梯度小）。

这种设计极妙地把”难度”和”可学习性”绑在一起：传统课程学习直接按”难度”排序，但忽略了有些难的样本根本学不会（噪声），把它们放到后期反而损害训练。

与cursor讨论归纳

一个值得深究的隐含假设：梯度模长轨迹是否受训练顺序的干扰？ Learnability Score 依赖于梯度模长的变化轨迹 $l_{n,t} \to l_{n,t+1}$，但这条轨迹是在参数序列 $\boldsymbol{\theta}_0, \boldsymbol{\theta}_1, \dots$ 上测量的，而参数序列本身取决于训练时样本的呈现顺序。具体来说：如果样本 $x_n$ 恰好在第 100 步进入了某个 mini-batch 参与了梯度更新，那 $\boldsymbol{\theta}_{101}$ 已经”消化”了 $x_n$，之后测到的 $l_{n,t}(t>100)$ 会系统性地偏小；而如果 $x_n$ 排在最后才被看到，前面所有步的梯度模长都不会因”被学过”而降低。同一条样本，仅因在训练序列中出现的位置不同，Learnability Score 就可能产生系统性差异。

论文没有显式讨论这个问题，但从 Appendix E 的实现流程可以看出两层隐式缓解：(1) Algorithm 1 在小规模代理集上用随机顺序跑 forward loop 产生参数轨迹，打分完成后再决定排序——打分与排序是串行解耦的，不存在循环依赖；(2) 最终的全量打分不是直接使用 Algorithm 1 的分数，而是训练一个 scorer 模型通过样本的文本内容（hidden state 均值池化）来预测分数——scorer 学到的是”什么样的文本内容倾向于得高分”这种内容层面的统计规律，而非逐条复制 proxy 集上因训练顺序导致的偶然分数，这相当于一次去噪泛化。不过，这两层缓解是否充分，论文未给出理论论证。一个更严格的做法是在 proxy 集上跑多次不同随机种子的 forward loop，对每条样本的分数取均值以平均掉训练顺序的偶然性——但论文出于计算成本考虑没有采用。

3.3 Quality Score：梯度方向与下游目标的对齐度

Quality 分数沿用 PDS 的”梯度方向一致性”思想：

\[Q(x_n) = \sum_{t=1}^{T-1} \cos(\alpha_{n,t}) = \sum_{t=1}^{T-1} \frac{\boldsymbol{\lambda}_{t+1}^\top \nabla \ell(x_n, \boldsymbol{\theta}_t)}{\|\boldsymbol{\lambda}_{t+1}\| \cdot \|\nabla \ell(x_n, \boldsymbol{\theta}_t)\|}\]

其中 $\boldsymbol{\lambda}_{t+1}$ 是目标方向向量，反向递推计算：

\[\boldsymbol{\lambda}_t = \begin{cases} \boldsymbol{\lambda}_{t+1} + \nabla J(\boldsymbol{\theta}_t) - \eta \cdot \nabla^2 L(\boldsymbol{\theta}_t, \boldsymbol{\gamma}) \cdot \boldsymbol{\lambda}_{t+1}, & t < T \\ \nabla J(\boldsymbol{\theta}_T), & t = T \end{cases}\]

$J(\boldsymbol{\theta})$ 是下游评测损失（计算在一个高质量的小规模 reference 集上，如 LIMA、MiniF2F、Epicoder-380k），$L(\boldsymbol{\theta}, \boldsymbol{\gamma})$ 是加权训练损失，$\eta$ 是学习率，$\nabla^2 L$ 涉及二阶 Hessian 信息。

这条递推公式的直觉是什么？ $\boldsymbol{\lambda}_t$ 可以理解为：“在第 $t$ 步，如果我要让最终的下游损失 $J$ 降低最多，理想的梯度方向是什么？” $\nabla J(\boldsymbol{\theta}_t)$ 是当前 $J$ 关于参数的下降方向；$-\eta \nabla^2 L \cdot \boldsymbol{\lambda}_{t+1}$ 这一项则是把”下一步的理想方向”经过参数更新的 Hessian 校正映射回当前步。整体上是个反向传播的”理想方向链”。

样本 $x_n$ 的梯度 $\nabla \ell(x_n, \boldsymbol{\theta}_t)$ 与 $\boldsymbol{\lambda}_{t+1}$ 的余弦相似度越高，说明这条样本越能朝着”对下游有利”的方向推动训练。

3.4 LQS：合成可学习性、质量、模型能力

附录 D 给出了 LQS 的完整推导。论文进一步引入模型能力分数（Reliability Score）：

\[R(\boldsymbol{\theta}_{t+1}) = \|\boldsymbol{\lambda}_{t+1}\|\]

目标向量模长越大，说明当前模型的”目标信号”越强、评分越可靠。

最终 LQS 分数定义为三者的乘积：

\[\gamma_n = R(\boldsymbol{\theta}_{t+1}) \cdot Q(x_n) \cdot \mathcal{L}(x_n)\]

代入展开并化简后得到一个相当简洁的最终形式：

\[\gamma_n = \sum_{t=1}^{T-1} \frac{\boldsymbol{\lambda}_{t+1}^\top \nabla \ell(x_n, \boldsymbol{\theta}_t)}{\|\nabla \ell(x_n, \boldsymbol{\theta}_{t+1})\|}\]

化简推导链：

\[\gamma_n = \sum_{t=1}^{T-1} \|\boldsymbol{\lambda}_{t+1}\| \cdot \frac{\boldsymbol{\lambda}_{t+1}^\top \nabla \ell(x_n, \boldsymbol{\theta}_t)}{\|\boldsymbol{\lambda}_{t+1}\|\cdot\|\nabla \ell(x_n, \boldsymbol{\theta}_t)\|} \cdot \frac{\|\nabla \ell(x_n, \boldsymbol{\theta}_t)\|}{\|\nabla \ell(x_n, \boldsymbol{\theta}_{t+1})\|}\]

$|\boldsymbol{\lambda}_{t+1}|$（模型能力）与分母的 $|\boldsymbol{\lambda}_{t+1}|$ 相消；
$|\nabla \ell(x_n, \boldsymbol{\theta}_t)|$（learnability 分子）与质量分数分母中的 $|\nabla \ell(x_n, \boldsymbol{\theta}_t)|$ 相消。

最终只剩下 $\frac{\boldsymbol{\lambda}_{t+1}^\top \nabla \ell(x_n, \boldsymbol{\theta}_t)}{|\nabla \ell(x_n, \boldsymbol{\theta}_{t+1})|}$。

这个化简结果非常具有启发性：

分子 $\boldsymbol{\lambda}_{t+1}^\top \nabla \ell(x_n, \boldsymbol{\theta}_t)$：样本梯度在”理想方向”上的投影长度——衡量”这条样本对下游有多大的方向性贡献”；
分母 $|\nabla \ell(x_n, \boldsymbol{\theta}_{t+1})|$：下一步的梯度模长——衡量”这条样本是否已经被学会”。

最终分数自然地集成了：

对下游目标的贡献方向（PDS 已有，质量维度）；
训练过程中样本被”消化”的速率（learnability 维度）；
模型当前能力的可靠性加权（reliability 维度）。

3.5 LQS 的工程实现：两步走的代理评分流水线

直接对全量预训练语料计算 LQS 分数代价不可承受（需要保存完整训练轨迹）。论文沿用 PDS 的工程思路，分四步走（Appendix E）：

Proxy Data Sampling：从原始语料 $\mathcal{D}$ 中均匀采样小规模代理集 $\mathcal{D}^{\text{prx}}$；
Proxy Data Annotation：用算法 1（bi-level optimization）在 $\mathcal{D}^{\text{prx}}$ 上计算 ground-truth 分数 $\boldsymbol{\gamma}^\ast$——前向循环训练 $T$ 步、反向循环按 Eq. 8 递推 $\boldsymbol{\lambda}_t^\ast$、再按 Eq. 9 更新分数；
Data Scorer Training：用一个小型 LM（论文用 Fairseq-Dense-125M）作为 scorer，在 $\mathcal{D}^{\text{prx}}$ 上用 MSE loss 拟合 $\boldsymbol{\gamma}^\ast$；
Full Data Scoring：把训好的 scorer 应用到全量 $\mathcal{D}$ 上推断分数。

scorer 训练用的是均值池化的隐状态 $\overline{\boldsymbol{h}}(x_n^{\text{prx}}, \boldsymbol{\phi}) \in \mathbb{R}^{768}$，外接一个线性头 $(\boldsymbol{w}, b)$ 输出标量分数。MSE 损失：

\[\mathcal{L}_{\text{MSE}} = \frac{1}{|\mathcal{D}^{\text{prx}}|}\sum_{n=1}^{|\mathcal{D}^{\text{prx}}|}\left(\boldsymbol{w}^\top \overline{\boldsymbol{h}}(x_n^{\text{prx}}, \boldsymbol{\phi}) + b - \gamma_n^\ast\right)^2\]

这是个相当典型的”小数据精算 + 大数据外推”的两步式架构。值得提的两个实现细节：

训练时按 Spearman 相关系数在 10% 验证集上选 checkpoint——比 MSE 直接选更鲁棒，因为 ordering 任务关心的是相对排序的稳定性而非绝对数值；
二阶 Hessian 项 $\nabla^2 L(\boldsymbol{\theta}_t, \boldsymbol{\gamma}) \cdot \boldsymbol{\lambda}_{t+1}$ 通过 Hessian-vector product（HVP）计算，避免显式构造 Hessian 矩阵。

4. FO：Folding Ordering

4.1 课程学习的两个先天问题

朴素的课程学习（curriculum learning）就是按分数升序排序，从易到难训练。但这种”单调推进”的方式有两个被广泛观察到的问题：

模型遗忘（Model Forgetting）：训练后期模型只见到难样本，前期学到的简单模式可能因为长时间不被巩固而被遗忘——尤其是单 epoch 设定下不会有第二次”复习”机会；
数据分布偏置（Data Distribution Bias）：相似难度的样本天然倾向于来自相似的数据分布（如简单数据多为短句、新闻摘要，难数据多为代码、学术文本）。连续投喂同分布数据会让模型局部过拟合，破坏 SGD 的 i.i.d. 假设，损害泛化。

降序排序（descending sorting）问题更严重——消融实验显示 LQS + 降序比基线还差（36.36 vs 36.37），说明”从难到易”完全违背 LM 的训练动力学。

4.2 Folding 的核心想法：把课程”叠起来”重复几次

Folding 的核心想法可以用一个简单的比喻：把按难度排好的一长串数据”折叠”成 $L$ 层，每一层都是一个完整的”从易到难”的小课程。

形式化定义（Eq. 10）：

\[\pi_{\text{fold}}(\boldsymbol{\gamma}; L) = \bigcup_{\ell=0}^{L-1} \langle \pi_{\text{sort}}(\boldsymbol{\gamma})_i \mid i \in \{ j \mid j \equiv \ell \pmod{L},\ 1 \le j \le |\mathcal{D}|\}\rangle\]

其中 $\pi_{\text{sort}}(\boldsymbol{\gamma})$ 是按分数升序的全局排列。Folding 的操作是：从全局排序后的序列中，按固定间隔 $L$ 采样——先取索引 $1, 1+L, 1+2L, \dots$ 组成第 0 层；再取索引 $2, 2+L, 2+2L, \dots$ 组成第 1 层；以此类推到第 $L-1$ 层。每一层都覆盖了从易到难的完整光谱（因为间隔采样保留了原排序的趋势），但每一层内部相邻样本之间的”难度跨度”是 $L$ 倍。

示意（$L=3$, $\lvert\mathcal{D}\rvert=9$）：

排序后：$[x_{(1)}, x_{(2)}, x_{(3)}, x_{(4)}, x_{(5)}, x_{(6)}, x_{(7)}, x_{(8)}, x_{(9)}]$（下标为按分数升序的位置）；
折叠后：$[\underbrace{x_{(1)}, x_{(4)}, x_{(7)}}_{\text{Layer 0}}, \underbrace{x_{(2)}, x_{(5)}, x_{(8)}}_{\text{Layer 1}}, \underbrace{x_{(3)}, x_{(6)}, x_{(9)}}_{\text{Layer 2}}]$

每层都是 mini-curriculum（易→难），但层与层之间的衔接也保持了一定连续性（第 0 层的最后是 $x_{(7)}$，第 1 层的开始是 $x_{(2)}$，难度有明显跳变但整体仍呈现”反复推进”的模式）。

为什么 Folding 能同时缓解遗忘和分布偏置？

缓解遗忘：每个”难度区段”在训练过程中出现 $L$ 次（虽然样本不重复），模型在见到难样本之前会再次见到中等难度样本，相当于做了 $L$ 次”近似复习”；
缓解分布偏置：相同难度的样本不再被连续投喂——L=3 时，每 3 步内的样本难度跨度覆盖了全局排序的 1/3 到 2/3 跨度，分布多样性显著增加；
零数据重复：与重复 epoch 相比，Folding 保持了”每条样本只看一次”的 token efficiency。

4.3 与其他 ordering 方法的对比

论文 Fig. 4 用 500 个 RedPajama 样本可视化对比了三种 ordering：

Random Shuffle：分数分布完全打散，无明显趋势；
Ascending Sorting：分数严格单调递增，呈现明显的”难度光谱”；
Folding（L=3）：呈现三段递增的”锯齿”结构，每段都是 mini-curriculum。

直观上，Folding 是”Shuffle 的有序版本”或”Sorting 的多次扫描版本”——把两者的优点合在一起。

4.4 折叠层数 $L$ 的选择

这是 Folding 的核心超参。论文 Fig. 7 + Table 12 给出了详细的 $L$ 敏感性分析（160M 模型，1B tokens，OLMo 8 个 benchmark 平均）：

$L$	ARC-c	ARC-e	HS	LAMB	OBQA	PIQA	SciQ	Wino	Avg.
—（baseline）	21.27	34.32	27.85	20.25	24.40	55.19	56.93	50.72	36.37
1（curriculum）	22.18	35.40	28.01	23.48	23.80	55.60	56.80	51.07	37.04
2	21.57	34.26	28.34	23.29	25.80	55.88	58.70	49.80	37.21
3	21.59	36.07	28.41	23.79	25.60	56.37	59.80	53.04	38.08
4	22.83	34.98	28.50	22.35	24.90	56.67	59.80	50.10	37.52
5	22.91	35.57	28.16	22.85	26.70	55.41	57.30	52.08	37.62

观察：

$L > 1$ 始终优于 $L = 1$（curriculum learning），验证了折叠确实有效；
$L = 3$ 是甜蜜点（Avg. 38.08），相比 baseline +1.71%，相比 curriculum +1.04%；
$L \geq 4$ 开始下降：折叠过多会让每层内部的”课程梯度”过于稀疏（如 $L=5$ 时每层只有 $\lvert\mathcal{D}\rvert/5$ 个样本），失去了 mini-curriculum 的连贯性，逐渐退化成接近 random shuffle 的状态。

这种”$L=3$ 最优”的结果非常有意思——它暗示着 LM 训练中存在一个”复习与新学的最优比例”。我的解读：$L=3$ 大致对应人类教育中”温故而知新”的节奏感——每个新阶段都伴随两次回顾。但论文未深挖这个数字的理论根源，可作为未来的开放问题。

5. 实验分析

5.1 实验设置

数据：

通用预训练：RedPajama 子集（采自 CommonCrawl，1B/10B/50B token 三档），评分的 reference 集为 LIMA（1030 条高质量指令-响应对）；
数学后训练：OpenWebMath，reference 为 MiniF2F（488 条形式化数学题）；
代码后训练：The-Stack-v2，reference 为 Epicoder-380k（38 万条代码生成对）。

模型：

通用预训练：Mistral 架构，160M / 470M / 1B / 1.7B 四档（详见论文 Table 5）；
后训练：Qwen1.5（0.5B 与 1.8B），用官方预训练权重；
Data scorer：Fairseq-Dense-125M。

评测：8 个标准 NLU benchmark——ARC-c/e、Hellaswag、LAMBADA、OpenbookQA、PIQA、SciQ、Winogrande（沿用 OLMo 评测套件）；代码评测 HumanEval pass@1（0-shot）、MBPP pass@1（3-shot）；数学评测 MathQA、GPQA Diamond。

训练：batch size 256，max length 1024，1 epoch，cosine LR scheduler + 2000 步 warmup。常规结果取 3 个随机种子的平均。

5.2 主实验：跨模型规模与数据规模（Table 1）

(a) 1B token 数据，不同模型规模：

模型规模	方法	ARC-c	ARC-e	HS	LAMB	OBQA	PIQA	SciQ	Wino	Avg.
160M	Conventional	21.27	34.32	27.85	20.25	24.40	55.19	56.93	50.72	36.37
160M	Ours (LQS+FO)	21.59	36.07	28.41	23.79	25.60	56.37	59.80	53.04	38.08 (+1.71)
470M	Conventional	21.16	34.91	28.11	21.88	23.90	56.07	58.75	50.04	36.85
470M	Ours (LQS+FO)	22.33	35.88	28.45	23.26	26.60	57.20	60.10	52.81	38.33 (+1.48)
1B	Conventional	20.58	36.12	28.32	23.56	25.00	56.49	60.05	52.07	37.77
1B	Ours (LQS+FO)	22.76	37.95	29.95	26.38	26.00	58.07	60.90	51.28	39.17 (+1.40)

(b) 160M 模型，更大数据规模：

数据规模	方法	Avg.
10B	Conventional	40.24
10B	Ours (LQS+FO)	41.62 (+1.38)
50B	Conventional	42.20
50B	Ours (LQS+FO)	43.03 (+0.83)

几个关键观察：

跨模型规模稳定增益：从 160M 到 1B 模型，DELT 都能带来 +1.4% 以上的 8-benchmark 平均提升，且增益不随模型增大而显著衰减（160M: +1.71%, 470M: +1.48%, 1B: +1.40%）。这表明 data efficacy 与 model scaling 是正交的优化维度——增益不会被更大的模型”自动吸收”。
跨数据规模也稳定但有衰减：10B 数据 +1.38%、50B 数据 +0.83%。数据越多，单条样本的边际价值越低，data ordering 的相对收益也随之降低——但即便在 50B token 这种已经接近实际 LLM 预训练规模的设定下，仍能稳定 lift 近 1 个点。
个别 benchmark 异常：例如 1B 模型上 Winogrande 反而下降 0.79（52.07 → 51.28），但 ARC-c +2.18、ARC-e +1.83、LAMBADA +2.82 等都有显著上涨——综合平均仍正向。论文未具体解释 Winogrande 的衰退，推测基于论文 5.2 节：Winogrande 强烈依赖常识推理（指代消歧），可能对训练后期数据偏好特定模式比较敏感；Folding 的”反复推进”对常识类任务的收益不如对知识/数学任务明显。

5.3 LQS vs 其他 scoring 方法（Table 2）

固定 160M 模型 + 1B token 数据，对比所有 scoring × ordering 组合：

Scoring	Selection	Ordering	Avg.
—（baseline）	—	—	36.37
KenLM	—	Sorting	36.43
KenLM	—	Folding	37.08
PDS	—	Sorting	36.45
PDS	—	Folding	37.40
LQS	—	Sorting	37.49
LQS	—	Folding	38.08
KenLM	✓	Sorting	36.80
KenLM	✓	Folding	37.22
PDS	✓	Sorting	37.38
PDS	✓	Folding	37.99
LQS	✓	Sorting	37.35
LQS	✓	Folding	38.08

几个非常有价值的观察：

Folding 在所有 scoring 上都优于 Sorting：KenLM + Folding（37.08）> KenLM + Sorting（36.43），PDS + Folding（37.40）> PDS + Sorting（36.45），LQS + Folding（38.08）> LQS + Sorting（37.49）。这印证了 Folding 是一种通用的 ordering 改进——它的优势独立于 scoring 方法本身的精度；
LQS 在所有 ordering 下都优于 KenLM 和 PDS：说明 LQS 提供的”质量 + 可学习性 + 模型能力”三维信号确实比单一维度更有判别力；
是否加 Selection（top-K 筛选）对最终结果影响不大：加入 selection 后 LQS + Folding 仍是 38.08，说明对 RedPajama 这种已经预清洗过的语料而言，进一步选择并不带来额外收益——但 selection 仍能在保留分数高的子集（减少数据规模）的同时维持性能，让 efficacy 与 efficiency 共存。

5.4 Ordering 消融（Table 4）：升序 vs 降序 vs Folding

Scoring	Ordering	Avg.	Δ vs baseline
Baseline	—	36.37	—
PDS	Sorting_des（降序）	35.08	−1.29
PDS	Sorting_asc（升序）	36.45	+0.08
PDS	Folding	37.39	+1.02
LQS	Sorting_des（降序）	36.36	−0.01
LQS	Sorting_asc（升序）	37.04	+0.67
LQS	Folding	38.08	+1.71

观察：

降序排序明显损害性能——尤其在 PDS 下骤降 1.29%。这与 LM 训练动力学一致：早期模型能力弱，先扔难数据会导致梯度震荡、loss 难以收敛；
升序（课程学习）带来小幅提升——PDS 几乎持平、LQS +0.67%。说明朴素课程学习在 LM 上的增益有限，与文献中的观察一致；
Folding 带来显著增益——PDS +1.02%、LQS +1.71%。LQS + Folding 是双优组合。

值得一提的是，2025 年 11 月 Luo 等人的工作《How Learning Rate Decay Wastes Your Best Data in Curriculum-Based LLM Pretraining》也对课程学习做了批判性研究，指出升序排序与学习率衰减不兼容——后期 LR 已经很小，最有价值的高质量数据反而没法被充分吸收。这个发现可以与本文的 Folding 观点形成有趣的对照：Folding 之所以更好，部分原因可能是它把高质量数据均匀分布到了训练的各个阶段（包括 LR 较大的早中期），自动避免了”LR-quality mismatch”问题。论文未明确讨论这个角度，是一个潜在的延伸方向。

5.5 Cross-Domain：数学与代码场景（Table 3）

模型	域	任务	Conventional	Ours	Uplift
Qwen1.5-0.5B	Code	HumanEval	7.00	9.76	+2.76
Qwen1.5-0.5B	Code	MBPP	7.93	9.40	+1.47
Qwen1.5-1.8B	Code	HumanEval	9.15	16.46	+7.31
Qwen1.5-1.8B	Code	MBPP	12.00	13.20	+1.20
Qwen1.5-0.5B	Math	MathQA	21.23	22.73	+1.50
Qwen1.5-0.5B	Math	GPQA Diamond	24.92	26.83	+1.91
Qwen1.5-1.8B	Math	MathQA	22.72	24.75	+2.03
Qwen1.5-1.8B	Math	GPQA Diamond	27.17	28.94	+1.77

观察：

代码场景 Qwen1.5-1.8B HumanEval +7.31% 的提升非常显著——pass@1 从 9.15% 跳到 16.46%，几乎接近翻倍。这种”非线性放大”通常出现在数据组织恰好命中了模型的能力门槛时；
跨模型规模、跨域、跨任务都正向——证明 LQS + Folding 不只对通用语料的 NLU 任务有效，在专业域的 post-training 上同样有效；
数学场景增益普遍稳定在 +1.5 ~ +2%——这是因为数学评测的判别度本身较低（MathQA 是多选题、GPQA Diamond 难度极高），Folding 通过更好地组织”难梯度数据”的呈现节奏，对模型推理能力的塑造有正面作用。

5.6 多 epoch 设定下的稳定性（Table 11）

虽然论文聚焦的是单 epoch 的现代 LLM 训练范式，但也提供了多 epoch 实验来检验泛化性：

Epoch	Conventional	DELT (Ours)	Δ
1	36.37	38.08	+1.71
2	38.16	38.77	+0.61
3	38.51	39.10	+0.59
4	38.44	39.93	+1.49
5	38.92	39.98	+1.06

观察：

多 epoch 下 DELT 仍持续优于 Conventional——所有 epoch 上都正向；
第 4 epoch 后 Conventional 出现微微衰减（38.51 → 38.44），DELT 仍单调上升——Folding 由于已经在层间引入了”近似复习”，对多 epoch 的过拟合相对更鲁棒；
第 4 epoch 增益反弹（+1.49）：可能是 Folding 的”反复推进”结构与 epoch 边界产生了正向共振，每个 epoch 都相当于在已经折叠的序列上做了”二次折叠”——这是一个有趣但论文未深究的现象。

5.7 数据效率维度的对比（Table 10）

DELT 与单纯”数据效率”方法的对比（160M 模型，1B token）：

Pipeline	Scoring	Selection	Ordering	Avg.
Conventional	—	—	—	36.37
Efficiency	KenLM	✓	—	36.38
Efficiency	PDS	✓	—	37.01
Efficiency	LQS (Ours)	✓	—	37.14
DELT	LQS (Ours)	✓	Folding	38.08

观察：

单纯做数据选择（KenLM/PDS/LQS + ✓ selection）相比 baseline 只能小幅提升 0.0~0.8%——说明 RedPajama 本身已经相当干净；
加上 Folding ordering 后增益跳到 +1.71%——验证了 ordering 是被忽视的优化维度，其单独贡献甚至超过 scoring/selection；
LQS 作为 scorer 即使单独用也优于 KenLM 和 PDS（37.14 vs 36.38 / 37.01），但增益规模与 ordering 相比仍处下风。

这个结果强化了论文的核心论点：对当代 LLM 训练而言，data ordering 的价值至少不低于 data selection——而长期被研究社区低估。

6. 关键结论与争议点讨论

6.1 核心结论

重新定义了”数据”在 LM 训练中的优化维度：从”选什么样本”扩展到”按什么顺序看样本”，是对传统数据效率研究的根本性补充；
DELT 是一个统一的范式：课程学习、退火学习都是其特例，且 efficacy 与 efficiency 可以无缝叠加；
LQS 是一个理论与实践兼具的评分方法：从梯度一致性视角统一了”质量”、”可学习性”、”模型能力”三个维度，化简后形式非常优雅；
Folding Ordering 是对课程学习的实质性改进：用 $L$ 次”折叠”同时缓解模型遗忘和分布偏置，$L=3$ 在多个规模下都是甜蜜点；
跨规模、跨域、跨任务的稳定增益：160M~1B 模型、1B~50B token 数据、NLU/code/math 任务上均稳定正向，且增益不被 model scaling 抵消。

6.2 几个值得讨论的问题

(1) Folding 的最优 $L$ 是否会随训练规模变化？

论文所有实验都用 $L = 3$，但 $L$ 的最优值本质上应该与”数据规模 / batch size / 训练步数”之间的相对关系有关：

若数据集很大、训练步数多，每层 $\lvert\mathcal{D}\rvert/L$ 个样本仍然足够覆盖完整的”难度光谱”——可以适当增大 $L$；
若数据集很小、batch 内 i.i.d. 假设很重要，$L$ 过大会导致每层难度跨度过大，可能损害收敛——应保守取 $L = 2$ 或 $3$。

论文只在 160M / 1B token 的固定配置下验证了 $L$ 敏感性，未给出”如何根据数据规模自适应选择 $L$”的指导。这是个工程上有实际价值的开放问题——尤其在工业 LLM 训练中，数据规模动辄数 T token、训练步数百万级，沿用 $L=3$ 是否仍然最优值得进一步验证。

(2) LQS 计算成本能否进一步降低？

LQS 的工程瓶颈在 proxy data annotation 阶段——bi-level optimization 需要保存完整的训练轨迹（forward 循环 $T$ 步、reverse 循环 $T$ 步），且 reverse 循环涉及 Hessian-vector product。论文用 Fairseq-Dense-125M 作为 scorer 的小模型方案确实大幅降低了”全量打分”的成本，但 proxy annotation 阶段对大型 LLM 而言仍然是个不轻量级的开销。

潜在的优化方向：

用一阶 Taylor 近似替代二阶 Hessian——准确度会下降，但 annotation 成本可以减半；
用 in-context learning 让 LLM 直接做”自评分”——绕开梯度计算，但可能丢失训练动力学的真实信号；
跨任务复用 scorer——一个在 RedPajama 上训练的 LQS scorer 是否能直接迁移到 The-Stack？论文做了 Mistral → Qwen1.5 的跨架构迁移（5.5 节），但未做”scorer 跨数据集迁移”的实验，这是个延伸方向。

(3) Folding 与 Learning Rate Schedule 的协同设计

如 5.4 节末尾所提，2025 年 11 月 Luo 等人的工作指出课程学习与 LR decay 之间存在不兼容性——后期 LR 已经很小，高质量数据无法被充分吸收。Folding 似乎天然规避了这个问题，因为它把高质量数据均匀分布到了整个训练过程，包括 LR 较大的早中期。但论文未明确分析”为什么 Folding 对 LR schedule 鲁棒”，也未尝试”Folding + 适配 LR schedule”的联合设计。

一个有趣的延伸方向是：能否让 LR schedule 与 ordering 协同优化？ 例如在 Folding 的每一”层”的末尾（即将进入下一层时）短暂回调 LR，模拟”准备进入新课程前的复习增强”。这种 ordering-aware LR scheduling 在 DELT 框架下完全可表达，但论文未涉及。

(4) Reliability Score 的引入是否必要？

LQS 引入了 $R(\boldsymbol{\theta}_{t+1}) = |\boldsymbol{\lambda}_{t+1}|$ 作为”模型能力分数”，并通过乘法把它整合进最终分数。但化简推导显示这一项最终与质量分数分母中的 $|\boldsymbol{\lambda}_{t+1}|$ 相消了——也就是说，这项设计在数学上等价于”取消 cosine 的归一化、改用未归一化的内积”。

这个化简虽然让最终形式优雅，但也带来一个问题：未归一化的内积 $\boldsymbol{\lambda}_{t+1}^\top \nabla \ell$ 会同时被两个向量的模长影响——梯度模长大的样本可能仅因”信号强”就拿到高分，而不是因为”方向对”。这与 cosine 相似度只看方向的设计哲学是相违背的。

论文给出的解释是”更可靠的模型应该给样本更高的权重”，但更细致的实证分析（例如 LQS 是否系统性地偏好长样本/复杂样本）会让这个设计选择更有说服力。论文未提供这方面的详细分析，可作为后续工作的方向。

(5) DELT 是否能扩展到多模态？

论文在 Appendix C 主动承认这是个限制——目前所有实验都在文本 LM 上。但 LQS 的核心思想（梯度一致性 + 训练动力学）在视觉、语音模型上同样适用，Folding Ordering 更是与模态完全无关——它只依赖一个分数向量。

视觉模型的预训练（如 ViT、SAM）和多模态模型（如 LLaVA、Gemini）的训练数据组织目前仍以随机为主，DELT 直接迁移过去理论上应该有效——但需要解决两个工程问题：(a) 多模态数据的”质量”如何定义（图像质量？图文一致性？）；(b) Hessian-vector product 在视觉模型的训练中代价会更大。这是个明显的扩展方向，论文也主动提及。

7. 与相关工作的关系

7.1 与 Curriculum Learning 的关系

DELT 在形式上把课程学习视为 $L=1$ 的 Folding 特例——这种”统一性”的视角是论文最重要的理论贡献之一。但其实 Folding 的思想更接近 interleaved practice（教育心理学中的”穿插练习”概念）——相比于”先练简单后练复杂”的 blocked practice，interleaved practice 通过反复切换不同难度的练习来提升长期保留率。Folding 用 $L$ 控制”穿插密度”——$L=1$ 是 blocked，$L=N$ 是完全 interleaved。这种对应关系论文未明确提及，但理论根源是相通的。

7.2 与 Data Selection 工作的关系

DSIR、MATES、PDS、SemDeDup 等数据选择工作的目标都是”选出最有价值的子集”——它们与 DELT 是互补关系而非替代关系。Table 10 的实验显式验证了这一点：在 DELT 框架下加入 selection 不会损害 ordering 的收益，反而能保留 efficiency 优势。

值得一提的是 PDS——LQS 的设计直接借鉴了它的目标方向递推公式，可视为 PDS 的”加上 learnability 维度”的进化版。这种”在前人方法上做加法”而非”颠覆性创新”的研究路径很有借鉴价值。

7.3 与 Annealing Learning 的关系

Llama 3 等模型在预训练末期使用 annealing learning——切到一个高质量小数据集做最后的 fine-tuning。这本质上是一种特殊的 ordering 策略（按 epoch 切分质量分布）。DELT 框架可以表达这种策略：定义 ordering 为”前 90% 步用 mixed quality 数据、后 10% 步用 high quality 子集”。

更进一步，Folding 的多层结构与 annealing 在某种意义上是互补的——Folding 让每个阶段都见到完整的质量光谱，annealing 让最后阶段集中在高质量数据。两者结合（例如”先 Folding 多 epoch，最后一个 epoch 切换到 annealing”）可能带来叠加收益，但论文未做这方面的实验。

7.4 一个被忽视的视角：Data Ordering 与 In-Context Learning 的关系

LM 在推理阶段对 ICL 样本的顺序非常敏感——这已经是被广泛观察到的现象。但训练阶段的 data ordering 与推理阶段 ICL ordering 之间的内在联系，是个尚未被深入研究的问题。

一个推测：训练阶段如果用 Folding ordering 让模型多次见到”从易到难”的模式，模型可能学到一种”内在的课程跟随能力”——在推理阶段对 ICL 中”从易到难”排列的样本特别敏感。这是个完全开放的实证问题，但 DELT 提供了一个合适的研究坐标系。

8. 总结

DELT 在数据为王的大语言模型时代提供了一个被广泛忽视的洞察：数据的价值不仅取决于”选了什么”，更取决于”怎么呈现”。论文最难得之处不在于具体的 LQS 或 FO 方法本身——这两个方法的核心组件（梯度方向一致性、课程学习的折叠）在已有文献中都能找到影子——而在于第一次系统地把 data efficacy 作为一个独立的研究方向提出来，并给出了一个能容纳现有方法（curriculum / annealing / selection）的统一理论框架。

技术上最值得借鉴的几个 design choice：

LQS 的”乘法合成”设计：把 learnability、quality、reliability 三个维度通过乘法整合，化简后得到了一个非常优雅的最终形式，体现了”在数学上追求简洁性是工程设计的良好直觉”；
Folding Ordering 的”间隔采样”实现：用一个简单的 modulo 操作就同时解决了模型遗忘和分布偏置两个问题，工程实现复杂度近乎为零却能稳定带来 +1% 量级的增益；
代理评分的两步走流水线：通过”小模型做精算 + 大模型做外推”的工程拆解，把原本不可行的 bi-level optimization 变成了实际可部署的方案；
DELT 框架的可组合性：scoring、selection、ordering 三个组件可以独立替换、灵活组合，让 DELT 不只是一个具体方法而是一个可扩展的研究平台。

从 ICLR 投稿和 GitHub 开源的状态来看，这个工作正在快速被社区接受。它的真正威力可能要在更大规模（万亿 token、千亿参数）的训练实验中才能完全体现——但即便在论文呈现的 1B 参数 / 50B token 规模下，+0.83% ~ +1.71% 的平均 benchmark 增益已经超过了许多需要数月工作量的架构改进。这是 data engineering 这条赛道在 LLM 时代的一次有力宣示：比起改模型，改数据可能是更省事且更有效的优化路径。

对 LLM 训练社区而言，DELT 提供了一个新的研究坐标系：在追求 scaling laws 的同时，不要忘记每条样本的呈现顺序本身就是一种归纳偏置——这是被随机洗牌掩盖了十几年的优化空间。

机器学习

语言模型数据工程数据排序预训练微软研究院

This post is licensed under CC BY 4.0 by the author.