Post

推荐系统序列建模中的 NDCG 优化:2024–2026 高影响力论文盘点

推荐系统序列建模中的 NDCG 优化:2024–2026 高影响力论文盘点

从 2024 年下半年到 2026 年上半年,推荐系统领域出现了一批直接面向 list 排序质量、尤其是显式优化 NDCG@K 的研究工作。这些工作横跨代理损失设计、可微分 Top-K 算子、Listwise 偏好优化、LLM 排序、Diffusion 建模等多个方向,形成了一张相当完整的技术图谱。本文按方法论分类,逐篇梳理其动机、核心方法和关键结论。


1. 为什么要直接优化 NDCG?

NDCG(Normalized Discounted Cumulative Gain)是推荐系统和信息检索中衡量排序质量的金标准指标。给定一个推荐列表,其 DCG@K 定义为:

\[\text{DCG@K} = \sum_{i=1}^{K} \frac{2^{r_i} - 1}{\log_2(i+1)}\]

其中 $r_i$ 是位置 $i$ 上 item 的相关度。NDCG 是 DCG 除以理想排序下的 IDCG,取值 $[0, 1]$。

然而,直接优化 NDCG 面临三个根本性挑战:

  1. 不可微性(Non-differentiability):NDCG 依赖于排序位置(rank),而排序操作是离散的,梯度要么为零、要么不存在。
  2. Top-K 截断(Top-K Truncation):实际场景只关注前 $K$ 个位置,但截断操作本身也是不可微的——哪些 item 进入 Top-K 取决于离散的选择。
  3. 计算效率(Computational Cost):精确计算排序需要 $O(n \log n)$ 复杂度,在工业级百万候选场景下成本过高。

传统做法是用 pointwise(如 BCE)或 pairwise(如 BPR)损失作为代理,但这些代理与 NDCG 之间存在系统性的目标不对齐。下面的论文正是为了缩小这个 gap 而生。


2. 直接优化 NDCG@K 的代理损失

2.1 PSL: Pairwise Softmax Loss

论文: PSL: Rethinking and Improving Softmax Loss from Pairwise Perspective for Recommendation
链接: https://arxiv.org/abs/2411.00163
机构: 浙江大学
作者: Weiqin Yang, Jiawei Chen, Xin Xin, Sheng Zhou, Binbin Hu, Yan Feng, Chun Chen, Can Wang
发表: NeurIPS 2024

动机与核心思想

Softmax Loss (SL) 是推荐系统中最广泛使用的损失函数之一。PSL 从 pairwise 视角重新分析 SL,揭示了两个根本局限:

  1. SL 与 DCG 的关系不够紧——exp 函数的增长速度过快,使得少数”困难负样本”主导梯度;
  2. SL 对假负样本(false negatives)高度敏感——exp 放大了噪声样本的损失贡献。

PSL 的做法极其简洁:用更温和的激活函数(ReLU、Tanh、Arctan)替换 SL 中的 exp。形式化地,标准 SL 可以写成:

\[\mathcal{L}_{\text{SL}} = -\log \frac{\exp(s_+)}{\exp(s_+) + \sum_{j \in \mathcal{N}} \exp(s_j)}\]

PSL 将其推广为:

\[\mathcal{L}_{\text{PSL}} = -\log \frac{\sigma(s_+)}{\sigma(s_+) + \sum_{j \in \mathcal{N}} \sigma(s_j)}\]

其中 $\sigma$ 为满足 $\delta(x) \le \sigma(x) \le \exp(x)$ 的激活函数。论文证明了三条性质:

  • 更紧的 DCG 代理:PSL 是比 SL 更紧的 DCG 上界;
  • 更均衡的梯度分配:温和激活抑制了困难负样本的梯度垄断;
  • 等价于 DRO 增强的 BPR:优化 PSL 等价于在分布鲁棒框架下优化 BPR loss。

实验:在 4 个数据集上,PSL(尤其是 PSL-Tanh)对 NDCG@20 相比 SL 显著提升,且在 OOD(分布外)场景下优势更明显。


2.2 SL@K: SoftmaxLoss@K

论文: Breaking the Top-K Barrier: Advancing Top-K Ranking Metrics Optimization in Recommender Systems
链接: https://doi.org/10.1145/3711896.3736866
机构: 浙江大学
作者: Weiqin Yang, Jiawei Chen, Shengjia Zhang, Peng Wu, Yuegang Sun, Yan Feng, Chun Chen, Can Wang
发表: KDD 2025
代码: https://github.com/Tiny-Snow/IR-Benchmark

动机与核心思想

这是 PSL 的直接后续。PSL 解决了”代理与 DCG 的紧密度”问题,但仍然没有处理 Top-K 截断——模型训练时优化的是所有位置,但评估时只关注前 K 个。SL@K 同时攻克两个挑战:

  1. Quantile-based Top-K Truncation:引入 Top-K 分位数阈值 $\tau_K$,只对分数高于 $\tau_K$ 的 item 施加损失。关键在于 $\tau_K$ 不需要精确排序——用 Gumbel-Max 技巧从分数分布中高效估计。

  2. 平滑上界推导:对截断后的 NDCG@K 应用 Jensen 不等式推导出平滑可微的上界:

\[\mathcal{L}_{\text{SL@K}} = -\sum_{i: s_i \ge \tau_K} G(r_i) \cdot \log \frac{\sigma(s_i)}{\sum_{j: s_j \ge \tau_K} \sigma(s_j)}\]

其中 $G(r_i)$ 是 NDCG 的增益权重,$\tau_K$ 是可学习的分位数阈值。

优势

  • 理论保证:$\mathcal{L}_{\text{SL@K}}$ 是 $1 - \text{NDCG@K}$ 的上界;
  • 实现简单:相比 LambdaLoss@K 不需要精确排序,相比 SONG@K 无需双层优化;
  • 梯度稳定:不存在 LambdaLoss 那种极端偏斜的梯度分布。

实验:在 4 个数据集、3 个 backbone(SASRec、GRU4Rec、BERT4Rec)上,SL@K 平均提升 NDCG@20 达 6.03%,相比 SONG@K 提升超 70%,相比 LambdaLoss@K 提升约 13%。同时在 LTR(学习排序)和 Link Prediction 任务上也验证了通用性。


2.3 SONG / K-SONG

论文: Large-scale Stochastic Optimization of NDCG Surrogates for Deep Learning with Provable Convergence
链接: https://proceedings.mlr.press/v162/qiu22a.html
机构: University of Iowa
发表: ICML 2022(原版),Machine Learning Journal 2024(扩展版,标题加 “Optimal”)
代码: https://libauc.org

动机与核心思想

在 SL@K 之前,SONG 是直接优化 NDCG 代理的标杆工作。其核心贡献是把 NDCG 优化拆解成组合优化问题:

  • NDCG 优化 → 有限和耦合组合优化(FCCO):内层函数估计排序位置,外层优化 NDCG 代理;
  • Top-K NDCG 优化 → 双层组合优化:下层做 Top-K 选择,上层优化截断后的 NDCG。

基于此构造了 SONG 和 K-SONG 两个算法,使用 momentum-style 更新和 moving average 估计器。关键性质是 每次迭代复杂度仅 $O(Bd)$($B$ 为 batch size,$d$ 为维度),不再与总 item 数成正比。收敛复杂度 $O(\epsilon^{-4})$ 优于先前方法。

在 2025 视角下的定位:SONG 有严格的理论保证,但在推荐系统的实际效果上被 SL@K 显著超越(SL@K 论文报告 NDCG@20 提升 70%+)。主要原因是 SONG 的代理虽然理论优美,但在高 noise 的推荐数据上梯度信号较弱。


3. 可微分 Top-K 算子与排序驱动架构

3.1 DFTopK: Differentiable Fast Top-K

论文: Differentiable Fast Top-K Selection for Large-Scale Recommendation
链接: https://arxiv.org/abs/2510.11472
时间: 2025 年 10 月
来源: 工业界(具体机构未明确)

动机与核心思想

工业推荐系统的级联排序(cascade ranking)需要在各阶段做 Top-K 选择,但 Top-K 算子不可微,阻碍了端到端训练。现有的解决思路有:

  • LambdaLoss 系列:优化排序指标但存在目标不对齐;
  • 可微排序方法(ARF、LCRON):通过松弛置换矩阵间接做 Top-K,但矩阵聚合引入梯度冲突;
  • LapSum:$O(n \log n)$ 的可微 Top-K,但仍需排序。

DFTopK 的关键创新是 放松归一化约束,获得 Top-K 选择的闭合解(closed-form):

\[\hat{\mathbf{m}} = \text{sigmoid}\left(\frac{\mathbf{s} - \tau}{\alpha}\right)\]

其中 $\tau$ 是自适应阈值(通过牛顿法在 $O(n)$ 内求解,使 $\sum \hat{m}_i \approx K$),$\alpha$ 控制温度。整个操作不需要排序。

实验:在公开 benchmark RecFlow 和工业系统上验证。线上 A/B 测试中,相同算力预算下 收入提升 +1.77%。据作者宣称是首个将可微 Top-K 算子引入推荐系统的工作。


3.2 TopKGAT

论文: TopKGAT: A Top-K Objective-Driven Architecture for Recommendation
链接: https://arxiv.org/abs/2601.18432
机构: 浙江大学
发表: WWW 2026

动机与核心思想

TopKGAT 提出了一个更激进的思路:从 Top-K 指标的可微近似中直接推导出模型架构,而不是在已有架构上套一个 Top-K 损失。

核心观察是:对 Precision@K 做梯度上升的更新公式,其结构天然类似图注意力网络(GAT)的消息传递。因此:

  1. 用 quantile 阈值将离散的 Top-K 选择松弛为连续形式;
  2. 将松弛后 Precision@K 的梯度上升步写成 attention + 带通激活的形式;
  3. 直接把这个”梯度步”作为模型的一层——堆叠多层就得到 TopKGAT。

关键组件:

  • 可学习阈值 $\tau$:区分”边界附近”的 item(模型应集中关注的区域);
  • 带通激活函数(bandpass activation):对远高于或远低于阈值的 item 抑制梯度,集中优化排序边界。

实验:4 个 benchmark 数据集上全面超越 SOTA 基线,且收敛速度更快。


4. Listwise 偏好优化

这一类工作的共同特征是把 偏好学习(preference optimization)从 pairwise 扩展到 listwise,使模型能从完整排序列表中学习,而非仅从正/负样本对中学习。

4.1 LiPO-λ

论文: LiPO: Listwise Preference Optimization through Learning-to-Rank
链接: https://aclanthology.org/2025.naacl-long.121/
机构: Google Research
作者: Misha Khalman, Yao Zhao, Jialu Liu, Peter Liu
发表: NAACL 2025

动机与核心思想

DPO 及其变体只利用 pairwise 偏好(list size = 2),而现实中人类反馈通常是一个 排序列表(多个响应按质量排列)。LiPO 指出:

  • DPO = list size 为 2 的 listwise 排序中用 RankNet loss 的特例;
  • SLiC = ListMLE 的特例。

因此可以把 LLM 对齐统一建模为 listwise LTR 问题,并借用整个 LTR 工具箱。LiPO 框架下测试了多种 LTR loss(ListNet、ListMLE、RankNet 等),最终发现 LiPO-λ(基于 LambdaLoss)效果最好:

\[\mathcal{L}_{\text{LiPO-}\lambda} = \mathbb{E}_{x, y, \psi \sim \mathcal{D}} \left[\sum_{\psi_i > \psi_j} \Delta_{i,j} \cdot \log(1 + e^{-(s_i - s_j)})\right]\]
其中 $\Delta_{i,j}$ 是 swap 两个位置后的 NDCG 变化量(即 Lambda 权重),$s_i = \beta \log \frac{\pi_\theta(y_ix)}{\pi_{\text{ref}}(y_ix)}$ 是 policy score。

关键发现:LiPO-λ 是唯一能随 list size 增大而持续获益的方法。DPO 和 SLiC 在 list size > 2 时改进不大甚至下降。


4.2 OPO: Ordinal Preference Optimization

论文: Ordinal Preference Optimization: Aligning Human Preferences via NDCG
链接: https://arxiv.org/abs/2410.04346
发表: Submitted to ICLR 2025
代码: https://github.com/zhaoyang02/ordinal-preference-optimization

动机与核心思想

OPO 与 LiPO 思路类似但实现路径不同。其核心是:

  1. 直接用 NDCG 作为对齐目标(而不是用 Lambda 权重间接逼近);
  2. 由于 NDCG 不可微,采用 NeuralNDCG(基于 NeuralSort 的可微排序松弛)作为代理 loss;
  3. 利用 ordinal reward(序数奖励)中的相对间距信息——标签 (0.99, 0.50, 0.01) 和 (0.51, 0.50, 0.49) 应该被区别对待,而非仅看排列顺序。

OPO 还发现:增加负样本池可以有效减少 trivial negatives 的不良影响,在 AlpacaEval 上显著优于 DPO 及其他 listwise 方法。


4.3 DRPO: Direct Ranking Preference Optimization

论文: Optimizing Preference Alignment with Differentiable NDCG Ranking
链接: https://arxiv.org/abs/2410.18127
发表: Submitted to ICLR 2025
代码: https://github.com/choucaicai/drpo-align

动机与核心思想

DRPO 提出了另一条实现”可微 NDCG”的技术路线——可微排序网络(Differentiable Sorting Networks)。相比 OPO 用 NeuralSort 做软置换矩阵,DRPO 用排序网络(Sorting Network)产生 双随机置换矩阵(doubly stochastic permutation matrix),具有更好的计算效率和数值稳定性。

三个核心组件:

  1. Adaptive Rank Policy Score:为每个响应计算排序分数,并动态调整 preferred 和 non-preferred 之间的 margin;
  2. Differentiable Sorting:用排序网络对分数排序,得到可微的置换矩阵 $\mathbf{P}$;
  3. diffNDCG Loss:基于 $\mathbf{P}$ 计算可微的 NDCG 近似并直接作为 loss。
\[\text{diffNDCG} = \frac{\sum_{i=1}^{n} G(r_i) \cdot D(\mathbf{P}_{:,i})}{\text{IDCG}}\]

其中 $D(\mathbf{P}_{:,i})$ 是基于置换矩阵的软折扣权重。


4.4 LPO4REC

论文: Listwise Preference Alignment Optimization for Sequential Recommendation
链接: https://arxiv.org/abs/2507.02255
时间: 2025 年 7 月

动机与核心思想

LPO4REC 将偏好对齐优化直接嵌入序列推荐框架(如 SASRec),而非 LLM 对齐场景。其核心创新:

  1. 从 pairwise 到 listwise 的 Bradley-Terry 扩展:经典 BT 模型只比较两个选项,LPO4REC 将其自然推广到 listwise 比较,推导出 closed-form optimal policy——不需要显式的 reward model。

  2. 自适应负采样 + 尾部加权:对 tail item(长尾物品)使用更高的采样权重和 loss 放大,改善长尾推荐性能。

实验:在 Amazon Beauty/Sports 等数据集上,HR 和 NDCG 指标相比 DPO 最高提升 50%,GPU 内存使用减少 17%。


5. LLM 驱动的推荐排序

5.1 R2Rank: Reasoning to Rank

论文: Reasoning to Rank: An End-to-End Solution for Exploiting Large Language Models for Recommendation
链接: https://arxiv.org/abs/2602.12530
时间: 2025 年 2 月

动机与核心思想

当 LLM 被用于推荐排序时,面临两个核心障碍:

  1. Position Bias:LLM 直接做 listwise 推理时,对输入中 item 的物理位置敏感而非对相关度敏感;
  2. 目标不对齐:next-token prediction 的 cross-entropy 与推荐的 NDCG 没有直接联系。

R2Rank 的解决方案是 将推理与排序解耦,再通过 RL 对齐

  1. Pointwise Reasoning:对每个候选 item 独立生成 CoT 推理 + 标量相关度分数(消除 position bias);
  2. Plackett-Luce Differentiable Ranking:把 $n$ 个分数映射为 PL 分布上的排列概率:
\[P(\pi | \mathbf{s}) = \prod_{i=1}^{n} \frac{\exp(s_{\pi(i)})}{\sum_{j=i}^{n} \exp(s_{\pi(j)})}\]
  1. RL 反向传播 NDCG Reward:用 PPO 更新 LLM 参数,用 REINFORCE 更新 scoring head,reward 就是列表级的 NDCG。
\[\nabla_\theta J = \mathbb{E}_{\pi \sim P(\cdot|\mathbf{s})} \left[\text{NDCG}(\pi) \cdot \nabla_\theta \log P(\pi|\mathbf{s})\right]\]

冷启动:用 self-reflective SFT(模型自我验证生成的推理是否对应正确排序)初始化推理能力。

实验:在 3 个 Amazon 数据集 + 1 个工业数据集上,NDCG@10 一致达到最优或接近最优。


5.2 RLPO: Residual Listwise Preference Optimization

论文: RLPO: Residual Listwise Preference Optimization for Long-Context Review Ranking
链接: https://arxiv.org/abs/2601.07449
时间: 2026 年 1 月

动机与核心思想

在长上下文排序场景(如电商评论排序,候选列表可达 50+ 条),pointwise 和 listwise 方法各有缺陷:

  • Pointwise:高效但忽略 item 间交互,导致 Top-K 排序不校准;
  • Listwise:能捕获全局依赖但计算开销随 list 长度剧增,且训练不稳定。

RLPO 的思路是 “先 pointwise 打分,再 listwise 残差修正”

  1. Stage 1:fine-tuned LLM 对每条评论生成 calibrated pointwise 分数 + 紧凑表示向量;
  2. Stage 2:轻量级 set encoder 在表示序列上 attend,预测 listwise 残差(对 pointwise 分数的修正量);
  3. 最终分数 = pointwise score + residual。

这种解耦设计保留了 pointwise 的可扩展性,同时用低成本注入 list-level context。随 list 长度增加,RLPO 的 NDCG@K 优势相比纯 pointwise 或纯 listwise 方法更加显著。


6. Diffusion 模型 + Listwise 排序

6.1 LPDO: Listwise Preference Diffusion Optimization

论文: Listwise Preference Diffusion Optimization for User Behavior Trajectories Prediction
链接: https://arxiv.org/abs/2511.00530
时间: 2025 年 11 月

动机与核心思想

LPDO 面向的是一个更具挑战性的任务——用户行为轨迹预测(UBTP):不仅预测下一个 item,而是预测未来一整条交互序列。传统 diffusion-based 序列推荐方法(如 DiffuRec、DREAM)只优化重建保真度(reconstruction fidelity),缺乏对序列内部排序结构的显式建模。

LPDO 的创新是 将 Plackett-Luce 排序信号注入 Diffusion 的 ELBO

\[\mathcal{L}_{\text{LPDO}} = \underbrace{\mathcal{L}_{\text{recon}}}_{\text{重建保真度}} + \lambda \cdot \underbrace{\mathcal{L}_{\text{PL}}}_{\text{listwise 排序似然}}\]

其中 PL 项强制模型在每个时间步上,正确 item 的 “去噪概率” 应高于其他候选。论文推导出一个紧的变分下界,使两个目标可以在统一框架下联合优化。

评估指标创新:提出 SeqNDCG(序列级 NDCG),用各位置 NDCG 的几何平均衡量整条轨迹的排序质量;以及 SeqMatch 强制各时间步严格一致。


7. 高效 Listwise Reranking

7.1 E2Rank

论文: E2Rank: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker
链接: https://arxiv.org/abs/2510.22733
机构: 阿里巴巴 NLP
代码: https://github.com/Alibaba-NLP/E2Rank
时间: 2025 年 10 月

动机与核心思想

LLM-based listwise reranker(如 RankGPT、RankQwen3)效果好但延迟高——需要生成式地输出排序序列。E2Rank 提出:一个 embedding 模型就够了

核心设计:

  1. Listwise Prompt:将 query 和 Top-K 候选文档拼接成一个 “listwise prompt”,输入 embedding 模型得到一个 增强的 pseudo query embedding(类似 pseudo-relevance feedback);
  2. Cosine Reranking:用 pseudo query embedding 与各候选文档的独立 embedding 做 cosine similarity 排序;
  3. Multi-task Training:同时用 contrastive loss(检索)和 RankNet loss(排序)联合训练。
\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{contrastive}} + \lambda \cdot \mathcal{L}_{\text{RankNet}}\]

优势

  • 文档 embedding 可离线计算,线上仅需编码一次 listwise prompt;
  • BEIR benchmark 上 NDCG@10 达到 SOTA;
  • 延迟仅为 RankQwen3 的 1/5(8B 模型比 RankQwen3-0.6B 还快)。

8. 总结与趋势展望

8.1 全景对比

论文发表核心技术路线面向场景优化目标
PSLNeurIPS 2024替换 exp → 更紧 DCG 代理通用推荐DCG 代理
SL@KKDD 2025Quantile + Jensen 上界序列推荐 / LTRNDCG@K
SONGICML 2022 / MLJ 2024FCCO + 双层组合优化通用 LTRNDCG / Top-K NDCG
DFTopKarXiv 2025.10闭合解可微 Top-K工业级联排序端到端 Top-K
TopKGATWWW 2026Top-K 梯度 → GNN 架构图推荐Precision@K
LiPO-λNAACL 2025LambdaLoss + listwiseLLM 对齐Lambda-NDCG
OPOICLR 2025 subNeuralNDCG 代理LLM 对齐NDCG
DRPOICLR 2025 subSorting Network + diffNDCGLLM 对齐diffNDCG
LPO4RECarXiv 2025.07Listwise BT closed-form序列推荐Listwise 偏好
R2RankarXiv 2025.02CoT + PL + RLLLM 推荐NDCG reward
RLPOarXiv 2026.01Pointwise + listwise 残差长上下文排序NDCG@K
LPDOarXiv 2025.11PL + Diffusion ELBO行为轨迹预测SeqNDCG
E2RankarXiv 2025.10Listwise prompt + RankNet检索 rerankingNDCG@10

8.2 趋势观察

趋势一:从”间接代理”到”直接优化”。早期的 BPR、Softmax Loss 只是 NDCG 的松散代理;PSL 收紧了代理关系;SL@K 则几乎直接优化 NDCG@K 本身。这条”逼近 NDCG”的路线在 2025 年基本走通。

趋势二:LTR 技术大规模回流推荐/LLM。LambdaLoss、Plackett-Luce、NeuralSort 这些经典 LTR 工具在 2024–2025 被密集地迁移到 LLM 对齐(LiPO、OPO、DRPO)和生成式推荐(R2Rank、LPO4REC)中。这说明 Learning to Rank 这个”老领域”在 LLM 时代反而获得了新生。

趋势三:可微分算子作为建模 primitive。DFTopK 和 TopKGAT 代表了一种新思路——不再是”设计 loss 让模型间接学好排序”,而是”把排序指标的梯度结构直接编码进模型架构或前向计算”。这可能是下一步更根本的方向。

趋势四:效率成为硬约束。E2Rank 5x 加速、DFTopK O(n) 复杂度、RLPO 的残差修正设计——所有这些都在说明一个事实:学术上追求 NDCG 最优不难,但要在工业级延迟和计算预算约束下做到才有真正价值。

趋势五:评估维度从”单点”到”序列”。LPDO 提出 SeqNDCG 衡量整条轨迹的排序质量,暗示未来的推荐系统不仅需要”当前列表排好”,还需要”未来一系列推荐持续排好”——这是一个全新的优化维度。

This post is licensed under CC BY 4.0 by the author.