推荐系统序列建模中的 NDCG 优化:2024–2026 高影响力论文盘点
从 2024 年下半年到 2026 年上半年,推荐系统领域出现了一批直接面向 list 排序质量、尤其是显式优化 NDCG@K 的研究工作。这些工作横跨代理损失设计、可微分 Top-K 算子、Listwise 偏好优化、LLM 排序、Diffusion 建模等多个方向,形成了一张相当完整的技术图谱。本文按方法论分类,逐篇梳理其动机、核心方法和关键结论。
1. 为什么要直接优化 NDCG?
NDCG(Normalized Discounted Cumulative Gain)是推荐系统和信息检索中衡量排序质量的金标准指标。给定一个推荐列表,其 DCG@K 定义为:
\[\text{DCG@K} = \sum_{i=1}^{K} \frac{2^{r_i} - 1}{\log_2(i+1)}\]其中 $r_i$ 是位置 $i$ 上 item 的相关度。NDCG 是 DCG 除以理想排序下的 IDCG,取值 $[0, 1]$。
然而,直接优化 NDCG 面临三个根本性挑战:
- 不可微性(Non-differentiability):NDCG 依赖于排序位置(rank),而排序操作是离散的,梯度要么为零、要么不存在。
- Top-K 截断(Top-K Truncation):实际场景只关注前 $K$ 个位置,但截断操作本身也是不可微的——哪些 item 进入 Top-K 取决于离散的选择。
- 计算效率(Computational Cost):精确计算排序需要 $O(n \log n)$ 复杂度,在工业级百万候选场景下成本过高。
传统做法是用 pointwise(如 BCE)或 pairwise(如 BPR)损失作为代理,但这些代理与 NDCG 之间存在系统性的目标不对齐。下面的论文正是为了缩小这个 gap 而生。
2. 直接优化 NDCG@K 的代理损失
2.1 PSL: Pairwise Softmax Loss
论文: PSL: Rethinking and Improving Softmax Loss from Pairwise Perspective for Recommendation
链接: https://arxiv.org/abs/2411.00163
机构: 浙江大学
作者: Weiqin Yang, Jiawei Chen, Xin Xin, Sheng Zhou, Binbin Hu, Yan Feng, Chun Chen, Can Wang
发表: NeurIPS 2024
动机与核心思想:
Softmax Loss (SL) 是推荐系统中最广泛使用的损失函数之一。PSL 从 pairwise 视角重新分析 SL,揭示了两个根本局限:
- SL 与 DCG 的关系不够紧——exp 函数的增长速度过快,使得少数”困难负样本”主导梯度;
- SL 对假负样本(false negatives)高度敏感——exp 放大了噪声样本的损失贡献。
PSL 的做法极其简洁:用更温和的激活函数(ReLU、Tanh、Arctan)替换 SL 中的 exp。形式化地,标准 SL 可以写成:
\[\mathcal{L}_{\text{SL}} = -\log \frac{\exp(s_+)}{\exp(s_+) + \sum_{j \in \mathcal{N}} \exp(s_j)}\]PSL 将其推广为:
\[\mathcal{L}_{\text{PSL}} = -\log \frac{\sigma(s_+)}{\sigma(s_+) + \sum_{j \in \mathcal{N}} \sigma(s_j)}\]其中 $\sigma$ 为满足 $\delta(x) \le \sigma(x) \le \exp(x)$ 的激活函数。论文证明了三条性质:
- 更紧的 DCG 代理:PSL 是比 SL 更紧的 DCG 上界;
- 更均衡的梯度分配:温和激活抑制了困难负样本的梯度垄断;
- 等价于 DRO 增强的 BPR:优化 PSL 等价于在分布鲁棒框架下优化 BPR loss。
实验:在 4 个数据集上,PSL(尤其是 PSL-Tanh)对 NDCG@20 相比 SL 显著提升,且在 OOD(分布外)场景下优势更明显。
2.2 SL@K: SoftmaxLoss@K
论文: Breaking the Top-K Barrier: Advancing Top-K Ranking Metrics Optimization in Recommender Systems
链接: https://doi.org/10.1145/3711896.3736866
机构: 浙江大学
作者: Weiqin Yang, Jiawei Chen, Shengjia Zhang, Peng Wu, Yuegang Sun, Yan Feng, Chun Chen, Can Wang
发表: KDD 2025
代码: https://github.com/Tiny-Snow/IR-Benchmark
动机与核心思想:
这是 PSL 的直接后续。PSL 解决了”代理与 DCG 的紧密度”问题,但仍然没有处理 Top-K 截断——模型训练时优化的是所有位置,但评估时只关注前 K 个。SL@K 同时攻克两个挑战:
Quantile-based Top-K Truncation:引入 Top-K 分位数阈值 $\tau_K$,只对分数高于 $\tau_K$ 的 item 施加损失。关键在于 $\tau_K$ 不需要精确排序——用 Gumbel-Max 技巧从分数分布中高效估计。
平滑上界推导:对截断后的 NDCG@K 应用 Jensen 不等式推导出平滑可微的上界:
其中 $G(r_i)$ 是 NDCG 的增益权重,$\tau_K$ 是可学习的分位数阈值。
优势:
- 理论保证:$\mathcal{L}_{\text{SL@K}}$ 是 $1 - \text{NDCG@K}$ 的上界;
- 实现简单:相比 LambdaLoss@K 不需要精确排序,相比 SONG@K 无需双层优化;
- 梯度稳定:不存在 LambdaLoss 那种极端偏斜的梯度分布。
实验:在 4 个数据集、3 个 backbone(SASRec、GRU4Rec、BERT4Rec)上,SL@K 平均提升 NDCG@20 达 6.03%,相比 SONG@K 提升超 70%,相比 LambdaLoss@K 提升约 13%。同时在 LTR(学习排序)和 Link Prediction 任务上也验证了通用性。
2.3 SONG / K-SONG
论文: Large-scale Stochastic Optimization of NDCG Surrogates for Deep Learning with Provable Convergence
链接: https://proceedings.mlr.press/v162/qiu22a.html
机构: University of Iowa
发表: ICML 2022(原版),Machine Learning Journal 2024(扩展版,标题加 “Optimal”)
代码: https://libauc.org
动机与核心思想:
在 SL@K 之前,SONG 是直接优化 NDCG 代理的标杆工作。其核心贡献是把 NDCG 优化拆解成组合优化问题:
- NDCG 优化 → 有限和耦合组合优化(FCCO):内层函数估计排序位置,外层优化 NDCG 代理;
- Top-K NDCG 优化 → 双层组合优化:下层做 Top-K 选择,上层优化截断后的 NDCG。
基于此构造了 SONG 和 K-SONG 两个算法,使用 momentum-style 更新和 moving average 估计器。关键性质是 每次迭代复杂度仅 $O(Bd)$($B$ 为 batch size,$d$ 为维度),不再与总 item 数成正比。收敛复杂度 $O(\epsilon^{-4})$ 优于先前方法。
在 2025 视角下的定位:SONG 有严格的理论保证,但在推荐系统的实际效果上被 SL@K 显著超越(SL@K 论文报告 NDCG@20 提升 70%+)。主要原因是 SONG 的代理虽然理论优美,但在高 noise 的推荐数据上梯度信号较弱。
3. 可微分 Top-K 算子与排序驱动架构
3.1 DFTopK: Differentiable Fast Top-K
论文: Differentiable Fast Top-K Selection for Large-Scale Recommendation
链接: https://arxiv.org/abs/2510.11472
时间: 2025 年 10 月
来源: 工业界(具体机构未明确)
动机与核心思想:
工业推荐系统的级联排序(cascade ranking)需要在各阶段做 Top-K 选择,但 Top-K 算子不可微,阻碍了端到端训练。现有的解决思路有:
- LambdaLoss 系列:优化排序指标但存在目标不对齐;
- 可微排序方法(ARF、LCRON):通过松弛置换矩阵间接做 Top-K,但矩阵聚合引入梯度冲突;
- LapSum:$O(n \log n)$ 的可微 Top-K,但仍需排序。
DFTopK 的关键创新是 放松归一化约束,获得 Top-K 选择的闭合解(closed-form):
\[\hat{\mathbf{m}} = \text{sigmoid}\left(\frac{\mathbf{s} - \tau}{\alpha}\right)\]其中 $\tau$ 是自适应阈值(通过牛顿法在 $O(n)$ 内求解,使 $\sum \hat{m}_i \approx K$),$\alpha$ 控制温度。整个操作不需要排序。
实验:在公开 benchmark RecFlow 和工业系统上验证。线上 A/B 测试中,相同算力预算下 收入提升 +1.77%。据作者宣称是首个将可微 Top-K 算子引入推荐系统的工作。
3.2 TopKGAT
论文: TopKGAT: A Top-K Objective-Driven Architecture for Recommendation
链接: https://arxiv.org/abs/2601.18432
机构: 浙江大学
发表: WWW 2026
动机与核心思想:
TopKGAT 提出了一个更激进的思路:从 Top-K 指标的可微近似中直接推导出模型架构,而不是在已有架构上套一个 Top-K 损失。
核心观察是:对 Precision@K 做梯度上升的更新公式,其结构天然类似图注意力网络(GAT)的消息传递。因此:
- 用 quantile 阈值将离散的 Top-K 选择松弛为连续形式;
- 将松弛后 Precision@K 的梯度上升步写成 attention + 带通激活的形式;
- 直接把这个”梯度步”作为模型的一层——堆叠多层就得到 TopKGAT。
关键组件:
- 可学习阈值 $\tau$:区分”边界附近”的 item(模型应集中关注的区域);
- 带通激活函数(bandpass activation):对远高于或远低于阈值的 item 抑制梯度,集中优化排序边界。
实验:4 个 benchmark 数据集上全面超越 SOTA 基线,且收敛速度更快。
4. Listwise 偏好优化
这一类工作的共同特征是把 偏好学习(preference optimization)从 pairwise 扩展到 listwise,使模型能从完整排序列表中学习,而非仅从正/负样本对中学习。
4.1 LiPO-λ
论文: LiPO: Listwise Preference Optimization through Learning-to-Rank
链接: https://aclanthology.org/2025.naacl-long.121/
机构: Google Research
作者: Misha Khalman, Yao Zhao, Jialu Liu, Peter Liu
发表: NAACL 2025
动机与核心思想:
DPO 及其变体只利用 pairwise 偏好(list size = 2),而现实中人类反馈通常是一个 排序列表(多个响应按质量排列)。LiPO 指出:
- DPO = list size 为 2 的 listwise 排序中用 RankNet loss 的特例;
- SLiC = ListMLE 的特例。
因此可以把 LLM 对齐统一建模为 listwise LTR 问题,并借用整个 LTR 工具箱。LiPO 框架下测试了多种 LTR loss(ListNet、ListMLE、RankNet 等),最终发现 LiPO-λ(基于 LambdaLoss)效果最好:
\[\mathcal{L}_{\text{LiPO-}\lambda} = \mathbb{E}_{x, y, \psi \sim \mathcal{D}} \left[\sum_{\psi_i > \psi_j} \Delta_{i,j} \cdot \log(1 + e^{-(s_i - s_j)})\right]\]| 其中 $\Delta_{i,j}$ 是 swap 两个位置后的 NDCG 变化量(即 Lambda 权重),$s_i = \beta \log \frac{\pi_\theta(y_i | x)}{\pi_{\text{ref}}(y_i | x)}$ 是 policy score。 |
关键发现:LiPO-λ 是唯一能随 list size 增大而持续获益的方法。DPO 和 SLiC 在 list size > 2 时改进不大甚至下降。
4.2 OPO: Ordinal Preference Optimization
论文: Ordinal Preference Optimization: Aligning Human Preferences via NDCG
链接: https://arxiv.org/abs/2410.04346
发表: Submitted to ICLR 2025
代码: https://github.com/zhaoyang02/ordinal-preference-optimization
动机与核心思想:
OPO 与 LiPO 思路类似但实现路径不同。其核心是:
- 直接用 NDCG 作为对齐目标(而不是用 Lambda 权重间接逼近);
- 由于 NDCG 不可微,采用 NeuralNDCG(基于 NeuralSort 的可微排序松弛)作为代理 loss;
- 利用 ordinal reward(序数奖励)中的相对间距信息——标签 (0.99, 0.50, 0.01) 和 (0.51, 0.50, 0.49) 应该被区别对待,而非仅看排列顺序。
OPO 还发现:增加负样本池可以有效减少 trivial negatives 的不良影响,在 AlpacaEval 上显著优于 DPO 及其他 listwise 方法。
4.3 DRPO: Direct Ranking Preference Optimization
论文: Optimizing Preference Alignment with Differentiable NDCG Ranking
链接: https://arxiv.org/abs/2410.18127
发表: Submitted to ICLR 2025
代码: https://github.com/choucaicai/drpo-align
动机与核心思想:
DRPO 提出了另一条实现”可微 NDCG”的技术路线——可微排序网络(Differentiable Sorting Networks)。相比 OPO 用 NeuralSort 做软置换矩阵,DRPO 用排序网络(Sorting Network)产生 双随机置换矩阵(doubly stochastic permutation matrix),具有更好的计算效率和数值稳定性。
三个核心组件:
- Adaptive Rank Policy Score:为每个响应计算排序分数,并动态调整 preferred 和 non-preferred 之间的 margin;
- Differentiable Sorting:用排序网络对分数排序,得到可微的置换矩阵 $\mathbf{P}$;
- diffNDCG Loss:基于 $\mathbf{P}$ 计算可微的 NDCG 近似并直接作为 loss。
其中 $D(\mathbf{P}_{:,i})$ 是基于置换矩阵的软折扣权重。
4.4 LPO4REC
论文: Listwise Preference Alignment Optimization for Sequential Recommendation
链接: https://arxiv.org/abs/2507.02255
时间: 2025 年 7 月
动机与核心思想:
LPO4REC 将偏好对齐优化直接嵌入序列推荐框架(如 SASRec),而非 LLM 对齐场景。其核心创新:
从 pairwise 到 listwise 的 Bradley-Terry 扩展:经典 BT 模型只比较两个选项,LPO4REC 将其自然推广到 listwise 比较,推导出 closed-form optimal policy——不需要显式的 reward model。
自适应负采样 + 尾部加权:对 tail item(长尾物品)使用更高的采样权重和 loss 放大,改善长尾推荐性能。
实验:在 Amazon Beauty/Sports 等数据集上,HR 和 NDCG 指标相比 DPO 最高提升 50%,GPU 内存使用减少 17%。
5. LLM 驱动的推荐排序
5.1 R2Rank: Reasoning to Rank
论文: Reasoning to Rank: An End-to-End Solution for Exploiting Large Language Models for Recommendation
链接: https://arxiv.org/abs/2602.12530
时间: 2025 年 2 月
动机与核心思想:
当 LLM 被用于推荐排序时,面临两个核心障碍:
- Position Bias:LLM 直接做 listwise 推理时,对输入中 item 的物理位置敏感而非对相关度敏感;
- 目标不对齐:next-token prediction 的 cross-entropy 与推荐的 NDCG 没有直接联系。
R2Rank 的解决方案是 将推理与排序解耦,再通过 RL 对齐:
- Pointwise Reasoning:对每个候选 item 独立生成 CoT 推理 + 标量相关度分数(消除 position bias);
- Plackett-Luce Differentiable Ranking:把 $n$ 个分数映射为 PL 分布上的排列概率:
- RL 反向传播 NDCG Reward:用 PPO 更新 LLM 参数,用 REINFORCE 更新 scoring head,reward 就是列表级的 NDCG。
冷启动:用 self-reflective SFT(模型自我验证生成的推理是否对应正确排序)初始化推理能力。
实验:在 3 个 Amazon 数据集 + 1 个工业数据集上,NDCG@10 一致达到最优或接近最优。
5.2 RLPO: Residual Listwise Preference Optimization
论文: RLPO: Residual Listwise Preference Optimization for Long-Context Review Ranking
链接: https://arxiv.org/abs/2601.07449
时间: 2026 年 1 月
动机与核心思想:
在长上下文排序场景(如电商评论排序,候选列表可达 50+ 条),pointwise 和 listwise 方法各有缺陷:
- Pointwise:高效但忽略 item 间交互,导致 Top-K 排序不校准;
- Listwise:能捕获全局依赖但计算开销随 list 长度剧增,且训练不稳定。
RLPO 的思路是 “先 pointwise 打分,再 listwise 残差修正”:
- Stage 1:fine-tuned LLM 对每条评论生成 calibrated pointwise 分数 + 紧凑表示向量;
- Stage 2:轻量级 set encoder 在表示序列上 attend,预测 listwise 残差(对 pointwise 分数的修正量);
- 最终分数 = pointwise score + residual。
这种解耦设计保留了 pointwise 的可扩展性,同时用低成本注入 list-level context。随 list 长度增加,RLPO 的 NDCG@K 优势相比纯 pointwise 或纯 listwise 方法更加显著。
6. Diffusion 模型 + Listwise 排序
6.1 LPDO: Listwise Preference Diffusion Optimization
论文: Listwise Preference Diffusion Optimization for User Behavior Trajectories Prediction
链接: https://arxiv.org/abs/2511.00530
时间: 2025 年 11 月
动机与核心思想:
LPDO 面向的是一个更具挑战性的任务——用户行为轨迹预测(UBTP):不仅预测下一个 item,而是预测未来一整条交互序列。传统 diffusion-based 序列推荐方法(如 DiffuRec、DREAM)只优化重建保真度(reconstruction fidelity),缺乏对序列内部排序结构的显式建模。
LPDO 的创新是 将 Plackett-Luce 排序信号注入 Diffusion 的 ELBO:
\[\mathcal{L}_{\text{LPDO}} = \underbrace{\mathcal{L}_{\text{recon}}}_{\text{重建保真度}} + \lambda \cdot \underbrace{\mathcal{L}_{\text{PL}}}_{\text{listwise 排序似然}}\]其中 PL 项强制模型在每个时间步上,正确 item 的 “去噪概率” 应高于其他候选。论文推导出一个紧的变分下界,使两个目标可以在统一框架下联合优化。
评估指标创新:提出 SeqNDCG(序列级 NDCG),用各位置 NDCG 的几何平均衡量整条轨迹的排序质量;以及 SeqMatch 强制各时间步严格一致。
7. 高效 Listwise Reranking
7.1 E2Rank
论文: E2Rank: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker
链接: https://arxiv.org/abs/2510.22733
机构: 阿里巴巴 NLP
代码: https://github.com/Alibaba-NLP/E2Rank
时间: 2025 年 10 月
动机与核心思想:
LLM-based listwise reranker(如 RankGPT、RankQwen3)效果好但延迟高——需要生成式地输出排序序列。E2Rank 提出:一个 embedding 模型就够了。
核心设计:
- Listwise Prompt:将 query 和 Top-K 候选文档拼接成一个 “listwise prompt”,输入 embedding 模型得到一个 增强的 pseudo query embedding(类似 pseudo-relevance feedback);
- Cosine Reranking:用 pseudo query embedding 与各候选文档的独立 embedding 做 cosine similarity 排序;
- Multi-task Training:同时用 contrastive loss(检索)和 RankNet loss(排序)联合训练。
优势:
- 文档 embedding 可离线计算,线上仅需编码一次 listwise prompt;
- BEIR benchmark 上 NDCG@10 达到 SOTA;
- 延迟仅为 RankQwen3 的 1/5(8B 模型比 RankQwen3-0.6B 还快)。
8. 总结与趋势展望
8.1 全景对比
| 论文 | 发表 | 核心技术路线 | 面向场景 | 优化目标 |
|---|---|---|---|---|
| PSL | NeurIPS 2024 | 替换 exp → 更紧 DCG 代理 | 通用推荐 | DCG 代理 |
| SL@K | KDD 2025 | Quantile + Jensen 上界 | 序列推荐 / LTR | NDCG@K |
| SONG | ICML 2022 / MLJ 2024 | FCCO + 双层组合优化 | 通用 LTR | NDCG / Top-K NDCG |
| DFTopK | arXiv 2025.10 | 闭合解可微 Top-K | 工业级联排序 | 端到端 Top-K |
| TopKGAT | WWW 2026 | Top-K 梯度 → GNN 架构 | 图推荐 | Precision@K |
| LiPO-λ | NAACL 2025 | LambdaLoss + listwise | LLM 对齐 | Lambda-NDCG |
| OPO | ICLR 2025 sub | NeuralNDCG 代理 | LLM 对齐 | NDCG |
| DRPO | ICLR 2025 sub | Sorting Network + diffNDCG | LLM 对齐 | diffNDCG |
| LPO4REC | arXiv 2025.07 | Listwise BT closed-form | 序列推荐 | Listwise 偏好 |
| R2Rank | arXiv 2025.02 | CoT + PL + RL | LLM 推荐 | NDCG reward |
| RLPO | arXiv 2026.01 | Pointwise + listwise 残差 | 长上下文排序 | NDCG@K |
| LPDO | arXiv 2025.11 | PL + Diffusion ELBO | 行为轨迹预测 | SeqNDCG |
| E2Rank | arXiv 2025.10 | Listwise prompt + RankNet | 检索 reranking | NDCG@10 |
8.2 趋势观察
趋势一:从”间接代理”到”直接优化”。早期的 BPR、Softmax Loss 只是 NDCG 的松散代理;PSL 收紧了代理关系;SL@K 则几乎直接优化 NDCG@K 本身。这条”逼近 NDCG”的路线在 2025 年基本走通。
趋势二:LTR 技术大规模回流推荐/LLM。LambdaLoss、Plackett-Luce、NeuralSort 这些经典 LTR 工具在 2024–2025 被密集地迁移到 LLM 对齐(LiPO、OPO、DRPO)和生成式推荐(R2Rank、LPO4REC)中。这说明 Learning to Rank 这个”老领域”在 LLM 时代反而获得了新生。
趋势三:可微分算子作为建模 primitive。DFTopK 和 TopKGAT 代表了一种新思路——不再是”设计 loss 让模型间接学好排序”,而是”把排序指标的梯度结构直接编码进模型架构或前向计算”。这可能是下一步更根本的方向。
趋势四:效率成为硬约束。E2Rank 5x 加速、DFTopK O(n) 复杂度、RLPO 的残差修正设计——所有这些都在说明一个事实:学术上追求 NDCG 最优不难,但要在工业级延迟和计算预算约束下做到才有真正价值。
趋势五:评估维度从”单点”到”序列”。LPDO 提出 SeqNDCG 衡量整条轨迹的排序质量,暗示未来的推荐系统不仅需要”当前列表排好”,还需要”未来一系列推荐持续排好”——这是一个全新的优化维度。