推荐系统序列建模中的 NDCG 优化：2024–2026 高影响力论文盘点

Posted Jun 15, 2026

By li.yaozong

25 min read

从 2024 年下半年到 2026 年上半年，推荐系统领域出现了一批直接面向 list 排序质量、尤其是显式优化 NDCG@K 的研究工作。这些工作横跨代理损失设计、可微分 Top-K 算子、Listwise 偏好优化、LLM 排序、Diffusion 建模等多个方向，形成了一张相当完整的技术图谱。本文按方法论分类，逐篇梳理其动机、核心方法和关键结论。

1. 为什么要直接优化 NDCG？

NDCG（Normalized Discounted Cumulative Gain）是推荐系统和信息检索中衡量排序质量的金标准指标。给定一个推荐列表，其 DCG@K 定义为：

\[\text{DCG@K} = \sum_{i=1}^{K} \frac{2^{r_i} - 1}{\log_2(i+1)}\]

其中 $r_i$ 是位置 $i$ 上 item 的相关度。NDCG 是 DCG 除以理想排序下的 IDCG，取值 $[0, 1]$。

然而，直接优化 NDCG 面临三个根本性挑战：

不可微性（Non-differentiability）：NDCG 依赖于排序位置（rank），而排序操作是离散的，梯度要么为零、要么不存在。
Top-K 截断（Top-K Truncation）：实际场景只关注前 $K$ 个位置，但截断操作本身也是不可微的——哪些 item 进入 Top-K 取决于离散的选择。
计算效率（Computational Cost）：精确计算排序需要 $O(n \log n)$ 复杂度，在工业级百万候选场景下成本过高。

传统做法是用 pointwise（如 BCE）或 pairwise（如 BPR）损失作为代理，但这些代理与 NDCG 之间存在系统性的目标不对齐。下面的论文正是为了缩小这个 gap 而生。

2. 直接优化 NDCG@K 的代理损失

2.1 PSL: Pairwise Softmax Loss

论文: PSL: Rethinking and Improving Softmax Loss from Pairwise Perspective for Recommendation
链接: https://arxiv.org/abs/2411.00163
机构: 浙江大学
作者: Weiqin Yang, Jiawei Chen, Xin Xin, Sheng Zhou, Binbin Hu, Yan Feng, Chun Chen, Can Wang
发表: NeurIPS 2024

动机与核心思想：

Softmax Loss (SL) 是推荐系统中最广泛使用的损失函数之一。PSL 从 pairwise 视角重新分析 SL，揭示了两个根本局限：

SL 与 DCG 的关系不够紧——exp 函数的增长速度过快，使得少数”困难负样本”主导梯度；
SL 对假负样本（false negatives）高度敏感——exp 放大了噪声样本的损失贡献。

PSL 的做法极其简洁：用更温和的激活函数（ReLU、Tanh、Arctan）替换 SL 中的 exp。形式化地，标准 SL 可以写成：

\[\mathcal{L}_{\text{SL}} = -\log \frac{\exp(s_+)}{\exp(s_+) + \sum_{j \in \mathcal{N}} \exp(s_j)}\]

PSL 将其推广为：

\[\mathcal{L}_{\text{PSL}} = -\log \frac{\sigma(s_+)}{\sigma(s_+) + \sum_{j \in \mathcal{N}} \sigma(s_j)}\]

其中 $\sigma$ 为满足 $\delta(x) \le \sigma(x) \le \exp(x)$ 的激活函数。论文证明了三条性质：

更紧的 DCG 代理：PSL 是比 SL 更紧的 DCG 上界；
更均衡的梯度分配：温和激活抑制了困难负样本的梯度垄断；
等价于 DRO 增强的 BPR：优化 PSL 等价于在分布鲁棒框架下优化 BPR loss。

实验：在 4 个数据集上，PSL（尤其是 PSL-Tanh）对 NDCG@20 相比 SL 显著提升，且在 OOD（分布外）场景下优势更明显。

2.2 SL@K: SoftmaxLoss@K

论文: Breaking the Top-K Barrier: Advancing Top-K Ranking Metrics Optimization in Recommender Systems
链接: https://doi.org/10.1145/3711896.3736866
机构: 浙江大学
作者: Weiqin Yang, Jiawei Chen, Shengjia Zhang, Peng Wu, Yuegang Sun, Yan Feng, Chun Chen, Can Wang
发表: KDD 2025
代码: https://github.com/Tiny-Snow/IR-Benchmark

动机与核心思想：

这是 PSL 的直接后续。PSL 解决了”代理与 DCG 的紧密度”问题，但仍然没有处理 Top-K 截断——模型训练时优化的是所有位置，但评估时只关注前 K 个。SL@K 同时攻克两个挑战：

Quantile-based Top-K Truncation：引入 Top-K 分位数阈值 $\tau_K$，只对分数高于 $\tau_K$ 的 item 施加损失。关键在于 $\tau_K$ 不需要精确排序——用 Gumbel-Max 技巧从分数分布中高效估计。
平滑上界推导：对截断后的 NDCG@K 应用 Jensen 不等式推导出平滑可微的上界：

\[\mathcal{L}_{\text{SL@K}} = -\sum_{i: s_i \ge \tau_K} G(r_i) \cdot \log \frac{\sigma(s_i)}{\sum_{j: s_j \ge \tau_K} \sigma(s_j)}\]

其中 $G(r_i)$ 是 NDCG 的增益权重，$\tau_K$ 是可学习的分位数阈值。

优势：

理论保证：$\mathcal{L}_{\text{SL@K}}$ 是 $1 - \text{NDCG@K}$ 的上界；
实现简单：相比 LambdaLoss@K 不需要精确排序，相比 SONG@K 无需双层优化；
梯度稳定：不存在 LambdaLoss 那种极端偏斜的梯度分布。

实验：在 4 个数据集、3 个 backbone（SASRec、GRU4Rec、BERT4Rec）上，SL@K 平均提升 NDCG@20 达 6.03%，相比 SONG@K 提升超 70%，相比 LambdaLoss@K 提升约 13%。同时在 LTR（学习排序）和 Link Prediction 任务上也验证了通用性。

2.3 SONG / K-SONG

论文: Large-scale Stochastic Optimization of NDCG Surrogates for Deep Learning with Provable Convergence
链接: https://proceedings.mlr.press/v162/qiu22a.html
机构: University of Iowa
发表: ICML 2022（原版），Machine Learning Journal 2024（扩展版，标题加 “Optimal”）
代码: https://libauc.org

动机与核心思想：

在 SL@K 之前，SONG 是直接优化 NDCG 代理的标杆工作。其核心贡献是把 NDCG 优化拆解成组合优化问题：

NDCG 优化 → 有限和耦合组合优化（FCCO）：内层函数估计排序位置，外层优化 NDCG 代理；
Top-K NDCG 优化 → 双层组合优化：下层做 Top-K 选择，上层优化截断后的 NDCG。

基于此构造了 SONG 和 K-SONG 两个算法，使用 momentum-style 更新和 moving average 估计器。关键性质是 每次迭代复杂度仅 $O(Bd)$（$B$ 为 batch size，$d$ 为维度），不再与总 item 数成正比。收敛复杂度 $O(\epsilon^{-4})$ 优于先前方法。

在 2025 视角下的定位：SONG 有严格的理论保证，但在推荐系统的实际效果上被 SL@K 显著超越（SL@K 论文报告 NDCG@20 提升 70%+）。主要原因是 SONG 的代理虽然理论优美，但在高 noise 的推荐数据上梯度信号较弱。

3. 可微分 Top-K 算子与排序驱动架构

3.1 DFTopK: Differentiable Fast Top-K

论文: Differentiable Fast Top-K Selection for Large-Scale Recommendation
链接: https://arxiv.org/abs/2510.11472
时间: 2025 年 10 月
来源: 工业界（具体机构未明确）

动机与核心思想：

工业推荐系统的级联排序（cascade ranking）需要在各阶段做 Top-K 选择，但 Top-K 算子不可微，阻碍了端到端训练。现有的解决思路有：

LambdaLoss 系列：优化排序指标但存在目标不对齐；
可微排序方法（ARF、LCRON）：通过松弛置换矩阵间接做 Top-K，但矩阵聚合引入梯度冲突；
LapSum：$O(n \log n)$ 的可微 Top-K，但仍需排序。

DFTopK 的关键创新是 放松归一化约束，获得 Top-K 选择的闭合解（closed-form）：

\[\hat{\mathbf{m}} = \text{sigmoid}\left(\frac{\mathbf{s} - \tau}{\alpha}\right)\]

其中 $\tau$ 是自适应阈值（通过牛顿法在 $O(n)$ 内求解，使 $\sum \hat{m}_i \approx K$），$\alpha$ 控制温度。整个操作不需要排序。

实验：在公开 benchmark RecFlow 和工业系统上验证。线上 A/B 测试中，相同算力预算下 收入提升 +1.77%。据作者宣称是首个将可微 Top-K 算子引入推荐系统的工作。

3.2 TopKGAT

论文: TopKGAT: A Top-K Objective-Driven Architecture for Recommendation
链接: https://arxiv.org/abs/2601.18432
机构: 浙江大学
发表: WWW 2026

动机与核心思想：

TopKGAT 提出了一个更激进的思路：从 Top-K 指标的可微近似中直接推导出模型架构，而不是在已有架构上套一个 Top-K 损失。

核心观察是：对 Precision@K 做梯度上升的更新公式，其结构天然类似图注意力网络（GAT）的消息传递。因此：

用 quantile 阈值将离散的 Top-K 选择松弛为连续形式；
将松弛后 Precision@K 的梯度上升步写成 attention + 带通激活的形式；
直接把这个”梯度步”作为模型的一层——堆叠多层就得到 TopKGAT。

关键组件：

可学习阈值 $\tau$：区分”边界附近”的 item（模型应集中关注的区域）；
带通激活函数（bandpass activation）：对远高于或远低于阈值的 item 抑制梯度，集中优化排序边界。

实验：4 个 benchmark 数据集上全面超越 SOTA 基线，且收敛速度更快。

4. Listwise 偏好优化

这一类工作的共同特征是把 偏好学习（preference optimization）从 pairwise 扩展到 listwise，使模型能从完整排序列表中学习，而非仅从正/负样本对中学习。

4.1 LiPO-λ

论文: LiPO: Listwise Preference Optimization through Learning-to-Rank
链接: https://aclanthology.org/2025.naacl-long.121/
机构: Google Research
作者: Misha Khalman, Yao Zhao, Jialu Liu, Peter Liu
发表: NAACL 2025

动机与核心思想：

DPO 及其变体只利用 pairwise 偏好（list size = 2），而现实中人类反馈通常是一个 排序列表（多个响应按质量排列）。LiPO 指出：

DPO = list size 为 2 的 listwise 排序中用 RankNet loss 的特例；
SLiC = ListMLE 的特例。

因此可以把 LLM 对齐统一建模为 listwise LTR 问题，并借用整个 LTR 工具箱。LiPO 框架下测试了多种 LTR loss（ListNet、ListMLE、RankNet 等），最终发现 LiPO-λ（基于 LambdaLoss）效果最好：

\[\mathcal{L}_{\text{LiPO-}\lambda} = \mathbb{E}_{x, y, \psi \sim \mathcal{D}} \left[\sum_{\psi_i > \psi_j} \Delta_{i,j} \cdot \log(1 + e^{-(s_i - s_j)})\right]\]

其中 $\Delta_{i,j}$ 是 swap 两个位置后的 NDCG 变化量（即 Lambda 权重），$s_i = \beta \log \frac{\pi_\theta(y_i

x)}{\pi_{\text{ref}}(y_i

x)}$ 是 policy score。

关键发现：LiPO-λ 是唯一能随 list size 增大而持续获益的方法。DPO 和 SLiC 在 list size > 2 时改进不大甚至下降。

4.2 OPO: Ordinal Preference Optimization

论文: Ordinal Preference Optimization: Aligning Human Preferences via NDCG
链接: https://arxiv.org/abs/2410.04346
发表: Submitted to ICLR 2025
代码: https://github.com/zhaoyang02/ordinal-preference-optimization

动机与核心思想：

OPO 与 LiPO 思路类似但实现路径不同。其核心是：

直接用 NDCG 作为对齐目标（而不是用 Lambda 权重间接逼近）；
由于 NDCG 不可微，采用 NeuralNDCG（基于 NeuralSort 的可微排序松弛）作为代理 loss；
利用 ordinal reward（序数奖励）中的相对间距信息——标签 (0.99, 0.50, 0.01) 和 (0.51, 0.50, 0.49) 应该被区别对待，而非仅看排列顺序。

OPO 还发现：增加负样本池可以有效减少 trivial negatives 的不良影响，在 AlpacaEval 上显著优于 DPO 及其他 listwise 方法。

4.3 DRPO: Direct Ranking Preference Optimization

论文: Optimizing Preference Alignment with Differentiable NDCG Ranking
链接: https://arxiv.org/abs/2410.18127
发表: Submitted to ICLR 2025
代码: https://github.com/choucaicai/drpo-align

动机与核心思想：

DRPO 提出了另一条实现”可微 NDCG”的技术路线——可微排序网络（Differentiable Sorting Networks）。相比 OPO 用 NeuralSort 做软置换矩阵，DRPO 用排序网络（Sorting Network）产生 双随机置换矩阵（doubly stochastic permutation matrix），具有更好的计算效率和数值稳定性。

三个核心组件：

Adaptive Rank Policy Score：为每个响应计算排序分数，并动态调整 preferred 和 non-preferred 之间的 margin；
Differentiable Sorting：用排序网络对分数排序，得到可微的置换矩阵 $\mathbf{P}$；
diffNDCG Loss：基于 $\mathbf{P}$ 计算可微的 NDCG 近似并直接作为 loss。

\[\text{diffNDCG} = \frac{\sum_{i=1}^{n} G(r_i) \cdot D(\mathbf{P}_{:,i})}{\text{IDCG}}\]

其中 $D(\mathbf{P}_{:,i})$ 是基于置换矩阵的软折扣权重。

4.4 LPO4REC

论文: Listwise Preference Alignment Optimization for Sequential Recommendation
链接: https://arxiv.org/abs/2507.02255
时间: 2025 年 7 月

动机与核心思想：

LPO4REC 将偏好对齐优化直接嵌入序列推荐框架（如 SASRec），而非 LLM 对齐场景。其核心创新：

从 pairwise 到 listwise 的 Bradley-Terry 扩展：经典 BT 模型只比较两个选项，LPO4REC 将其自然推广到 listwise 比较，推导出 closed-form optimal policy——不需要显式的 reward model。
自适应负采样 + 尾部加权：对 tail item（长尾物品）使用更高的采样权重和 loss 放大，改善长尾推荐性能。

实验：在 Amazon Beauty/Sports 等数据集上，HR 和 NDCG 指标相比 DPO 最高提升 50%，GPU 内存使用减少 17%。

5. LLM 驱动的推荐排序

5.1 R2Rank: Reasoning to Rank

论文: Reasoning to Rank: An End-to-End Solution for Exploiting Large Language Models for Recommendation
链接: https://arxiv.org/abs/2602.12530
时间: 2025 年 2 月

动机与核心思想：

当 LLM 被用于推荐排序时，面临两个核心障碍：

Position Bias：LLM 直接做 listwise 推理时，对输入中 item 的物理位置敏感而非对相关度敏感；
目标不对齐：next-token prediction 的 cross-entropy 与推荐的 NDCG 没有直接联系。

R2Rank 的解决方案是 将推理与排序解耦，再通过 RL 对齐：

Pointwise Reasoning：对每个候选 item 独立生成 CoT 推理 + 标量相关度分数（消除 position bias）；
Plackett-Luce Differentiable Ranking：把 $n$ 个分数映射为 PL 分布上的排列概率：

\[P(\pi | \mathbf{s}) = \prod_{i=1}^{n} \frac{\exp(s_{\pi(i)})}{\sum_{j=i}^{n} \exp(s_{\pi(j)})}\]

RL 反向传播 NDCG Reward：用 PPO 更新 LLM 参数，用 REINFORCE 更新 scoring head，reward 就是列表级的 NDCG。

\[\nabla_\theta J = \mathbb{E}_{\pi \sim P(\cdot|\mathbf{s})} \left[\text{NDCG}(\pi) \cdot \nabla_\theta \log P(\pi|\mathbf{s})\right]\]

冷启动：用 self-reflective SFT（模型自我验证生成的推理是否对应正确排序）初始化推理能力。

实验：在 3 个 Amazon 数据集 + 1 个工业数据集上，NDCG@10 一致达到最优或接近最优。

5.2 RLPO: Residual Listwise Preference Optimization

论文: RLPO: Residual Listwise Preference Optimization for Long-Context Review Ranking
链接: https://arxiv.org/abs/2601.07449
时间: 2026 年 1 月

动机与核心思想：

在长上下文排序场景（如电商评论排序，候选列表可达 50+ 条），pointwise 和 listwise 方法各有缺陷：

Pointwise：高效但忽略 item 间交互，导致 Top-K 排序不校准；
Listwise：能捕获全局依赖但计算开销随 list 长度剧增，且训练不稳定。

RLPO 的思路是 “先 pointwise 打分，再 listwise 残差修正”：

Stage 1：fine-tuned LLM 对每条评论生成 calibrated pointwise 分数 + 紧凑表示向量；
Stage 2：轻量级 set encoder 在表示序列上 attend，预测 listwise 残差（对 pointwise 分数的修正量）；
最终分数 = pointwise score + residual。

这种解耦设计保留了 pointwise 的可扩展性，同时用低成本注入 list-level context。随 list 长度增加，RLPO 的 NDCG@K 优势相比纯 pointwise 或纯 listwise 方法更加显著。

6. Diffusion 模型 + Listwise 排序

6.1 LPDO: Listwise Preference Diffusion Optimization

论文: Listwise Preference Diffusion Optimization for User Behavior Trajectories Prediction
链接: https://arxiv.org/abs/2511.00530
时间: 2025 年 11 月

动机与核心思想：

LPDO 面向的是一个更具挑战性的任务——用户行为轨迹预测（UBTP）：不仅预测下一个 item，而是预测未来一整条交互序列。传统 diffusion-based 序列推荐方法（如 DiffuRec、DREAM）只优化重建保真度（reconstruction fidelity），缺乏对序列内部排序结构的显式建模。

LPDO 的创新是 将 Plackett-Luce 排序信号注入 Diffusion 的 ELBO：

\[\mathcal{L}_{\text{LPDO}} = \underbrace{\mathcal{L}_{\text{recon}}}_{\text{重建保真度}} + \lambda \cdot \underbrace{\mathcal{L}_{\text{PL}}}_{\text{listwise 排序似然}}\]

其中 PL 项强制模型在每个时间步上，正确 item 的 “去噪概率” 应高于其他候选。论文推导出一个紧的变分下界，使两个目标可以在统一框架下联合优化。

评估指标创新：提出 SeqNDCG（序列级 NDCG），用各位置 NDCG 的几何平均衡量整条轨迹的排序质量；以及 SeqMatch 强制各时间步严格一致。

7. 高效 Listwise Reranking

7.1 E2Rank

论文: E2Rank: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker
链接: https://arxiv.org/abs/2510.22733
机构: 阿里巴巴 NLP
代码: https://github.com/Alibaba-NLP/E2Rank
时间: 2025 年 10 月

动机与核心思想：

LLM-based listwise reranker（如 RankGPT、RankQwen3）效果好但延迟高——需要生成式地输出排序序列。E2Rank 提出：一个 embedding 模型就够了。

核心设计：

Listwise Prompt：将 query 和 Top-K 候选文档拼接成一个 “listwise prompt”，输入 embedding 模型得到一个 增强的 pseudo query embedding（类似 pseudo-relevance feedback）；
Cosine Reranking：用 pseudo query embedding 与各候选文档的独立 embedding 做 cosine similarity 排序；
Multi-task Training：同时用 contrastive loss（检索）和 RankNet loss（排序）联合训练。

\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{contrastive}} + \lambda \cdot \mathcal{L}_{\text{RankNet}}\]

优势：

文档 embedding 可离线计算，线上仅需编码一次 listwise prompt；
BEIR benchmark 上 NDCG@10 达到 SOTA；
延迟仅为 RankQwen3 的 1/5（8B 模型比 RankQwen3-0.6B 还快）。

8. 总结与趋势展望

8.1 全景对比

论文	发表	核心技术路线	面向场景	优化目标
PSL	NeurIPS 2024	替换 exp → 更紧 DCG 代理	通用推荐	DCG 代理
SL@K	KDD 2025	Quantile + Jensen 上界	序列推荐 / LTR	NDCG@K
SONG	ICML 2022 / MLJ 2024	FCCO + 双层组合优化	通用 LTR	NDCG / Top-K NDCG
DFTopK	arXiv 2025.10	闭合解可微 Top-K	工业级联排序	端到端 Top-K
TopKGAT	WWW 2026	Top-K 梯度 → GNN 架构	图推荐	Precision@K
LiPO-λ	NAACL 2025	LambdaLoss + listwise	LLM 对齐	Lambda-NDCG
OPO	ICLR 2025 sub	NeuralNDCG 代理	LLM 对齐	NDCG
DRPO	ICLR 2025 sub	Sorting Network + diffNDCG	LLM 对齐	diffNDCG
LPO4REC	arXiv 2025.07	Listwise BT closed-form	序列推荐	Listwise 偏好
R2Rank	arXiv 2025.02	CoT + PL + RL	LLM 推荐	NDCG reward
RLPO	arXiv 2026.01	Pointwise + listwise 残差	长上下文排序	NDCG@K
LPDO	arXiv 2025.11	PL + Diffusion ELBO	行为轨迹预测	SeqNDCG
E2Rank	arXiv 2025.10	Listwise prompt + RankNet	检索 reranking	NDCG@10

8.2 趋势观察

趋势一：从”间接代理”到”直接优化”。早期的 BPR、Softmax Loss 只是 NDCG 的松散代理；PSL 收紧了代理关系；SL@K 则几乎直接优化 NDCG@K 本身。这条”逼近 NDCG”的路线在 2025 年基本走通。

趋势二：LTR 技术大规模回流推荐/LLM。LambdaLoss、Plackett-Luce、NeuralSort 这些经典 LTR 工具在 2024–2025 被密集地迁移到 LLM 对齐（LiPO、OPO、DRPO）和生成式推荐（R2Rank、LPO4REC）中。这说明 Learning to Rank 这个”老领域”在 LLM 时代反而获得了新生。

趋势三：可微分算子作为建模 primitive。DFTopK 和 TopKGAT 代表了一种新思路——不再是”设计 loss 让模型间接学好排序”，而是”把排序指标的梯度结构直接编码进模型架构或前向计算”。这可能是下一步更根本的方向。

趋势四：效率成为硬约束。E2Rank 5x 加速、DFTopK O(n) 复杂度、RLPO 的残差修正设计——所有这些都在说明一个事实：学术上追求 NDCG 最优不难，但要在工业级延迟和计算预算约束下做到才有真正价值。

趋势五：评估维度从”单点”到”序列”。LPDO 提出 SeqNDCG 衡量整条轨迹的排序质量，暗示未来的推荐系统不仅需要”当前列表排好”，还需要”未来一系列推荐持续排好”——这是一个全新的优化维度。

机器学习

This post is licensed under CC BY 4.0 by the author.

1. 为什么要直接优化 NDCG？

2. 直接优化 NDCG@K 的代理损失

2.1 PSL: Pairwise Softmax Loss

2.2 SL@K: SoftmaxLoss@K

2.3 SONG / K-SONG

3. 可微分 Top-K 算子与排序驱动架构

3.1 DFTopK: Differentiable Fast Top-K

3.2 TopKGAT

4. Listwise 偏好优化

4.1 LiPO-λ

4.2 OPO: Ordinal Preference Optimization

4.3 DRPO: Direct Ranking Preference Optimization

4.4 LPO4REC

5. LLM 驱动的推荐排序

5.1 R2Rank: Reasoning to Rank

5.2 RLPO: Residual Listwise Preference Optimization

6. Diffusion 模型 + Listwise 排序

6.1 LPDO: Listwise Preference Diffusion Optimization

7. 高效 Listwise Reranking

7.1 E2Rank

8. 总结与趋势展望

8.1 全景对比

8.2 趋势观察

Trending Tags