2026年4-5月推荐系统论文盘点：生成式推荐走向成熟

Posted May 11, 2026 Updated May 14, 2026

By li.yaozong

23 min read

2026年4-5月，推荐系统领域进入了一个集中爆发期。如果说年初（1-3月）是各家”亮剑”的阶段，那么4-5月的论文则更多体现出从探索到成熟的转变——生成式推荐开始直面工业部署的核心痛点（Scaling 瓶颈、训练效率、生成与判别的统一），Ranking 模型的 Scaling Law 被更系统地挖掘，而 Agent 化推荐也从蓝图走向了可落地的框架。

本文系统梳理2026年4-5月（arXiv 编号 2604/2605）推荐方向的代表性工作，覆盖生成式推荐演进、Semantic ID 新范式、工业 Ranking Scaling、CTR/广告、Agent 化推荐、数据集与基准等方向。

说明：本文聚焦 arXiv 编号为 2604/2605 的推荐方向论文。每篇论文标注机构、arXiv 编号、核心贡献、关键技术、业务效果。部分论文虽然 arXiv 时间略早但在4-5月引起广泛关注的，也纳入讨论。

1. 总体趋势概览

2026年4-5月的推荐论文呈现出以下趋势：

生成式推荐从”能用”到”好用”：GenRec（京东）、UniRec（阿里/Shopee）、RecoChain（快手）分别从偏好对齐、生成-判别统一、生成-排序统一三个角度解决 GR 的落地难题，标志着生成式推荐正式进入”第二阶段”。
Semantic ID 范式出现分化：CapsID 提出软路由+变长 ID 挑战硬量化范式，STAMP 解决高粒度 SID 训练效率问题，而 Scaling Law 研究直接质疑 SID 的信息容量上限——ID 范式正在被重新审视。
Ranking Scaling 进入”计算解耦”时代：LoopCTR 提出 Loop Scaling（训练多轮推理一次）、RankUp 解决深层表征坍塌、UniMixer 统一了多种 Scaling 架构的理论框架。
广告+推荐一体化成为新战场：Google 的 GEM-Rec 将竞价注入生成式解码，LLM-HYPER 用 LLM 做冷启动广告个性化。
Agent 推荐从蓝图到框架：CoARS 提出自蒸馏 RL 驱动的多轮 Agent 推荐，Sortify（Shopee）部署了 LLM 驱动的排序优化智能体。
腾讯开放大规模生成式推荐数据集：TencentGR-1M/10M 填补了工业级 GR 研究的数据空白。

2. 时间线总表

时间	机构	论文 / 系统	方向	arXiv
2026.04	快手	UniMixer	Ranking Scaling 统一理论	2604.00590
2026.04	美团	MBGR	多业务生成式推荐	2604.02684
2026.04	腾讯	TencentGR-1M/10M	全模态 GR 数据集+基准	2604.04976
2026.04	—	STAMP	SID 训练效率优化	2604.05329
2026.04	美团	NSGR	树状生成式重排	2604.05314
2026.04	阿里巴巴	SSR	显式稀疏大模型	2604.08011
2026.04	字节跳动	IAT	历史序列实例压缩	2604.08933
2026.04	Shopee	Sortify	LLM 驱动排序 Agent	2603.27765
2026.04	—	CoARS	自蒸馏 RL 的 Agent 推荐	2604.10029
2026.04	字节跳动	R3-VAE	SID 量化 VAE	2604.11440
2026.04	—	LLM-HYPER	LLM 冷启动广告 CTR	2604.12096
2026.04	阿里/Shopee	UniRec	生成-判别统一框架	2604.12234
2026.04	京东	GenRec	偏好对齐生成式召回	2604.14878
2026.04	腾讯/微信	RankUp	高秩表征抗坍塌	2604.17878
2026.04	—	LoopCTR	Loop Scaling 范式	2604.19550
2026.04	快手	RecoChain	生成-排序统一	2604.25787
2026.04	Google	GEM-Rec	竞价感知生成式推荐	2603.22231
2026.05	—	CapsID	软路由变长 Semantic ID	2605.05096

3. 生成式推荐：从”能用”到”好用”

这一阶段的核心主题是解决 GR 大规模落地的关键技术障碍。

3.1 GenRec：京东的偏好对齐生成式召回框架（2026年4月）

论文: GenRec: A Preference-Oriented Generative Framework for Large-Scale Recommendation
链接: https://arxiv.org/abs/2604.14878
机构: 京东
时间: 2026年4月

核心问题

生成式召回在大规模落地时面临三个痛点：（1）分页请求导致输出不一致；（2）长行为序列+多 token SID 带来计算爆炸；（3）生成策略与用户偏好信号不对齐。

核心贡献

Page-wise NTP：不再逐 item 监督，改为对整个交互页进行 Next-Token Prediction，提供更密集的梯度信号，解决 point-wise 训练的一对多歧义；
Asymmetric Token Merger：在 prefilling 阶段用线性 Token Merger 将多 token SID 压缩约 2 倍，解码时保留完整分辨率；
GRPO-SR：基于 GRPO + NLL 正则化的强化学习方法，混合 Dense Reward Model 和 Relevance Gate 防止 reward hacking。

业务效果

已在京东 App 部署，月度 A/B 测试：点击量 +9.5%、交易量 +8.7%。

3.2 UniRec：用贝叶斯定理统一生成与判别推荐（2026年4月）

论文: UniRec: Bridging the Expressive Gap between Generative and Discriminative Recommendation via Chain-of-Attribute
链接: https://arxiv.org/abs/2604.12234
机构: 阿里巴巴、Shopee
时间: 2026年4月

核心问题

生成式推荐在解码 SID 时无法直接访问 item 侧特征（品类、品牌、卖家等），而判别式模型天然具备 feature crossing 能力——这是一个架构层面的表达力缺口。

核心贡献

理论证明：用贝叶斯定理证明，生成式后验与判别式得分在排序上等价，前提是生成模型能自回归分解 item 特征；
Chain-of-Attribute（CoA）：在 SID 序列前拼接结构化属性 token（品类 → 卖家 → 品牌 → SID），恢复判别式模型的 feature crossing 能力；
离线实验相对 OneRec-V2 的 HR@50 +22.6%，高价值订单样本 +15.5%。

3.3 RecoChain：生成+排序一体化（2026年4月，快手）

论文: Harmonizing Generative Retrieval and Ranking in Chain-of-Recommendation
链接: https://arxiv.org/abs/2604.25787
机构: 快手（Kuaishou）、南京理工
时间: 2026年4月

核心问题

生成式推荐通过 beam search 产出候选 item（如256个），但无法有效评估哪些 item 更好——生成能力与排序能力脱节。

核心贡献

提出 RecoChain，在同一个 Transformer backbone 中集成候选生成和排序：

阶段一（生成）：通过分层 SID 预测生成候选集；
阶段二（排序）：基于 SIM 的排序估计每个候选的点击概率。

实现了”一个模型、两个阶段”的统一推荐链路。

4. Semantic ID：范式分化与反思

4.1 CapsID：软路由变长 Semantic ID（2026年5月）

论文: CapsID: Soft-Routed Variable-Length Semantic IDs for Generative Recommendation
链接: https://arxiv.org/abs/2605.05096
时间: 2026年5月

核心问题

现有 SID 基于硬残差量化（RQ-VAE），在聚类边界上会将多面语义压缩到单一码字，且早期量化误差会逐层传播。

核心贡献

Capsule Routing 替代硬量化：item 在每层概率性地路由到多个语义胶囊，残差由路由重构更新而非单一获胜码字；
变长 SID：当活跃胶囊的置信度足够高时终止生成，不同 item 生成不同长度的 ID；
SemanticBPE：基于共现频率和 embedding 兼容性，将相邻 SID token 组合为可复用子词。

实验效果

Recall@10 平均 +9.6%（相对 ReSID），推理延迟仅为 sparse-dense 系统的 51%。尾部 item 改善最为显著。

4.2 STAMP：SID 训练效率的双端优化（2026年4月）

论文: Semantic Trimming and Auxiliary Multi-step Prediction for Generative Recommendation
链接: https://arxiv.org/abs/2604.05329
时间: 2026年4月

核心问题

高粒度 SID 导致序列膨胀、训练开销高，同时冗余 token 稀释学习信号——论文将此命名为”语义稀释效应（Semantic Dilution Effect）“。

核心贡献

Semantic Adaptive Pruning（SAP）：前向过程中动态过滤冗余 token，压缩为信息密集的表示；
Multi-step Auxiliary Prediction（MAP）：多 token 预测目标强化长程依赖建模，弥补压缩后信号损失。

训练加速 1.23–1.38×，显存降低 17.2–54.7%，性能持平或提升。

4.3 SID Scaling 瓶颈的发现

值得注意的是，2026年上半年有研究（OpenReview）从 Scaling Law 角度直接质疑了 SID 范式的信息容量上限——随着模型规模增大，SID-based GR 的性能出现了饱和，而 LLM-as-RS 范式展现了更好的 Scaling 特性（最高超过最佳 SID 方案 20%）。这可能预示着 SID 范式与 LLM 原生推荐之间的路线之争将在2026年下半年更加激烈。

5. Ranking Scaling：训练多轮、推理一次

5.1 LoopCTR：循环 Scaling 范式（2026年4月）

论文: LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction
链接: https://arxiv.org/abs/2604.19550
时间: 2026年4月

核心创新

提出一种全新的 Scaling 范式——Loop Scaling：不增加参数，而是通过递归复用共享层来增加训练时计算量。

Train-Multi-Loop, Infer-Zero-Loop：训练时递归执行多轮（如8轮），推理时只做一次前向传播；
Sandwich 架构 + Hyper-Connected Residuals + MoE：稳定多轮递归训练；
逐轮过程监督（Process Supervision）：在每个递归深度提供监督信号，将多轮收益编码到共享参数中。

单次前向推理的模型已超越所有 baseline。

5.2 UniMixer：统一 Ranking Scaling 理论框架（2026年4月）

论文: UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems
链接: https://arxiv.org/abs/2604.00590
机构: 字节跳动
时间: 2026年4月

核心贡献

从理论上证明了 Attention-based、TokenMixer-based、FM-based 三类 Scaling 方法可以统一为广义参数化 Token Mixing 框架。为工业界选择 Scaling 架构提供了理论指导。

5.3 RankUp：对抗深层表征坍塌（2026年4月）

论文: RankUp: Towards High-rank Representations for Large Scale Advertising Recommender Systems
链接: https://arxiv.org/abs/2604.17878
机构: 腾讯 · 微信
时间: 2026年4月

核心问题

深层推荐模型随层数增加出现”表征秩坍塌（Representation Rank Collapse）“——不同 token 的表征趋同，丧失区分度。

核心贡献

Randomized Permutation Splitting：通过随机排列分割注入多样性；
Multi-Embedding 范式 + Token Decoupling：任务特定的 token 解耦防止信息混淆。

业务效果

已在微信平台部署，GMV 提升 +2.21%–4.81%。

6. 广告+推荐一体化

6.1 GEM-Rec：竞价感知的生成式推荐（2026年3月，Google）

论文: One Model, Two Markets: Bid-Aware Generative Recommendation
链接: https://arxiv.org/abs/2603.22231
机构: Google Research、Harvard University

首次将广告竞价原生嵌入生成式推荐。通过 Control Token（$\texttt{}$/$\texttt{}$）分离广告位决策与内容生成，Bid-Aware Decoding 在推理时注入实时出价信号。理论证明了分配单调性和有机完整性。

6.2 LLM-HYPER：LLM 做冷启动广告个性化（2026年4月）

论文: LLM-HYPER: Generative CTR Modeling for Cold-Start Ad Personalization via LLM-Based Hypernetworks
链接: https://arxiv.org/abs/2604.12096
时间: 2026年4月

核心创新

用 LLM 作为 Hypernetwork，为冷启动广告动态生成 CTR 预估器的参数。不需要额外训练，即插即用，NDCG@10 相对 baseline +55.9%。

7. Agent 化推荐

7.1 CoARS：自蒸馏 RL 的多轮 Agent 推荐（2026年4月）

论文: Self-Distilled Reinforcement Learning for Co-Evolving Agentic Recommender Systems
链接: https://arxiv.org/abs/2604.10029
时间: 2026年4月

核心创新

推荐 Agent 与用户 Agent 在多轮交互中共同演化；
不依赖预定义奖励，而是从交互本身蒸馏出内生监督信号；
通过自蒸馏信用分配，将轨迹级奖励转化为 token 级信号，实现细粒度偏好对齐。

7.2 Sortify：LLM 驱动的排序优化 Agent（Shopee）

论文: Sortify
链接: https://arxiv.org/abs/2603.27765
机构: Shopee
时间: 2026年4月

核心创新

双通道架构：信念（Belief）通道和偏好（Preference）通道分离；
持久记忆数据库：Agent 可积累长期排序经验；
已在 Shopee 大规模推荐平台部署，覆盖两个东南亚市场。

8. 数据集与基准

8.1 TencentGR-1M/10M：工业级全模态 GR 基准（2026年4月）

论文: Tencent Advertising Algorithm Challenge 2025: All-Modality Generative Recommendation
链接: https://arxiv.org/abs/2604.04976
机构: 腾讯广告
时间: 2026年4月

首个面向生成式推荐的大规模、全模态工业数据集：

数据集	用户序列数	每序列最长	信号	模态
TencentGR-1M	100万	100 items	曝光+点击	协同 ID + 文本 + 视觉
TencentGR-10M	1000万	100 items	曝光+点击+转化	协同 ID + 文本 + 视觉

数据来自真实腾讯广告日志（已脱敏），已在 HuggingFace 开放，附带 baseline 实现。这填补了 GR 研究长期缺乏大规模、多模态、工业级基准数据的空白。

9. 横向对比与趋势总结

9.1 关键技术主题对比

主题	代表论文	核心思路
GR 偏好对齐	GenRec（京东）	Page-wise NTP + GRPO-SR
GR-判别统一	UniRec（阿里/Shopee）	Chain-of-Attribute + 贝叶斯等价性证明
GR-排序统一	RecoChain（快手）	同一 Transformer 内生成+排序
SID 新范式	CapsID	软路由胶囊+变长 ID+SemanticBPE
SID 训练优化	STAMP	语义剪枝+多步预测
广告+推荐统一	GEM-Rec（Google）	Control Token + Bid-Aware Decoding
Ranking Scaling	LoopCTR / UniMixer / RankUp	Loop Scaling / 统一理论 / 高秩表征
Agent 推荐	CoARS / Sortify	自蒸馏 RL / LLM 排序 Agent
GR 数据集	TencentGR	工业级全模态基准

9.2 值得关注的趋势

生成式推荐的”三个统一”正在发生：生成与判别统一（UniRec）、生成与排序统一（RecoChain）、有机推荐与广告统一（GEM-Rec）。这意味着 GR 正从”替代召回”走向”替代整个推荐链路”。
Semantic ID 正在被重新审视：一方面 CapsID 等工作在改进 SID 的量化质量，另一方面 Scaling Law 研究暴露了 SID 的信息容量上限。2026年下半年，SID 范式与 LLM 原生推荐之间的路线之争值得密切关注。
“计算解耦”成为 Scaling 的核心策略：LoopCTR（训练多轮 vs 推理一次）、UG-Sep（用户侧一次计算 vs item 侧多次评分）、STAMP（训练压缩 vs 解码完整）都在追求”训练时充分计算，推理时极致高效”。
RL/GRPO 在推荐中全面铺开：GenRec 的 GRPO-SR、CoARS 的自蒸馏 RL、Sortify 的闭环反馈——强化学习不再是推荐的”附加项”，而是在成为训练范式的核心组件。
腾讯的 TencentGR 数据集可能改变 GR 研究格局：此前 GR 研究几乎全部依赖 Amazon/Steam 等小数据集，千万级全模态工业数据的开放将显著加速学术界的研究进展。

10. 结语

2026年4-5月的推荐论文，与年初1-3月相比，有一个明显的质变：不再是”我们做了生成式推荐”，而是”我们解决了生成式推荐落地的第X个关键问题”。

京东 GenRec 解决了偏好对齐和训练效率；
阿里 UniRec 从理论上弥合了生成与判别的表达力差距；
快手 RecoChain 统一了生成与排序；
Google GEM-Rec 统一了推荐与广告变现；
CapsID/STAMP 在改进 SID 的量化和训练效率。

与此同时，LoopCTR、RankUp、UniMixer 等工作说明，即使是传统的 Ranking/CTR 赛道，Scaling 的方法论也在快速进化——不是简单堆参数，而是通过巧妙的计算复用和结构设计来突破效率边界。

对于做推荐的同学，建议重点关注：

GR 的三个统一趋势（生成-判别、生成-排序、推荐-广告），这是未来系统架构演进的方向；
SID 范式 vs LLM 原生推荐的路线之争，这将决定下一代推荐系统的技术选型；
RL/GRPO 在推荐中的深入应用，从偏好对齐到 Agent 演化；
TencentGR 数据集，如果你在做 GR 相关研究，这是目前最好的工业级基准。

参考文献

ByteDance. UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems. arXiv:2604.00590, 2026.
Meituan. MBGR: Multi-Business Prediction for Generative Recommendation at Meituan. arXiv:2604.02684, 2026.
Tencent. Tencent Advertising Algorithm Challenge 2025: All-Modality Generative Recommendation. arXiv:2604.04976, 2026.
STAMP. Semantic Trimming and Auxiliary Multi-step Prediction for Generative Recommendation. arXiv:2604.05329, 2026.
Meituan. Next-Scale Generative Reranking: A Tree-based Generative Rerank Method at Meituan. arXiv:2604.05314, 2026.
Alibaba. Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation Models (SSR). arXiv:2604.08011, 2026.
ByteDance. IAT: Instance-As-Token Compression for Historical User Sequence Modeling. arXiv:2604.08933, 2026.
CoARS. Self-Distilled Reinforcement Learning for Co-Evolving Agentic Recommender Systems. arXiv:2604.10029, 2026.
ByteDance. $R^3$-VAE: Reference Vector-Guided Rating Residual Quantization VAE for Generative Recommendation. arXiv:2604.11440, 2026.
LLM-HYPER. Generative CTR Modeling for Cold-Start Ad Personalization via LLM-Based Hypernetworks. arXiv:2604.12096, 2026.
Alibaba & Shopee. UniRec: Bridging the Expressive Gap between Generative and Discriminative Recommendation via Chain-of-Attribute. arXiv:2604.12234, 2026.
JD.com. GenRec: A Preference-Oriented Generative Framework for Large-Scale Recommendation. arXiv:2604.14878, 2026.
Tencent WeChat. RankUp: Towards High-rank Representations for Large Scale Advertising Recommender Systems. arXiv:2604.17878, 2026.
LoopCTR. Unlocking the Loop Scaling Power for Click-Through Rate Prediction. arXiv:2604.19550, 2026.
Kuaishou. RecoChain: Harmonizing Generative Retrieval and Ranking in Chain-of-Recommendation. arXiv:2604.25787, 2026.
Google Research. One Model, Two Markets: Bid-Aware Generative Recommendation (GEM-Rec). arXiv:2603.22231, 2026.
CapsID. Soft-Routed Variable-Length Semantic IDs for Generative Recommendation. arXiv:2605.05096, 2026.
Shopee. Sortify: LLM-driven Ranking Optimization Agent. arXiv:2603.27765, 2026.

机器学习

This post is licensed under CC BY 4.0 by the author.

1. 总体趋势概览

2. 时间线总表

3. 生成式推荐：从”能用”到”好用”

3.1 GenRec：京东的偏好对齐生成式召回框架（2026年4月）

核心问题

核心贡献

业务效果

3.2 UniRec：用贝叶斯定理统一生成与判别推荐（2026年4月）

核心问题

核心贡献

3.3 RecoChain：生成+排序一体化（2026年4月，快手）

核心问题

核心贡献

4. Semantic ID：范式分化与反思

4.1 CapsID：软路由变长 Semantic ID（2026年5月）

核心问题

核心贡献

实验效果

4.2 STAMP：SID 训练效率的双端优化（2026年4月）

核心问题

核心贡献

4.3 SID Scaling 瓶颈的发现

5. Ranking Scaling：训练多轮、推理一次

5.1 LoopCTR：循环 Scaling 范式（2026年4月）

核心创新

5.2 UniMixer：统一 Ranking Scaling 理论框架（2026年4月）

核心贡献

5.3 RankUp：对抗深层表征坍塌（2026年4月）

核心问题

核心贡献

业务效果

6. 广告+推荐一体化

6.1 GEM-Rec：竞价感知的生成式推荐（2026年3月，Google）

6.2 LLM-HYPER：LLM 做冷启动广告个性化（2026年4月）

核心创新

7. Agent 化推荐

7.1 CoARS：自蒸馏 RL 的多轮 Agent 推荐（2026年4月）

核心创新

7.2 Sortify：LLM 驱动的排序优化 Agent（Shopee）

核心创新

8. 数据集与基准

8.1 TencentGR-1M/10M：工业级全模态 GR 基准（2026年4月）

9. 横向对比与趋势总结

9.1 关键技术主题对比

9.2 值得关注的趋势

10. 结语

参考文献

Trending Tags