2026年4-5月推荐系统论文盘点:生成式推荐走向成熟
2026年4-5月,推荐系统领域进入了一个集中爆发期。如果说年初(1-3月)是各家”亮剑”的阶段,那么4-5月的论文则更多体现出从探索到成熟的转变——生成式推荐开始直面工业部署的核心痛点(Scaling 瓶颈、训练效率、生成与判别的统一),Ranking 模型的 Scaling Law 被更系统地挖掘,而 Agent 化推荐也从蓝图走向了可落地的框架。
本文系统梳理2026年4-5月(arXiv 编号 2604/2605)推荐方向的代表性工作,覆盖生成式推荐演进、Semantic ID 新范式、工业 Ranking Scaling、CTR/广告、Agent 化推荐、数据集与基准等方向。
说明:本文聚焦 arXiv 编号为 2604/2605 的推荐方向论文。每篇论文标注机构、arXiv 编号、核心贡献、关键技术、业务效果。部分论文虽然 arXiv 时间略早但在4-5月引起广泛关注的,也纳入讨论。
1. 总体趋势概览
2026年4-5月的推荐论文呈现出以下趋势:
- 生成式推荐从”能用”到”好用”:GenRec(京东)、UniRec(阿里/Shopee)、RecoChain(快手)分别从偏好对齐、生成-判别统一、生成-排序统一三个角度解决 GR 的落地难题,标志着生成式推荐正式进入”第二阶段”。
- Semantic ID 范式出现分化:CapsID 提出软路由+变长 ID 挑战硬量化范式,STAMP 解决高粒度 SID 训练效率问题,而 Scaling Law 研究直接质疑 SID 的信息容量上限——ID 范式正在被重新审视。
- Ranking Scaling 进入”计算解耦”时代:LoopCTR 提出 Loop Scaling(训练多轮推理一次)、RankUp 解决深层表征坍塌、UniMixer 统一了多种 Scaling 架构的理论框架。
- 广告+推荐一体化成为新战场:Google 的 GEM-Rec 将竞价注入生成式解码,LLM-HYPER 用 LLM 做冷启动广告个性化。
- Agent 推荐从蓝图到框架:CoARS 提出自蒸馏 RL 驱动的多轮 Agent 推荐,Sortify(Shopee)部署了 LLM 驱动的排序优化智能体。
- 腾讯开放大规模生成式推荐数据集:TencentGR-1M/10M 填补了工业级 GR 研究的数据空白。
2. 时间线总表
| 时间 | 机构 | 论文 / 系统 | 方向 | arXiv |
|---|---|---|---|---|
| 2026.04 | 字节跳动 | UniMixer | Ranking Scaling 统一理论 | 2604.00590 |
| 2026.04 | 美团 | MBGR | 多业务生成式推荐 | 2604.02684 |
| 2026.04 | 腾讯 | TencentGR-1M/10M | 全模态 GR 数据集+基准 | 2604.04976 |
| 2026.04 | — | STAMP | SID 训练效率优化 | 2604.05329 |
| 2026.04 | 美团 | NSGR | 树状生成式重排 | 2604.05314 |
| 2026.04 | 阿里巴巴 | SSR | 显式稀疏大模型 | 2604.08011 |
| 2026.04 | 字节跳动 | IAT | 历史序列实例压缩 | 2604.08933 |
| 2026.04 | Shopee | Sortify | LLM 驱动排序 Agent | 2603.27765 |
| 2026.04 | — | CoARS | 自蒸馏 RL 的 Agent 推荐 | 2604.10029 |
| 2026.04 | 字节跳动 | R3-VAE | SID 量化 VAE | 2604.11440 |
| 2026.04 | — | LLM-HYPER | LLM 冷启动广告 CTR | 2604.12096 |
| 2026.04 | 阿里/Shopee | UniRec | 生成-判别统一框架 | 2604.12234 |
| 2026.04 | 京东 | GenRec | 偏好对齐生成式召回 | 2604.14878 |
| 2026.04 | 腾讯/微信 | RankUp | 高秩表征抗坍塌 | 2604.17878 |
| 2026.04 | — | LoopCTR | Loop Scaling 范式 | 2604.19550 |
| 2026.04 | 快手 | RecoChain | 生成-排序统一 | 2604.25787 |
| 2026.04 | GEM-Rec | 竞价感知生成式推荐 | 2603.22231 | |
| 2026.05 | — | CapsID | 软路由变长 Semantic ID | 2605.05096 |
3. 生成式推荐:从”能用”到”好用”
这一阶段的核心主题是解决 GR 大规模落地的关键技术障碍。
3.1 GenRec:京东的偏好对齐生成式召回框架(2026年4月)
论文: GenRec: A Preference-Oriented Generative Framework for Large-Scale Recommendation
链接: https://arxiv.org/abs/2604.14878
机构: 京东
时间: 2026年4月
核心问题
生成式召回在大规模落地时面临三个痛点:(1)分页请求导致输出不一致;(2)长行为序列+多 token SID 带来计算爆炸;(3)生成策略与用户偏好信号不对齐。
核心贡献
- Page-wise NTP:不再逐 item 监督,改为对整个交互页进行 Next-Token Prediction,提供更密集的梯度信号,解决 point-wise 训练的一对多歧义;
- Asymmetric Token Merger:在 prefilling 阶段用线性 Token Merger 将多 token SID 压缩约 2 倍,解码时保留完整分辨率;
- GRPO-SR:基于 GRPO + NLL 正则化的强化学习方法,混合 Dense Reward Model 和 Relevance Gate 防止 reward hacking。
业务效果
已在京东 App 部署,月度 A/B 测试:点击量 +9.5%、交易量 +8.7%。
3.2 UniRec:用贝叶斯定理统一生成与判别推荐(2026年4月)
论文: UniRec: Bridging the Expressive Gap between Generative and Discriminative Recommendation via Chain-of-Attribute
链接: https://arxiv.org/abs/2604.12234
机构: 阿里巴巴、Shopee
时间: 2026年4月
核心问题
生成式推荐在解码 SID 时无法直接访问 item 侧特征(品类、品牌、卖家等),而判别式模型天然具备 feature crossing 能力——这是一个架构层面的表达力缺口。
核心贡献
- 理论证明:用贝叶斯定理证明,生成式后验与判别式得分在排序上等价,前提是生成模型能自回归分解 item 特征;
- Chain-of-Attribute(CoA):在 SID 序列前拼接结构化属性 token(品类 → 卖家 → 品牌 → SID),恢复判别式模型的 feature crossing 能力;
- 离线实验相对 OneRec-V2 的 HR@50 +22.6%,高价值订单样本 +15.5%。
3.3 RecoChain:生成+排序一体化(2026年4月,快手)
论文: Harmonizing Generative Retrieval and Ranking in Chain-of-Recommendation
链接: https://arxiv.org/abs/2604.25787
机构: 快手(Kuaishou)、南京理工
时间: 2026年4月
核心问题
生成式推荐通过 beam search 产出候选 item(如256个),但无法有效评估哪些 item 更好——生成能力与排序能力脱节。
核心贡献
提出 RecoChain,在同一个 Transformer backbone 中集成候选生成和排序:
- 阶段一(生成):通过分层 SID 预测生成候选集;
- 阶段二(排序):基于 SIM 的排序估计每个候选的点击概率。
实现了”一个模型、两个阶段”的统一推荐链路。
4. Semantic ID:范式分化与反思
4.1 CapsID:软路由变长 Semantic ID(2026年5月)
论文: CapsID: Soft-Routed Variable-Length Semantic IDs for Generative Recommendation
链接: https://arxiv.org/abs/2605.05096
时间: 2026年5月
核心问题
现有 SID 基于硬残差量化(RQ-VAE),在聚类边界上会将多面语义压缩到单一码字,且早期量化误差会逐层传播。
核心贡献
- Capsule Routing 替代硬量化:item 在每层概率性地路由到多个语义胶囊,残差由路由重构更新而非单一获胜码字;
- 变长 SID:当活跃胶囊的置信度足够高时终止生成,不同 item 生成不同长度的 ID;
- SemanticBPE:基于共现频率和 embedding 兼容性,将相邻 SID token 组合为可复用子词。
实验效果
Recall@10 平均 +9.6%(相对 ReSID),推理延迟仅为 sparse-dense 系统的 51%。尾部 item 改善最为显著。
4.2 STAMP:SID 训练效率的双端优化(2026年4月)
论文: Semantic Trimming and Auxiliary Multi-step Prediction for Generative Recommendation
链接: https://arxiv.org/abs/2604.05329
时间: 2026年4月
核心问题
高粒度 SID 导致序列膨胀、训练开销高,同时冗余 token 稀释学习信号——论文将此命名为”语义稀释效应(Semantic Dilution Effect)“。
核心贡献
- Semantic Adaptive Pruning(SAP):前向过程中动态过滤冗余 token,压缩为信息密集的表示;
- Multi-step Auxiliary Prediction(MAP):多 token 预测目标强化长程依赖建模,弥补压缩后信号损失。
训练加速 1.23–1.38×,显存降低 17.2–54.7%,性能持平或提升。
4.3 SID Scaling 瓶颈的发现
值得注意的是,2026年上半年有研究(OpenReview)从 Scaling Law 角度直接质疑了 SID 范式的信息容量上限——随着模型规模增大,SID-based GR 的性能出现了饱和,而 LLM-as-RS 范式展现了更好的 Scaling 特性(最高超过最佳 SID 方案 20%)。这可能预示着 SID 范式与 LLM 原生推荐之间的路线之争将在2026年下半年更加激烈。
5. Ranking Scaling:训练多轮、推理一次
5.1 LoopCTR:循环 Scaling 范式(2026年4月)
论文: LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction
链接: https://arxiv.org/abs/2604.19550
时间: 2026年4月
核心创新
提出一种全新的 Scaling 范式——Loop Scaling:不增加参数,而是通过递归复用共享层来增加训练时计算量。
- Train-Multi-Loop, Infer-Zero-Loop:训练时递归执行多轮(如8轮),推理时只做一次前向传播;
- Sandwich 架构 + Hyper-Connected Residuals + MoE:稳定多轮递归训练;
- 逐轮过程监督(Process Supervision):在每个递归深度提供监督信号,将多轮收益编码到共享参数中。
单次前向推理的模型已超越所有 baseline。
5.2 UniMixer:统一 Ranking Scaling 理论框架(2026年4月)
论文: UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems
链接: https://arxiv.org/abs/2604.00590
机构: 字节跳动
时间: 2026年4月
核心贡献
从理论上证明了 Attention-based、TokenMixer-based、FM-based 三类 Scaling 方法可以统一为广义参数化 Token Mixing 框架。为工业界选择 Scaling 架构提供了理论指导。
5.3 RankUp:对抗深层表征坍塌(2026年4月)
论文: RankUp: Towards High-rank Representations for Large Scale Advertising Recommender Systems
链接: https://arxiv.org/abs/2604.17878
机构: 腾讯 · 微信
时间: 2026年4月
核心问题
深层推荐模型随层数增加出现”表征秩坍塌(Representation Rank Collapse)“——不同 token 的表征趋同,丧失区分度。
核心贡献
- Randomized Permutation Splitting:通过随机排列分割注入多样性;
- Multi-Embedding 范式 + Token Decoupling:任务特定的 token 解耦防止信息混淆。
业务效果
已在微信平台部署,GMV 提升 +2.21%–4.81%。
6. 广告+推荐一体化
6.1 GEM-Rec:竞价感知的生成式推荐(2026年3月,Google)
论文: One Model, Two Markets: Bid-Aware Generative Recommendation
链接: https://arxiv.org/abs/2603.22231
机构: Google Research、Harvard University
首次将广告竞价原生嵌入生成式推荐。通过 Control Token($\texttt{}$/$\texttt{}$)分离广告位决策与内容生成,Bid-Aware Decoding 在推理时注入实时出价信号。理论证明了分配单调性和有机完整性。
6.2 LLM-HYPER:LLM 做冷启动广告个性化(2026年4月)
论文: LLM-HYPER: Generative CTR Modeling for Cold-Start Ad Personalization via LLM-Based Hypernetworks
链接: https://arxiv.org/abs/2604.12096
时间: 2026年4月
核心创新
用 LLM 作为 Hypernetwork,为冷启动广告动态生成 CTR 预估器的参数。不需要额外训练,即插即用,NDCG@10 相对 baseline +55.9%。
7. Agent 化推荐
7.1 CoARS:自蒸馏 RL 的多轮 Agent 推荐(2026年4月)
论文: Self-Distilled Reinforcement Learning for Co-Evolving Agentic Recommender Systems
链接: https://arxiv.org/abs/2604.10029
时间: 2026年4月
核心创新
- 推荐 Agent 与用户 Agent 在多轮交互中共同演化;
- 不依赖预定义奖励,而是从交互本身蒸馏出内生监督信号;
- 通过自蒸馏信用分配,将轨迹级奖励转化为 token 级信号,实现细粒度偏好对齐。
7.2 Sortify:LLM 驱动的排序优化 Agent(Shopee)
论文: Sortify
链接: https://arxiv.org/abs/2603.27765
机构: Shopee
时间: 2026年4月
核心创新
- 双通道架构:信念(Belief)通道和偏好(Preference)通道分离;
- 持久记忆数据库:Agent 可积累长期排序经验;
- 已在 Shopee 大规模推荐平台部署,覆盖两个东南亚市场。
8. 数据集与基准
8.1 TencentGR-1M/10M:工业级全模态 GR 基准(2026年4月)
论文: Tencent Advertising Algorithm Challenge 2025: All-Modality Generative Recommendation
链接: https://arxiv.org/abs/2604.04976
机构: 腾讯广告
时间: 2026年4月
首个面向生成式推荐的大规模、全模态工业数据集:
| 数据集 | 用户序列数 | 每序列最长 | 信号 | 模态 |
|---|---|---|---|---|
| TencentGR-1M | 100万 | 100 items | 曝光+点击 | 协同 ID + 文本 + 视觉 |
| TencentGR-10M | 1000万 | 100 items | 曝光+点击+转化 | 协同 ID + 文本 + 视觉 |
数据来自真实腾讯广告日志(已脱敏),已在 HuggingFace 开放,附带 baseline 实现。这填补了 GR 研究长期缺乏大规模、多模态、工业级基准数据的空白。
9. 横向对比与趋势总结
9.1 关键技术主题对比
| 主题 | 代表论文 | 核心思路 |
|---|---|---|
| GR 偏好对齐 | GenRec(京东) | Page-wise NTP + GRPO-SR |
| GR-判别统一 | UniRec(阿里/Shopee) | Chain-of-Attribute + 贝叶斯等价性证明 |
| GR-排序统一 | RecoChain(快手) | 同一 Transformer 内生成+排序 |
| SID 新范式 | CapsID | 软路由胶囊+变长 ID+SemanticBPE |
| SID 训练优化 | STAMP | 语义剪枝+多步预测 |
| 广告+推荐统一 | GEM-Rec(Google) | Control Token + Bid-Aware Decoding |
| Ranking Scaling | LoopCTR / UniMixer / RankUp | Loop Scaling / 统一理论 / 高秩表征 |
| Agent 推荐 | CoARS / Sortify | 自蒸馏 RL / LLM 排序 Agent |
| GR 数据集 | TencentGR | 工业级全模态基准 |
9.2 值得关注的趋势
- 生成式推荐的”三个统一”正在发生:生成与判别统一(UniRec)、生成与排序统一(RecoChain)、有机推荐与广告统一(GEM-Rec)。这意味着 GR 正从”替代召回”走向”替代整个推荐链路”。
- Semantic ID 正在被重新审视:一方面 CapsID 等工作在改进 SID 的量化质量,另一方面 Scaling Law 研究暴露了 SID 的信息容量上限。2026年下半年,SID 范式与 LLM 原生推荐之间的路线之争值得密切关注。
- “计算解耦”成为 Scaling 的核心策略:LoopCTR(训练多轮 vs 推理一次)、UG-Sep(用户侧一次计算 vs item 侧多次评分)、STAMP(训练压缩 vs 解码完整)都在追求”训练时充分计算,推理时极致高效”。
- RL/GRPO 在推荐中全面铺开:GenRec 的 GRPO-SR、CoARS 的自蒸馏 RL、Sortify 的闭环反馈——强化学习不再是推荐的”附加项”,而是在成为训练范式的核心组件。
- 腾讯的 TencentGR 数据集可能改变 GR 研究格局:此前 GR 研究几乎全部依赖 Amazon/Steam 等小数据集,千万级全模态工业数据的开放将显著加速学术界的研究进展。
10. 结语
2026年4-5月的推荐论文,与年初1-3月相比,有一个明显的质变:不再是”我们做了生成式推荐”,而是”我们解决了生成式推荐落地的第X个关键问题”。
- 京东 GenRec 解决了偏好对齐和训练效率;
- 阿里 UniRec 从理论上弥合了生成与判别的表达力差距;
- 快手 RecoChain 统一了生成与排序;
- Google GEM-Rec 统一了推荐与广告变现;
- CapsID/STAMP 在改进 SID 的量化和训练效率。
与此同时,LoopCTR、RankUp、UniMixer 等工作说明,即使是传统的 Ranking/CTR 赛道,Scaling 的方法论也在快速进化——不是简单堆参数,而是通过巧妙的计算复用和结构设计来突破效率边界。
对于做推荐的同学,建议重点关注:
- GR 的三个统一趋势(生成-判别、生成-排序、推荐-广告),这是未来系统架构演进的方向;
- SID 范式 vs LLM 原生推荐的路线之争,这将决定下一代推荐系统的技术选型;
- RL/GRPO 在推荐中的深入应用,从偏好对齐到 Agent 演化;
- TencentGR 数据集,如果你在做 GR 相关研究,这是目前最好的工业级基准。
参考文献
- ByteDance. UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems. arXiv:2604.00590, 2026.
- Meituan. MBGR: Multi-Business Prediction for Generative Recommendation at Meituan. arXiv:2604.02684, 2026.
- Tencent. Tencent Advertising Algorithm Challenge 2025: All-Modality Generative Recommendation. arXiv:2604.04976, 2026.
- STAMP. Semantic Trimming and Auxiliary Multi-step Prediction for Generative Recommendation. arXiv:2604.05329, 2026.
- Meituan. Next-Scale Generative Reranking: A Tree-based Generative Rerank Method at Meituan. arXiv:2604.05314, 2026.
- Alibaba. Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation Models (SSR). arXiv:2604.08011, 2026.
- ByteDance. IAT: Instance-As-Token Compression for Historical User Sequence Modeling. arXiv:2604.08933, 2026.
- CoARS. Self-Distilled Reinforcement Learning for Co-Evolving Agentic Recommender Systems. arXiv:2604.10029, 2026.
- ByteDance. $R^3$-VAE: Reference Vector-Guided Rating Residual Quantization VAE for Generative Recommendation. arXiv:2604.11440, 2026.
- LLM-HYPER. Generative CTR Modeling for Cold-Start Ad Personalization via LLM-Based Hypernetworks. arXiv:2604.12096, 2026.
- Alibaba & Shopee. UniRec: Bridging the Expressive Gap between Generative and Discriminative Recommendation via Chain-of-Attribute. arXiv:2604.12234, 2026.
- JD.com. GenRec: A Preference-Oriented Generative Framework for Large-Scale Recommendation. arXiv:2604.14878, 2026.
- Tencent WeChat. RankUp: Towards High-rank Representations for Large Scale Advertising Recommender Systems. arXiv:2604.17878, 2026.
- LoopCTR. Unlocking the Loop Scaling Power for Click-Through Rate Prediction. arXiv:2604.19550, 2026.
- Kuaishou. RecoChain: Harmonizing Generative Retrieval and Ranking in Chain-of-Recommendation. arXiv:2604.25787, 2026.
- Google Research. One Model, Two Markets: Bid-Aware Generative Recommendation (GEM-Rec). arXiv:2603.22231, 2026.
- CapsID. Soft-Routed Variable-Length Semantic IDs for Generative Recommendation. arXiv:2605.05096, 2026.
- Shopee. Sortify: LLM-driven Ranking Optimization Agent. arXiv:2603.27765, 2026.