Post

2026年4-5月推荐系统论文盘点:生成式推荐走向成熟

2026年4-5月推荐系统论文盘点:生成式推荐走向成熟

2026年4-5月,推荐系统领域进入了一个集中爆发期。如果说年初(1-3月)是各家”亮剑”的阶段,那么4-5月的论文则更多体现出从探索到成熟的转变——生成式推荐开始直面工业部署的核心痛点(Scaling 瓶颈、训练效率、生成与判别的统一),Ranking 模型的 Scaling Law 被更系统地挖掘,而 Agent 化推荐也从蓝图走向了可落地的框架。

本文系统梳理2026年4-5月(arXiv 编号 2604/2605)推荐方向的代表性工作,覆盖生成式推荐演进、Semantic ID 新范式、工业 Ranking Scaling、CTR/广告、Agent 化推荐、数据集与基准等方向。

说明:本文聚焦 arXiv 编号为 2604/2605 的推荐方向论文。每篇论文标注机构、arXiv 编号、核心贡献、关键技术、业务效果。部分论文虽然 arXiv 时间略早但在4-5月引起广泛关注的,也纳入讨论。


1. 总体趋势概览

2026年4-5月的推荐论文呈现出以下趋势:

  1. 生成式推荐从”能用”到”好用”:GenRec(京东)、UniRec(阿里/Shopee)、RecoChain(快手)分别从偏好对齐、生成-判别统一、生成-排序统一三个角度解决 GR 的落地难题,标志着生成式推荐正式进入”第二阶段”。
  2. Semantic ID 范式出现分化:CapsID 提出软路由+变长 ID 挑战硬量化范式,STAMP 解决高粒度 SID 训练效率问题,而 Scaling Law 研究直接质疑 SID 的信息容量上限——ID 范式正在被重新审视。
  3. Ranking Scaling 进入”计算解耦”时代:LoopCTR 提出 Loop Scaling(训练多轮推理一次)、RankUp 解决深层表征坍塌、UniMixer 统一了多种 Scaling 架构的理论框架。
  4. 广告+推荐一体化成为新战场:Google 的 GEM-Rec 将竞价注入生成式解码,LLM-HYPER 用 LLM 做冷启动广告个性化。
  5. Agent 推荐从蓝图到框架:CoARS 提出自蒸馏 RL 驱动的多轮 Agent 推荐,Sortify(Shopee)部署了 LLM 驱动的排序优化智能体。
  6. 腾讯开放大规模生成式推荐数据集:TencentGR-1M/10M 填补了工业级 GR 研究的数据空白。

2. 时间线总表

时间机构论文 / 系统方向arXiv
2026.04字节跳动UniMixerRanking Scaling 统一理论2604.00590
2026.04美团MBGR多业务生成式推荐2604.02684
2026.04腾讯TencentGR-1M/10M全模态 GR 数据集+基准2604.04976
2026.04STAMPSID 训练效率优化2604.05329
2026.04美团NSGR树状生成式重排2604.05314
2026.04阿里巴巴SSR显式稀疏大模型2604.08011
2026.04字节跳动IAT历史序列实例压缩2604.08933
2026.04ShopeeSortifyLLM 驱动排序 Agent2603.27765
2026.04CoARS自蒸馏 RL 的 Agent 推荐2604.10029
2026.04字节跳动R3-VAESID 量化 VAE2604.11440
2026.04LLM-HYPERLLM 冷启动广告 CTR2604.12096
2026.04阿里/ShopeeUniRec生成-判别统一框架2604.12234
2026.04京东GenRec偏好对齐生成式召回2604.14878
2026.04腾讯/微信RankUp高秩表征抗坍塌2604.17878
2026.04LoopCTRLoop Scaling 范式2604.19550
2026.04快手RecoChain生成-排序统一2604.25787
2026.04GoogleGEM-Rec竞价感知生成式推荐2603.22231
2026.05CapsID软路由变长 Semantic ID2605.05096

3. 生成式推荐:从”能用”到”好用”

这一阶段的核心主题是解决 GR 大规模落地的关键技术障碍

3.1 GenRec:京东的偏好对齐生成式召回框架(2026年4月)

论文: GenRec: A Preference-Oriented Generative Framework for Large-Scale Recommendation
链接: https://arxiv.org/abs/2604.14878
机构: 京东
时间: 2026年4月

核心问题

生成式召回在大规模落地时面临三个痛点:(1)分页请求导致输出不一致;(2)长行为序列+多 token SID 带来计算爆炸;(3)生成策略与用户偏好信号不对齐。

核心贡献

  1. Page-wise NTP:不再逐 item 监督,改为对整个交互页进行 Next-Token Prediction,提供更密集的梯度信号,解决 point-wise 训练的一对多歧义;
  2. Asymmetric Token Merger:在 prefilling 阶段用线性 Token Merger 将多 token SID 压缩约 2 倍,解码时保留完整分辨率;
  3. GRPO-SR:基于 GRPO + NLL 正则化的强化学习方法,混合 Dense Reward Model 和 Relevance Gate 防止 reward hacking。

业务效果

已在京东 App 部署,月度 A/B 测试:点击量 +9.5%、交易量 +8.7%

3.2 UniRec:用贝叶斯定理统一生成与判别推荐(2026年4月)

论文: UniRec: Bridging the Expressive Gap between Generative and Discriminative Recommendation via Chain-of-Attribute
链接: https://arxiv.org/abs/2604.12234
机构: 阿里巴巴、Shopee
时间: 2026年4月

核心问题

生成式推荐在解码 SID 时无法直接访问 item 侧特征(品类、品牌、卖家等),而判别式模型天然具备 feature crossing 能力——这是一个架构层面的表达力缺口

核心贡献

  1. 理论证明:用贝叶斯定理证明,生成式后验与判别式得分在排序上等价,前提是生成模型能自回归分解 item 特征;
  2. Chain-of-Attribute(CoA):在 SID 序列前拼接结构化属性 token(品类 → 卖家 → 品牌 → SID),恢复判别式模型的 feature crossing 能力;
  3. 离线实验相对 OneRec-V2 的 HR@50 +22.6%,高价值订单样本 +15.5%

3.3 RecoChain:生成+排序一体化(2026年4月,快手)

论文: Harmonizing Generative Retrieval and Ranking in Chain-of-Recommendation
链接: https://arxiv.org/abs/2604.25787
机构: 快手(Kuaishou)、南京理工
时间: 2026年4月

核心问题

生成式推荐通过 beam search 产出候选 item(如256个),但无法有效评估哪些 item 更好——生成能力与排序能力脱节

核心贡献

提出 RecoChain,在同一个 Transformer backbone 中集成候选生成和排序:

  1. 阶段一(生成):通过分层 SID 预测生成候选集;
  2. 阶段二(排序):基于 SIM 的排序估计每个候选的点击概率。

实现了”一个模型、两个阶段”的统一推荐链路。


4. Semantic ID:范式分化与反思

4.1 CapsID:软路由变长 Semantic ID(2026年5月)

论文: CapsID: Soft-Routed Variable-Length Semantic IDs for Generative Recommendation
链接: https://arxiv.org/abs/2605.05096
时间: 2026年5月

核心问题

现有 SID 基于硬残差量化(RQ-VAE),在聚类边界上会将多面语义压缩到单一码字,且早期量化误差会逐层传播。

核心贡献

  1. Capsule Routing 替代硬量化:item 在每层概率性地路由到多个语义胶囊,残差由路由重构更新而非单一获胜码字;
  2. 变长 SID:当活跃胶囊的置信度足够高时终止生成,不同 item 生成不同长度的 ID;
  3. SemanticBPE:基于共现频率和 embedding 兼容性,将相邻 SID token 组合为可复用子词。

实验效果

Recall@10 平均 +9.6%(相对 ReSID),推理延迟仅为 sparse-dense 系统的 51%。尾部 item 改善最为显著。

4.2 STAMP:SID 训练效率的双端优化(2026年4月)

论文: Semantic Trimming and Auxiliary Multi-step Prediction for Generative Recommendation
链接: https://arxiv.org/abs/2604.05329
时间: 2026年4月

核心问题

高粒度 SID 导致序列膨胀、训练开销高,同时冗余 token 稀释学习信号——论文将此命名为”语义稀释效应(Semantic Dilution Effect)“。

核心贡献

  1. Semantic Adaptive Pruning(SAP):前向过程中动态过滤冗余 token,压缩为信息密集的表示;
  2. Multi-step Auxiliary Prediction(MAP):多 token 预测目标强化长程依赖建模,弥补压缩后信号损失。

训练加速 1.23–1.38×,显存降低 17.2–54.7%,性能持平或提升。

4.3 SID Scaling 瓶颈的发现

值得注意的是,2026年上半年有研究(OpenReview)从 Scaling Law 角度直接质疑了 SID 范式的信息容量上限——随着模型规模增大,SID-based GR 的性能出现了饱和,而 LLM-as-RS 范式展现了更好的 Scaling 特性(最高超过最佳 SID 方案 20%)。这可能预示着 SID 范式与 LLM 原生推荐之间的路线之争将在2026年下半年更加激烈。


5. Ranking Scaling:训练多轮、推理一次

5.1 LoopCTR:循环 Scaling 范式(2026年4月)

论文: LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction
链接: https://arxiv.org/abs/2604.19550
时间: 2026年4月

核心创新

提出一种全新的 Scaling 范式——Loop Scaling:不增加参数,而是通过递归复用共享层来增加训练时计算量。

  1. Train-Multi-Loop, Infer-Zero-Loop:训练时递归执行多轮(如8轮),推理时只做一次前向传播;
  2. Sandwich 架构 + Hyper-Connected Residuals + MoE:稳定多轮递归训练;
  3. 逐轮过程监督(Process Supervision):在每个递归深度提供监督信号,将多轮收益编码到共享参数中。

单次前向推理的模型已超越所有 baseline。

5.2 UniMixer:统一 Ranking Scaling 理论框架(2026年4月)

论文: UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems
链接: https://arxiv.org/abs/2604.00590
机构: 字节跳动
时间: 2026年4月

核心贡献

从理论上证明了 Attention-based、TokenMixer-based、FM-based 三类 Scaling 方法可以统一为广义参数化 Token Mixing 框架。为工业界选择 Scaling 架构提供了理论指导。

5.3 RankUp:对抗深层表征坍塌(2026年4月)

论文: RankUp: Towards High-rank Representations for Large Scale Advertising Recommender Systems
链接: https://arxiv.org/abs/2604.17878
机构: 腾讯 · 微信
时间: 2026年4月

核心问题

深层推荐模型随层数增加出现”表征秩坍塌(Representation Rank Collapse)“——不同 token 的表征趋同,丧失区分度。

核心贡献

  1. Randomized Permutation Splitting:通过随机排列分割注入多样性;
  2. Multi-Embedding 范式 + Token Decoupling:任务特定的 token 解耦防止信息混淆。

业务效果

已在微信平台部署,GMV 提升 +2.21%–4.81%


6. 广告+推荐一体化

6.1 GEM-Rec:竞价感知的生成式推荐(2026年3月,Google)

论文: One Model, Two Markets: Bid-Aware Generative Recommendation
链接: https://arxiv.org/abs/2603.22231
机构: Google Research、Harvard University

首次将广告竞价原生嵌入生成式推荐。通过 Control Token($\texttt{}$/$\texttt{}$)分离广告位决策与内容生成,Bid-Aware Decoding 在推理时注入实时出价信号。理论证明了分配单调性和有机完整性。

6.2 LLM-HYPER:LLM 做冷启动广告个性化(2026年4月)

论文: LLM-HYPER: Generative CTR Modeling for Cold-Start Ad Personalization via LLM-Based Hypernetworks
链接: https://arxiv.org/abs/2604.12096
时间: 2026年4月

核心创新

用 LLM 作为 Hypernetwork,为冷启动广告动态生成 CTR 预估器的参数。不需要额外训练,即插即用,NDCG@10 相对 baseline +55.9%


7. Agent 化推荐

7.1 CoARS:自蒸馏 RL 的多轮 Agent 推荐(2026年4月)

论文: Self-Distilled Reinforcement Learning for Co-Evolving Agentic Recommender Systems
链接: https://arxiv.org/abs/2604.10029
时间: 2026年4月

核心创新

  1. 推荐 Agent 与用户 Agent 在多轮交互中共同演化;
  2. 不依赖预定义奖励,而是从交互本身蒸馏出内生监督信号;
  3. 通过自蒸馏信用分配,将轨迹级奖励转化为 token 级信号,实现细粒度偏好对齐。

7.2 Sortify:LLM 驱动的排序优化 Agent(Shopee)

论文: Sortify
链接: https://arxiv.org/abs/2603.27765
机构: Shopee
时间: 2026年4月

核心创新

  1. 双通道架构:信念(Belief)通道和偏好(Preference)通道分离;
  2. 持久记忆数据库:Agent 可积累长期排序经验;
  3. 已在 Shopee 大规模推荐平台部署,覆盖两个东南亚市场。

8. 数据集与基准

8.1 TencentGR-1M/10M:工业级全模态 GR 基准(2026年4月)

论文: Tencent Advertising Algorithm Challenge 2025: All-Modality Generative Recommendation
链接: https://arxiv.org/abs/2604.04976
机构: 腾讯广告
时间: 2026年4月

首个面向生成式推荐的大规模、全模态工业数据集:

数据集用户序列数每序列最长信号模态
TencentGR-1M100万100 items曝光+点击协同 ID + 文本 + 视觉
TencentGR-10M1000万100 items曝光+点击+转化协同 ID + 文本 + 视觉

数据来自真实腾讯广告日志(已脱敏),已在 HuggingFace 开放,附带 baseline 实现。这填补了 GR 研究长期缺乏大规模、多模态、工业级基准数据的空白。


9. 横向对比与趋势总结

9.1 关键技术主题对比

主题代表论文核心思路
GR 偏好对齐GenRec(京东)Page-wise NTP + GRPO-SR
GR-判别统一UniRec(阿里/Shopee)Chain-of-Attribute + 贝叶斯等价性证明
GR-排序统一RecoChain(快手)同一 Transformer 内生成+排序
SID 新范式CapsID软路由胶囊+变长 ID+SemanticBPE
SID 训练优化STAMP语义剪枝+多步预测
广告+推荐统一GEM-Rec(Google)Control Token + Bid-Aware Decoding
Ranking ScalingLoopCTR / UniMixer / RankUpLoop Scaling / 统一理论 / 高秩表征
Agent 推荐CoARS / Sortify自蒸馏 RL / LLM 排序 Agent
GR 数据集TencentGR工业级全模态基准

9.2 值得关注的趋势

  1. 生成式推荐的”三个统一”正在发生:生成与判别统一(UniRec)、生成与排序统一(RecoChain)、有机推荐与广告统一(GEM-Rec)。这意味着 GR 正从”替代召回”走向”替代整个推荐链路”。
  2. Semantic ID 正在被重新审视:一方面 CapsID 等工作在改进 SID 的量化质量,另一方面 Scaling Law 研究暴露了 SID 的信息容量上限。2026年下半年,SID 范式与 LLM 原生推荐之间的路线之争值得密切关注。
  3. “计算解耦”成为 Scaling 的核心策略:LoopCTR(训练多轮 vs 推理一次)、UG-Sep(用户侧一次计算 vs item 侧多次评分)、STAMP(训练压缩 vs 解码完整)都在追求”训练时充分计算,推理时极致高效”。
  4. RL/GRPO 在推荐中全面铺开:GenRec 的 GRPO-SR、CoARS 的自蒸馏 RL、Sortify 的闭环反馈——强化学习不再是推荐的”附加项”,而是在成为训练范式的核心组件。
  5. 腾讯的 TencentGR 数据集可能改变 GR 研究格局:此前 GR 研究几乎全部依赖 Amazon/Steam 等小数据集,千万级全模态工业数据的开放将显著加速学术界的研究进展。

10. 结语

2026年4-5月的推荐论文,与年初1-3月相比,有一个明显的质变:不再是”我们做了生成式推荐”,而是”我们解决了生成式推荐落地的第X个关键问题”

  • 京东 GenRec 解决了偏好对齐和训练效率;
  • 阿里 UniRec 从理论上弥合了生成与判别的表达力差距;
  • 快手 RecoChain 统一了生成与排序;
  • Google GEM-Rec 统一了推荐与广告变现;
  • CapsID/STAMP 在改进 SID 的量化和训练效率。

与此同时,LoopCTR、RankUp、UniMixer 等工作说明,即使是传统的 Ranking/CTR 赛道,Scaling 的方法论也在快速进化——不是简单堆参数,而是通过巧妙的计算复用和结构设计来突破效率边界。

对于做推荐的同学,建议重点关注:

  1. GR 的三个统一趋势(生成-判别、生成-排序、推荐-广告),这是未来系统架构演进的方向;
  2. SID 范式 vs LLM 原生推荐的路线之争,这将决定下一代推荐系统的技术选型;
  3. RL/GRPO 在推荐中的深入应用,从偏好对齐到 Agent 演化;
  4. TencentGR 数据集,如果你在做 GR 相关研究,这是目前最好的工业级基准。

参考文献

  1. ByteDance. UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems. arXiv:2604.00590, 2026.
  2. Meituan. MBGR: Multi-Business Prediction for Generative Recommendation at Meituan. arXiv:2604.02684, 2026.
  3. Tencent. Tencent Advertising Algorithm Challenge 2025: All-Modality Generative Recommendation. arXiv:2604.04976, 2026.
  4. STAMP. Semantic Trimming and Auxiliary Multi-step Prediction for Generative Recommendation. arXiv:2604.05329, 2026.
  5. Meituan. Next-Scale Generative Reranking: A Tree-based Generative Rerank Method at Meituan. arXiv:2604.05314, 2026.
  6. Alibaba. Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation Models (SSR). arXiv:2604.08011, 2026.
  7. ByteDance. IAT: Instance-As-Token Compression for Historical User Sequence Modeling. arXiv:2604.08933, 2026.
  8. CoARS. Self-Distilled Reinforcement Learning for Co-Evolving Agentic Recommender Systems. arXiv:2604.10029, 2026.
  9. ByteDance. $R^3$-VAE: Reference Vector-Guided Rating Residual Quantization VAE for Generative Recommendation. arXiv:2604.11440, 2026.
  10. LLM-HYPER. Generative CTR Modeling for Cold-Start Ad Personalization via LLM-Based Hypernetworks. arXiv:2604.12096, 2026.
  11. Alibaba & Shopee. UniRec: Bridging the Expressive Gap between Generative and Discriminative Recommendation via Chain-of-Attribute. arXiv:2604.12234, 2026.
  12. JD.com. GenRec: A Preference-Oriented Generative Framework for Large-Scale Recommendation. arXiv:2604.14878, 2026.
  13. Tencent WeChat. RankUp: Towards High-rank Representations for Large Scale Advertising Recommender Systems. arXiv:2604.17878, 2026.
  14. LoopCTR. Unlocking the Loop Scaling Power for Click-Through Rate Prediction. arXiv:2604.19550, 2026.
  15. Kuaishou. RecoChain: Harmonizing Generative Retrieval and Ranking in Chain-of-Recommendation. arXiv:2604.25787, 2026.
  16. Google Research. One Model, Two Markets: Bid-Aware Generative Recommendation (GEM-Rec). arXiv:2603.22231, 2026.
  17. CapsID. Soft-Routed Variable-Length Semantic IDs for Generative Recommendation. arXiv:2605.05096, 2026.
  18. Shopee. Sortify: LLM-driven Ranking Optimization Agent. arXiv:2603.27765, 2026.
This post is licensed under CC BY 4.0 by the author.