2026年5月推荐系统论文盘点:推理增强与自适应计算成为新主线
2026年5月,推荐系统领域的研究热度持续高涨。如果说4月是生成式推荐”从能用到好用”的转折期,那么5月的论文则清晰地勾勒出两条新的技术主线:推理增强(Reasoning-Enhanced)推荐和自适应计算分配(Adaptive Compute Allocation)。前者将 LLM 的 Chain-of-Thought / 隐空间推理能力引入 SID 解码过程,后者则在训练与推理阶段实现”难样本多算、易样本少算”的精细化计算预算管理。
与此同时,Semantic ID 的变长化成为共识——CapsID、VarLenRec 等工作从不同角度证明了固定长度 SID 的次优性;RL/GRPO 在推荐中的应用进一步深化,从序列级奖励到步骤级信用分配(SAPO、F-GRPO);Agent 化推荐从蓝图走向具体框架(MARS、TwiSTAR),记忆管理和工具调度成为核心能力。
本文系统梳理2026年5月(arXiv 编号 2605)推荐方向的代表性工作,覆盖推理增强生成式推荐、SID 变长化与改进、RL/GRPO 优化、自适应计算分配、Agent 化推荐、对话推荐、CTR/长期兴趣建模、多模态与公平性等方向。
说明:本文聚焦 arXiv 编号为 2605 的推荐方向论文。每篇论文标注arXiv 编号、核心贡献、关键技术。部分论文虽然 arXiv 时间略早但在5月引起广泛关注的,也简要提及。
1. 总体趋势概览
2026年5月的推荐论文呈现出以下趋势:
- 推理增强推荐进入”高效化”阶段:LASAR 用隐空间推理替代显式 CoT,速度快 20 倍且效果更好;TwiSTAR 引入自适应推理深度分配,只对”难”用户使用慢推理。这标志着推荐领域的推理增强不再是简单地套用 LLM 推理范式,而是在寻找推荐任务的”原生推理形式”。
- SID 变长化成为共识:CapsID(胶囊路由 + 置信度终止)和 VarLenRec(双曲残差量化 + 流行度信息预算)从不同角度论证了”不同 item 应有不同长度的 ID”这一直觉,且都在尾部 item 上取得了最大收益。
- RL 的信用分配粒度持续细化:SAPO 将奖励从整个序列细化到每个推理步骤,F-GRPO 将生成和排序两阶段的优势估计解耦——推荐中的 RL 正在从”粗放”走向”精细化”。
- Test-Time Compute Scaling 首次进入 CTR 领域:UTTSI 提出不改模型、不重训练、仅在推理时对”不确定”样本增加计算的范式,为 CTR 预估开辟了训练之外的新优化维度。
- Agent 推荐的记忆管理正式被系统化:MARS 提出三层信念状态(事件 → 偏好 → 画像)和六种记忆操作的完整生命周期,是迄今最完整的 Agent 推荐记忆架构。
- 生成式推荐向对话场景扩展:GCRS 将推荐与对话生成统一在单一自回归框架中,NewsRec-Chat 用意图驱动的 SID 生成解决新闻对话推荐中的实时性问题。
2. 时间线总表
| 时间 | 机构 | 论文 / 系统 | 方向 | arXiv |
|---|---|---|---|---|
| 2026.05 | NUS | GRE-MC | 多模态模态补全 | 2605.00670 |
| 2026.05 | 合肥工大 | PFA | 供给侧公平性适配 | 2605.01524 |
| 2026.05 | — | BST-CDSR | 时间感知跨域序列推荐 | 2605.02369 |
| 2026.05 | 中科大/浙大 | BLADE | 贝叶斯列表级对齐 | 2605.04559 |
| 2026.05 | — | CapsID | 软路由变长 Semantic ID | 2605.05096 |
| 2026.05 | — | NewsRec-Chat | 意图驱动 SID 对话推荐 | 2605.07613 |
| 2026.05 | 北航/百度 | LASAR | 隐空间自适应推理生成式推荐 | 2605.10207 |
| 2026.05 | 清华深研院 | TwiSTAR | 自适应推理深度的 Agent 推荐 | 2605.11553 |
| 2026.05 | UCSD/UIUC/Adobe | F-GRPO | 分解式 GRPO(生成+排序统一) | 2605.12995 |
| 2026.05 | — | MARS | 分层信念状态记忆 Agent 推荐 | 2605.14401 |
| 2026.05 | 清华/腾讯 | AsymRec | 非对称连续-离散生成式推荐 | 2605.14512 |
| 2026.05 | 美团 | GenLI | 生成式长期兴趣建模 CTR | 2605.15905 |
| 2026.05 | UVA/Nokia | SAPO | 步骤对齐策略优化 | 2605.17648 |
| 2026.05 | 华东师大 | VarLenRec | 双曲变长 SID | 2605.17779 |
| 2026.05 | NTU | GCRS | 全生成式对话推荐 | 2605.21987 |
| 2026.05 | 阿里巴巴 | UTTSI | 不确定性触发的测试时计算扩展 | 2605.24989 |
| 2026.05 | — | MixRAGRec | MoE 知识图谱 RAG 多 Agent 推荐 | 2605.28175 |
3. 推理增强生成式推荐:从显式 CoT 到隐空间推理
5月最瞩目的技术方向是如何在生成式推荐中高效地引入推理能力。
3.1 LASAR:隐空间自适应语义对齐推理(2026年5月)
论文: LASAR: Latent Adaptive Semantic Aligned Reasoning for Generative Recommendation
链接: https://arxiv.org/abs/2605.10207
时间: 2026年5月
核心问题
显式 Chain-of-Thought(CoT)推理在推荐中面临三个挑战:(1)SID token 缺乏预训练语义,与连续隐空间推理存在鸿沟;(2)缺少推理链监督导致表征漂移;(3)全局固定推理深度不适应不同难度的样本。
核心贡献
提出 LASAR,一个”SFT-then-RL”的隐空间推理框架:
- 两阶段训练:Stage 1 先通过 SID 语义接地(grounding)建立 SID 与语言空间的映射,Stage 2 在此基础上引入隐空间推理,确保高效收敛;
- CoT 语义对齐:通过步级双向 KL 散度,用 CoT 文本的隐状态锚点约束隐空间推理轨迹,防止表征漂移;
- 自适应推理深度:Policy Head 预测每个样本的推理步数,在 GRPO-based RL 阶段通过 REINFORCE 优化,动态分配推理预算。
实验效果
在三个真实数据集上全面超越所有 baseline,平均推理步数降低近一半,推理延迟仅增加微量,比显式 CoT 快约 20 倍。
延伸讨论
LASAR 的核心洞察是:推荐任务中的”推理”本质上不需要生成可读文本,在隐空间进行语义对齐的多步推理既保留了 CoT 的信息增益,又避免了 token 级生成的巨大开销。这一思路与 NLP 领域的 “Coconut”(连续思维链)方向高度呼应,可能预示着推荐推理的主流形式将是隐空间推理而非显式文本推理。
3.2 TwiSTAR:快思考、慢思考、再行动(2026年5月)
论文: TwiSTAR: Think Fast, Think Slow, Then Act, Generative Recommendation with Adaptive Reasoning
链接: https://arxiv.org/abs/2605.11553
时间: 2026年5月
核心问题
现有生成式推荐要么统一使用快速直接生成(牺牲准确率),要么统一使用慢速 CoT 推理(延迟不可接受)——缺乏按样本难度分配推理预算的机制。
核心贡献
提出 TwiSTAR,一个受 Kahneman “快慢思考”启发的 Agentic 推荐框架:
- 三工具架构:快速 SID 检索器(System 1)、轻量排序器、慢速推理模型(System 2);
- 协同常识注入:将 item-to-item 共现关系转化为自然语言解释,注入慢速推理模型的训练数据;
- 学习型 Planner:通过监督预热 + Agentic RL 两阶段训练,学习何时调用哪个工具。
实验效果
在 Amazon Beauty/Sports/Toys 上 NDCG@10 全面超过 OneRec-Think 等强 baseline,推理延迟比统一慢推理降低 3.3 倍。
延伸讨论
TwiSTAR 的 Planner 本质上是一个推理预算分配器,这与 LASAR 的 Policy Head 异曲同工。两者都在回答同一个问题:不同用户/请求需要多少推理计算?差异在于 LASAR 在连续隐空间内调节深度,TwiSTAR 在离散工具间路由。这两条技术路线可能在未来融合——用隐空间推理的深度作为”慢思考”的具体实现。
3.3 SAPO:步骤对齐策略优化(2026年5月)
论文: SAPO: Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation
链接: https://arxiv.org/abs/2605.17648
时间: 2026年5月
核心问题
推理增强的生成式推荐使用 GRPO 优化时,一个完整的 response 包含多个推理步骤和多个 SID token。标准 GRPO 仅在最终 SID 匹配时给出二值奖励(全对/全错),无法区分是哪个推理步骤出了问题,导致信用分配模糊。
核心贡献
提出 SAPO(Step-Aligned Policy Optimization):
- 将信用分配的自然单元定义为单个推理步骤(一个 thinking block + 一个 SID token);
- 对每个推理步骤独立计算 group-relative advantage,而非将整个序列的 advantage 广播到所有 token;
- 优势估计仅应用于对应的 thinking block 和 SID token,实现细粒度的梯度归因。
实验效果
在三个真实推荐数据集上,SAPO 稳定了 RL 训练过程,一致性地超越现有生成式推荐 baseline。
延伸讨论
SAPO 与 LASAR、TwiSTAR 共同构成了5月推理增强推荐的”三驾马车”:LASAR 解决推理的效率问题,TwiSTAR 解决推理的调度问题,SAPO 解决推理的训练问题。三者互补性极强,理论上可以组合使用。
4. Semantic ID:变长化成为共识
4.1 CapsID:软路由变长 Semantic ID(2026年5月)
论文: CapsID: Soft-Routed Variable-Length Semantic IDs for Generative Recommendation
链接: https://arxiv.org/abs/2605.05096
时间: 2026年5月
核心问题
现有 SID 基于硬残差量化(RQ-VAE),在聚类边界上将多面语义压缩到单一码字,且早期量化误差逐层传播。
核心贡献
- 胶囊路由替代硬量化:item 在每层概率性路由到多个语义胶囊,残差由路由重构更新而非单一获胜码字;
- 置信度驱动的变长 SID:当活跃胶囊置信度足够高时提前终止生成,不同 item 自然产生不同长度的 ID;
- SemanticBPE:基于共现频率和 embedding 兼容性,将相邻 SID token 组合为可复用子词。
实验效果
Recall@10 平均 +9.6%(相对 ReSID),推理延迟仅为 sparse-dense 系统的 51%。尾部 item 改善最为显著。
4.2 VarLenRec:双曲变长 Semantic ID(2026年5月)
论文: Learning Variable-Length Tokenization for Generative Recommendation
链接: https://arxiv.org/abs/2605.17779
时间: 2026年5月
核心问题
固定长度 SID 对所有 item 分配相同的编码容量,违反了”热门 item 需要短编码、长尾 item 需要精细编码”的直觉。
核心贡献
- PIBA(Popularity-Weighted Information Budget Allocation):从信息论角度证明最优 ID 长度应随流行度呈负幂律关系;
- 双曲残差量化(HARQ):利用 Poincaré 球的指数体积增长特性,自然地将热门 item 编码到紧凑的原点区域,长尾 item 编码到指数扩展的边界区域;
- Soft Length Controller:通过连续的层保留概率实现可微分的长度预测,由 PIBA 理论先验正则化。
实验效果
在推荐准确率和训练/推理效率上均显著优于 SOTA 方法。
延伸讨论
CapsID 和 VarLenRec 从不同的技术路线走向了相同的结论:SID 应该是变长的。CapsID 用置信度驱动长度(自下而上),VarLenRec 用信息论先验分配预算(自上而下)。两者在长尾 item 上都取得了最大收益,这说明固定长度 SID 对长尾 item 的”信息饥饿”是一个系统性问题。与4月的 STAMP(语义剪枝)结合来看,SID 设计的核心矛盾正在从”如何量化”转向”量化多少”。
4.3 AsymRec:非对称连续-离散框架(2026年5月)
论文: Asymmetric Generative Recommendation via Multi-Expert Projection and Multi-Faceted Hierarchical Quantization
链接: https://arxiv.org/abs/2605.14512
时间: 2026年5月
核心问题
现有 GenRec 将 SID 对称地用于输入和输出,但这导致双重信息瓶颈:(1)输入瓶颈——有损量化降低细粒度语义,流行度偏差扭曲表征;(2)输出瓶颈——不精确的离散目标限制监督质量。
核心贡献
提出 AsymRec,打破输入输出的对称性:
- Multi-expert Semantic Projection(MSP):输入端直接将连续 embedding 通过专家特化投影映射到 Transformer 的隐空间,保留语义丰富度;
- Multi-faceted Hierarchical Quantization(MHQ):输出端通过多视角、多层级量化构建高容量的结构化离散目标,配合语义正则化防止维度坍塌。
实验效果
平均超越 SOTA 生成式推荐器 15.8%。
5. RL/GRPO:信用分配的精细化
5.1 F-GRPO:分解式 GRPO 统一生成与排序(2026年5月)
论文: F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking
链接: https://arxiv.org/abs/2605.12995
时间: 2026年5月
核心问题
当生成式推荐同时包含候选生成和排序两个阶段时,标准 GRPO 对整个序列使用统一的 advantage,无法区分生成阶段和排序阶段各自的贡献。
核心贡献
提出 F-GRPO,关键创新:
- 两阶段优势分解:生成阶段和排序阶段各自计算独立的 group-relative advantage;
- 阶段特定信用分配:生成阶段的奖励聚焦于候选质量,排序阶段的奖励聚焦于排列准确度;
- 在统一生成-排序模型上验证了分解式 RL 的有效性。
延伸讨论
F-GRPO 与 SAPO 的核心思想一致——RL 优化推荐时,信用分配的粒度必须与任务的结构化分解对齐。SAPO 按推理步骤分解,F-GRPO 按生成/排序阶段分解。这暗示着推荐 RL 的未来方向是”结构感知的策略优化”——不再把推荐输出视为扁平的 token 序列,而是按其内在的任务结构进行细粒度优化。
6. 自适应计算分配:Test-Time Compute Scaling 进入推荐
6.1 UTTSI:不确定性触发的测试时选择性推理(2026年5月)
论文: Selective Test-Time Compute Scaling for Click-Through Rate Prediction via Uncertainty-Triggered Feature Path Exploration
链接: https://arxiv.org/abs/2605.24989
时间: 2026年5月
核心问题
CTR 研究几乎全部聚焦于训练阶段的改进,而推理阶段的预测可靠性差异被完全忽视——由于特征稀疏性,不同样本的预测置信度差异巨大,但没有现有机制对此进行计算补偿。
核心贡献
提出 UTTSI,一个无需训练、模型无关的推理时计算扩展框架:
- 双信号不确定性估计:结合模型 logit 置信度与特征频率先验,生成每个样本的可靠性评分;
- 自适应特征过滤:对所有样本移除训练支持不足的 embedding;
- 选择性多路径探索:仅对”不确定”样本进行多次特征路径采样,通过一致性加权集成聚合预测。
业务效果
在四个数据集和七天在线 A/B 测试中一致性提升,平均计算开销约 2.8 倍基准模型成本,在工业服务约束内可控。
延伸讨论
UTTSI 是 Test-Time Compute Scaling 首次被系统性地引入 CTR 预估。其”即插即用”的特性(不改模型、不重训练)使其具有极高的工业应用价值。更深层的意义是:它证明了 LLM 领域的 “scaling test-time compute” 范式可以迁移到传统推荐模型上——即使不是 LLM,也可以在推理时通过增加计算来提升预测质量。
6.2 BLADE:贝叶斯列表级对齐(2026年5月)
论文: Beyond Static Best-of-N: Bayesian List-wise Alignment for LLM-based Recommendation
链接: https://arxiv.org/abs/2605.04559
时间: 2026年5月
核心问题
LLM 推荐中的 Best-of-N 方法直接在推理时优化列表级指标(NDCG、公平性、多样性),但计算成本高。BoN Alignment 试图将搜索能力蒸馏进模型,但面临无差别监督(静态参考无法区分超出经验范围的候选质量)和梯度衰减(策略改进后监督信号迅速减弱)。
核心贡献
提出 BLADE(Bayesian List-wise Alignment via Dynamic Estimation):
- 贝叶斯框架:不使用静态目标分布,而是持续融合历史先验与模型当前 rollout 的动态证据,构建自演化的目标分布;
- 突破了静态性能上限,在排序准确率和复杂列表级指标(公平性、多样性)上均实现了持续增益。
7. Agent 化推荐:记忆管理与工具调度
7.1 MARS:分层信念状态记忆 Agent 推荐(2026年5月)
论文: Agentic Recommender System with Hierarchical Belief-State Memory
链接: https://arxiv.org/abs/2605.14401
时间: 2026年5月
核心问题
现有记忆增强 LLM Agent 推荐系统普遍采用扁平记忆结构,将瞬时信号与稳定偏好混为一谈,且没有提供记忆应如何演化的完整生命周期。
核心贡献
提出 MARS(Memory-Augmented Agentic Recommender System),将推荐视为部分可观测问题:
- 三层信念状态:
- 事件记忆(Event Memory):缓冲原始行为信号;
- 偏好记忆(Preference Memory):维护细粒度可变 chunk,附带显式的强度和证据追踪;
- 画像记忆(Profile Memory):将所有偏好蒸馏为连贯的自然语言叙述。
- 六种记忆操作的完整生命周期:抽取(extraction)、强化(reinforcement)、弱化(weakening)、合并(consolidation)、遗忘(forgetting)、重合成(resynthesis);
- LLM-based Planner 自适应调度:基于 LLM 的规划器自适应地调度记忆操作,而非固定间隔触发。
实验效果
在四个 InstructRec 基准域上达到 SOTA,HR@1 平均 +26.4%,NDCG@10 平均 +10.3%,token 使用量降低 2 倍。在动态演化场景中,Agentic 调度进一步带来最高 21.6% 的增益。
延伸讨论
MARS 是目前最完整的 Agent 推荐记忆架构。与3月阿里的 AgenticRS(侧重多 Agent 链路重构)和4月的 CoARS(侧重自蒸馏 RL 训练)相比,MARS 更聚焦于单 Agent 内部的认知架构设计——如何在一个 Agent 内部管理用户信息的不同抽象层次、如何决定何时更新/遗忘/重合成记忆。三层信念状态的设计有认知科学背景(类似 Marr 的三层计算理论),为 Agent 推荐提供了一个结构化的认知框架。
7.2 MixRAGRec:MoE 知识图谱 RAG 多 Agent 推荐(2026年5月)
论文: Mixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based Recommendation
链接: https://arxiv.org/abs/2605.28175
时间: 2026年5月
核心贡献
- MoE 知识图谱检索:多个检索专家负责不同粒度的知识图谱子图检索,由路由网络根据查询难度分配;
- 多 Agent 框架:不同 Agent 负责不同粒度的知识利用和推荐决策;
- 实现端到端的查询感知检索与知识利用统一优化。
8. 对话推荐与新场景
8.1 GCRS:全生成式对话推荐(2026年5月)
论文: Generative Conversational Recommender System
链接: https://arxiv.org/abs/2605.21987
时间: 2026年5月
核心问题
现有对话推荐要么将推荐与对话生成解耦,要么依赖检索管道,限制了推荐与回复生成的整合深度。
核心贡献
提出首个全生成式对话推荐框架:
- 统一自回归框架:将 item 表示为离散 SID,通过 next-token modeling 联合预测 item 和回复;
- 结构化生成范式:将对话推荐分解为一系列相互依赖的决策——先预测回复意图和推荐目标,再根据它们生成回复;
- 约束解码:确保生成的 item 是合法的 SID,避免幻觉。
实验效果
Recall@1 最高提升 29%,同时保持有竞争力的对话质量。
8.2 NewsRec-Chat:意图驱动的新闻对话推荐(2026年5月)
论文: Intent-Driven Semantic ID Generation for Grounded Conversational News Recommendation
链接: https://arxiv.org/abs/2605.07613
时间: 2026年5月
核心问题
新闻对话推荐面临独特挑战:(1)用户意图多为隐式的,缺乏可检索的关键词;(2)新闻语料实时更新,传统 RAG 管道存在 retrieve-first 瓶颈。
核心贡献
- 意图驱动 SID 生成 + Generate-then-Match 范式:LLM 先生成分层 SID 前缀,再模糊匹配到当前新闻池,保证推荐完全 grounded;
- 两阶段训练:多任务 SID 对齐 + GPT-4 CoT 蒸馏;
- PADR(Profile-Aware Dual-Signal Reasoning):使冷启动用户仅凭画像即可获得有效推荐。
实验效果
7B 模型实现 0% 幻觉率,在 152K 开放生成 SID 空间中达到 12.4% L1 匹配(随机基线的 4 倍),成本约为 GPT-4+Hybrid RAG 的 1/100。
9. CTR 与长期兴趣建模
9.1 GenLI:生成式长期兴趣建模(2026年5月)
论文: Generative Long-term User Interest Modeling for Click-Through Rate Prediction
链接: https://arxiv.org/abs/2605.15905
时间: 2026年5月
核心问题
现有长期兴趣建模依赖 target-centered 检索(如 SIM / ETA),即”先有候选 item,再从历史行为中检索相关行为”。这导致两个问题:(1)兴趣覆盖不全面——只能捕获与当前候选相关的兴趣;(2)效率低——每个候选都需要遍历历史。
核心贡献
提出 GenLI,用生成式方法替代检索式长期兴趣建模:
- Interest Generation Module(IGM):以最近几次行为为输入,直接生成隐式、显式和相对三种兴趣分布,不依赖目标 item;
- Behavior Retrieval Module(BRM):基于生成的兴趣分布通过 lookup 选择最匹配的历史行为子集,时间复杂度降至 $O(1)$;
- Interest Fusion Module(IFM):分别聚合不同兴趣分布对应的行为,通过注意力机制融合为最终的长期兴趣表示。
延伸讨论
GenLI 的思路与字节的 IAT(4月)形成有趣的对比:IAT 从工程视角把历史行为”压缩成 Token”,GenLI 从建模视角把历史行为”生成为分布”。两者都在解决长序列建模的效率问题,但切入点不同——IAT 是”压缩后再建模”,GenLI 是”先建模再检索”。
10. 多模态与公平性
10.1 GRE-MC:图检索增强的多模态补全(2026年5月)
论文: Robust Multimodal Recommendation via Graph Retrieval-Enhanced Modality Completion
链接: https://arxiv.org/abs/2605.00670
时间: 2026年5月
核心贡献
针对多模态推荐中的模态缺失问题:
- 模态感知子图检索:从完整图中检索语义相关的子图,提供比邻居聚合更丰富的上下文信息;
- 图 Transformer 联合编码:通过全局注意力联合编码查询节点和检索子图来补全缺失特征;
- 可学习稀疏路由码本:将隐表征正则化为紧凑基底,提升鲁棒性。
10.2 PFA:供给侧公平性的后训练适配(2026年5月)
论文: Post-hoc Provider Fairness Adaptation via Hierarchical Exposure Alignment
链接: https://arxiv.org/abs/2605.01524
时间: 2026年5月
核心贡献
- Post-hoc Fairness Adapter:在冻结的推荐模型上训练轻量适配器,学习个性化的分数调整项,无需重训练骨干模型;
- HEFA(Hierarchical Exposure Fairness Alignment):显式平衡组间和组内的供给侧曝光差异;
- 联合优化:HEFA + 可微分 NDCG loss 联合训练,在公平性和排序质量之间取得平衡。
11. 跨域与序列建模
11.1 BST-CDSR:时间感知跨域序列推荐(2026年5月,SIGIR 2026)
论文: Bridging Behavior and Semantics for Time-aware Cross-Domain Sequential Recommendation
链接: https://arxiv.org/abs/2605.02369
会议: SIGIR 2026
时间: 2026年5月
核心贡献
- 行为偏好演化模块:解耦长期兴趣和短期意图,通过神经 ODE 建模连续时间偏好演化;
- 时间反事实增强语义生成器:离散化时间间隔 token,利用 LLM 提取鲁棒的时间语义,通过反事实扰动增强语义偏好的时间敏感性;
- 时间偏好引导的域迁移模块:自适应控制跨域迁移权重,缓解负迁移。
12. 横向对比与趋势总结
12.1 关键技术主题对比
| 主题 | 代表论文 | 核心思路 |
|---|---|---|
| 隐空间推理 | LASAR | SFT-then-RL + CoT 语义对齐 + 自适应深度 |
| 自适应推理调度 | TwiSTAR | 三工具 + 协同常识 + Agentic RL Planner |
| RL 步骤级信用分配 | SAPO | 步骤对齐的 group-relative advantage |
| RL 阶段解耦 | F-GRPO | 生成/排序两阶段独立优势估计 |
| SID 变长(自下而上) | CapsID | 胶囊路由 + 置信度终止 + SemanticBPE |
| SID 变长(自上而下) | VarLenRec | PIBA 信息预算 + 双曲量化 + Soft Length |
| SID 非对称化 | AsymRec | 连续输入 + 结构化离散输出 |
| Test-Time Scaling | UTTSI | 不确定性触发 + 多路径探索 + 一致性集成 |
| Agent 记忆管理 | MARS | 三层信念状态 + 六种记忆操作 + LLM 调度 |
| 对话推荐 | GCRS / NewsRec-Chat | 全生成式统一 / 意图驱动 SID + Generate-then-Match |
| 长期兴趣 | GenLI | 生成式兴趣分布 + O(1) lookup |
| 多模态补全 | GRE-MC | 图检索子图 + 图 Transformer 联合编码 |
| 列表级对齐 | BLADE | 贝叶斯自演化目标 + 列表级指标优化 |
12.2 值得关注的趋势
- “推理增强推荐”正在分化为隐空间推理 vs 显式推理两条路线:LASAR 代表的隐空间路线效率更高(20 倍加速),但可解释性差;TwiSTAR/SAPO 代表的显式路线保留了推理过程的可读性,但需要更精细的优化设计。预计2026年下半年两条路线会进一步竞争与融合。
- SID 变长化可能重塑生成式推荐的效率天花板:如果热门 item 只需要2个 token(而非统一的4-8个),那么生成式推荐的推理成本将大幅降低。CapsID 和 VarLenRec 为此提供了理论和实验基础。
- RL 在推荐中的信用分配粒度持续细化:从序列级(标准 GRPO)→ 步骤级(SAPO)→ 阶段级(F-GRPO),趋势是让 RL 的优化粒度与推荐任务的结构化分解完全对齐。
- Test-Time Compute Scaling 进入推荐:UTTSI 证明了即使在传统 CTR 模型上,推理时增加计算也能带来实质性收益。这可能催生一类新的”推理时优化”方法,作为训练阶段改进的补充。
- Agent 推荐的核心能力正在从”对话”转向”记忆管理”和”工具调度”:MARS 的三层记忆生命周期和 TwiSTAR 的三工具路由,标志着 Agent 推荐的研究重心从”让 LLM 做推荐”转向”让 LLM 智能地管理推荐过程中的认知资源”。
13. 结语
2026年5月的推荐论文,呈现出一个清晰的信号:推荐系统正在从”一视同仁”走向”因地制宜”。
- LASAR/TwiSTAR 对不同难度的推荐请求分配不同的推理深度;
- CapsID/VarLenRec 对不同流行度的 item 分配不同长度的编码;
- UTTSI 对不同置信度的 CTR 样本分配不同的推理计算量;
- SAPO/F-GRPO 对不同阶段/步骤的推理输出分配不同的训练信号。
这种”自适应”的核心范式正在渗透到推荐系统的每一个环节——编码、训练、推理、记忆管理——并有望成为2026年下半年推荐系统研究的核心主题。
对于做推荐的同学,建议重点关注:
- 推理增强推荐的效率化(LASAR 为代表的隐空间推理),这是将 LLM 推理能力大规模落地到推荐的关键路径;
- SID 变长化的工程落地(CapsID / VarLenRec),这将直接影响生成式推荐的推理成本和长尾覆盖;
- Test-Time Compute Scaling 在推荐中的扩展(UTTSI),这为”不改模型只改推理”的优化范式提供了新思路;
- 结构感知的 RL 优化(SAPO / F-GRPO),这是推理增强生成式推荐训练效率的关键。
参考文献
- GRE-MC. Robust Multimodal Recommendation via Graph Retrieval-Enhanced Modality Completion. arXiv:2605.00670, 2026.
- PFA. Post-hoc Provider Fairness Adaptation via Hierarchical Exposure Alignment. arXiv:2605.01524, 2026.
- BST-CDSR. Bridging Behavior and Semantics for Time-aware Cross-Domain Sequential Recommendation. SIGIR 2026, arXiv:2605.02369.
- BLADE. Beyond Static Best-of-N: Bayesian List-wise Alignment for LLM-based Recommendation. arXiv:2605.04559, 2026.
- CapsID. Soft-Routed Variable-Length Semantic IDs for Generative Recommendation. arXiv:2605.05096, 2026.
- NewsRec-Chat. Intent-Driven Semantic ID Generation for Grounded Conversational News Recommendation. arXiv:2605.07613, 2026.
- LASAR. Latent Adaptive Semantic Aligned Reasoning for Generative Recommendation. arXiv:2605.10207, 2026.
- TwiSTAR. Think Fast, Think Slow, Then Act, Generative Recommendation with Adaptive Reasoning. arXiv:2605.11553, 2026.
- F-GRPO. Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking. arXiv:2605.12995, 2026.
- MARS. Agentic Recommender System with Hierarchical Belief-State Memory. arXiv:2605.14401, 2026.
- AsymRec. Asymmetric Generative Recommendation via Multi-Expert Projection and Multi-Faceted Hierarchical Quantization. arXiv:2605.14512, 2026.
- GenLI. Generative Long-term User Interest Modeling for Click-Through Rate Prediction. arXiv:2605.15905, 2026.
- SAPO. Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation. arXiv:2605.17648, 2026.
- VarLenRec. Learning Variable-Length Tokenization for Generative Recommendation. arXiv:2605.17779, 2026.
- GCRS. Generative Conversational Recommender System. arXiv:2605.21987, 2026.
- UTTSI. Selective Test-Time Compute Scaling for Click-Through Rate Prediction via Uncertainty-Triggered Feature Path Exploration. arXiv:2605.24989, 2026.
- MixRAGRec. Mixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based Recommendation. arXiv:2605.28175, 2026.