2026年5月推荐系统论文盘点：推理增强与自适应计算成为新主线

Posted Jun 1, 2026 Updated Jun 1, 2026

By li.yaozong

41 min read

2026年5月，推荐系统领域的研究热度持续高涨。如果说4月是生成式推荐”从能用到好用”的转折期，那么5月的论文则清晰地勾勒出两条新的技术主线：推理增强（Reasoning-Enhanced）推荐和自适应计算分配（Adaptive Compute Allocation）。前者将 LLM 的 Chain-of-Thought / 隐空间推理能力引入 SID 解码过程，后者则在训练与推理阶段实现”难样本多算、易样本少算”的精细化计算预算管理。

与此同时，Semantic ID 的变长化成为共识——CapsID、VarLenRec 等工作从不同角度证明了固定长度 SID 的次优性；RL/GRPO 在推荐中的应用进一步深化，从序列级奖励到步骤级信用分配（SAPO、F-GRPO）；Agent 化推荐从蓝图走向具体框架（MARS、TwiSTAR），记忆管理和工具调度成为核心能力。

本文系统梳理2026年5月（arXiv 编号 2605）推荐方向的代表性工作，覆盖推理增强生成式推荐、SID 变长化与改进、RL/GRPO 优化、自适应计算分配、Agent 化推荐、对话推荐、CTR/长期兴趣建模、多模态与公平性等方向。

说明：本文聚焦 arXiv 编号为 2605 的推荐方向论文。每篇论文标注arXiv 编号、核心贡献、关键技术。部分论文虽然 arXiv 时间略早但在5月引起广泛关注的，也简要提及。

1. 总体趋势概览

2026年5月的推荐论文呈现出以下趋势：

推理增强推荐进入”高效化”阶段：LASAR 用隐空间推理替代显式 CoT，速度快 20 倍且效果更好；TwiSTAR 引入自适应推理深度分配，只对”难”用户使用慢推理。这标志着推荐领域的推理增强不再是简单地套用 LLM 推理范式，而是在寻找推荐任务的”原生推理形式”。
SID 变长化成为共识：CapsID（胶囊路由 + 置信度终止）和 VarLenRec（双曲残差量化 + 流行度信息预算）从不同角度论证了”不同 item 应有不同长度的 ID”这一直觉，且都在尾部 item 上取得了最大收益。
RL 的信用分配粒度持续细化：SAPO 将奖励从整个序列细化到每个推理步骤，F-GRPO 将生成和排序两阶段的优势估计解耦——推荐中的 RL 正在从”粗放”走向”精细化”。
Test-Time Compute Scaling 首次进入 CTR 领域：UTTSI 提出不改模型、不重训练、仅在推理时对”不确定”样本增加计算的范式，为 CTR 预估开辟了训练之外的新优化维度。
Agent 推荐的记忆管理正式被系统化：MARS 提出三层信念状态（事件 → 偏好 → 画像）和六种记忆操作的完整生命周期，是迄今最完整的 Agent 推荐记忆架构。
生成式推荐向对话场景扩展：GCRS 将推荐与对话生成统一在单一自回归框架中，NewsRec-Chat 用意图驱动的 SID 生成解决新闻对话推荐中的实时性问题。

2. 时间线总表

时间	机构	论文 / 系统	方向	arXiv
2026.05	NUS	GRE-MC	多模态模态补全	2605.00670
2026.05	合肥工大	PFA	供给侧公平性适配	2605.01524
2026.05	—	BST-CDSR	时间感知跨域序列推荐	2605.02369
2026.05	中科大/浙大	BLADE	贝叶斯列表级对齐	2605.04559
2026.05	—	CapsID	软路由变长 Semantic ID	2605.05096
2026.05	—	NewsRec-Chat	意图驱动 SID 对话推荐	2605.07613
2026.05	北航/百度	LASAR	隐空间自适应推理生成式推荐	2605.10207
2026.05	清华深研院	TwiSTAR	自适应推理深度的 Agent 推荐	2605.11553
2026.05	UCSD/UIUC/Adobe	F-GRPO	分解式 GRPO（生成+排序统一）	2605.12995
2026.05	—	MARS	分层信念状态记忆 Agent 推荐	2605.14401
2026.05	清华/腾讯	AsymRec	非对称连续-离散生成式推荐	2605.14512
2026.05	美团	GenLI	生成式长期兴趣建模 CTR	2605.15905
2026.05	UVA/Nokia	SAPO	步骤对齐策略优化	2605.17648
2026.05	华东师大	VarLenRec	双曲变长 SID	2605.17779
2026.05	NTU	GCRS	全生成式对话推荐	2605.21987
2026.05	阿里巴巴	UTTSI	不确定性触发的测试时计算扩展	2605.24989
2026.05	—	MixRAGRec	MoE 知识图谱 RAG 多 Agent 推荐	2605.28175

3. 推理增强生成式推荐：从显式 CoT 到隐空间推理

5月最瞩目的技术方向是如何在生成式推荐中高效地引入推理能力。

3.1 LASAR：隐空间自适应语义对齐推理（2026年5月）

论文: LASAR: Latent Adaptive Semantic Aligned Reasoning for Generative Recommendation
链接: https://arxiv.org/abs/2605.10207
时间: 2026年5月

核心问题

显式 Chain-of-Thought（CoT）推理在推荐中面临三个挑战：（1）SID token 缺乏预训练语义，与连续隐空间推理存在鸿沟；（2）缺少推理链监督导致表征漂移；（3）全局固定推理深度不适应不同难度的样本。

核心贡献

提出 LASAR，一个”SFT-then-RL”的隐空间推理框架：

两阶段训练：Stage 1 先通过 SID 语义接地（grounding）建立 SID 与语言空间的映射，Stage 2 在此基础上引入隐空间推理，确保高效收敛；
CoT 语义对齐：通过步级双向 KL 散度，用 CoT 文本的隐状态锚点约束隐空间推理轨迹，防止表征漂移；
自适应推理深度：Policy Head 预测每个样本的推理步数，在 GRPO-based RL 阶段通过 REINFORCE 优化，动态分配推理预算。

实验效果

在三个真实数据集上全面超越所有 baseline，平均推理步数降低近一半，推理延迟仅增加微量，比显式 CoT 快约 20 倍。

延伸讨论

LASAR 的核心洞察是：推荐任务中的”推理”本质上不需要生成可读文本，在隐空间进行语义对齐的多步推理既保留了 CoT 的信息增益，又避免了 token 级生成的巨大开销。这一思路与 NLP 领域的 “Coconut”（连续思维链）方向高度呼应，可能预示着推荐推理的主流形式将是隐空间推理而非显式文本推理。

3.2 TwiSTAR：快思考、慢思考、再行动（2026年5月）

论文: TwiSTAR: Think Fast, Think Slow, Then Act, Generative Recommendation with Adaptive Reasoning
链接: https://arxiv.org/abs/2605.11553
时间: 2026年5月

核心问题

现有生成式推荐要么统一使用快速直接生成（牺牲准确率），要么统一使用慢速 CoT 推理（延迟不可接受）——缺乏按样本难度分配推理预算的机制。

核心贡献

提出 TwiSTAR，一个受 Kahneman “快慢思考”启发的 Agentic 推荐框架：

三工具架构：快速 SID 检索器（System 1）、轻量排序器、慢速推理模型（System 2）；
协同常识注入：将 item-to-item 共现关系转化为自然语言解释，注入慢速推理模型的训练数据；
学习型 Planner：通过监督预热 + Agentic RL 两阶段训练，学习何时调用哪个工具。

实验效果

在 Amazon Beauty/Sports/Toys 上 NDCG@10 全面超过 OneRec-Think 等强 baseline，推理延迟比统一慢推理降低 3.3 倍。

延伸讨论

TwiSTAR 的 Planner 本质上是一个推理预算分配器，这与 LASAR 的 Policy Head 异曲同工。两者都在回答同一个问题：不同用户/请求需要多少推理计算？差异在于 LASAR 在连续隐空间内调节深度，TwiSTAR 在离散工具间路由。这两条技术路线可能在未来融合——用隐空间推理的深度作为”慢思考”的具体实现。

3.3 SAPO：步骤对齐策略优化（2026年5月）

论文: SAPO: Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation
链接: https://arxiv.org/abs/2605.17648
时间: 2026年5月

核心问题

推理增强的生成式推荐使用 GRPO 优化时，一个完整的 response 包含多个推理步骤和多个 SID token。标准 GRPO 仅在最终 SID 匹配时给出二值奖励（全对/全错），无法区分是哪个推理步骤出了问题，导致信用分配模糊。

核心贡献

提出 SAPO（Step-Aligned Policy Optimization）：

将信用分配的自然单元定义为单个推理步骤（一个 thinking block + 一个 SID token）；
对每个推理步骤独立计算 group-relative advantage，而非将整个序列的 advantage 广播到所有 token；
优势估计仅应用于对应的 thinking block 和 SID token，实现细粒度的梯度归因。

实验效果

在三个真实推荐数据集上，SAPO 稳定了 RL 训练过程，一致性地超越现有生成式推荐 baseline。

延伸讨论

SAPO 与 LASAR、TwiSTAR 共同构成了5月推理增强推荐的”三驾马车”：LASAR 解决推理的效率问题，TwiSTAR 解决推理的调度问题，SAPO 解决推理的训练问题。三者互补性极强，理论上可以组合使用。

4. Semantic ID：变长化成为共识

4.1 CapsID：软路由变长 Semantic ID（2026年5月）

论文: CapsID: Soft-Routed Variable-Length Semantic IDs for Generative Recommendation
链接: https://arxiv.org/abs/2605.05096
时间: 2026年5月

核心问题

现有 SID 基于硬残差量化（RQ-VAE），在聚类边界上将多面语义压缩到单一码字，且早期量化误差逐层传播。

核心贡献

胶囊路由替代硬量化：item 在每层概率性路由到多个语义胶囊，残差由路由重构更新而非单一获胜码字；
置信度驱动的变长 SID：当活跃胶囊置信度足够高时提前终止生成，不同 item 自然产生不同长度的 ID；
SemanticBPE：基于共现频率和 embedding 兼容性，将相邻 SID token 组合为可复用子词。

实验效果

Recall@10 平均 +9.6%（相对 ReSID），推理延迟仅为 sparse-dense 系统的 51%。尾部 item 改善最为显著。

4.2 VarLenRec：双曲变长 Semantic ID（2026年5月）

论文: Learning Variable-Length Tokenization for Generative Recommendation
链接: https://arxiv.org/abs/2605.17779
时间: 2026年5月

核心问题

固定长度 SID 对所有 item 分配相同的编码容量，违反了”热门 item 需要短编码、长尾 item 需要精细编码”的直觉。

核心贡献

PIBA（Popularity-Weighted Information Budget Allocation）：从信息论角度证明最优 ID 长度应随流行度呈负幂律关系；
双曲残差量化（HARQ）：利用 Poincaré 球的指数体积增长特性，自然地将热门 item 编码到紧凑的原点区域，长尾 item 编码到指数扩展的边界区域；
Soft Length Controller：通过连续的层保留概率实现可微分的长度预测，由 PIBA 理论先验正则化。

实验效果

在推荐准确率和训练/推理效率上均显著优于 SOTA 方法。

延伸讨论

CapsID 和 VarLenRec 从不同的技术路线走向了相同的结论：SID 应该是变长的。CapsID 用置信度驱动长度（自下而上），VarLenRec 用信息论先验分配预算（自上而下）。两者在长尾 item 上都取得了最大收益，这说明固定长度 SID 对长尾 item 的”信息饥饿”是一个系统性问题。与4月的 STAMP（语义剪枝）结合来看，SID 设计的核心矛盾正在从”如何量化”转向”量化多少”。

4.3 AsymRec：非对称连续-离散框架（2026年5月）

论文: Asymmetric Generative Recommendation via Multi-Expert Projection and Multi-Faceted Hierarchical Quantization
链接: https://arxiv.org/abs/2605.14512
时间: 2026年5月

核心问题

现有 GenRec 将 SID 对称地用于输入和输出，但这导致双重信息瓶颈：（1）输入瓶颈——有损量化降低细粒度语义，流行度偏差扭曲表征；（2）输出瓶颈——不精确的离散目标限制监督质量。

核心贡献

提出 AsymRec，打破输入输出的对称性：

Multi-expert Semantic Projection（MSP）：输入端直接将连续 embedding 通过专家特化投影映射到 Transformer 的隐空间，保留语义丰富度；
Multi-faceted Hierarchical Quantization（MHQ）：输出端通过多视角、多层级量化构建高容量的结构化离散目标，配合语义正则化防止维度坍塌。

实验效果

平均超越 SOTA 生成式推荐器 15.8%。

5. RL/GRPO：信用分配的精细化

5.1 F-GRPO：分解式 GRPO 统一生成与排序（2026年5月）

论文: F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking
链接: https://arxiv.org/abs/2605.12995
时间: 2026年5月

核心问题

当生成式推荐同时包含候选生成和排序两个阶段时，标准 GRPO 对整个序列使用统一的 advantage，无法区分生成阶段和排序阶段各自的贡献。

核心贡献

提出 F-GRPO，关键创新：

两阶段优势分解：生成阶段和排序阶段各自计算独立的 group-relative advantage；
阶段特定信用分配：生成阶段的奖励聚焦于候选质量，排序阶段的奖励聚焦于排列准确度；
在统一生成-排序模型上验证了分解式 RL 的有效性。

延伸讨论

F-GRPO 与 SAPO 的核心思想一致——RL 优化推荐时，信用分配的粒度必须与任务的结构化分解对齐。SAPO 按推理步骤分解，F-GRPO 按生成/排序阶段分解。这暗示着推荐 RL 的未来方向是”结构感知的策略优化”——不再把推荐输出视为扁平的 token 序列，而是按其内在的任务结构进行细粒度优化。

6. 自适应计算分配：Test-Time Compute Scaling 进入推荐

6.1 UTTSI：不确定性触发的测试时选择性推理（2026年5月）

论文: Selective Test-Time Compute Scaling for Click-Through Rate Prediction via Uncertainty-Triggered Feature Path Exploration
链接: https://arxiv.org/abs/2605.24989
时间: 2026年5月

核心问题

CTR 研究几乎全部聚焦于训练阶段的改进，而推理阶段的预测可靠性差异被完全忽视——由于特征稀疏性，不同样本的预测置信度差异巨大，但没有现有机制对此进行计算补偿。

核心贡献

提出 UTTSI，一个无需训练、模型无关的推理时计算扩展框架：

双信号不确定性估计：结合模型 logit 置信度与特征频率先验，生成每个样本的可靠性评分；
自适应特征过滤：对所有样本移除训练支持不足的 embedding；
选择性多路径探索：仅对”不确定”样本进行多次特征路径采样，通过一致性加权集成聚合预测。

业务效果

在四个数据集和七天在线 A/B 测试中一致性提升，平均计算开销约 2.8 倍基准模型成本，在工业服务约束内可控。

延伸讨论

UTTSI 是 Test-Time Compute Scaling 首次被系统性地引入 CTR 预估。其”即插即用”的特性（不改模型、不重训练）使其具有极高的工业应用价值。更深层的意义是：它证明了 LLM 领域的 “scaling test-time compute” 范式可以迁移到传统推荐模型上——即使不是 LLM，也可以在推理时通过增加计算来提升预测质量。

6.2 BLADE：贝叶斯列表级对齐（2026年5月）

论文: Beyond Static Best-of-N: Bayesian List-wise Alignment for LLM-based Recommendation
链接: https://arxiv.org/abs/2605.04559
时间: 2026年5月

核心问题

LLM 推荐中的 Best-of-N 方法直接在推理时优化列表级指标（NDCG、公平性、多样性），但计算成本高。BoN Alignment 试图将搜索能力蒸馏进模型，但面临无差别监督（静态参考无法区分超出经验范围的候选质量）和梯度衰减（策略改进后监督信号迅速减弱）。

核心贡献

提出 BLADE（Bayesian List-wise Alignment via Dynamic Estimation）：

贝叶斯框架：不使用静态目标分布，而是持续融合历史先验与模型当前 rollout 的动态证据，构建自演化的目标分布；
突破了静态性能上限，在排序准确率和复杂列表级指标（公平性、多样性）上均实现了持续增益。

7. Agent 化推荐：记忆管理与工具调度

7.1 MARS：分层信念状态记忆 Agent 推荐（2026年5月）

论文: Agentic Recommender System with Hierarchical Belief-State Memory
链接: https://arxiv.org/abs/2605.14401
时间: 2026年5月

核心问题

现有记忆增强 LLM Agent 推荐系统普遍采用扁平记忆结构，将瞬时信号与稳定偏好混为一谈，且没有提供记忆应如何演化的完整生命周期。

核心贡献

提出 MARS（Memory-Augmented Agentic Recommender System），将推荐视为部分可观测问题：

三层信念状态：
- 事件记忆（Event Memory）：缓冲原始行为信号；
- 偏好记忆（Preference Memory）：维护细粒度可变 chunk，附带显式的强度和证据追踪；
- 画像记忆（Profile Memory）：将所有偏好蒸馏为连贯的自然语言叙述。
六种记忆操作的完整生命周期：抽取（extraction）、强化（reinforcement）、弱化（weakening）、合并（consolidation）、遗忘（forgetting）、重合成（resynthesis）；
LLM-based Planner 自适应调度：基于 LLM 的规划器自适应地调度记忆操作，而非固定间隔触发。

实验效果

在四个 InstructRec 基准域上达到 SOTA，HR@1 平均 +26.4%，NDCG@10 平均 +10.3%，token 使用量降低 2 倍。在动态演化场景中，Agentic 调度进一步带来最高 21.6% 的增益。

延伸讨论

MARS 是目前最完整的 Agent 推荐记忆架构。与3月阿里的 AgenticRS（侧重多 Agent 链路重构）和4月的 CoARS（侧重自蒸馏 RL 训练）相比，MARS 更聚焦于单 Agent 内部的认知架构设计——如何在一个 Agent 内部管理用户信息的不同抽象层次、如何决定何时更新/遗忘/重合成记忆。三层信念状态的设计有认知科学背景（类似 Marr 的三层计算理论），为 Agent 推荐提供了一个结构化的认知框架。

7.2 MixRAGRec：MoE 知识图谱 RAG 多 Agent 推荐（2026年5月）

论文: Mixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based Recommendation
链接: https://arxiv.org/abs/2605.28175
时间: 2026年5月

核心贡献

MoE 知识图谱检索：多个检索专家负责不同粒度的知识图谱子图检索，由路由网络根据查询难度分配；
多 Agent 框架：不同 Agent 负责不同粒度的知识利用和推荐决策；
实现端到端的查询感知检索与知识利用统一优化。

8. 对话推荐与新场景

8.1 GCRS：全生成式对话推荐（2026年5月）

论文: Generative Conversational Recommender System
链接: https://arxiv.org/abs/2605.21987
时间: 2026年5月

核心问题

现有对话推荐要么将推荐与对话生成解耦，要么依赖检索管道，限制了推荐与回复生成的整合深度。

核心贡献

提出首个全生成式对话推荐框架：

统一自回归框架：将 item 表示为离散 SID，通过 next-token modeling 联合预测 item 和回复；
结构化生成范式：将对话推荐分解为一系列相互依赖的决策——先预测回复意图和推荐目标，再根据它们生成回复；
约束解码：确保生成的 item 是合法的 SID，避免幻觉。

实验效果

Recall@1 最高提升 29%，同时保持有竞争力的对话质量。

8.2 NewsRec-Chat：意图驱动的新闻对话推荐（2026年5月）

论文: Intent-Driven Semantic ID Generation for Grounded Conversational News Recommendation
链接: https://arxiv.org/abs/2605.07613
时间: 2026年5月

核心问题

新闻对话推荐面临独特挑战：（1）用户意图多为隐式的，缺乏可检索的关键词；（2）新闻语料实时更新，传统 RAG 管道存在 retrieve-first 瓶颈。

核心贡献

意图驱动 SID 生成 + Generate-then-Match 范式：LLM 先生成分层 SID 前缀，再模糊匹配到当前新闻池，保证推荐完全 grounded；
两阶段训练：多任务 SID 对齐 + GPT-4 CoT 蒸馏；
PADR（Profile-Aware Dual-Signal Reasoning）：使冷启动用户仅凭画像即可获得有效推荐。

实验效果

7B 模型实现 0% 幻觉率，在 152K 开放生成 SID 空间中达到 12.4% L1 匹配（随机基线的 4 倍），成本约为 GPT-4+Hybrid RAG 的 1/100。

9. CTR 与长期兴趣建模

9.1 GenLI：生成式长期兴趣建模（2026年5月）

论文: Generative Long-term User Interest Modeling for Click-Through Rate Prediction
链接: https://arxiv.org/abs/2605.15905
时间: 2026年5月

核心问题

现有长期兴趣建模依赖 target-centered 检索（如 SIM / ETA），即”先有候选 item，再从历史行为中检索相关行为”。这导致两个问题：（1）兴趣覆盖不全面——只能捕获与当前候选相关的兴趣；（2）效率低——每个候选都需要遍历历史。

核心贡献

提出 GenLI，用生成式方法替代检索式长期兴趣建模：

Interest Generation Module（IGM）：以最近几次行为为输入，直接生成隐式、显式和相对三种兴趣分布，不依赖目标 item；
Behavior Retrieval Module（BRM）：基于生成的兴趣分布通过 lookup 选择最匹配的历史行为子集，时间复杂度降至 $O(1)$；
Interest Fusion Module（IFM）：分别聚合不同兴趣分布对应的行为，通过注意力机制融合为最终的长期兴趣表示。

延伸讨论

GenLI 的思路与字节的 IAT（4月）形成有趣的对比：IAT 从工程视角把历史行为”压缩成 Token”，GenLI 从建模视角把历史行为”生成为分布”。两者都在解决长序列建模的效率问题，但切入点不同——IAT 是”压缩后再建模”，GenLI 是”先建模再检索”。

10. 多模态与公平性

10.1 GRE-MC：图检索增强的多模态补全（2026年5月）

论文: Robust Multimodal Recommendation via Graph Retrieval-Enhanced Modality Completion
链接: https://arxiv.org/abs/2605.00670
时间: 2026年5月

核心贡献

针对多模态推荐中的模态缺失问题：

模态感知子图检索：从完整图中检索语义相关的子图，提供比邻居聚合更丰富的上下文信息；
图 Transformer 联合编码：通过全局注意力联合编码查询节点和检索子图来补全缺失特征；
可学习稀疏路由码本：将隐表征正则化为紧凑基底，提升鲁棒性。

10.2 PFA：供给侧公平性的后训练适配（2026年5月）

论文: Post-hoc Provider Fairness Adaptation via Hierarchical Exposure Alignment
链接: https://arxiv.org/abs/2605.01524
时间: 2026年5月

核心贡献

Post-hoc Fairness Adapter：在冻结的推荐模型上训练轻量适配器，学习个性化的分数调整项，无需重训练骨干模型；
HEFA（Hierarchical Exposure Fairness Alignment）：显式平衡组间和组内的供给侧曝光差异；
联合优化：HEFA + 可微分 NDCG loss 联合训练，在公平性和排序质量之间取得平衡。

11. 跨域与序列建模

11.1 BST-CDSR：时间感知跨域序列推荐（2026年5月，SIGIR 2026）

论文: Bridging Behavior and Semantics for Time-aware Cross-Domain Sequential Recommendation
链接: https://arxiv.org/abs/2605.02369
会议: SIGIR 2026
时间: 2026年5月

核心贡献

行为偏好演化模块：解耦长期兴趣和短期意图，通过神经 ODE 建模连续时间偏好演化；
时间反事实增强语义生成器：离散化时间间隔 token，利用 LLM 提取鲁棒的时间语义，通过反事实扰动增强语义偏好的时间敏感性；
时间偏好引导的域迁移模块：自适应控制跨域迁移权重，缓解负迁移。

12. 横向对比与趋势总结

12.1 关键技术主题对比

主题	代表论文	核心思路
隐空间推理	LASAR	SFT-then-RL + CoT 语义对齐 + 自适应深度
自适应推理调度	TwiSTAR	三工具 + 协同常识 + Agentic RL Planner
RL 步骤级信用分配	SAPO	步骤对齐的 group-relative advantage
RL 阶段解耦	F-GRPO	生成/排序两阶段独立优势估计
SID 变长（自下而上）	CapsID	胶囊路由 + 置信度终止 + SemanticBPE
SID 变长（自上而下）	VarLenRec	PIBA 信息预算 + 双曲量化 + Soft Length
SID 非对称化	AsymRec	连续输入 + 结构化离散输出
Test-Time Scaling	UTTSI	不确定性触发 + 多路径探索 + 一致性集成
Agent 记忆管理	MARS	三层信念状态 + 六种记忆操作 + LLM 调度
对话推荐	GCRS / NewsRec-Chat	全生成式统一 / 意图驱动 SID + Generate-then-Match
长期兴趣	GenLI	生成式兴趣分布 + O(1) lookup
多模态补全	GRE-MC	图检索子图 + 图 Transformer 联合编码
列表级对齐	BLADE	贝叶斯自演化目标 + 列表级指标优化

12.2 值得关注的趋势

“推理增强推荐”正在分化为隐空间推理 vs 显式推理两条路线：LASAR 代表的隐空间路线效率更高（20 倍加速），但可解释性差；TwiSTAR/SAPO 代表的显式路线保留了推理过程的可读性，但需要更精细的优化设计。预计2026年下半年两条路线会进一步竞争与融合。
SID 变长化可能重塑生成式推荐的效率天花板：如果热门 item 只需要2个 token（而非统一的4-8个），那么生成式推荐的推理成本将大幅降低。CapsID 和 VarLenRec 为此提供了理论和实验基础。
RL 在推荐中的信用分配粒度持续细化：从序列级（标准 GRPO）→ 步骤级（SAPO）→ 阶段级（F-GRPO），趋势是让 RL 的优化粒度与推荐任务的结构化分解完全对齐。
Test-Time Compute Scaling 进入推荐：UTTSI 证明了即使在传统 CTR 模型上，推理时增加计算也能带来实质性收益。这可能催生一类新的”推理时优化”方法，作为训练阶段改进的补充。
Agent 推荐的核心能力正在从”对话”转向”记忆管理”和”工具调度”：MARS 的三层记忆生命周期和 TwiSTAR 的三工具路由，标志着 Agent 推荐的研究重心从”让 LLM 做推荐”转向”让 LLM 智能地管理推荐过程中的认知资源”。

13. 结语

2026年5月的推荐论文，呈现出一个清晰的信号：推荐系统正在从”一视同仁”走向”因地制宜”。

LASAR/TwiSTAR 对不同难度的推荐请求分配不同的推理深度；
CapsID/VarLenRec 对不同流行度的 item 分配不同长度的编码；
UTTSI 对不同置信度的 CTR 样本分配不同的推理计算量；
SAPO/F-GRPO 对不同阶段/步骤的推理输出分配不同的训练信号。

这种”自适应”的核心范式正在渗透到推荐系统的每一个环节——编码、训练、推理、记忆管理——并有望成为2026年下半年推荐系统研究的核心主题。

对于做推荐的同学，建议重点关注：

推理增强推荐的效率化（LASAR 为代表的隐空间推理），这是将 LLM 推理能力大规模落地到推荐的关键路径；
SID 变长化的工程落地（CapsID / VarLenRec），这将直接影响生成式推荐的推理成本和长尾覆盖；
Test-Time Compute Scaling 在推荐中的扩展（UTTSI），这为”不改模型只改推理”的优化范式提供了新思路；
结构感知的 RL 优化（SAPO / F-GRPO），这是推理增强生成式推荐训练效率的关键。

参考文献

GRE-MC. Robust Multimodal Recommendation via Graph Retrieval-Enhanced Modality Completion. arXiv:2605.00670, 2026.
PFA. Post-hoc Provider Fairness Adaptation via Hierarchical Exposure Alignment. arXiv:2605.01524, 2026.
BST-CDSR. Bridging Behavior and Semantics for Time-aware Cross-Domain Sequential Recommendation. SIGIR 2026, arXiv:2605.02369.
BLADE. Beyond Static Best-of-N: Bayesian List-wise Alignment for LLM-based Recommendation. arXiv:2605.04559, 2026.
CapsID. Soft-Routed Variable-Length Semantic IDs for Generative Recommendation. arXiv:2605.05096, 2026.
NewsRec-Chat. Intent-Driven Semantic ID Generation for Grounded Conversational News Recommendation. arXiv:2605.07613, 2026.
LASAR. Latent Adaptive Semantic Aligned Reasoning for Generative Recommendation. arXiv:2605.10207, 2026.
TwiSTAR. Think Fast, Think Slow, Then Act, Generative Recommendation with Adaptive Reasoning. arXiv:2605.11553, 2026.
F-GRPO. Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking. arXiv:2605.12995, 2026.
MARS. Agentic Recommender System with Hierarchical Belief-State Memory. arXiv:2605.14401, 2026.
AsymRec. Asymmetric Generative Recommendation via Multi-Expert Projection and Multi-Faceted Hierarchical Quantization. arXiv:2605.14512, 2026.
GenLI. Generative Long-term User Interest Modeling for Click-Through Rate Prediction. arXiv:2605.15905, 2026.
SAPO. Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation. arXiv:2605.17648, 2026.
VarLenRec. Learning Variable-Length Tokenization for Generative Recommendation. arXiv:2605.17779, 2026.
GCRS. Generative Conversational Recommender System. arXiv:2605.21987, 2026.
UTTSI. Selective Test-Time Compute Scaling for Click-Through Rate Prediction via Uncertainty-Triggered Feature Path Exploration. arXiv:2605.24989, 2026.
MixRAGRec. Mixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based Recommendation. arXiv:2605.28175, 2026.

机器学习

This post is licensed under CC BY 4.0 by the author.