2026年以来字节、美团、阿里推荐系统论文盘点
2026年是工业级推荐系统进入”生成式范式 + 超大规模 Scaling”深度融合的关键一年。字节跳动(含抖音、今日头条、穿山甲、红果等场景)、美团(外卖、到店)、阿里巴巴(淘宝、AliExpress、阿里国际)三家头部公司在 arXiv、WWW、SIGIR、AAAI、ICDE 等渠道集中发布了一批面向工业落地的推荐系统论文。本文按时间线对2026年1月以来这三家公司公开的推荐方向论文进行系统梳理,覆盖生成式推荐 / Semantic ID、超长序列建模、大规模 Ranking Transformer、预排序 / 重排序、多模态 / 多业务建模、Agent 化推荐等主要方向,方便读者把握工业界最新趋势。
说明:本文聚焦三家公司在2026年1月之后公开(含正式录用 AAAI 2026 / WWW 2026 / ICDE 2026)的推荐方向工作,按 arXiv 发布时间排序。每篇论文标注机构、所属业务线、arXiv 编号 / 会议、发布时间、核心贡献、关键技术、业务效果。
1. 总体趋势概览
2026年以来三家公司的推荐系统论文呈现出以下几个明显趋势:
- 生成式推荐(Generative Recommendation, GR)全面进入主战场:从 Semantic ID 设计(DOS、R3-VAE、MACRec)到生成式排序 / 重排(MTGR、MBGR、NSGR、SIGMA),三家都把生成式范式从”探索”推进到”核心流量稳定收益”。
- 超大规模 Ranking Transformer 成为标配:字节 TokenMixer-Large 把工业 Ranking 模型推到 7B-15B 参数;阿里 SORT 系统化地把 Transformer 优化到 AliExpress 主场景;同时 UG-Sep、IAT 等”算法-工程 codesign”方案缓解推理成本。
- 超长序列建模继续深入:字节 IAT 把序列压缩成”实例 Token”,配合 LONGER 等已有工作支持万级序列端到端建模。
- 跨场景 / 多业务 / 多模态基础模型兴起:美团 MTFM 提出对齐无关的工业基础模型,MBGR 解决多业务”跷跷板”问题,MACRec 探索跨模态量化。
- Agentic Recommender 出现新范式:阿里提出从”流水线”到”智能体”的推荐系统重构蓝图(AgenticRS),开始尝试用 RL + LLM 重新组织推荐链路。
2. 时间线总表
| 时间 | 公司 | 论文 / 系统 | 方向 | arXiv / 会议 |
|---|---|---|---|---|
| 2026.01 | 字节跳动 | MERGE | 流式推荐 Item 索引 | arXiv:2601.20199 |
| 2026.01 | 阿里巴巴 | TGA | 多行为长序列推荐 | arXiv:2601.14955 |
| 2026.01 | 美团 | MACRec | 多模态生成式推荐 | AAAI 2026 (Oral) / arXiv:2511.15122 |
| 2026.02 | 美团 | DOS | Semantic ID 量化 | arXiv:2602.04460 |
| 2026.02 | 字节跳动 | TokenMixer-Large | 大规模 Ranking 模型 | arXiv:2602.06563 |
| 2026.02 | 字节跳动 | UG-Sep | 推理加速(算法-工程 codesign) | arXiv:2602.10455 |
| 2026.02 | 美团 | MTFM | 工业级推荐基础模型 | arXiv:2602.11235 |
| 2026.02 | 阿里巴巴 | SIGMA | 生成式多任务推荐(AliExpress) | arXiv:2602.22913 |
| 2026.03 | 字节跳动 | HAP | 异构感知预排序 | WWW 2026 / arXiv:2603.03770 |
| 2026.03 | 阿里巴巴 | SORT | 系统化优化的 Ranking Transformer | arXiv:2603.03988 |
| 2026.03 | 阿里巴巴 | CDNet | 序列与上下文双视图 CTR | arXiv:2603.12578 |
| 2026.03 | 阿里巴巴 | AIGQ | 端到端生成式 Query 推荐 | arXiv:2603.19710 |
| 2026.03 | 阿里巴巴 | KARMA | 多模态搜索语义保真 | arXiv:2603.22779 |
| 2026.03 | 阿里巴巴 | AgenticRS | 智能体化推荐范式 | arXiv:2603.26100 |
| 2026.04 | 美团 | MBGR | 多业务生成式推荐 | arXiv:2604.02684 |
| 2026.04 | 美团 | NSGR | 树状生成式重排 | arXiv:2604.05314 |
| 2026.04 | 阿里巴巴 | SSR | 显式稀疏可扩展模型 | arXiv:2604.08011 |
| 2026.04 | 字节跳动 | IAT | 历史序列实例压缩 | arXiv:2604.08933 |
| 2026.04 | 字节跳动 | R3-VAE | Semantic ID 量化 VAE | arXiv:2604.11440 |
注:阿里 REG4Rec(被 ICDE 2026 录用)arXiv 预印本编号为 2508.15308(2025年8月),早于2026年1月,本文仍在第6节”补充:2026年录用的早期 arXiv 工作”中简要列出,便于读者形成完整图景。
3. 字节跳动(ByteDance)2026年推荐论文
字节跳动2026年的工作覆盖:Item 索引 / Semantic ID、超大规模 Ranking 模型、推理加速、预排序、长序列建模等。
3.1 MERGE:下一代流式推荐 Item 索引范式(2026年1月)
论文: MERGE: Next-Generation Item Indexing Paradigm for Large-Scale Streaming Recommendation
链接: https://arxiv.org/abs/2601.20199
机构: 字节跳动
时间: 2026年1月
核心问题
传统基于向量量化(VQ)的 Item 索引方案在面对工业级流式推荐场景时存在两类问题:
- 数据偏态分布:长尾 item 在 VQ 码本中难以被合理覆盖;
- 数据演化:item 集合不断变化,固定码本无法持续匹配真实分布。
核心贡献
- 提出 MERGE 索引范式:通过自适应生成聚类(adaptive cluster generation)和分层合并机制(hierarchical merging),动态监控聚类占用并按需合并,解决 VQ 处理偏态 / 演化数据的局限。
- 在大规模流式场景下显著改善了 item embedding 的可索引性与召回质量。
3.2 TokenMixer-Large:把工业 Ranking 模型推到 15B 参数(2026年2月)
论文: TokenMixer-Large: Scaling Up Large Ranking Models in Industrial Recommenders
链接: https://arxiv.org/abs/2602.06563
机构: 字节跳动
时间: 2026年2月
背景
字节此前提出的 TokenMixer 已经验证了 Token Mixing 思想在工业 Ranking 上的有效性,但在残差结构、梯度更新稳定性、MoE 稀疏化、可扩展性上仍然受限,难以稳定 Scale 到十亿级以上。
核心贡献
提出 TokenMixer-Large,针对原 TokenMixer 的瓶颈做了系统性升级:
- Mixing-and-Reverting:在 Token Mixing 之后引入”还原”操作,使得高层信息可以稳定回流到底层稀疏特征;
- 层间残差 + 辅助损失:缓解大模型训练中的梯度退化;
- Sparse-Pertoken MoE:按 Token 粒度稀疏激活专家,降低实际算力开销;
- 多场景统一训练框架:覆盖电商、广告、直播等多个业务线。
业务效果
- 在线模型扩展到 7B 参数,离线扩展到 15B 参数;
- 在字节多个核心场景(电商、广告、直播等)取得显著的 ADSS / GMV 增益。
3.3 UG-Sep:让大模型只算一次(2026年2月)
论文: Compute Only Once: UG-Separation for Efficient Large Recommendation Models
链接: https://arxiv.org/abs/2602.10455
机构: 字节跳动
时间: 2026年2月
核心问题
类 RankMixer / TokenMixer 等大型 Ranking 模型把 User 与 Item 计算深度纠缠在一起,导致每个候选 item 都要在打分时重复进行用户侧的重计算,推理成本随候选规模线性增长。
核心贡献
提出 UG-Sep(User-Group Separation)框架,本质是一次”算法-工程 codesign”:
- Mask 机制解耦:在 Token Mixing 层通过显式 Mask 解耦 User 侧 / Item 侧的信息流;
- U-side Token 复用:用户侧 Token 计算复杂度从 $O(C)$(C 为候选数)降为 $O(1)$;
- W8A16 量化:进一步缓解内存带宽瓶颈。
业务效果
- 在抖音、红果、穿山甲等场景部署;
- 推理延迟降低 11.5% – 22.0%,业务指标无显著回退。
3.4 HAP:异构感知的预排序框架(2026年3月,WWW 2026)
论文: Not All Candidates are Created Equal: A Heterogeneity-Aware Approach to Pre-ranking in Recommender Systems
链接: https://arxiv.org/abs/2603.03770
会议: WWW 2026
机构: 字节跳动 · 今日头条
时间: 2026年3月
核心问题
预排序阶段的训练样本天然异构(”难”、”易”样本的梯度方向冲突),同时算力有限也要求把更多资源分配到真正难的候选上。
核心贡献
提出 HAP(Heterogeneity-Aware Adaptive Pre-ranking),包含两个核心模块:
- GHCL(Gradient-Harmonized Contrastive Learning):通过难度感知负采样和定制损失函数缓解梯度冲突;
- DAMR(Difficulty-Aware Model Routing):级联架构,轻量模型处理所有候选,复杂模型仅处理难样本,自适应分配计算预算。
业务效果
- 已在今日头条生产系统部署;
- 用户活跃天数提升 +0.05%,使用时长提升 +0.4%。
3.5 IAT:把历史交互压缩成 Token(2026年4月)
论文: IAT: Instance-As-Token Compression for Historical User Sequence Modeling in Industrial Recommender Systems
链接: https://arxiv.org/abs/2604.08933
机构: 字节跳动
时间: 2026年4月
核心思想
用户历史序列里每个交互通常包含多种特征(item id、品类、停留、转化等),传统做法把这些拍平/拼接,信息密度低且推理慢。IAT 提出”以实例为 Token”的两阶段框架:
- 第一阶段(实例压缩):把历史交互的所有特征压缩成一个统一的 instance embedding,作为信息密集的 Token,支持时间顺序与用户顺序两种压缩方案;
- 第二阶段(序列建模):下游任务通过时间戳取出已压缩好的 Instance Tokens,再喂给标准序列模型(如 LONGER 或 Transformer)做长程偏好建模。
业务效果
- 已在电商广告、营销、直播电商等场景部署;
- 显著提升业务指标,同时具备良好的跨域迁移能力。
3.6 R3-VAE:参考向量引导的评分残差量化 VAE(2026年4月)
论文: $R^3$-VAE: Reference Vector-Guided Rating Residual Quantization VAE for Generative Recommendation
链接: https://arxiv.org/abs/2604.11440
代码: https://github.com/wwqq/R3-VAE
机构: 字节跳动
时间: 2026年4月
核心问题
生成式推荐中的 Semantic ID(SID)训练存在两个老大难问题:
- 训练不稳定:RQ-VAE 等方法对初始化高度敏感,容易出现码本坍塌(codebook collapse);
- 评估低效:缺少在训练过程中直接评估 SID 质量的指标。
核心贡献
提出 $R^3$-VAE,三个关键设计:
- Reference Vector:引入参考向量作为语义锚点,缓解对初始化的敏感性;
- Rating-based 评分机制:基于点积的评分稳定训练,防止码本坍塌;
- Semantic Cohesion / Preference Discrimination:作为训练过程中的正则化项,直接评估 SID 质量。
业务效果
- 在 6 个公开 benchmark 上 Recall@10 平均 +14.2%,NDCG@10 平均 +15.5%;
- 在新闻推荐平台 A/B 测试中:MRR +1.62%,StayTime/U +0.83%;
- 把生成的 Semantic ID 作为 CTR 模型特征后,内容冷启动性能提升 +15.36%。
4. 美团(Meituan)2026年推荐论文
美团2026年的工作主线非常清晰:围绕生成式推荐的全链路——从 Semantic ID(DOS、MACRec)到工业级基础模型(MTFM)、再到多业务生成式排序(MBGR)、生成式重排(NSGR)。
4.1 MACRec:多视角跨模态量化生成式推荐(AAAI 2026 Oral)
论文: Multi-Aspect Cross-modal Quantization for Generative Recommendation
链接: https://arxiv.org/abs/2511.15122
会议: AAAI 2026 (Oral)
机构: 美团
时间: 论文 2025年11月预印本,AAAI 2026 录用
核心问题
生成式推荐依赖量化把 item 离散为 Semantic ID。现有工作在多模态场景下倾向于独立编码每个模态,缺乏跨模态交互,导致:
- Semantic ID 的语义层次性差;
- 模态信息利用不充分;
- 码本利用率低、ID 冲突率高。
核心贡献
提出 MACRec,两个关键设计:
- 跨模态残差量化(Cross-modal Residual Quantization):把对比学习融入分层量化过程,跨模态互补整合,让 Semantic ID 同时具备语义层次性与模态兼容性;
- 多角度跨模态对齐(Multi-Aspect Cross-modal Alignments):
- 隐式对齐:在潜在空间通过对比学习建模模态共享特征;
- 显式对齐:在生成任务中进行对齐,强化对多模态语义的理解。
实验效果
- 在 Amazon 电商推荐数据集上显著优于已有 baseline;
- 显著降低 item ID 冲突率,码本分布更均衡。
4.2 DOS:双流正交语义 ID(2026年2月)
论文: DOS: Dual-Flow Orthogonal Semantic IDs for Recommendation in Meituan
链接: https://arxiv.org/abs/2602.04460
机构: 美团
时间: 2026年2月
核心问题
生成式推荐中常见 Semantic ID 设计的两个痛点:
- 码本空间与生成空间错位:基于纯语义训练的码本,与最终的协同信号需求未对齐;
- 量化损失大:朴素 RQ-VAE 在残差链路上信息折损严重。
核心贡献
提出 DOS(Dual-Flow Orthogonal Semantic IDs):
- 双流架构:引入协同过滤信号对齐码本空间与生成空间;
- 正交残差量化:通过正交约束减少多层残差量化中的语义损耗;
- 已在美团线上场景部署。
4.3 MTFM:对齐无关的工业级推荐基础模型(2026年2月)
论文: MTFM: A Scalable and Alignment-free Foundation Model for Industrial Recommendation in Meituan
链接: https://arxiv.org/abs/2602.11235
机构: 美团
时间: 2026年2月
核心问题
跨场景共享的”推荐基础模型”通常需要把不同场景的特征对齐到共同空间,但工业里跨场景特征字段、含义、粒度都不一致,强行对齐既低效又容易掉点。
核心贡献
提出 MTFM(Meituan Transformer Foundation Model):
- Alignment-free 跨场景建模:把跨域数据转化为异构 Token,通过 Token 级别的 Transformer 建模跨场景知识,绕过特征对齐;
- 多场景用户级样本聚合:以用户为单位聚合多场景行为,提升训练效率;
- Grouped-Query Attention(GQA):在工业级训练 / 推理中显著降低显存与延迟。
4.4 MBGR:多业务生成式推荐(2026年4月)
论文: MBGR: Multi-Business Prediction for Generative Recommendation at Meituan
链接: https://arxiv.org/abs/2604.02684
机构: 美团 · 外卖
时间: 2026年4月
核心问题
外卖等场景天然是多业务的(餐饮、商超、闪购、医药……):
- 跷跷板现象:一个业务上涨往往会拖累另一个;
- 表征混淆:不同业务的 item 共享同一空间,导致语义混淆。
核心贡献
提出 MBGR,三个关键模块:
- 业务感知语义 ID(Business-aware ID, BID):在 Semantic ID 中显式编码业务信息;
- 多业务预测结构(Multi-Business Prediction, MBP):在生成式架构上设计多业务联合预测;
- 标签动态路由(Label Dynamic Routing, LDR):根据业务类型动态选择训练标签的路由策略。
业务效果
- 已在美团外卖平台生产环境部署。
4.5 NSGR:树状生成式重排(2026年4月)
论文: Next-Scale Generative Reranking: A Tree-based Generative Rerank Method at Meituan
链接: https://arxiv.org/abs/2604.05314
机构: 美团
时间: 2026年4月
核心问题
生成式重排器存在两个关键痛点:
- 缺乏全局-局部视角:只看局部往往牺牲序列全局的多样性 / 价值;
- 生成器与评估器目标不一致:训练时生成的列表与最终评估的指标不匹配。
核心贡献
提出 NSGR(Next-Scale Generative Reranking):
- NSG(Next-Scale Generator):粗到细的渐进式生成机制,平衡全局与局部视角;
- MSE(Multi-Scale Evaluator):基于树状结构的评估器,在不同尺度上为生成器提供针对性的指导信号;
- Multi-scale Neighbor Loss:用于优化生成过程;
- 已在美团外卖平台部署。
5. 阿里巴巴(Alibaba)2026年推荐论文
阿里2026年覆盖:多行为序列、Ranking Transformer、生成式多任务、CTR、查询推荐、多模态搜索、Agentic RS、稀疏化大模型。淘宝、AliExpress、阿里国际多个业务线均有产出。
5.1 TGA:多行为序列建模图注意力网络(2026年1月)
论文: Multi-Behavior Sequential Modeling with Transition-Aware Graph Attention Network for E-Commerce Recommendation
链接: https://arxiv.org/abs/2601.14955
机构: 阿里巴巴 · 淘宝天猫
时间: 2026年1月
核心问题
电商场景下用户行为序列:
- 长:万级长度;
- 多行为:浏览、点击、加购、收藏、下单等;
传统多行为序列模型在长序列下复杂度高、性能差。
核心贡献
提出 TGA(Transition-Aware Graph Attention Network):
- 结构化稀疏图:在 item 级、类别级、邻居级显式建模行为转换;
- 线性时间复杂度:支持万级序列长度;
- 已在淘宝生产环境部署,CVR / GMV 显著提升。
5.2 SIGMA:AliExpress 上的语义 + 指令驱动多任务生成式推荐(2026年2月)
论文: SIGMA: A Semantic-Grounded Instruction-Driven Generative Multi-Task Recommender at AliExpress
链接: https://arxiv.org/abs/2602.22913
机构: 阿里巴巴 · AliExpress
时间: 2026年2月
核心问题
现有生成式推荐大多只能做”next-item prediction”,难以胜任工业里多任务、多场景的丰富需求;同时 SID 本身缺乏语义 grounding。
核心贡献
提出 SIGMA,三大组件:
- Multi-view Semantic Grounding:用搜索日志、视觉特征、世界知识把 item 与语义映射到统一潜在空间;
- Hybrid Item Tokenization:SID 前缀 + 唯一 item ID 混合表示;
- Three-step Generation + Adaptive Probabilistic Fusion:引入概率融合机制,在准确率与多样性之间自适应权衡。
业务效果
- 在 AliExpress 在线 A/B 测试:订单量 +2.80%、转化率 +3.84%、GMV +7.84%。
5.3 SORT:系统化优化的 Ranking Transformer(2026年3月)
论文: SORT: A Systematically Optimized Ranking Transformer for Industrial-scale Recommenders
链接: https://arxiv.org/abs/2603.03988
机构: 阿里巴巴 · AliExpress
时间: 2026年3月
核心问题
Transformer 在工业 Ranking 上的扩展存在三大障碍:特征极度稀疏、标签密度极低、推理时延苛刻。SORT 把这三个问题作为系统目标,做了系统级优化。
核心贡献
提出 SORT,关键技术包括:
- Request-centric 样本组织:按请求维度组织训练样本,提高数据利用率;
- Local Attention + Query Pruning:把 Attention 限制在局部,并对 Query 做剪枝;
- 生成式预训练:先做生成式预训练,再做判别式微调;
- MoE FFN 层:以稀疏专家网络扩展容量但控制成本。
业务效果
在 AliExpress 电商场景:
- 订单 +6.35%、买家数 +5.97%、GMV +5.47%;
- 系统层面:延迟 -44.67%、吞吐 +121.33%。
5.4 CDNet:序列与上下文双视图融合的 CTR 预估(2026年3月)
论文: Bridging Sequential and Contextual Features with a Dual-View of Fine-grained Core-Behaviors and Global Interest-Distribution
链接: https://arxiv.org/abs/2603.12578
机构: 阿里巴巴
时间: 2026年3月
核心问题
CTR 模型里序列特征与上下文特征往往单独处理,长序列里的噪声进一步降低融合效率,难以兼顾”细粒度核心行为”与”全局兴趣分布”。
核心贡献
提出 CDNet(Core-Behaviors and Distributional-Compensation Dual-View Interaction Network):
- 核心行为视图(Core-Behaviors View):聚焦关键、细粒度行为;
- 全局兴趣分布视图(Global Interest-Distribution View):从分布层面补偿核心行为视图的偏差;
- 在长序列场景下兼顾建模精度与计算效率。
5.5 AIGQ:端到端生成式电商查询推荐(2026年3月)
论文: AIGQ: An End-to-End Hybrid Generative Architecture for E-commerce Query Recommendation
链接: https://arxiv.org/abs/2603.19710
机构: 阿里巴巴 · 淘宝天猫
时间: 2026年3月
核心问题
淘宝首页 HintQ(预搜索查询推荐)此前依赖多阶段、规则驱动的链路,难以实时捕捉用户细粒度意图。
核心贡献
提出 AIGQ(AI-Generated Query Architecture),首个端到端生成式 Query 推荐框架:
- IL-SFT(Interest-aware List Supervised Fine-Tuning):以兴趣为中心的列表式 SFT;
- IL-GRPO(Interest-aware List Group Relative Policy Optimization):列表组相对策略优化;
- 离线-在线混合架构:实时捕捉意图,规模化部署。
业务效果
- 在淘宝大规模在线 A/B 实验中验证显著业务收益。
5.6 KARMA:多模态搜索的语义保真架构(2026年3月)
论文: KARMA: Knowledge-Action Regularized Multimodal Architecture
链接: https://arxiv.org/abs/2603.22779
机构: 阿里巴巴 · 淘宝搜索
时间: 2026年3月
核心问题
淘宝多模态搜索系统中存在”语义坍塌”现象:多模态特征压缩后丢失了关键语义。
核心贡献
提出 KARMA,通过知识-动作正则化(Knowledge-Action Regularization)提升多模态语义保真度,同时改善搜索动作指标(点击 / 转化)。
5.7 AgenticRS:从流水线到智能体的推荐系统(2026年3月)
论文: Rethinking Recommendation Paradigms: From Pipelines to Agentic Recommender Systems
链接: https://arxiv.org/abs/2603.26100
机构: 阿里巴巴国际数字商业集团
时间: 2026年3月
核心思想
阿里国际系统性反思了”召回-粗排-精排-重排”流水线推荐的局限,提出 Agentic Recommender Systems(AgenticRS) 蓝图:
- 把推荐系统重构为多智能体决策系统,运行在”感知-决策-执行-反馈”循环中;
- 提出局部演化(local evolution)和组合演化(compositional evolution)两类机制:
- 局部演化:用 RL 风格的方法在线优化单个 agent;
- 组合演化:用 LLM 驱动的结构化演化重组整个 agent 链路。
意义
是一篇方向性 / 范式性论文,给 LLM + Agent + RecSys 的融合提供了系统性蓝图,预计将影响后续多家厂商的架构演进。
5.8 SSR:显式稀疏可扩展模型(2026年4月)
论文: Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation Models
链接: https://arxiv.org/abs/2604.08011
机构: 阿里巴巴
时间: 2026年4月
核心思想
提出 SSR 框架,针对推荐大模型 Scaling 中的”稠密连接”瓶颈,引入显式稀疏(explicit sparsity):
- 突破 Dense MoE / Dense Transformer 的成本瓶颈;
- 在保持精度的前提下,显著降低计算与内存开销,实现可扩展的推荐大模型。
6. 补充:2026年录用 / 应用,但 arXiv 在2026年之前的工作
为了尽量不遗漏读者关心的工作,以下是2026年正式被会议录用、但 arXiv 预印本时间在2026年之前的代表工作。
6.1 阿里 REG4Rec(ICDE 2026)
论文: REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems
链接: https://arxiv.org/abs/2508.15308
会议: ICDE 2026
机构: 阿里巴巴国际智能技术团队
核心问题
现有生成式推荐:
- item 语义表示单一;
- 推理过程缺乏可靠性。
核心贡献
提出 REG4Rec,关键设计:
- MPQ(MoE-based Parallel Quantization Codebooks):MoE 并行自编码器专家,给每个 item 生成多个无序 Semantic Token,构建多样、灵活的推理空间;
- PARS(Preference Alignment for Reasoning):基于 RL 的偏好对齐,引导模型选择高置信、自洽的推理路径;
- MSRA(Multi-Step Reward Augmentation):把奖励视野扩展到未来多步行为,提升泛化、降低噪声;
- CORP(Consistency-Oriented Self-Reflection for Pruning):推理时自反思,对不一致的推理路径进行修正或裁剪;
- LADQ(Layer-Adaptive Dynamic Quantization Controller):训练阶段层自适应动态量化(fp32/bf16/fp8)。
业务效果
- 公开 + 工业数据集性能提升最高 16.59%;
- 阿里广告平台 A/B:广告收入 +5.60%、CTR +1.81%、GMV +3.29%。
6.2 美团 MTGR(CIKM 2025 / 2026年外卖核心流量稳定贡献)
论文: MTGR: Industrial-Scale Generative Recommendation Framework in Meituan
链接: https://arxiv.org/abs/2505.18654
机构: 美团
虽然 arXiv 在 2025 年 5 月,但作为美团2026年生成式推荐论文(DOS、MBGR、NSGR)的底座,在2026年仍持续迭代。其核心是基于 HSTU 架构、保留 DLRM 的交叉特征体系,同时引入用户级压缩、Group-Layer Normalization 与动态掩码策略,实现单样本前向 FLOPs +65×、离线 GAUC +2.88pp、在线订单 +1.22%。
6.3 字节 LONGER(RecSys 2025)
论文: LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders
链接: https://arxiv.org/abs/2505.04421
机构: 字节跳动
是 IAT(2026.04)的搭档:通过 全局 Token + Token Merge + Hybrid Attention 把工业推荐 Transformer 推到万级序列长度,已在字节十余个核心场景部署。2026 年的 IAT 与 UG-Sep 都在 LONGER 的体系上进一步演化。
7. 横向对比与趋势总结
7.1 三家公司的”主场”差异
- 字节跳动:把工业落地 + Scaling Law 推到极致——模型规模(TokenMixer-Large 15B)、序列长度(LONGER + IAT)、推理成本(UG-Sep)、Semantic ID 稳定性(R3-VAE)形成完整闭环。
- 美团:以生成式推荐全链路为主线——从 SID(DOS、MACRec)到 Foundation Model(MTFM)、再到生成式排序与重排(MTGR、MBGR、NSGR),围绕”外卖 + 多业务”形成完整方案。
- 阿里巴巴:覆盖面最宽——Ranking(SORT)、CTR(CDNet)、序列(TGA)、Query 推荐(AIGQ)、多模态搜索(KARMA)、生成式(SIGMA、REG4Rec)、Agent 范式(AgenticRS)、稀疏大模型(SSR),并在 AliExpress / 淘宝 / 阿里国际多个业务线同时落地。
7.2 关键技术主题
| 主题 | 字节跳动 | 美团 | 阿里巴巴 |
|---|---|---|---|
| Semantic ID / 量化 | R3-VAE、MERGE | DOS、MACRec | (MPQ in REG4Rec) |
| 生成式排序 / 重排 | — | MBGR、NSGR、MTGR | SIGMA、REG4Rec |
| 大规模 Ranking 模型 | TokenMixer-Large | MTFM | SORT、SSR |
| 长序列建模 | IAT、LONGER | — | TGA |
| 推理 / 工程优化 | UG-Sep | MTFM (GQA) | SORT |
| 预排序 / 重排 | HAP | NSGR | — |
| 多模态 | — | MACRec | KARMA |
| Agent / 范式 | — | — | AgenticRS |
7.3 值得关注的几个方向
- Semantic ID 仍是激烈的”军备竞赛”:字节的 R3-VAE、美团的 DOS/MACRec、阿里 REG4Rec 的 MPQ 都在解决”码本坍塌 + 协同对齐 + 多模态”问题,预计2026年下半年还会持续迭代。
- 大模型 Ranking + 工程协同设计:单纯堆参数已经不够,算法-工程-硬件 codesign(UG-Sep、SORT、MTFM)成为论文的标准段落。
- 生成式推荐进入”业务对齐 + 多任务/多业务”阶段:MBGR、SIGMA、REG4Rec 都把”业务收益”作为论文的核心实验指标。
- Agent / LLM 驱动的推荐范式正式登场:阿里 AgenticRS 给出了系统性蓝图,预计2026年下半年会有更多”用 LLM/Agent 重构推荐链路”的工作出现。
8. 结语
2026年1-4月,仅字节、美团、阿里三家公司就在 arXiv / 顶会上密集公开了近 20 篇推荐方向的工业论文,反映出行业的几个共识:
- 生成式推荐 + Semantic ID 已经是工业推荐系统的”主线剧情”;
- 算法-工程协同设计是大模型 Ranking 落地的必经之路;
- 跨场景 / 跨业务 / 跨模态的统一表示开始成为新的竞争点;
- Agent / LLM 与传统推荐链路的融合正在从”辅助生成”走向”系统重构”。
对于做推荐的同学,建议至少跟踪三条线:
- Semantic ID / 生成式排序的演化(DOS → R3-VAE → MACRec → MBGR / SIGMA / REG4Rec);
- 大规模 Ranking 模型(TokenMixer-Large / SORT / MTFM / SSR)+ 推理优化(UG-Sep / SORT 工程优化);
- Agent / LLM 重构推荐范式(AgenticRS 及其后续工作)。
参考文献
- ByteDance. MERGE: Next-Generation Item Indexing Paradigm for Large-Scale Streaming Recommendation. arXiv:2601.20199, 2026.
- Alibaba. Multi-Behavior Sequential Modeling with Transition-Aware Graph Attention Network for E-Commerce Recommendation. arXiv:2601.14955, 2026.
- Meituan. Multi-Aspect Cross-modal Quantization for Generative Recommendation. AAAI 2026 (Oral), arXiv:2511.15122.
- Meituan. DOS: Dual-Flow Orthogonal Semantic IDs for Recommendation in Meituan. arXiv:2602.04460, 2026.
- ByteDance. TokenMixer-Large: Scaling Up Large Ranking Models in Industrial Recommenders. arXiv:2602.06563, 2026.
- ByteDance. Compute Only Once: UG-Separation for Efficient Large Recommendation Models. arXiv:2602.10455, 2026.
- Meituan. MTFM: A Scalable and Alignment-free Foundation Model for Industrial Recommendation in Meituan. arXiv:2602.11235, 2026.
- Alibaba. SIGMA: A Semantic-Grounded Instruction-Driven Generative Multi-Task Recommender at AliExpress. arXiv:2602.22913, 2026.
- ByteDance. Not All Candidates are Created Equal: A Heterogeneity-Aware Approach to Pre-ranking in Recommender Systems. WWW 2026, arXiv:2603.03770.
- Alibaba. SORT: A Systematically Optimized Ranking Transformer for Industrial-scale Recommenders. arXiv:2603.03988, 2026.
- Alibaba. Bridging Sequential and Contextual Features with a Dual-View of Fine-grained Core-Behaviors and Global Interest-Distribution. arXiv:2603.12578, 2026.
- Alibaba. AIGQ: An End-to-End Hybrid Generative Architecture for E-commerce Query Recommendation. arXiv:2603.19710, 2026.
- Alibaba. KARMA: Knowledge-Action Regularized Multimodal Architecture. arXiv:2603.22779, 2026.
- Alibaba. Rethinking Recommendation Paradigms: From Pipelines to Agentic Recommender Systems. arXiv:2603.26100, 2026.
- Meituan. MBGR: Multi-Business Prediction for Generative Recommendation at Meituan. arXiv:2604.02684, 2026.
- Meituan. Next-Scale Generative Reranking: A Tree-based Generative Rerank Method at Meituan. arXiv:2604.05314, 2026.
- Alibaba. Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation Models (SSR). arXiv:2604.08011, 2026.
- ByteDance. IAT: Instance-As-Token Compression for Historical User Sequence Modeling in Industrial Recommender Systems. arXiv:2604.08933, 2026.
- ByteDance. $R^3$-VAE: Reference Vector-Guided Rating Residual Quantization VAE for Generative Recommendation. arXiv:2604.11440, 2026.
- Alibaba. REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems. ICDE 2026, arXiv:2508.15308.
- Meituan. MTGR: Industrial-Scale Generative Recommendation Framework in Meituan. arXiv:2505.18654.
- ByteDance. LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders. arXiv:2505.04421.