Post

2026年以来字节、美团、阿里推荐系统论文盘点

2026年以来字节、美团、阿里推荐系统论文盘点

2026年是工业级推荐系统进入”生成式范式 + 超大规模 Scaling”深度融合的关键一年。字节跳动(含抖音、今日头条、穿山甲、红果等场景)、美团(外卖、到店)、阿里巴巴(淘宝、AliExpress、阿里国际)三家头部公司在 arXiv、WWW、SIGIR、AAAI、ICDE 等渠道集中发布了一批面向工业落地的推荐系统论文。本文按时间线对2026年1月以来这三家公司公开的推荐方向论文进行系统梳理,覆盖生成式推荐 / Semantic ID、超长序列建模、大规模 Ranking Transformer、预排序 / 重排序、多模态 / 多业务建模、Agent 化推荐等主要方向,方便读者把握工业界最新趋势。

说明:本文聚焦三家公司在2026年1月之后公开(含正式录用 AAAI 2026 / WWW 2026 / ICDE 2026)的推荐方向工作,按 arXiv 发布时间排序。每篇论文标注机构、所属业务线、arXiv 编号 / 会议、发布时间、核心贡献、关键技术、业务效果


1. 总体趋势概览

2026年以来三家公司的推荐系统论文呈现出以下几个明显趋势:

  1. 生成式推荐(Generative Recommendation, GR)全面进入主战场:从 Semantic ID 设计(DOS、R3-VAE、MACRec)到生成式排序 / 重排(MTGR、MBGR、NSGR、SIGMA),三家都把生成式范式从”探索”推进到”核心流量稳定收益”。
  2. 超大规模 Ranking Transformer 成为标配:字节 TokenMixer-Large 把工业 Ranking 模型推到 7B-15B 参数;阿里 SORT 系统化地把 Transformer 优化到 AliExpress 主场景;同时 UG-Sep、IAT 等”算法-工程 codesign”方案缓解推理成本。
  3. 超长序列建模继续深入:字节 IAT 把序列压缩成”实例 Token”,配合 LONGER 等已有工作支持万级序列端到端建模。
  4. 跨场景 / 多业务 / 多模态基础模型兴起:美团 MTFM 提出对齐无关的工业基础模型,MBGR 解决多业务”跷跷板”问题,MACRec 探索跨模态量化。
  5. Agentic Recommender 出现新范式:阿里提出从”流水线”到”智能体”的推荐系统重构蓝图(AgenticRS),开始尝试用 RL + LLM 重新组织推荐链路。

2. 时间线总表

时间公司论文 / 系统方向arXiv / 会议
2026.01字节跳动MERGE流式推荐 Item 索引arXiv:2601.20199
2026.01阿里巴巴TGA多行为长序列推荐arXiv:2601.14955
2026.01美团MACRec多模态生成式推荐AAAI 2026 (Oral) / arXiv:2511.15122
2026.02美团DOSSemantic ID 量化arXiv:2602.04460
2026.02字节跳动TokenMixer-Large大规模 Ranking 模型arXiv:2602.06563
2026.02字节跳动UG-Sep推理加速(算法-工程 codesign)arXiv:2602.10455
2026.02美团MTFM工业级推荐基础模型arXiv:2602.11235
2026.02阿里巴巴SIGMA生成式多任务推荐(AliExpress)arXiv:2602.22913
2026.03字节跳动HAP异构感知预排序WWW 2026 / arXiv:2603.03770
2026.03阿里巴巴SORT系统化优化的 Ranking TransformerarXiv:2603.03988
2026.03阿里巴巴CDNet序列与上下文双视图 CTRarXiv:2603.12578
2026.03阿里巴巴AIGQ端到端生成式 Query 推荐arXiv:2603.19710
2026.03阿里巴巴KARMA多模态搜索语义保真arXiv:2603.22779
2026.03阿里巴巴AgenticRS智能体化推荐范式arXiv:2603.26100
2026.04美团MBGR多业务生成式推荐arXiv:2604.02684
2026.04美团NSGR树状生成式重排arXiv:2604.05314
2026.04阿里巴巴SSR显式稀疏可扩展模型arXiv:2604.08011
2026.04字节跳动IAT历史序列实例压缩arXiv:2604.08933
2026.04字节跳动R3-VAESemantic ID 量化 VAEarXiv:2604.11440

注:阿里 REG4Rec(被 ICDE 2026 录用)arXiv 预印本编号为 2508.15308(2025年8月),早于2026年1月,本文仍在第6节”补充:2026年录用的早期 arXiv 工作”中简要列出,便于读者形成完整图景。


3. 字节跳动(ByteDance)2026年推荐论文

字节跳动2026年的工作覆盖:Item 索引 / Semantic ID、超大规模 Ranking 模型、推理加速、预排序、长序列建模等。

3.1 MERGE:下一代流式推荐 Item 索引范式(2026年1月)

论文: MERGE: Next-Generation Item Indexing Paradigm for Large-Scale Streaming Recommendation
链接: https://arxiv.org/abs/2601.20199
机构: 字节跳动
时间: 2026年1月

核心问题

传统基于向量量化(VQ)的 Item 索引方案在面对工业级流式推荐场景时存在两类问题:

  1. 数据偏态分布:长尾 item 在 VQ 码本中难以被合理覆盖;
  2. 数据演化:item 集合不断变化,固定码本无法持续匹配真实分布。

核心贡献

  • 提出 MERGE 索引范式:通过自适应生成聚类(adaptive cluster generation)分层合并机制(hierarchical merging),动态监控聚类占用并按需合并,解决 VQ 处理偏态 / 演化数据的局限。
  • 在大规模流式场景下显著改善了 item embedding 的可索引性与召回质量。

3.2 TokenMixer-Large:把工业 Ranking 模型推到 15B 参数(2026年2月)

论文: TokenMixer-Large: Scaling Up Large Ranking Models in Industrial Recommenders
链接: https://arxiv.org/abs/2602.06563
机构: 字节跳动
时间: 2026年2月

背景

字节此前提出的 TokenMixer 已经验证了 Token Mixing 思想在工业 Ranking 上的有效性,但在残差结构、梯度更新稳定性、MoE 稀疏化、可扩展性上仍然受限,难以稳定 Scale 到十亿级以上。

核心贡献

提出 TokenMixer-Large,针对原 TokenMixer 的瓶颈做了系统性升级:

  1. Mixing-and-Reverting:在 Token Mixing 之后引入”还原”操作,使得高层信息可以稳定回流到底层稀疏特征;
  2. 层间残差 + 辅助损失:缓解大模型训练中的梯度退化;
  3. Sparse-Pertoken MoE:按 Token 粒度稀疏激活专家,降低实际算力开销;
  4. 多场景统一训练框架:覆盖电商、广告、直播等多个业务线。

业务效果

  • 在线模型扩展到 7B 参数,离线扩展到 15B 参数
  • 在字节多个核心场景(电商、广告、直播等)取得显著的 ADSS / GMV 增益。

3.3 UG-Sep:让大模型只算一次(2026年2月)

论文: Compute Only Once: UG-Separation for Efficient Large Recommendation Models
链接: https://arxiv.org/abs/2602.10455
机构: 字节跳动
时间: 2026年2月

核心问题

类 RankMixer / TokenMixer 等大型 Ranking 模型把 User 与 Item 计算深度纠缠在一起,导致每个候选 item 都要在打分时重复进行用户侧的重计算,推理成本随候选规模线性增长

核心贡献

提出 UG-Sep(User-Group Separation)框架,本质是一次”算法-工程 codesign”:

  1. Mask 机制解耦:在 Token Mixing 层通过显式 Mask 解耦 User 侧 / Item 侧的信息流;
  2. U-side Token 复用:用户侧 Token 计算复杂度从 $O(C)$(C 为候选数)降为 $O(1)$;
  3. W8A16 量化:进一步缓解内存带宽瓶颈。

业务效果

  • 在抖音、红果、穿山甲等场景部署;
  • 推理延迟降低 11.5% – 22.0%,业务指标无显著回退。

3.4 HAP:异构感知的预排序框架(2026年3月,WWW 2026)

论文: Not All Candidates are Created Equal: A Heterogeneity-Aware Approach to Pre-ranking in Recommender Systems
链接: https://arxiv.org/abs/2603.03770
会议: WWW 2026
机构: 字节跳动 · 今日头条
时间: 2026年3月

核心问题

预排序阶段的训练样本天然异构(”难”、”易”样本的梯度方向冲突),同时算力有限也要求把更多资源分配到真正难的候选上。

核心贡献

提出 HAP(Heterogeneity-Aware Adaptive Pre-ranking),包含两个核心模块:

  1. GHCL(Gradient-Harmonized Contrastive Learning):通过难度感知负采样和定制损失函数缓解梯度冲突;
  2. DAMR(Difficulty-Aware Model Routing):级联架构,轻量模型处理所有候选,复杂模型仅处理难样本,自适应分配计算预算。

业务效果

  • 已在今日头条生产系统部署;
  • 用户活跃天数提升 +0.05%,使用时长提升 +0.4%

3.5 IAT:把历史交互压缩成 Token(2026年4月)

论文: IAT: Instance-As-Token Compression for Historical User Sequence Modeling in Industrial Recommender Systems
链接: https://arxiv.org/abs/2604.08933
机构: 字节跳动
时间: 2026年4月

核心思想

用户历史序列里每个交互通常包含多种特征(item id、品类、停留、转化等),传统做法把这些拍平/拼接,信息密度低且推理慢。IAT 提出”以实例为 Token”的两阶段框架:

  1. 第一阶段(实例压缩):把历史交互的所有特征压缩成一个统一的 instance embedding,作为信息密集的 Token,支持时间顺序与用户顺序两种压缩方案;
  2. 第二阶段(序列建模):下游任务通过时间戳取出已压缩好的 Instance Tokens,再喂给标准序列模型(如 LONGER 或 Transformer)做长程偏好建模。

业务效果

  • 已在电商广告、营销、直播电商等场景部署;
  • 显著提升业务指标,同时具备良好的跨域迁移能力。

3.6 R3-VAE:参考向量引导的评分残差量化 VAE(2026年4月)

论文: $R^3$-VAE: Reference Vector-Guided Rating Residual Quantization VAE for Generative Recommendation
链接: https://arxiv.org/abs/2604.11440
代码: https://github.com/wwqq/R3-VAE
机构: 字节跳动
时间: 2026年4月

核心问题

生成式推荐中的 Semantic ID(SID)训练存在两个老大难问题:

  1. 训练不稳定:RQ-VAE 等方法对初始化高度敏感,容易出现码本坍塌(codebook collapse)
  2. 评估低效:缺少在训练过程中直接评估 SID 质量的指标。

核心贡献

提出 $R^3$-VAE,三个关键设计:

  1. Reference Vector:引入参考向量作为语义锚点,缓解对初始化的敏感性;
  2. Rating-based 评分机制:基于点积的评分稳定训练,防止码本坍塌;
  3. Semantic Cohesion / Preference Discrimination:作为训练过程中的正则化项,直接评估 SID 质量。

业务效果

  • 在 6 个公开 benchmark 上 Recall@10 平均 +14.2%,NDCG@10 平均 +15.5%
  • 在新闻推荐平台 A/B 测试中:MRR +1.62%,StayTime/U +0.83%
  • 把生成的 Semantic ID 作为 CTR 模型特征后,内容冷启动性能提升 +15.36%

4. 美团(Meituan)2026年推荐论文

美团2026年的工作主线非常清晰:围绕生成式推荐的全链路——从 Semantic ID(DOS、MACRec)到工业级基础模型(MTFM)、再到多业务生成式排序(MBGR)、生成式重排(NSGR)。

4.1 MACRec:多视角跨模态量化生成式推荐(AAAI 2026 Oral)

论文: Multi-Aspect Cross-modal Quantization for Generative Recommendation
链接: https://arxiv.org/abs/2511.15122
会议: AAAI 2026 (Oral)
机构: 美团
时间: 论文 2025年11月预印本,AAAI 2026 录用

核心问题

生成式推荐依赖量化把 item 离散为 Semantic ID。现有工作在多模态场景下倾向于独立编码每个模态,缺乏跨模态交互,导致:

  • Semantic ID 的语义层次性差;
  • 模态信息利用不充分;
  • 码本利用率低、ID 冲突率高。

核心贡献

提出 MACRec,两个关键设计:

  1. 跨模态残差量化(Cross-modal Residual Quantization):把对比学习融入分层量化过程,跨模态互补整合,让 Semantic ID 同时具备语义层次性模态兼容性
  2. 多角度跨模态对齐(Multi-Aspect Cross-modal Alignments)
    • 隐式对齐:在潜在空间通过对比学习建模模态共享特征;
    • 显式对齐:在生成任务中进行对齐,强化对多模态语义的理解。

实验效果

  • 在 Amazon 电商推荐数据集上显著优于已有 baseline;
  • 显著降低 item ID 冲突率,码本分布更均衡。

4.2 DOS:双流正交语义 ID(2026年2月)

论文: DOS: Dual-Flow Orthogonal Semantic IDs for Recommendation in Meituan
链接: https://arxiv.org/abs/2602.04460
机构: 美团
时间: 2026年2月

核心问题

生成式推荐中常见 Semantic ID 设计的两个痛点:

  1. 码本空间与生成空间错位:基于纯语义训练的码本,与最终的协同信号需求未对齐;
  2. 量化损失大:朴素 RQ-VAE 在残差链路上信息折损严重。

核心贡献

提出 DOS(Dual-Flow Orthogonal Semantic IDs)

  1. 双流架构:引入协同过滤信号对齐码本空间与生成空间;
  2. 正交残差量化:通过正交约束减少多层残差量化中的语义损耗;
  3. 已在美团线上场景部署。

4.3 MTFM:对齐无关的工业级推荐基础模型(2026年2月)

论文: MTFM: A Scalable and Alignment-free Foundation Model for Industrial Recommendation in Meituan
链接: https://arxiv.org/abs/2602.11235
机构: 美团
时间: 2026年2月

核心问题

跨场景共享的”推荐基础模型”通常需要把不同场景的特征对齐到共同空间,但工业里跨场景特征字段、含义、粒度都不一致,强行对齐既低效又容易掉点。

核心贡献

提出 MTFM(Meituan Transformer Foundation Model)

  1. Alignment-free 跨场景建模:把跨域数据转化为异构 Token,通过 Token 级别的 Transformer 建模跨场景知识,绕过特征对齐;
  2. 多场景用户级样本聚合:以用户为单位聚合多场景行为,提升训练效率;
  3. Grouped-Query Attention(GQA):在工业级训练 / 推理中显著降低显存与延迟。

4.4 MBGR:多业务生成式推荐(2026年4月)

论文: MBGR: Multi-Business Prediction for Generative Recommendation at Meituan
链接: https://arxiv.org/abs/2604.02684
机构: 美团 · 外卖
时间: 2026年4月

核心问题

外卖等场景天然是多业务的(餐饮、商超、闪购、医药……):

  • 跷跷板现象:一个业务上涨往往会拖累另一个;
  • 表征混淆:不同业务的 item 共享同一空间,导致语义混淆。

核心贡献

提出 MBGR,三个关键模块:

  1. 业务感知语义 ID(Business-aware ID, BID):在 Semantic ID 中显式编码业务信息;
  2. 多业务预测结构(Multi-Business Prediction, MBP):在生成式架构上设计多业务联合预测;
  3. 标签动态路由(Label Dynamic Routing, LDR):根据业务类型动态选择训练标签的路由策略。

业务效果

  • 已在美团外卖平台生产环境部署。

4.5 NSGR:树状生成式重排(2026年4月)

论文: Next-Scale Generative Reranking: A Tree-based Generative Rerank Method at Meituan
链接: https://arxiv.org/abs/2604.05314
机构: 美团
时间: 2026年4月

核心问题

生成式重排器存在两个关键痛点:

  1. 缺乏全局-局部视角:只看局部往往牺牲序列全局的多样性 / 价值;
  2. 生成器与评估器目标不一致:训练时生成的列表与最终评估的指标不匹配。

核心贡献

提出 NSGR(Next-Scale Generative Reranking)

  1. NSG(Next-Scale Generator):粗到细的渐进式生成机制,平衡全局与局部视角;
  2. MSE(Multi-Scale Evaluator):基于树状结构的评估器,在不同尺度上为生成器提供针对性的指导信号;
  3. Multi-scale Neighbor Loss:用于优化生成过程;
  4. 已在美团外卖平台部署。

5. 阿里巴巴(Alibaba)2026年推荐论文

阿里2026年覆盖:多行为序列、Ranking Transformer、生成式多任务、CTR、查询推荐、多模态搜索、Agentic RS、稀疏化大模型。淘宝、AliExpress、阿里国际多个业务线均有产出。

5.1 TGA:多行为序列建模图注意力网络(2026年1月)

论文: Multi-Behavior Sequential Modeling with Transition-Aware Graph Attention Network for E-Commerce Recommendation
链接: https://arxiv.org/abs/2601.14955
机构: 阿里巴巴 · 淘宝天猫
时间: 2026年1月

核心问题

电商场景下用户行为序列:

  • :万级长度;
  • 多行为:浏览、点击、加购、收藏、下单等;

传统多行为序列模型在长序列下复杂度高、性能差。

核心贡献

提出 TGA(Transition-Aware Graph Attention Network)

  1. 结构化稀疏图:在 item 级、类别级、邻居级显式建模行为转换;
  2. 线性时间复杂度:支持万级序列长度;
  3. 已在淘宝生产环境部署,CVR / GMV 显著提升。

5.2 SIGMA:AliExpress 上的语义 + 指令驱动多任务生成式推荐(2026年2月)

论文: SIGMA: A Semantic-Grounded Instruction-Driven Generative Multi-Task Recommender at AliExpress
链接: https://arxiv.org/abs/2602.22913
机构: 阿里巴巴 · AliExpress
时间: 2026年2月

核心问题

现有生成式推荐大多只能做”next-item prediction”,难以胜任工业里多任务、多场景的丰富需求;同时 SID 本身缺乏语义 grounding。

核心贡献

提出 SIGMA,三大组件:

  1. Multi-view Semantic Grounding:用搜索日志、视觉特征、世界知识把 item 与语义映射到统一潜在空间;
  2. Hybrid Item Tokenization:SID 前缀 + 唯一 item ID 混合表示;
  3. Three-step Generation + Adaptive Probabilistic Fusion:引入概率融合机制,在准确率与多样性之间自适应权衡。

业务效果

  • 在 AliExpress 在线 A/B 测试:订单量 +2.80%、转化率 +3.84%、GMV +7.84%

5.3 SORT:系统化优化的 Ranking Transformer(2026年3月)

论文: SORT: A Systematically Optimized Ranking Transformer for Industrial-scale Recommenders
链接: https://arxiv.org/abs/2603.03988
机构: 阿里巴巴 · AliExpress
时间: 2026年3月

核心问题

Transformer 在工业 Ranking 上的扩展存在三大障碍:特征极度稀疏、标签密度极低、推理时延苛刻。SORT 把这三个问题作为系统目标,做了系统级优化。

核心贡献

提出 SORT,关键技术包括:

  1. Request-centric 样本组织:按请求维度组织训练样本,提高数据利用率;
  2. Local Attention + Query Pruning:把 Attention 限制在局部,并对 Query 做剪枝;
  3. 生成式预训练:先做生成式预训练,再做判别式微调;
  4. MoE FFN 层:以稀疏专家网络扩展容量但控制成本。

业务效果

在 AliExpress 电商场景:

  • 订单 +6.35%、买家数 +5.97%、GMV +5.47%
  • 系统层面:延迟 -44.67%、吞吐 +121.33%

5.4 CDNet:序列与上下文双视图融合的 CTR 预估(2026年3月)

论文: Bridging Sequential and Contextual Features with a Dual-View of Fine-grained Core-Behaviors and Global Interest-Distribution
链接: https://arxiv.org/abs/2603.12578
机构: 阿里巴巴
时间: 2026年3月

核心问题

CTR 模型里序列特征与上下文特征往往单独处理,长序列里的噪声进一步降低融合效率,难以兼顾”细粒度核心行为”与”全局兴趣分布”。

核心贡献

提出 CDNet(Core-Behaviors and Distributional-Compensation Dual-View Interaction Network)

  1. 核心行为视图(Core-Behaviors View):聚焦关键、细粒度行为;
  2. 全局兴趣分布视图(Global Interest-Distribution View):从分布层面补偿核心行为视图的偏差;
  3. 在长序列场景下兼顾建模精度与计算效率。

5.5 AIGQ:端到端生成式电商查询推荐(2026年3月)

论文: AIGQ: An End-to-End Hybrid Generative Architecture for E-commerce Query Recommendation
链接: https://arxiv.org/abs/2603.19710
机构: 阿里巴巴 · 淘宝天猫
时间: 2026年3月

核心问题

淘宝首页 HintQ(预搜索查询推荐)此前依赖多阶段、规则驱动的链路,难以实时捕捉用户细粒度意图。

核心贡献

提出 AIGQ(AI-Generated Query Architecture),首个端到端生成式 Query 推荐框架:

  1. IL-SFT(Interest-aware List Supervised Fine-Tuning):以兴趣为中心的列表式 SFT;
  2. IL-GRPO(Interest-aware List Group Relative Policy Optimization):列表组相对策略优化;
  3. 离线-在线混合架构:实时捕捉意图,规模化部署。

业务效果

  • 在淘宝大规模在线 A/B 实验中验证显著业务收益。

5.6 KARMA:多模态搜索的语义保真架构(2026年3月)

论文: KARMA: Knowledge-Action Regularized Multimodal Architecture
链接: https://arxiv.org/abs/2603.22779
机构: 阿里巴巴 · 淘宝搜索
时间: 2026年3月

核心问题

淘宝多模态搜索系统中存在”语义坍塌”现象:多模态特征压缩后丢失了关键语义。

核心贡献

提出 KARMA,通过知识-动作正则化(Knowledge-Action Regularization)提升多模态语义保真度,同时改善搜索动作指标(点击 / 转化)。

5.7 AgenticRS:从流水线到智能体的推荐系统(2026年3月)

论文: Rethinking Recommendation Paradigms: From Pipelines to Agentic Recommender Systems
链接: https://arxiv.org/abs/2603.26100
机构: 阿里巴巴国际数字商业集团
时间: 2026年3月

核心思想

阿里国际系统性反思了”召回-粗排-精排-重排”流水线推荐的局限,提出 Agentic Recommender Systems(AgenticRS) 蓝图:

  1. 把推荐系统重构为多智能体决策系统,运行在”感知-决策-执行-反馈”循环中;
  2. 提出局部演化(local evolution)组合演化(compositional evolution)两类机制:
    • 局部演化:用 RL 风格的方法在线优化单个 agent;
    • 组合演化:用 LLM 驱动的结构化演化重组整个 agent 链路。

意义

是一篇方向性 / 范式性论文,给 LLM + Agent + RecSys 的融合提供了系统性蓝图,预计将影响后续多家厂商的架构演进。

5.8 SSR:显式稀疏可扩展模型(2026年4月)

论文: Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation Models
链接: https://arxiv.org/abs/2604.08011
机构: 阿里巴巴
时间: 2026年4月

核心思想

提出 SSR 框架,针对推荐大模型 Scaling 中的”稠密连接”瓶颈,引入显式稀疏(explicit sparsity)

  • 突破 Dense MoE / Dense Transformer 的成本瓶颈;
  • 在保持精度的前提下,显著降低计算与内存开销,实现可扩展的推荐大模型。

6. 补充:2026年录用 / 应用,但 arXiv 在2026年之前的工作

为了尽量不遗漏读者关心的工作,以下是2026年正式被会议录用、但 arXiv 预印本时间在2026年之前的代表工作。

6.1 阿里 REG4Rec(ICDE 2026)

论文: REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems
链接: https://arxiv.org/abs/2508.15308
会议: ICDE 2026
机构: 阿里巴巴国际智能技术团队

核心问题

现有生成式推荐:

  • item 语义表示单一;
  • 推理过程缺乏可靠性。

核心贡献

提出 REG4Rec,关键设计:

  1. MPQ(MoE-based Parallel Quantization Codebooks):MoE 并行自编码器专家,给每个 item 生成多个无序 Semantic Token,构建多样、灵活的推理空间
  2. PARS(Preference Alignment for Reasoning):基于 RL 的偏好对齐,引导模型选择高置信、自洽的推理路径;
  3. MSRA(Multi-Step Reward Augmentation):把奖励视野扩展到未来多步行为,提升泛化、降低噪声;
  4. CORP(Consistency-Oriented Self-Reflection for Pruning):推理时自反思,对不一致的推理路径进行修正或裁剪;
  5. LADQ(Layer-Adaptive Dynamic Quantization Controller):训练阶段层自适应动态量化(fp32/bf16/fp8)。

业务效果

  • 公开 + 工业数据集性能提升最高 16.59%
  • 阿里广告平台 A/B:广告收入 +5.60%、CTR +1.81%、GMV +3.29%

6.2 美团 MTGR(CIKM 2025 / 2026年外卖核心流量稳定贡献)

论文: MTGR: Industrial-Scale Generative Recommendation Framework in Meituan
链接: https://arxiv.org/abs/2505.18654
机构: 美团

虽然 arXiv 在 2025 年 5 月,但作为美团2026年生成式推荐论文(DOS、MBGR、NSGR)的底座,在2026年仍持续迭代。其核心是基于 HSTU 架构、保留 DLRM 的交叉特征体系,同时引入用户级压缩、Group-Layer Normalization 与动态掩码策略,实现单样本前向 FLOPs +65×、离线 GAUC +2.88pp、在线订单 +1.22%

6.3 字节 LONGER(RecSys 2025)

论文: LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders
链接: https://arxiv.org/abs/2505.04421
机构: 字节跳动

是 IAT(2026.04)的搭档:通过 全局 Token + Token Merge + Hybrid Attention 把工业推荐 Transformer 推到万级序列长度,已在字节十余个核心场景部署。2026 年的 IAT 与 UG-Sep 都在 LONGER 的体系上进一步演化。


7. 横向对比与趋势总结

7.1 三家公司的”主场”差异

  • 字节跳动:把工业落地 + Scaling Law 推到极致——模型规模(TokenMixer-Large 15B)、序列长度(LONGER + IAT)、推理成本(UG-Sep)、Semantic ID 稳定性(R3-VAE)形成完整闭环。
  • 美团:以生成式推荐全链路为主线——从 SID(DOS、MACRec)到 Foundation Model(MTFM)、再到生成式排序与重排(MTGR、MBGR、NSGR),围绕”外卖 + 多业务”形成完整方案。
  • 阿里巴巴:覆盖面最宽——Ranking(SORT)、CTR(CDNet)、序列(TGA)、Query 推荐(AIGQ)、多模态搜索(KARMA)、生成式(SIGMA、REG4Rec)、Agent 范式(AgenticRS)、稀疏大模型(SSR),并在 AliExpress / 淘宝 / 阿里国际多个业务线同时落地。

7.2 关键技术主题

主题字节跳动美团阿里巴巴
Semantic ID / 量化R3-VAE、MERGEDOS、MACRec(MPQ in REG4Rec)
生成式排序 / 重排MBGR、NSGR、MTGRSIGMA、REG4Rec
大规模 Ranking 模型TokenMixer-LargeMTFMSORT、SSR
长序列建模IAT、LONGERTGA
推理 / 工程优化UG-SepMTFM (GQA)SORT
预排序 / 重排HAPNSGR
多模态MACRecKARMA
Agent / 范式AgenticRS

7.3 值得关注的几个方向

  1. Semantic ID 仍是激烈的”军备竞赛”:字节的 R3-VAE、美团的 DOS/MACRec、阿里 REG4Rec 的 MPQ 都在解决”码本坍塌 + 协同对齐 + 多模态”问题,预计2026年下半年还会持续迭代。
  2. 大模型 Ranking + 工程协同设计:单纯堆参数已经不够,算法-工程-硬件 codesign(UG-Sep、SORT、MTFM)成为论文的标准段落。
  3. 生成式推荐进入”业务对齐 + 多任务/多业务”阶段:MBGR、SIGMA、REG4Rec 都把”业务收益”作为论文的核心实验指标。
  4. Agent / LLM 驱动的推荐范式正式登场:阿里 AgenticRS 给出了系统性蓝图,预计2026年下半年会有更多”用 LLM/Agent 重构推荐链路”的工作出现。

8. 结语

2026年1-4月,仅字节、美团、阿里三家公司就在 arXiv / 顶会上密集公开了近 20 篇推荐方向的工业论文,反映出行业的几个共识:

  • 生成式推荐 + Semantic ID 已经是工业推荐系统的”主线剧情”;
  • 算法-工程协同设计是大模型 Ranking 落地的必经之路;
  • 跨场景 / 跨业务 / 跨模态的统一表示开始成为新的竞争点;
  • Agent / LLM 与传统推荐链路的融合正在从”辅助生成”走向”系统重构”。

对于做推荐的同学,建议至少跟踪三条线:

  1. Semantic ID / 生成式排序的演化(DOS → R3-VAE → MACRec → MBGR / SIGMA / REG4Rec);
  2. 大规模 Ranking 模型(TokenMixer-Large / SORT / MTFM / SSR)+ 推理优化(UG-Sep / SORT 工程优化);
  3. Agent / LLM 重构推荐范式(AgenticRS 及其后续工作)。

参考文献

  1. ByteDance. MERGE: Next-Generation Item Indexing Paradigm for Large-Scale Streaming Recommendation. arXiv:2601.20199, 2026.
  2. Alibaba. Multi-Behavior Sequential Modeling with Transition-Aware Graph Attention Network for E-Commerce Recommendation. arXiv:2601.14955, 2026.
  3. Meituan. Multi-Aspect Cross-modal Quantization for Generative Recommendation. AAAI 2026 (Oral), arXiv:2511.15122.
  4. Meituan. DOS: Dual-Flow Orthogonal Semantic IDs for Recommendation in Meituan. arXiv:2602.04460, 2026.
  5. ByteDance. TokenMixer-Large: Scaling Up Large Ranking Models in Industrial Recommenders. arXiv:2602.06563, 2026.
  6. ByteDance. Compute Only Once: UG-Separation for Efficient Large Recommendation Models. arXiv:2602.10455, 2026.
  7. Meituan. MTFM: A Scalable and Alignment-free Foundation Model for Industrial Recommendation in Meituan. arXiv:2602.11235, 2026.
  8. Alibaba. SIGMA: A Semantic-Grounded Instruction-Driven Generative Multi-Task Recommender at AliExpress. arXiv:2602.22913, 2026.
  9. ByteDance. Not All Candidates are Created Equal: A Heterogeneity-Aware Approach to Pre-ranking in Recommender Systems. WWW 2026, arXiv:2603.03770.
  10. Alibaba. SORT: A Systematically Optimized Ranking Transformer for Industrial-scale Recommenders. arXiv:2603.03988, 2026.
  11. Alibaba. Bridging Sequential and Contextual Features with a Dual-View of Fine-grained Core-Behaviors and Global Interest-Distribution. arXiv:2603.12578, 2026.
  12. Alibaba. AIGQ: An End-to-End Hybrid Generative Architecture for E-commerce Query Recommendation. arXiv:2603.19710, 2026.
  13. Alibaba. KARMA: Knowledge-Action Regularized Multimodal Architecture. arXiv:2603.22779, 2026.
  14. Alibaba. Rethinking Recommendation Paradigms: From Pipelines to Agentic Recommender Systems. arXiv:2603.26100, 2026.
  15. Meituan. MBGR: Multi-Business Prediction for Generative Recommendation at Meituan. arXiv:2604.02684, 2026.
  16. Meituan. Next-Scale Generative Reranking: A Tree-based Generative Rerank Method at Meituan. arXiv:2604.05314, 2026.
  17. Alibaba. Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation Models (SSR). arXiv:2604.08011, 2026.
  18. ByteDance. IAT: Instance-As-Token Compression for Historical User Sequence Modeling in Industrial Recommender Systems. arXiv:2604.08933, 2026.
  19. ByteDance. $R^3$-VAE: Reference Vector-Guided Rating Residual Quantization VAE for Generative Recommendation. arXiv:2604.11440, 2026.
  20. Alibaba. REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems. ICDE 2026, arXiv:2508.15308.
  21. Meituan. MTGR: Industrial-Scale Generative Recommendation Framework in Meituan. arXiv:2505.18654.
  22. ByteDance. LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders. arXiv:2505.04421.
This post is licensed under CC BY 4.0 by the author.