Post

GEM-Rec: 一个模型同时搞定推荐和广告——竞价感知的生成式推荐框架

GEM-Rec: 一个模型同时搞定推荐和广告——竞价感知的生成式推荐框架

论文: One Model, Two Markets: Bid-Aware Generative Recommendation
链接: https://arxiv.org/abs/2603.22231
机构: Google Research、Harvard University
时间: 2026年3月

1. 问题背景

生成式推荐系统(如 TIGER、OneRec)正在成为推荐领域的新范式,通过将 item 编码为分层语义 ID,以自回归方式生成推荐序列。然而,这些系统有一个被普遍忽视的盲区:变现(Monetization)

在真实的工业推荐平台中,用户看到的信息流同时包含两类内容:有机内容(Organic)商业广告(Sponsored)。两者的优化目标截然不同——有机推荐追求语义相关性最大化,广告推荐则需要在相关性之上叠加竞价信号和平台收入目标。

当前的做法是将有机推荐和广告系统完全分开:各自独立的模型栈产出候选结果,最后由一个 merging/blending 层在展示时混合。这种架构存在根本性问题:两个系统无法感知彼此的决策,容易产生用户体验冲突。

更关键的是,现有生成式推荐模型从架构上就无法处理经济约束——它们优化的是纯语义似然,把每个 item 都当作有机预测目标,完全无视广告竞价的实时动态。竞价信息是有价值的信号(广告主的出价反映其对 item 质量和相关性的判断),但当前模型无法在推理时接收这些信号。

GEM-Rec 的核心思想是:在一个统一的生成式序列中,同时建模”是否展示广告”的决策和”展示哪个 item”的检索,并通过推理时竞价注入实现实时变现控制


2. 方法概述

GEM-Rec 建立在 TIGER 的 Semantic ID 范式之上,引入了两个关键创新:控制 token(Control Tokens)分离广告决策与内容生成,以及竞价感知解码(Bid-Aware Decoding)在推理时注入实时经济信号。

2.1 统一序列构造与控制 Token

用户历史被表示为 $(m, i)$ 元组序列,其中 $m \in {\text{Organic}, \text{Sponsored}}$ 是展示模式,$i$ 是 item。GEM-Rec 在语义 ID 词表中增加两个控制 token:$\texttt{}$ 和 $\texttt{}$。每个交互的生成序列段被构造为:

\[\mathbf{x}_t = [f_t] \oplus [c_{t,1}, c_{t,2}, \dots, c_{t,D}]\]

其中 $f_t$ 是控制 token,$c_{t,k}$ 是语义 ID 码字。完整序列是所有段的拼接。

这个设计的精妙之处在于结构化因式分解——模型先生成控制 token 决定这个位置是有机内容还是广告(Slot Allocation),再生成语义 ID 决定具体展示哪个 item(Content Retrieval)。在 $\texttt{}$ 条件下,模型进入"偏好模式",纯粹优化语义匹配;在 $\texttt{}$ 条件下,模型进入"变现模式",学习历史上同时满足语义相关和经济可行的 item 分布。

2.2 因式分解生成目标

训练目标是对序列 $\mathbf{x}$ 的标准负对数似然最小化,但因式分解为两个部分:

  1. 广告位决策 $P(f_t \mid \text{context})$:学习在什么上下文中展示广告是可接受的,从历史成功的广告交互日志中隐式学习
  2. 模式条件检索 $P(c \mid f_t, \text{context})$:条件于已选择的展示模式,检索最适合该模式的 item

2.3 竞价感知解码(GEM-Decoding)

训练阶段学到的是历史日志中的”安全基线”,但无法感知实时的竞价动态。GEM-Decoding 在推理时通过参数 $\lambda$ 注入竞价信息,分两个层级:

Slot-Level 调制(动态广告负载):用当前最高出价 $b_{max}$ 提升广告位的 logit:

\[\tilde{z}_{\texttt{<AD>}} = z_{\texttt{<AD>}} + \lambda \cdot \log(1 + b_{max})\]

当有高价值库存时,模型更倾向于开放广告位。

Item-Level 调制(收入最大化):条件于已采样的 $\texttt{}$ flag,利用 Semantic ID 的层次结构做 Prefix-Aware 竞价聚合。对每个中间 token $c_k$(代表一个 item 聚类),预计算其前缀下的最大出价 $\mathcal{B}(c_k)$:

\[\tilde{z}_c = z_c + \lambda \cdot \log(1 + \mathcal{B}(c))\]

这使得 beam search 在语义可行的 token 中偏向包含高出价 item 的分支,在序列生成早期就剪掉低价值路径。

2.4 理论保证

论文严格证明了两个关键性质:

分配单调性(Allocative Monotonicity):对任意广告 item $i$,提高其出价 $b_i$ 不会降低其被展示的概率。这保证了系统对经济信号的理性响应,无需重新训练模型。

有机完整性(Organic Integrity):竞价调制严格限定在 $\texttt{}$ 分支内。$\lambda$ 的变化可能改变广告位的频率,但**永远不会扭曲有机推荐的相对排序**——任意两个有机 item 之间的排名只由预训练权重 $\theta$ 决定,与 $\lambda$ 无关。


3. 实验

3.1 主实验

在 Steam、Amazon Beauty/Sports/Toys 四个数据集上,与 TIGER baseline 对比:

数据集方法Ad RateRevenueTotal NDCG@10Organic NDCG@10
SteamTIGER0.0%-0.14420.1487
 GEM-Rec ($\lambda$=0)2.5%5350.14110.1468
 GEM-Rec ($\lambda$=1)4.7%1,1730.13810.1467
BeautyTIGER0.0%-0.02820.0293
 GEM-Rec ($\lambda$=0)3.1%3450.03010.0318
 GEM-Rec ($\lambda$=1)6.0%7260.02950.0320

关键发现:当 $\lambda$ 从 0 增大到 1,Ad Rate 平滑上升,Revenue 翻倍以上,而 Organic NDCG 几乎不变——验证了有机完整性保证。

3.2 竞价冲击实验

模拟5%库存出价突增10倍的场景(Bid Shock),测试系统的实时适应能力:

设置Ad Rate高价值广告占比Revenue 倍数
Baseline ($\lambda$=0)2.4%21.8%
GEM-Rec ($\lambda$=0.5)7.1%81.5%
GEM-Rec ($\lambda$=1.0)18.0%97.4%28.2×

仅设 $\lambda=0.5$,系统就将高价值广告占比从 21.8% 提升到 81.5%,Revenue 提升 9 倍。这证明 GEM-Rec 不是简单增加广告量,而是智能替换低价值广告为高价值广告

3.3 生成有效性

在所有数据集和 $\lambda$ 设置下,广告生成的有效率均为 100%——高竞价压力不会导致模型”幻觉”出无效的语义 ID。


4. 总结与思考

GEM-Rec 开辟了一个此前几乎无人触碰的研究方向:将经济约束和变现目标原生地嵌入生成式推荐的架构中。几点深入思考:

Control Token 的设计哲学值得借鉴。通过在词表中增加 $\texttt{}$ 和 $\texttt{}$ 两个 token,GEM-Rec 将"展示什么类型的内容"和"展示哪个具体 item"解耦为两个独立的生成阶段。这个思路可以推广到更多场景——例如区分"内容推荐"与"直播推荐"、"自营商品"与"第三方商品"等。任何需要在同一信息流中混合不同来源/目标内容的场景,都可以考虑这种控制 token 方案。

推理时注入而非训练时融合是一个务实且优雅的设计。将竞价信息从训练中剥离,仅在推理时通过 logit 调制注入,带来三个好处:(1)模型不需要为每次竞价变化重新训练;(2)$\lambda$ 参数提供了平滑可控的 Revenue-Relevance 权衡旋钮;(3)理论上可证明单调性和有机完整性。这种”训练学策略,推理做控制”的范式,对工业实践极具吸引力。

局限性也很明显。首先,实验完全基于合成数据集(将标准推荐数据集的 20% item 随机指定为广告,分配 log-normal 出价),距离真实广告系统的复杂性还有很大距离——真实场景中广告主的竞价策略、预算约束、频次控制远比这复杂。其次,论文采用第一价格拍卖机制,承认了激励兼容(DSIC)的实现在自回归解码中是”technically nontrivial”的——这在工业落地时是一个不可回避的问题。最后,论文没有与工业界的联合推荐+广告系统(如阿里的 DEAR、快手的 HOME 等 RL-based 方案)做对比。

尽管如此,GEM-Rec 提出的问题本身极具价值:生成式推荐的终局不应该只是一个更好的推荐模型,而应该是一个能同时优化用户体验和平台经济的统一系统。这篇论文为这个方向提供了一个干净的理论框架和可行的技术路线。

This post is licensed under CC BY 4.0 by the author.