GEM-Rec: 一个模型同时搞定推荐和广告——竞价感知的生成式推荐框架
论文: One Model, Two Markets: Bid-Aware Generative Recommendation
链接: https://arxiv.org/abs/2603.22231
机构: Google Research、Harvard University
时间: 2026年3月
1. 问题背景
生成式推荐系统(如 TIGER、OneRec)正在成为推荐领域的新范式,通过将 item 编码为分层语义 ID,以自回归方式生成推荐序列。然而,这些系统有一个被普遍忽视的盲区:变现(Monetization)。
在真实的工业推荐平台中,用户看到的信息流同时包含两类内容:有机内容(Organic) 和 商业广告(Sponsored)。两者的优化目标截然不同——有机推荐追求语义相关性最大化,广告推荐则需要在相关性之上叠加竞价信号和平台收入目标。
当前的做法是将有机推荐和广告系统完全分开:各自独立的模型栈产出候选结果,最后由一个 merging/blending 层在展示时混合。这种架构存在根本性问题:两个系统无法感知彼此的决策,容易产生用户体验冲突。
更关键的是,现有生成式推荐模型从架构上就无法处理经济约束——它们优化的是纯语义似然,把每个 item 都当作有机预测目标,完全无视广告竞价的实时动态。竞价信息是有价值的信号(广告主的出价反映其对 item 质量和相关性的判断),但当前模型无法在推理时接收这些信号。
GEM-Rec 的核心思想是:在一个统一的生成式序列中,同时建模”是否展示广告”的决策和”展示哪个 item”的检索,并通过推理时竞价注入实现实时变现控制。
2. 方法概述
GEM-Rec 建立在 TIGER 的 Semantic ID 范式之上,引入了两个关键创新:控制 token(Control Tokens)分离广告决策与内容生成,以及竞价感知解码(Bid-Aware Decoding)在推理时注入实时经济信号。
2.1 统一序列构造与控制 Token
用户历史被表示为 $(m, i)$ 元组序列,其中 $m \in {\text{Organic}, \text{Sponsored}}$ 是展示模式,$i$ 是 item。GEM-Rec 在语义 ID 词表中增加两个控制 token:$\texttt{
其中 $f_t$ 是控制 token,$c_{t,k}$ 是语义 ID 码字。完整序列是所有段的拼接。
这个设计的精妙之处在于结构化因式分解——模型先生成控制 token 决定这个位置是有机内容还是广告(Slot Allocation),再生成语义 ID 决定具体展示哪个 item(Content Retrieval)。在 $\texttt{
2.2 因式分解生成目标
训练目标是对序列 $\mathbf{x}$ 的标准负对数似然最小化,但因式分解为两个部分:
- 广告位决策 $P(f_t \mid \text{context})$:学习在什么上下文中展示广告是可接受的,从历史成功的广告交互日志中隐式学习
- 模式条件检索 $P(c \mid f_t, \text{context})$:条件于已选择的展示模式,检索最适合该模式的 item
2.3 竞价感知解码(GEM-Decoding)
训练阶段学到的是历史日志中的”安全基线”,但无法感知实时的竞价动态。GEM-Decoding 在推理时通过参数 $\lambda$ 注入竞价信息,分两个层级:
Slot-Level 调制(动态广告负载):用当前最高出价 $b_{max}$ 提升广告位的 logit:
\[\tilde{z}_{\texttt{<AD>}} = z_{\texttt{<AD>}} + \lambda \cdot \log(1 + b_{max})\]当有高价值库存时,模型更倾向于开放广告位。
Item-Level 调制(收入最大化):条件于已采样的 $\texttt{
这使得 beam search 在语义可行的 token 中偏向包含高出价 item 的分支,在序列生成早期就剪掉低价值路径。
2.4 理论保证
论文严格证明了两个关键性质:
分配单调性(Allocative Monotonicity):对任意广告 item $i$,提高其出价 $b_i$ 不会降低其被展示的概率。这保证了系统对经济信号的理性响应,无需重新训练模型。
有机完整性(Organic Integrity):竞价调制严格限定在 $\texttt{
3. 实验
3.1 主实验
在 Steam、Amazon Beauty/Sports/Toys 四个数据集上,与 TIGER baseline 对比:
| 数据集 | 方法 | Ad Rate | Revenue | Total NDCG@10 | Organic NDCG@10 |
|---|---|---|---|---|---|
| Steam | TIGER | 0.0% | - | 0.1442 | 0.1487 |
| GEM-Rec ($\lambda$=0) | 2.5% | 535 | 0.1411 | 0.1468 | |
| GEM-Rec ($\lambda$=1) | 4.7% | 1,173 | 0.1381 | 0.1467 | |
| Beauty | TIGER | 0.0% | - | 0.0282 | 0.0293 |
| GEM-Rec ($\lambda$=0) | 3.1% | 345 | 0.0301 | 0.0318 | |
| GEM-Rec ($\lambda$=1) | 6.0% | 726 | 0.0295 | 0.0320 |
关键发现:当 $\lambda$ 从 0 增大到 1,Ad Rate 平滑上升,Revenue 翻倍以上,而 Organic NDCG 几乎不变——验证了有机完整性保证。
3.2 竞价冲击实验
模拟5%库存出价突增10倍的场景(Bid Shock),测试系统的实时适应能力:
| 设置 | Ad Rate | 高价值广告占比 | Revenue 倍数 |
|---|---|---|---|
| Baseline ($\lambda$=0) | 2.4% | 21.8% | 1× |
| GEM-Rec ($\lambda$=0.5) | 7.1% | 81.5% | 9× |
| GEM-Rec ($\lambda$=1.0) | 18.0% | 97.4% | 28.2× |
仅设 $\lambda=0.5$,系统就将高价值广告占比从 21.8% 提升到 81.5%,Revenue 提升 9 倍。这证明 GEM-Rec 不是简单增加广告量,而是智能替换低价值广告为高价值广告。
3.3 生成有效性
在所有数据集和 $\lambda$ 设置下,广告生成的有效率均为 100%——高竞价压力不会导致模型”幻觉”出无效的语义 ID。
4. 总结与思考
GEM-Rec 开辟了一个此前几乎无人触碰的研究方向:将经济约束和变现目标原生地嵌入生成式推荐的架构中。几点深入思考:
Control Token 的设计哲学值得借鉴。通过在词表中增加 $\texttt{
推理时注入而非训练时融合是一个务实且优雅的设计。将竞价信息从训练中剥离,仅在推理时通过 logit 调制注入,带来三个好处:(1)模型不需要为每次竞价变化重新训练;(2)$\lambda$ 参数提供了平滑可控的 Revenue-Relevance 权衡旋钮;(3)理论上可证明单调性和有机完整性。这种”训练学策略,推理做控制”的范式,对工业实践极具吸引力。
局限性也很明显。首先,实验完全基于合成数据集(将标准推荐数据集的 20% item 随机指定为广告,分配 log-normal 出价),距离真实广告系统的复杂性还有很大距离——真实场景中广告主的竞价策略、预算约束、频次控制远比这复杂。其次,论文采用第一价格拍卖机制,承认了激励兼容(DSIC)的实现在自回归解码中是”technically nontrivial”的——这在工业落地时是一个不可回避的问题。最后,论文没有与工业界的联合推荐+广告系统(如阿里的 DEAR、快手的 HOME 等 RL-based 方案)做对比。
尽管如此,GEM-Rec 提出的问题本身极具价值:生成式推荐的终局不应该只是一个更好的推荐模型,而应该是一个能同时优化用户体验和平台经济的统一系统。这篇论文为这个方向提供了一个干净的理论框架和可行的技术路线。