GEM-Rec: 一个模型同时搞定推荐和广告——竞价感知的生成式推荐框架

Posted Apr 29, 2026 Updated May 11, 2026

By li.yaozong

12 min read

论文: One Model, Two Markets: Bid-Aware Generative Recommendation
链接: https://arxiv.org/abs/2603.22231
机构: Google Research、Harvard University
时间: 2026年3月

1. 问题背景

生成式推荐系统（如 TIGER、OneRec）正在成为推荐领域的新范式，通过将 item 编码为分层语义 ID，以自回归方式生成推荐序列。然而，这些系统有一个被普遍忽视的盲区：变现（Monetization）。

在真实的工业推荐平台中，用户看到的信息流同时包含两类内容：有机内容（Organic） 和 商业广告（Sponsored）。两者的优化目标截然不同——有机推荐追求语义相关性最大化，广告推荐则需要在相关性之上叠加竞价信号和平台收入目标。

当前的做法是将有机推荐和广告系统完全分开：各自独立的模型栈产出候选结果，最后由一个 merging/blending 层在展示时混合。这种架构存在根本性问题：两个系统无法感知彼此的决策，容易产生用户体验冲突。

更关键的是，现有生成式推荐模型从架构上就无法处理经济约束——它们优化的是纯语义似然，把每个 item 都当作有机预测目标，完全无视广告竞价的实时动态。竞价信息是有价值的信号（广告主的出价反映其对 item 质量和相关性的判断），但当前模型无法在推理时接收这些信号。

GEM-Rec 的核心思想是：在一个统一的生成式序列中，同时建模”是否展示广告”的决策和”展示哪个 item”的检索，并通过推理时竞价注入实现实时变现控制。

2. 方法概述

GEM-Rec 建立在 TIGER 的 Semantic ID 范式之上，引入了两个关键创新：控制 token（Control Tokens）分离广告决策与内容生成，以及竞价感知解码（Bid-Aware Decoding）在推理时注入实时经济信号。

2.1 统一序列构造与控制 Token

用户历史被表示为 $(m, i)$ 元组序列，其中 $m \in \text{Organic}, \text{Sponsored}$ 是展示模式，$i$ 是 item。GEM-Rec 在语义 ID 词表中增加两个控制 token：$\texttt{}$ 和 $\texttt{}$。每个交互的生成序列段被构造为：

\[\mathbf{x}*t = [f_t] \oplus [c*{t,1}, c_{t,2}, \dots, c_{t,D}]\]

其中 $f_t$ 是控制 token，$c_{t,k}$ 是语义 ID 码字。完整序列是所有段的拼接。

这个设计的精妙之处在于结构化因式分解——模型先生成控制 token 决定这个位置是有机内容还是广告（Slot Allocation），再生成语义 ID 决定具体展示哪个 item（Content Retrieval）。在 $\texttt{}$ 条件下，模型进入”偏好模式”，纯粹优化语义匹配；在 $\texttt{}$ 条件下，模型进入”变现模式”，学习历史上同时满足语义相关和经济可行的 item 分布。

2.2 因式分解生成目标

训练目标是对序列 $\mathbf{x}$ 的标准负对数似然最小化，但因式分解为两个部分：

广告位决策 $P(f_t \mid \text{context})$：学习在什么上下文中展示广告是可接受的，从历史成功的广告交互日志中隐式学习
模式条件检索 $P(c \mid f_t, \text{context})$：条件于已选择的展示模式，检索最适合该模式的 item

2.3 竞价感知解码（GEM-Decoding）

训练阶段学到的是历史日志中的”安全基线”，但无法感知实时的竞价动态。GEM-Decoding 在推理时通过参数 $\lambda$ 注入竞价信息，分两个层级：

Slot-Level 调制（动态广告负载）：用当前最高出价 $b_{max}$ 提升广告位的 logit：

\[\tilde{z}*{\texttt{**}} = z*{\texttt{}} + \lambda \cdot \log(1 + b_{max})\]

当有高价值库存时，模型更倾向于开放广告位。

Item-Level 调制（收入最大化）：条件于已采样的 $\texttt{}$ flag，利用 Semantic ID 的层次结构做 Prefix-Aware 竞价聚合。对每个中间 token $c_k$（代表一个 item 聚类），预计算其前缀下的最大出价 $\mathcal{B}(c_k)$：

\[\tilde{z}_c = z_c + \lambda \cdot \log(1 + \mathcal{B}(c))\]

这使得 beam search 在语义可行的 token 中偏向包含高出价 item 的分支，在序列生成早期就剪掉低价值路径。

2.4 理论保证

论文严格证明了两个关键性质：

分配单调性（Allocative Monotonicity）：对任意广告 item $i$，提高其出价 $b_i$ 不会降低其被展示的概率。这保证了系统对经济信号的理性响应，无需重新训练模型。

有机完整性（Organic Integrity）：竞价调制严格限定在 $\texttt{}$ 分支内。$\lambda$ 的变化可能改变广告位的频率，但永远不会扭曲有机推荐的相对排序——任意两个有机 item 之间的排名只由预训练权重 $\theta$ 决定，与 $\lambda$ 无关。

3. 实验

3.1 主实验

在 Steam、Amazon Beauty/Sports/Toys 四个数据集上，与 TIGER baseline 对比：

数据集	方法	Ad Rate	Revenue	Total NDCG@10	Organic NDCG@10
Steam	TIGER	0.0%	-	0.1442	0.1487
	GEM-Rec ($\lambda$=0)	2.5%	535	0.1411	0.1468
	GEM-Rec ($\lambda$=1)	4.7%	1,173	0.1381	0.1467
Beauty	TIGER	0.0%	-	0.0282	0.0293
	GEM-Rec ($\lambda$=0)	3.1%	345	0.0301	0.0318
	GEM-Rec ($\lambda$=1)	6.0%	726	0.0295	0.0320

关键发现：当 $\lambda$ 从 0 增大到 1，Ad Rate 平滑上升，Revenue 翻倍以上，而 Organic NDCG 几乎不变——验证了有机完整性保证。

3.2 竞价冲击实验

模拟5%库存出价突增10倍的场景（Bid Shock），测试系统的实时适应能力：

设置	Ad Rate	高价值广告占比	Revenue 倍数
Baseline ($\lambda$=0)	2.4%	21.8%	1×
GEM-Rec ($\lambda$=0.5)	7.1%	81.5%	9×
GEM-Rec ($\lambda$=1.0)	18.0%	97.4%	28.2×

仅设 $\lambda=0.5$，系统就将高价值广告占比从 21.8% 提升到 81.5%，Revenue 提升 9 倍。这证明 GEM-Rec 不是简单增加广告量，而是智能替换低价值广告为高价值广告。

3.3 生成有效性

在所有数据集和 $\lambda$ 设置下，广告生成的有效率均为 100%——高竞价压力不会导致模型”幻觉”出无效的语义 ID。

4. 总结与思考

GEM-Rec 开辟了一个此前几乎无人触碰的研究方向：将经济约束和变现目标原生地嵌入生成式推荐的架构中。几点深入思考：

Control Token 的设计哲学值得借鉴。通过在词表中增加 $\texttt{}$ 和 $\texttt{}$ 两个 token，GEM-Rec 将”展示什么类型的内容”和”展示哪个具体 item”解耦为两个独立的生成阶段。这个思路可以推广到更多场景——例如区分”内容推荐”与”直播推荐”、”自营商品”与”第三方商品”等。任何需要在同一信息流中混合不同来源/目标内容的场景，都可以考虑这种控制 token 方案。

推理时注入而非训练时融合是一个务实且优雅的设计。将竞价信息从训练中剥离，仅在推理时通过 logit 调制注入，带来三个好处：（1）模型不需要为每次竞价变化重新训练；（2）$\lambda$ 参数提供了平滑可控的 Revenue-Relevance 权衡旋钮；（3）理论上可证明单调性和有机完整性。这种”训练学策略，推理做控制”的范式，对工业实践极具吸引力。

局限性也很明显。首先，实验完全基于合成数据集（将标准推荐数据集的 20% item 随机指定为广告，分配 log-normal 出价），距离真实广告系统的复杂性还有很大距离——真实场景中广告主的竞价策略、预算约束、频次控制远比这复杂。其次，论文采用第一价格拍卖机制，承认了激励兼容（DSIC）的实现在自回归解码中是”technically nontrivial”的——这在工业落地时是一个不可回避的问题。最后，论文没有与工业界的联合推荐+广告系统（如阿里的 DEAR、快手的 HOME 等 RL-based 方案）做对比。

尽管如此，GEM-Rec 提出的问题本身极具价值：生成式推荐的终局不应该只是一个更好的推荐模型，而应该是一个能同时优化用户体验和平台经济的统一系统。这篇论文为这个方向提供了一个干净的理论框架和可行的技术路线。

机器学习

推荐系统生成式推荐计算广告机制设计

This post is licensed under CC BY 4.0 by the author.