Post

TOIS 综述:推荐系统嵌入技术全景图谱——从矩阵分解、序列建模、图神经网络到 LLM 增强

TOIS 综述:推荐系统嵌入技术全景图谱——从矩阵分解、序列建模、图神经网络到 LLM 增强

论文: Embedding in Recommender Systems: A Survey
链接: https://doi.org/10.1145/3812652
机构: 香港城市大学(CityU)、百度、香港理工大学
作者: Maolin Wang、Xinjian Zhao、Wanyu Wang(共同一作);Sheng Zhang、Jiansheng Li、Bowen Yu、Binhao Wang、Shucheng Zhou(CityU);Dawei Yin(Baidu);Qing Li(PolyU);Ruocheng Guo;Xiangyu Zhao(通讯)
时间: 2026 年 5 月(ACM Trans. Inf. Syst.,53 页正文、349 篇引用)
代码: Applied-Machine-Learning-Lab/Embedding-in-Recommender-Systems


1. 综述定位与核心论断

这篇综述的自我定位非常明确:第一篇把”嵌入(embedding)”本身作为一阶研究对象、而非某个推荐模型副产物的系统综述。作者在引言里直接写道:”To the best of our knowledge, this paper represents the first systematic review of embedding techniques in recommendation systems.”

要理解这个定位的意义,先要回顾推荐系统的研究脉络。过去十年的综述大致沿三条线展开:① 按推荐任务划分(CTR/序列/会话/跨域),② 按模型架构划分(深度学习推荐综述、GNN 推荐综述、序列推荐综述),③ 按效率优化划分(AutoML for DRS 综述、压缩综述)。这些综述都把 embedding 当成”模型的输入层”一笔带过。而本文反过来——所有上述方法都在解决同一个问题:如何把高维离散特征(用户 ID、物品 ID、上下文 ID)转换成低维稠密向量——于是 embedding 就成了贯穿全栈的真正主线。

围绕这条主线,作者给出一个“三层九节”的组织哲学:

  • 基础学习层(§2-§4):按数据结构组织,矩阵 → 序列 → 图,分别对应 CF/FM、Transformer 时代的序列建模、各类 GNN;
  • 部署效率层(§5-§7):把”如何在工业规模下用得起 embedding”作为独立问题,覆盖 Hashing、AutoML、Quantization 三大压缩范式;
  • 前沿增强层(§8):LLM 怎样从外部注入语义信号、强化已有 embedding。

这个三层结构其实暗含一个判断:embedding 的技术演进与推荐系统工业化进程严格同步——前半段(matrix → sequential → graph)回答”表达力够不够”,中段(hashing/AutoML/quant)回答”省不省得起、跑不跑得动”,最近半段(LLM)回答”语义信号能不能不再依赖人工特征工程”。这个隐含时间轴比任何明文 taxonomy 都更能说明 embedding 这条线的发展节奏,也是这篇综述比”按方法堆砌”的综述更有结构感的关键。

需要先承认综述自己的一个核心论断(§9):“embeddings are intermediate parameters and are rarely evaluated in isolation”——embedding 几乎从不被孤立评估,所有结果都是端到端 backbone+loss+负采样混合的产物。这一论断既是综述的诚实之处(不假装能给出”哪种 embedding 绝对最优”的结论),也是它无法回避的根本局限(下面会反复回到这点)。


2. 矩阵格式嵌入:CF + FM 的双源头(§2)

2.1 矩阵分解(Matrix Factorization)

综述把 MF 系作为整条主线的源头,并以 FunkSVD(即 Netflix Prize 期间 Simon Funk 提出的方法)作为锚点。其目标是把用户-物品评分矩阵 $R\in\mathbb{R}^{m\times n}$ 分解为:

\[R \approx U\times V^{T}, \quad U\in\mathbb{R}^{m\times d},\ V\in\mathbb{R}^{n\times d}\]

优化目标(公式 2):

\[\min_{u_i, v_j} \sum_{\{(i,j)|R_{ij}\neq \phi\}} (R_{ij} - v_j^T u_i)^2 + \lambda(\|u_i\|^2 + \|v_j\|^2)\]

逐项拆解:

  • $u_i\in\mathbb{R}^{d}$、$v_j\in\mathbb{R}^{d}$:用户 $i$、物品 $j$ 的 $d$ 维潜在向量,也是 $U$、$V$ 的列向量;
  • $\lbrace (i,j)\lvert R_{ij}\neq \phi\rbrace$:仅对已观测到的评分求和——这正是 FunkSVD 区别于经典 SVD 的关键。经典 SVD 把缺失值当 0 处理会引入巨大偏差,FunkSVD 只在观测项上做梯度下降;
  • $\lambda(\lVert u_i\rVert^{2}+\lVert v_j\rVert^{2})$:L2 正则,控制过拟合,对应贝叶斯视角下高斯先验的最大后验估计。

综述顺着 FunkSVD 把 MF 系展开成三个子族:

  1. SVD 派生家族:NSVD(用物品因子线性组合表示用户)→ SVD++(在 NSVD 上叠加显式用户因子)→ SVDfeature(工具化)→ BiasSVD(加 user/item bias)→ TimeSVD(加时间衰减)→ DELF(attention 加权)。这条路径展示了单纯靠改 FunkSVD 的 loss 形式能走多远
  2. 物品相似度家族:SLIM、FISM、NAIS、SGNS——本质是用一阶/二阶物品共现来代替”用户向量”这个抽象概念,对冷启动用户更友好;
  3. 内容感知家族:ConvMF、ConvSeq-MF——把 CNN 文本特征塞进 MF,开启了”语义信号增强 ID 信号”的早期范式(这条线在 §8 LLM 增强里被极大扩展)。

2.2 因子分解机(Factorization Machines, FM)

FM 是综述给出的第二个源头,对应解决 MF 在大规模稀疏特征下的扩展性问题。其二阶形式(公式 3):

\[\Phi_{FM}(x) = w_0 + \sum_{i=1}^{n} w_i x_i + \sum_{i=1}^{n}\sum_{j=i+1}^{n}\langle v_i, v_j\rangle x_i x_j\]

其中 $\langle v_i, v_j\rangle = \sum_{f=1}^{k} V_{i,f}V_{j,f}$。逐项解读:

  • $x\in\mathbb{R}^{n}$:拼接后的稀疏特征向量(典型做法是 user/item one-hot 加各类侧信息 one-hot);
  • $w_0, w_i$:偏置与一阶权重,等同于线性回归部分;
  • $\langle v_i, v_j\rangle$:把”两两特征交互的系数 $w_{ij}$”分解为两个低维向量的内积——这是 FM 与传统多项式回归的本质区别。传统二阶模型需要学 $O(n^{2})$ 个独立系数,FM 用因子分解把参数量降到 $O(nk)$,更重要的是稀疏组合不再需要同时出现就能学到泛化的 $v_i$。

这里有个综述没有点透但非常关键的细节:FM 的二阶项可以等价改写为 $\frac{1}{2}\sum_{f}\big[(\sum_i v_{i,f}x_i)^{2}-\sum_i v_{i,f}^{2}x_i^{2}\big]$,计算复杂度从朴素的 $O(kn^{2})$ 降到 $O(kn)$。这是 FM 能在工业 CTR 场景跑通的根本工程基础,可惜原文未明确呈现。

FM-DNN 融合的工业范式被综述清晰地组织出一条递进链:FNN(DNN 顶在 FM embedding 上)→ PNN(显式乘积层)→ NeuFM(线性+非线性融合)→ AFM(attention 加权特征交互)→ Wide&Deep(Google 的双通道)→ DeepFM(华为去掉人工特征工程)→ DCN(Cross Network 替换 Wide)→ xDeepFM(向量级 CIN)→ AutoInt(自注意力直接做特征交互)。这条链清楚地展示了”显式低阶记忆 vs 隐式高阶泛化”的工业辩证,也是 2017-2020 这一波 CTR 模型迭代的浓缩史。

2.3 个人观察

综述把 §2 限定在”矩阵格式”,其实留下两个值得深挖的伏笔:

  1. MF 的”复兴”被严重低估。综述在 §4.3 单独介绍了 LightGCN(详见 §4),但没明确点出 LightGCN 在 user-item bipartite graph 上做的事本质就是 “FunkSVD + 邻域聚合”——把 GNN 退化到只剩归一化邻居加权聚合,与 MF 共享同一组 ID embedding。这其实回答了一个值得讨论的问题:MF 在 LLM 时代到底”过时”没有?综述的答案隐含是”没有”——它仍然是 LightGCN/UltraGCN 这类 SOTA 简化模型的内核。
  2. FM-DNN 系工业化的”反向迁移”未被展开。Wide&Deep 之后的 DeepFM/DCN/xDeepFM 都是大公司发表的工业模型;2022 年之后这条线明显放缓,原因是 Sequential Recommendation(§3)和 Generative Recommendation(综述未充分覆盖)抢走了 CTR 的研究风头。综述对这一行业转向没有评论。

3. 序列嵌入:从 RNN/CNN 到 SSL 增强(§3)

3.1 序列建模骨干

综述把序列建模骨干分三类:

  • RNN/CNN 类:GRU4Rec、NARM、Caser、GLINT-RU;
  • Transformer 类:SASRec、BERT4Rec——这是当下序列推荐的事实标准;
  • 图与状态空间类:SR-GNN(把会话当图)、Mamba4Rec(线性时间复杂度的状态空间模型)、STAR-Rec、DiffuRec(扩散模型用于序列推荐)。

综述把 Mamba4Rec 和 DiffuRec 列入主流骨干是个有信息量的信号——它表明“Transformer 不再是序列推荐唯一的答案”已在 2025-2026 年成为研究共识。这与同期的 LASAR(隐空间推理)、GenRec(生成式范式)等工作相互印证。但综述未深入讨论 Mamba 类模型在工业落地中的真实表现(推测基于 §3.1 短短一段话的处理方式)。

3.2 对比学习增强

综述梳理了序列推荐里的五种数据增强(图 2):Item Cropping(裁剪)、Item Masking(遮蔽)、Item Reordering(重排)、Item Substitution(替换为相关物品)、Item Insertion(在原物品前插入相关物品)。

代表模型:

  • CL4SRec:用 cropping/masking/reordering 三种增强;对 minibatch 内 $N$ 个用户生成 $2N$ 个增强序列 $\lbrace S_{u_n}^{a_i}\rbrace$,把同一用户的不同增强视图作为正对、其余 $2(N-1)$ 个作为负样本,用 InfoNCE/SimCLR-style softmax 交叉熵优化;
  • CoSeRec:把 substitution/insertion 加入增强池;
  • ContraRec:拓展正对定义——不只同一序列的增强是正对,不同序列但相同目标物品的也算正对,这把”协同信号”显式注入对比目标。

综述明确指出对比增强的根本痛点:选哪个 augmentation、按什么强度、对什么场景,没有原则性指导,研究者只能 random sweep。这点在 2024-2025 年的工作(如 SSLRec、MENTOR)里被进一步坐实——不同推荐任务需要不同的 SSL 策略,”one-size-fits-all”不存在。这与 CV 里 SimCLR 早期”任意 augmentation 都涨点”的乐观完全相反,本质原因是推荐数据的 augmentation 缺乏 CV 那种”语义不变性”先验。

3.3 生成式 SSL:BERT4Rec 范式

BERT4Rec 的 MLM 损失(公式 5):

\[\mathcal{L} = \frac{1}{|\mathcal{V}_m^u|} \sum_{v_m\in \mathcal{V}_m^u} -\log P(v_m=v_m^{\ast}\mid \hat{\mathcal{S}}_u)\]

逐项含义:

  • $\hat{\mathcal{S}}_u$:对用户 $u$ 的原始行为序列 $\mathcal{S}_u$ 做 item masking 后的序列;
  • $\mathcal{V}_m^{u}$:被 mask 掉的物品集合;
  • $v_m^{\ast}$:被 mask 物品的真实 ID;
  • $P(\cdot)$:BERT decoder 给出的条件概率。

综述把 BERT4Rec 的衍生拆成两族:领域适配族(UNBERT 用于新闻、U-BERT 用于跨域、UPRec 处理异构用户属性)和通用 embedding 族(PeterRec 做 learning-to-learn 跨域、ShopperBERT 用九个辅助任务做电商通用预训练)。这里有个值得点出的争议:ShopperBERT 报告”通用预训练优于专用模型”,但通用 embedding 在工业落地里一直存在”专用 always 比通用强一点”的反例(这也是为什么基础模型在 NLP 已成定局、在推荐还在拉锯)。综述对这个工业 vs 学术 gap 未做展开(推测基于 §3.4 仅简要列出”general-purpose embedding”作为未来方向)。

一个隐藏的现象:综述同时把 BERT4Rec 列在 §3.3 序列生成式 SSL、§4.1.4 图生成式 SSL 两处——这说明在作者的分类法里,“sequence-based generative SSL”是图生成 SSL 的子集/前导(”many approaches first transform graph data into sequences”)。这个判断在 G-BERT、PT-GNN 等工作里得到了延续,本质上承认了Transformer 这套架构在”图 vs 序列”问题上的胜利——把图变序列再用 BERT,比纯图编码器训练更稳定。


4. 图嵌入:四类图结构 × 三类学习范式(§4)

这是综述最长的一节,逻辑层次也最复杂。作者把内容拆成两条正交轴:

  • 学习技术(§4.1):谱 GNN、空间 GNN、图池化、图 SSL(对比/生成/预测三子类);
  • 图结构(§4.2-§4.5):同构图、二部图、异构图、超图。

4.1 学习技术:从谱到 SSL

谱 GNN(公式 6)

\[g_\theta \ast x = U\,g_\theta(\Lambda)\,U^T x\]

其中 $U$ 是图 Laplacian 的特征向量矩阵,$g_\theta(\Lambda)$ 是定义在特征值上的对角滤波器。在推荐里,这相当于在”用户-物品偏好”信号上做谱域滤波——平滑分量对应协同信号,高频分量对应噪声/个性。综述列出的 SpectralCF、JSCN、SComGNN 各自在这个框架下做改造。

空间 GNN(公式 7):消息传递的通用形式

\[h_i^{(k)} = \text{Aggregation}^{(k)}\big(h_i^{(k-1)}, \bigoplus_{j\in\mathcal{N}(i)} \text{Message}^{(k)}(h_i^{(k-1)}, h_j^{(k-1)}, e_{j,i})\big)\]

这一形式囊括了 GCN、GAT、GraphSAGE 几乎所有主流 GNN,也是综述最重要的一个统一抽象。后续所有图推荐模型都可以套进这个框架,区别只在 Message/Aggregation/$\bigoplus$ 三个算子的具体实现。

图池化(公式 8,DiffPool)

\[S^{(l)} = \text{softmax}\big(\text{GNN}_{l,\text{pool}}(A^{(l)}, H^{(l)})\big)\]

可微软分配把节点聚成簇,得到 graph-level 表示。综述指出其在 SR-GNN(会话表示)、RGNN(评论图)、HG-Pool(个性化异构图)等推荐场景的具体用法。

图 SSL 三子类

  • 对比(公式 9):$f_\theta^{\ast}=\arg\min_{f_\theta, g_\phi}\mathcal{L}_{cl}(g_\phi(f_\theta(\mathcal{V}_1), f_\theta(\mathcal{V}_2)))$。代表:SGL、HHGR、CCDR、PCRec、DCL;
  • 生成(公式 10):$f_\theta^{\ast}=\arg\min_{f_\theta, g_\phi}\mathcal{L}_{gen}(g_\phi(f_\theta(\tilde{\mathcal{D}})), \mathcal{D})$。代表:G-BERT、PMGT、PT-GNN,以及图原生路线 GAE/VGAE 和最新的 Graffe(扩散模型用于图表示);
  • 预测(公式 11):$f_\theta^{\ast}=\arg\min_{f_\theta, g_\phi}\mathcal{L}_{pred}(g_\phi(f_\theta(\mathcal{D})), \hat{\mathcal{Y}})$。代表:CHEST(meta-path 类型作伪标签)、BUIR(双 encoder 一致性,BYOL-style)。

综述把”sequence-based generative SSL”和”graph-native generative SSL”做了清晰对比:前者把图变序列再用 MLM,后者直接用图自编码/扩散。这两条路径在 2024-2025 年都还活跃,但作者隐含倾向graph-native 是更长期的方向——它”naturally align with the sparsity and implicit feedback nature of user-item interaction graphs”。这个判断需要打个问号:graph-native 模型在工业 100M+ 节点规模下能不能跑还没有公开证据,BERT-style 序列路径反而是当前唯一被工业大规模验证的(推测基于 §4.1.4 关于”sequence-based 仍是 dominant practice”的描述)。

4.2-4.5 四种图结构

  • 同构图:Deepwalk(公式 12,random walk + skip-gram)、APP(asymmetric proximity)、InfoWalk(处理 dangling nodes)、HyperSoRec(双曲空间嵌入)、M2GRL(多视图组合)、DG-ENN(user-user 和 item-item 联合训练);
  • 二部图:GC-MC、STAR-GCN、NGCF、LightGCN(公式 13)、UltraGCN、CSE、GE;
  • 异构图:DiffNet/GraphRec/DiffNet++/DANSER(社交)、KGCN/KGAT/KGIN(知识图谱);
  • 超图:IHGNN(用户-查询-商品三元超边)、HyperGroup(群组推荐)、HEMR(音乐推荐)。

LightGCN 的特殊地位(公式 13):

\[h_u^{(k+1)} = \sum_{i\in\mathcal{N}_u} \frac{1}{\sqrt{|\mathcal{N}_u|}\sqrt{|\mathcal{N}_i|}} h_i^{(k)}\]

LightGCN 把 GCN 里的非线性激活、自连接、特征变换矩阵全部砍掉,只保留归一化邻域聚合。这条”减法”做出来的效果反而比完整 GCN 好。综述对这一现象的解释是”as the inputs of the user and item stem from ID embeddings lacking semantic information, there is no need for nonlinear transformations”。

这个解释值得展开:当输入是无语义的 ID embedding 时,非线性变换没有任何额外信息可以挖掘——它学到的只是把 ID 向量”打散”,而 GCN 邻域聚合本身就足以达到这个目的。这与 CV/NLP 的情况完全相反——那里输入向量本身就携带丰富语义(像素、词),非线性激活帮助模型学到高阶组合。这是 ID-based 推荐与 NLP/CV 一个被严重低估的本质差异:你的输入向量是否”带语义”,决定了 backbone 应该做加法还是减法。这条洞察也直接推导出 UltraGCN(连多层聚合都砍掉,只优化一阶邻域余弦相似度)的设计动机。


5. 部署导向的三大效率技术:Hashing / AutoML / Quantization(§5-§7)

这三节是综述最有”工业实用价值”的部分,分别解决三个独立但相关的问题:

  1. Hashing:怎么用更少的 bucket 容纳千万级 ID?
  2. AutoML:怎么为不同 feature 自动选最优 embedding 维度?
  3. Quantization:怎么把训完的 dense embedding 压缩到几个 bytes?

5.1 Hashing(§5)

Hashing trick(公式 14-16):用一个哈希函数 $f_H$ 把 ID 映射到 bucket,配合编码函数 $f_E$(取值 $\lbrace 0,1\rbrace$)压缩矩阵。最终用户向量可写为 $U_{p,\cdot}^{T}=W^{T}H e_p$,其中 $H\in\lbrace 0,1\rbrace^{m^{\prime}\times m}$ 是稀疏哈希矩阵,$e_p$ 是 one-hot 选择器。

核心痛点:哈希碰撞。不同 ID 映射到同一 bucket 会损失信息(如图 5 所示,ID 897 和 ID 2045 折叠到同一行)。

解决方案谱系:

  • 多哈希函数:Bloom Filter、Hash Embedding(多哈希加权求和);
  • Hybrid Hashing(Twitter):高频 ID 用 one-hot 全嵌入、低频 ID 用多哈希——承认长尾本来就是低秩可压缩的
  • Q-R Trick(Facebook,公式 17):双哈希表 $W_1\in\mathbb{R}^{l\times d}$、$W_2\in\mathbb{R}^{\frac{a}{l}\times d}$,最终 embedding 是两个表查值的 element-wise 乘积 $W_1^{T}H e_p \odot W_2^{T}H^{\prime} e_p$。这本质上是用”商-余”两个互补哈希函数构造一个 $l\times \frac{a}{l}=a$ 大小的”虚拟全表”,但只存 $l+\frac{a}{l}$ 个参数;
  • DHE(Google):用 ~1000 个哈希函数生成 1024 维 identity vector,再用 DNN 解码到最终 embedding。这条路线牺牲存储换 representation 唯一性——多哈希保证碰撞概率极低,DNN 提供端到端学习的灵活性。

综述顺带提到的一个有意思的实证:Tran et al. (2024) 的 benchmark 显示简单的 magnitude-based pruning 有时能打过复杂哈希方案。这是一个对整个 Hashing 子方向相当不友好的发现——它暗示这条线的”复杂度内卷”可能已经过头,更直接的稀疏化反而更高效。综述对这个反例的处理相当克制,未做更深批判。

5.2 AutoML 与嵌入维度搜索(§6)

核心问题:传统做法给所有 feature 都用同一维度(如 $d=64$),但不同 feature 重要性差异巨大(user ID vs 用户所在城市)。Embedding Dimension Search(EDS)就是为每个 field 自动找最优维度。

按搜索策略分三大流派:

RL-based(§6.1):NIS、ESAPN。把推荐模型当 environment、policy network 当 agent,reward(公式 18-19)依据当前 loss 序列定义:

\[R^{u/i}=\frac{1}{T}\sum_{t=1}^{T} L_t^{(u/i)} - L\]

用 A3C 或 REINFORCE 优化。痛点:硬选择只能在预定义离散候选维度集里挑(如 $\lbrace 8,16,32,64\rbrace$),无法连续优化,且 RL 训练不稳定。

Gradient-based(§6.2):DARTS 启发的可微 NAS。

  • Soft Selection:DNIS(公式 20,soft selection matrix $\tilde{e}_i=e_i\odot \alpha_i$)、AutoEMB、AutoDim(Gumbel-Softmax 替换硬选择);
  • Pruning-based:AMTL(adaptive mask、双 MLP 分别处理高/低频 ID)、SSEDS(用 saliency score 一次前向反传定阈值);
  • Budget-aware:BET(显式纳入内存预算约束作为优化目标)——这是 2024-2025 年的新方向,把”实际硬件约束”从结果筛选变成优化变量。

其他(§6.3):RULE(演化算法,swap embedding blocks)、PEP(基于 Lottery Ticket 假设直接剪 embedding)、ANT/autoDis(用学习的 anchor embedding 矩阵线性/软组合表示全部 ID)。

综述指出 AutoML 这条线的 致命短板:搜索成本本身就高,加上推荐模型训练成本,整体计算预算非常吃紧。这是为什么 BET(预算感知)和 SSEDS(单次前向反传定阈值)这类”低预算 NAS”在 2024 年后明显占优。真正影响落地的不是”能不能找到最优维度”,而是”找最优维度的开销值不值得”——这个工业经济学问题综述没有显式讨论。

5.3 Quantization(§7)

把 dense embedding 压缩到几 bytes 的极致路线,分三类:

Binary Quantization(§7.1):$b\in\lbrace \pm 1\rbrace^{r}$,相似度(公式 21)$x_{ui}=\frac{1}{2}+\frac{1}{2r}b_u^{T}d_i$。DPR 通过优化 AUC surrogate(公式 22)学习二值码,加 balance 约束(最大化码熵)和 irrelevant 约束(位间独立);DDL 用 bag-of-words 文本嵌入约束二值码不能偏离原 embedding 太远。

Codebook Quantization(§7.2)——这条是综述里覆盖最深、也是 2024-2026 年生成式推荐的核心技术:

  • Vanilla PQ(公式 23):把 $\mathbb{R}^{D}$ 分解为 $M$ 个独立子空间的笛卡尔积,每个子空间内做 K-means 聚类得到码本 $\mathcal{C}_m$,物品被表示为 $M$ 个 codeword 索引。问题:子空间间相关性高时性能差;
  • OPQ:用旋转矩阵 $R\in\mathbb{R}^{M\times M}$ 优化子空间分解,降相关性;
  • AQ(公式 24):放弃”独立子空间”假设,让所有 $M$ 个码本都覆盖整个 $D$ 维空间,最终 embedding 是 $M$ 个 codeword 之和。计算最优组合是 NP-hard,AQ 用 beam search 近似;
  • DPQ:用 softmax-based / centroid-based 方法把 K-means 替换为可微优化,端到端最小化重构损失;
  • Residual VQ:层级残差量化(TIGER 用于 Semantic ID 的核心机制);
  • Supervised PQ 系列:PQCF(用评分预测损失替换重构损失)、Distill-VQ(KL 蒸馏 teacher 排序分布)、LightRec(保 user-item 排序不变性)、MoPQ(最关键的洞察:reconstruction quality 不等价于 downstream quality)、xLightFM、CAGE(学可微离散类别树用于 ID-based 推荐)。

综述这里点出一个被多次实证的结论:仅用 reconstruction loss 优化的 quantization 在推荐任务上是次优的。MoPQ 用 multinoulli contrastive learning 直接对齐 query-quantization 的匹配关系,性能大幅优于 PQ。这与同期 AsymRec(2026 年 5 月)”用 MHQ 的多视图层级量化 + 语义正则替代纯重构”的论断完全一致——整个领域共识正从”高保真重构”转向”高推荐效用”。但综述对这个共识的呈现略偏温和,没有把”MoPQ → AsymRec → CAGE 这条非重构损失主流化”的脉络画清楚。

Online Quantization(§7.3):Online PQ/OPQ/AQ。核心思路是滑窗 + 增量 K-means,处理流式新用户。Online AQ 还推导了 regret bound(基于矩阵求逆引理)。但整体看,online 这块工业实用度不及 offline + 周期性重训。


6. LLM 驱动的嵌入增强(§8)

综述把 LLM 增强分两条主线:作为语义补充(§8.1)作为引导信号(§8.2)

6.1 LLM 嵌入作为语义补充

序列推荐目标(公式 25):$\arg\max_{v_j\in \mathcal{V}} P(v_{N+1}=v_j\lvert \mathcal{S})$。LLM 增强的基本形式(公式 26):

\[e_i^{\text{LLM}} = \text{LLM}(T_i),\quad T_i = [I, A_1, A_2, \dots, A_K]\]

$T_i$ 是为物品 $i$ 构造的 prompt(instruction $I$ + 各属性 $A_k$),$e_i^{\text{LLM}}$ 是 LLM 末层隐状态作为该物品的语义嵌入。三种使用方式(图 8):

  1. Direct Inference(frozen LLM):ChatRec、GeneRec、TedRec、LRD、SemSR。直接用预训练 LLM 出 embedding 喂下游推荐模型;
  2. 加 trainable adapter:LLM-ESR(adapter + cross attention)、AlphaRec(MLP 做语义-ID 桥接)、Laser、SRA-CL、SAID(语义对齐+联合训练)、SAGE-Rec(fuzzy 原型+蒸馏,缓解长尾);
  3. Fine-tuning LLM 或 embedding:PEPLER(两阶段 fine-tune)、PPR(prompt+behavior 双层 augmentation)、LLM-CF(数据混合蒸馏)、TPAD(多模态 LLM fine-tune)、LLMEmb(监督对比 fine-tune)、SeRALM(推荐反馈对齐)、LLM2Rec(双阶段端到端把 LLM 训成推荐器)。

6.2 LLM 嵌入作为引导

  • Self-Guidance:LLM4SBR、LLM-ESR 用 LLM 嵌入找相似用户行为;DaRec 做 LLM/CF embedding 解耦+对齐;LLMEmb 监督对比缓解长尾;
  • Cross-Embedding Guidance:Jia et al.、PAD(LLM 物品标题嵌入对齐 ID embedding)、LLM4CDSR(跨域全局交互嵌入指导)、EIMF(聚类行为嵌入指导)、LGMcRec(GNN 嵌入与 LLM 嵌入互相增强)。

综述对 LLM 增强这块的处理有个让人意外的地方:篇幅相对短(只有一节,约 4 页)。考虑到 LLM 增强是 2024-2026 年推荐方向最热的子领域,这个比例似乎与领域热度不太匹配。一种解释是:综述完成日期较早(投稿后多次修订),LLM 部分的快速演进未能及时纳入;另一种解释是:作者把更多 LLM 工作归类到 §3 序列嵌入或 §4 图嵌入下,而非单独的 §8(推测基于 §8 与 §3、§4 在 BERT4Rec、PMGT 等模型上的重叠引用)。

LLM 增强的两大挑战在综述 §8.3 被点出:

  1. 计算效率与部署:millisecond-level 响应时间下,LLM 推理在线根本无法承受。落地路径是离线生成 embedding + 缓存——这与 §7 Quantization 的需求自然结合(LLM embedding 经 PQ/RQ 压缩后存为高保真离散特征,正是 AsymRec 工业落地的形态);
  2. 公平性与偏见:LLM 训练数据携带的人口学偏见会被嵌入放大,需要 fairness-aware fine-tuning。这与图嵌入章节 §4.6 提到的 FairGap、FairDgcl 形成跨章节呼应——公平性正在从单个推荐子方向的关注点变成整个 embedding 栈的横向问题

7. 综述自身的反思(§9)

§9 是综述最诚实的一节。作者直接点明:

  1. Embedding 几乎不能被孤立评测——所有指标都是 backbone+loss+负采样+候选集构造的混合产物,公平比较不同 embedding 家族很难;
  2. 方法学层面的 trade-off
    • Matrix embedding:简单可扩展,建模复杂上下文/动态/关系结构能力弱;
    • Sequential / Graph embedding:表达力强,但训练与服务成本高,对稀疏性/图构建/超参敏感;
    • Hashing/AutoML/Quantization:拿一些准确性换内存/延迟,收益高度取决于业务约束;
    • LLM 增强:注入语义信号、改善冷启动,但带来计算开销与文本-行为对齐难题;
  3. 未来 benchmark 需明确:预处理、负采样、候选构造细节,同时报 效果指标 + 效率指标(内存、推理时延)

这段反思的价值远高于多数综述的”流于形式”的讨论章节——它实际上把整条研究主线最大的方法论病根说出来了。没有标准化的”embedding-only”评测协议,整个领域的进步是在一个被混淆变量遮蔽的指标系统里发生的。这也是为什么这十几年里”每年都有新 SOTA、但工业 baseline 长期是 LightGCN/SASRec”的根本原因。


8. 综述价值与争议点

8.1 价值

  1. 第一份把 embedding 作为一阶研究对象的系统综述。它的 taxonomy 框架——基础学习(matrix/sequential/graph)× 部署效率(hashing/AutoML/quant)× 前沿增强(LLM)——是迄今最清晰的;
  2. 公式 + 表格 + 图示三位一体。每节有汇总表(Table 2-9)、关键概念有图示(图 1-8),关键模型有公式(25+ 个),整体阅读体验比纯文本综述好得多;
  3. 每节”Surveys and Future Directions”自带子综述。这种”递归结构”对想深入某个子方向的读者非常友好,几乎可以作为细分领域的二级入口。

8.2 争议点与局限

  1. 对生成式推荐(Generative Recommendation, GenRec)的覆盖明显不足。 2024-2026 年最热的 SID 范式(TIGER、OneRec、RPG、AsymRec、LASAR、CapsID、VarLenRec)几乎只在 §7.2 codebook quantization 里用一句话带过(”Rajput et al. use an RQ-V AE-style quantization scheme to produce Semantic IDs for generative retrieval”)。这是一个比较大的范式 gap:生成式推荐的核心是 SID 这套表示范式,本质就是 embedding 的”离散化重定义”,理应作为 §7 之外的独立子方向单独成节。综述的处理使得读者很难从这篇文章里建立起对 GenRec 的全貌认知。
  2. Embedding 评测的方法论病根没有给出建设性方案。§9 诚实承认了问题但没有提出可操作的 benchmark 蓝图(如 controlled embedding-only ablation 标准、固定 backbone 的横向对比协议等)。这其实是 embedding 综述能做的最有价值的事——综述放弃了这个机会,略显遗憾。
  3. LLM 增强章节相对短,与领域热度不匹配。Direct Inference / Adapter / Fine-tuning 的三分法是合理的,但每类下面的模型介绍偏列表式,缺乏深度对比(如:什么场景下应该选 frozen embedding,什么场景下应该 fine-tune?fine-tune 的 ROI 阈值在哪?)。
  4. 横向决策树缺失。综述梳理了”每个家族有哪些方法”,但没有给出”工程师在场景 X 下应该选哪个家族”的决策框架。例如:千万级 item、CTR 任务、内存预算 10GB、训练预算 1 GPU-week——这种典型 spec 下,最优 embedding 路线该怎么选?回答这个问题正是工业读者最迫切的需求。
  5. 正交方法的组合讨论几乎没有。例如 LightGCN(§4 GNN)+ Q-R Trick(§5 Hashing)+ MoPQ(§7 Quantization)+ LLM-ESR adapter(§8)——这种”四层栈叠加”在工业实践里是常态,但综述把这四层视为独立平行的方法族,未讨论组合时的兼容性、性能影响、训练收敛性。这是综述结构本身(分章独立)的固有局限。
  6. 冷启动与长尾问题被分散在多处提及,但未独立成节。冷启动作为推荐系统最重要的实际问题之一,本应贯穿 embedding 的所有家族(MF 冷启、Sequential 冷启、Graph 冷启、LLM 缓解冷启),值得单独章节横向梳理。
  7. 公平性、隐私、可解释性这些”非功能性”需求在多个章节末尾出现,但没有专门章节系统讨论。这与 §9 整体的反思深度不太一致。

9. 细节延伸

LightGCN 去除非线性的本质再讨论。综述给出”ID embedding 缺乏语义所以非线性变换无意义”的解释。沿这个思路继续推:当输入 embedding 是 predetermined by ID one-hot 时,第一层非线性变换学到的实际上是一种 ID-specific 的 lookup table 重映射——这与直接学习更宽的 embedding 表数学等价。LightGCN 之所以可以”少层但宽 embedding 表”代替”多层但窄 embedding 表”,正是因为这个等价性。这条洞察可以推广到一个更普适的猜想:输入是 categorical ID 的所有推荐模型,第一层非线性都可以被”加宽 embedding”等价替代。这是一个值得深入实证的开放问题。

DHE 用 ~1000 个哈希函数的设计合理性。DHE 选这么多哈希函数本质是为了让 identity vector(1024 维)的每个分量都接近独立同分布——只有这样 DNN 才能在解码端从中”学出”任意所需 embedding 表。如果哈希函数太少,identity vector 的分布就被”哈希碰撞模式”主导,DNN 学到的 embedding 空间会被这种偏置污染。这与随机投影理论(Johnson-Lindenstrauss lemma)的精神一致——足够多的随机投影维度才能保证近似 embedding 距离的保真

Q-R Trick 的 element-wise product 数学本质。$W_1^{T}H e_p \odot W_2^{T}H^{\prime}e_p$ 表面是两表查值再相乘,本质是把一个 $a$ 大小的虚拟全表参数化为两个低秩表的 Khatri-Rao 积。等价地,这是张量分解(CP decomposition)的 rank-1 特例——Q-R Trick 在结构上和 FM 的低秩二阶交互是同源思想。这条隐藏联系把 §5(Hashing)和 §2.2(FM)连了起来,可惜综述没有显式画出。

Vanilla PQ 为什么用 K-means 而不是反传。K-means 的最优解(在每个簇内取均值)等价于”在 L2 重构损失下的最优固定点”——它不需要反传就能直接求闭式解。反传相对慢、且容易陷入差的局部最优;K-means 是 PQ 这种结构受限优化问题的天然解法。这也解释了为什么后来的 DPQ 必须把 K-means 替换成 softmax-based / centroid-based 可微版本:要做端到端任务级别优化(而不只是重构),就必须放弃 K-means 的闭式优势,回到反传。这是 reconstruction-only → task-aware quantization 的根本架构成本。

BERT4Rec 与 SASRec 的工业偏好分歧。综述把两者并列列出,但工业实践里 SASRec 的使用率远高于 BERT4Rec。原因有三:① SASRec 是 left-to-right 因果注意力,与 next-item 预测目标完全匹配;BERT4Rec 是 bidirectional + masked,预测时需要把”待预测位置 mask 掉”,与训练时不一致;② SASRec 训练快,BERT4Rec 因为 mask 比例约束训练慢且对 mask ratio 敏感;③ SASRec 部署简单(拿最后位置 hidden state),BERT4Rec 需要额外位置标记。综述把两者视为对等并未点出这些工程差异,对一线工程师而言信息密度不够。

异构图与超图的本质差异。综述把异构图(异质节点+边)与超图(一条边连多个节点)并列为两个章节。但严格说,超图可以视为异构图的特例(把每条超边显式建模为一个新节点)——这种视角下,IHGNN 的 $(u,q,p)$ 三元超边等价于一个 $u-q$ 边和 $u-p$ 边再连一个”会话”节点。两者的真正差异不在结构表达力,而在归纳偏置:超图天然鼓励”多元同时交互”的特征聚合,异构图则鼓励”逐对类型化”的关系建模。这层语义差异综述没有展开。


10. 总结

这篇 TOIS 综述的最大贡献是把”embedding”从推荐模型的副产物提升为一阶研究对象,并给出一套”基础学习(§2-§4)→ 部署效率(§5-§7)→ 前沿增强(§8)”的三层结构化分类框架。它通过 ~25 个核心公式、9 个汇总表、8 张概念图、349 篇参考文献,覆盖了从 FunkSVD(2006)到 LLM2Rec(2025)跨越约 20 年的演进,是迄今最系统的推荐 embedding 入门读物。

对推荐工程师 / 研究者最值得带走的三点:

  1. embedding 的设计应在三轴坐标系里思考:① 表达力(matrix/sequential/graph backbone 选哪个),② 效率(hashing/AutoML/quant 哪一层介入),③ 增强(LLM 注入语义/引导)。脱离这三轴空谈”最优 embedding”是空中楼阁;
  2. 重构 loss 不等价于推荐 loss,这是 quantization、LLM-ESR 等多条研究路线的共同结论。下一代 embedding 设计应该把”对下游任务的判别能力”作为一等损失,而非只把它当作辅助;
  3. embedding 不能孤立评测——综述自己承认的这点是整个领域最需要被解决的方法论病根。在该问题被解决之前,”新 SOTA”的可信度大多需要打折,工业 baseline 长期是 LightGCN/SASRec 这类简单模型并非偶然。

它的短板也很清楚:对 Generative Recommendation(SID 路线)覆盖不足、LLM 增强章节相对短、缺少横向决策树和”组合栈”的讨论、未给出可操作的 benchmark 蓝图。但作为一个 panorama-style 入门 + 各子方向二级入口的角色,它依然是 2026 年想全面理解推荐 embedding 这条主线的工程师/研究者最值得入手的文献之一。

把这篇综述与同期更专门的工作(如 AsymRec 对 SID 表示范式的批判性重审、LASAR 对生成推理过程的优化)放在一起对照阅读,会得到更立体的认知:综述给出地图,单点工作给出新一代锚点。地图告诉你”embedding 这片大陆有哪些山脉”,AsymRec/LASAR 这类工作告诉你”哪些山脉里正在隆起新的山峰”。两者缺一不可。

This post is licensed under CC BY 4.0 by the author.