TOIS 综述：推荐系统嵌入技术全景图谱——从矩阵分解、序列建模、图神经网络到 LLM 增强

Posted Jun 2, 2026 Updated Jun 3, 2026

By li.yaozong

51 min read

论文: Embedding in Recommender Systems: A Survey
链接: https://doi.org/10.1145/3812652
机构: 香港城市大学（CityU）、百度、香港理工大学
作者: Maolin Wang、Xinjian Zhao、Wanyu Wang（共同一作）；Sheng Zhang、Jiansheng Li、Bowen Yu、Binhao Wang、Shucheng Zhou（CityU）；Dawei Yin（Baidu）；Qing Li（PolyU）；Ruocheng Guo；Xiangyu Zhao（通讯）
时间: 2026 年 5 月（ACM Trans. Inf. Syst.，53 页正文、349 篇引用）
代码: Applied-Machine-Learning-Lab/Embedding-in-Recommender-Systems

1. 综述定位与核心论断

这篇综述的自我定位非常明确：第一篇把”嵌入（embedding）”本身作为一阶研究对象、而非某个推荐模型副产物的系统综述。作者在引言里直接写道：”To the best of our knowledge, this paper represents the first systematic review of embedding techniques in recommendation systems.”

要理解这个定位的意义，先要回顾推荐系统的研究脉络。过去十年的综述大致沿三条线展开：① 按推荐任务划分（CTR/序列/会话/跨域），② 按模型架构划分（深度学习推荐综述、GNN 推荐综述、序列推荐综述），③ 按效率优化划分（AutoML for DRS 综述、压缩综述）。这些综述都把 embedding 当成”模型的输入层”一笔带过。而本文反过来——所有上述方法都在解决同一个问题：如何把高维离散特征（用户 ID、物品 ID、上下文 ID）转换成低维稠密向量——于是 embedding 就成了贯穿全栈的真正主线。

围绕这条主线，作者给出一个“三层九节”的组织哲学：

基础学习层（§2-§4）：按数据结构组织，矩阵 → 序列 → 图，分别对应 CF/FM、Transformer 时代的序列建模、各类 GNN；
部署效率层（§5-§7）：把”如何在工业规模下用得起 embedding”作为独立问题，覆盖 Hashing、AutoML、Quantization 三大压缩范式；
前沿增强层（§8）：LLM 怎样从外部注入语义信号、强化已有 embedding。

这个三层结构其实暗含一个判断：embedding 的技术演进与推荐系统工业化进程严格同步——前半段（matrix → sequential → graph）回答”表达力够不够”，中段（hashing/AutoML/quant）回答”省不省得起、跑不跑得动”，最近半段（LLM）回答”语义信号能不能不再依赖人工特征工程”。这个隐含时间轴比任何明文 taxonomy 都更能说明 embedding 这条线的发展节奏，也是这篇综述比”按方法堆砌”的综述更有结构感的关键。

需要先承认综述自己的一个核心论断（§9）：“embeddings are intermediate parameters and are rarely evaluated in isolation”——embedding 几乎从不被孤立评估，所有结果都是端到端 backbone+loss+负采样混合的产物。这一论断既是综述的诚实之处（不假装能给出”哪种 embedding 绝对最优”的结论），也是它无法回避的根本局限（下面会反复回到这点）。

2. 矩阵格式嵌入：CF + FM 的双源头（§2）

2.1 矩阵分解（Matrix Factorization）

综述把 MF 系作为整条主线的源头，并以 FunkSVD（即 Netflix Prize 期间 Simon Funk 提出的方法）作为锚点。其目标是把用户-物品评分矩阵 $R\in\mathbb{R}^{m\times n}$ 分解为：

\[R \approx U\times V^{T}, \quad U\in\mathbb{R}^{m\times d},\ V\in\mathbb{R}^{n\times d}\]

优化目标（公式 2）：

\[\min_{u_i, v_j} \sum_{\{(i,j)|R_{ij}\neq \phi\}} (R_{ij} - v_j^T u_i)^2 + \lambda(\|u_i\|^2 + \|v_j\|^2)\]

逐项拆解：

$u_i\in\mathbb{R}^{d}$、$v_j\in\mathbb{R}^{d}$：用户 $i$、物品 $j$ 的 $d$ 维潜在向量，也是 $U$、$V$ 的列向量；
$\lbrace (i,j)\lvert R_{ij}\neq \phi\rbrace$：仅对已观测到的评分求和——这正是 FunkSVD 区别于经典 SVD 的关键。经典 SVD 把缺失值当 0 处理会引入巨大偏差，FunkSVD 只在观测项上做梯度下降；
$\lambda(\lVert u_i\rVert^{2}+\lVert v_j\rVert^{2})$：L2 正则，控制过拟合，对应贝叶斯视角下高斯先验的最大后验估计。

综述顺着 FunkSVD 把 MF 系展开成三个子族：

SVD 派生家族：NSVD（用物品因子线性组合表示用户）→ SVD++（在 NSVD 上叠加显式用户因子）→ SVDfeature（工具化）→ BiasSVD（加 user/item bias）→ TimeSVD（加时间衰减）→ DELF（attention 加权）。这条路径展示了单纯靠改 FunkSVD 的 loss 形式能走多远；
物品相似度家族：SLIM、FISM、NAIS、SGNS——本质是用一阶/二阶物品共现来代替”用户向量”这个抽象概念，对冷启动用户更友好；
内容感知家族：ConvMF、ConvSeq-MF——把 CNN 文本特征塞进 MF，开启了”语义信号增强 ID 信号”的早期范式（这条线在 §8 LLM 增强里被极大扩展）。

2.2 因子分解机（Factorization Machines, FM）

FM 是综述给出的第二个源头，对应解决 MF 在大规模稀疏特征下的扩展性问题。其二阶形式（公式 3）：

\[\Phi_{FM}(x) = w_0 + \sum_{i=1}^{n} w_i x_i + \sum_{i=1}^{n}\sum_{j=i+1}^{n}\langle v_i, v_j\rangle x_i x_j\]

其中 $\langle v_i, v_j\rangle = \sum_{f=1}^{k} V_{i,f}V_{j,f}$。逐项解读：

$x\in\mathbb{R}^{n}$：拼接后的稀疏特征向量（典型做法是 user/item one-hot 加各类侧信息 one-hot）；
$w_0, w_i$：偏置与一阶权重，等同于线性回归部分；
$\langle v_i, v_j\rangle$：把”两两特征交互的系数 $w_{ij}$”分解为两个低维向量的内积——这是 FM 与传统多项式回归的本质区别。传统二阶模型需要学 $O(n^{2})$ 个独立系数，FM 用因子分解把参数量降到 $O(nk)$，更重要的是稀疏组合不再需要同时出现就能学到泛化的 $v_i$。

这里有个综述没有点透但非常关键的细节：FM 的二阶项可以等价改写为 $\frac{1}{2}\sum_{f}\big[(\sum_i v_{i,f}x_i)^{2}-\sum_i v_{i,f}^{2}x_i^{2}\big]$，计算复杂度从朴素的 $O(kn^{2})$ 降到 $O(kn)$。这是 FM 能在工业 CTR 场景跑通的根本工程基础，可惜原文未明确呈现。

复杂度降低的推导过程：

二阶交叉项的原始形式：

\[\sum_{i=1}^{n}\sum_{j=i+1}^{n}\langle v_i, v_j\rangle x_i x_j\]

将内积展开为隐因子维度的求和 $\langle v_i, v_j\rangle = \sum_{f=1}^{k} v_{i,f} v_{j,f}$，利用”所有对之和 = 全量平方和 − 自身平方和再除以 2”这一恒等式：

\[\sum_{i=1}^{n}\sum_{j=i+1}^{n}\langle v_i, v_j\rangle x_i x_j = \frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\langle v_i, v_j\rangle x_i x_j - \frac{1}{2}\sum_{i=1}^{n}\langle v_i, v_i\rangle x_i x_i\]

对右边第一项，把内积定义代入并交换求和顺序（先对 $f$ 求和）：

\[\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\sum_{f=1}^{k} v_{i,f} v_{j,f} x_i x_j = \frac{1}{2}\sum_{f=1}^{k}\left(\sum_{i=1}^{n} v_{i,f} x_i\right)\left(\sum_{j=1}^{n} v_{j,f} x_j\right) = \frac{1}{2}\sum_{f=1}^{k}\left(\sum_{i=1}^{n} v_{i,f} x_i\right)^2\]

对右边第二项同理展开：

\[\frac{1}{2}\sum_{i=1}^{n}\sum_{f=1}^{k} v_{i,f}^2 x_i^2 = \frac{1}{2}\sum_{f=1}^{k}\sum_{i=1}^{n} v_{i,f}^2 x_i^2\]

两项相减得到最终形式：

\[\boxed{\sum_{i=1}^{n}\sum_{j=i+1}^{n}\langle v_i, v_j\rangle x_i x_j = \frac{1}{2}\sum_{f=1}^{k}\left[\left(\sum_{i=1}^{n} v_{i,f} x_i\right)^2 - \sum_{i=1}^{n} v_{i,f}^2 x_i^2\right]}\]

复杂度分析：对每个隐因子维度 $f$，$\sum_i v_{i,f}x_i$ 只需 $O(n)$ 次乘加，共 $k$ 个维度，因此总复杂度为 $O(kn)$，相比朴素枚举所有 $(i,j)$ 对的 $O(kn^2)$ 降低了一个量级。对于稀疏输入（非零特征数 $\bar{n} \ll n$），实际复杂度进一步降为 $O(k\bar{n})$。

FM-DNN 融合的工业范式被综述清晰地组织出一条递进链，这条链清楚地展示了”显式低阶记忆 vs 隐式高阶泛化”的工业辩证，也是 2017-2020 这一波 CTR 模型迭代的浓缩史：

模型	年份	结构示意	核心公式	核心思想
FNN	2016	`FM embedding → DNN`	$\hat{y}=\sigma(W_L\cdots\sigma(W_1 \mathbf{z}+b_1)\cdots+b_L)$，其中 $\mathbf{z}$ 由预训练 FM 得到	用预训练好的 FM 向量初始化 DNN 输入层
PNN	2016	`Embedding → Product Layer → DNN`	$l_1 = \mathrm{relu}(W_z \mathbf{z} + W_p \mathbf{p} + b)$，$\mathbf{p}=\{g(e_i, e_j)\}$ 为内积/外积	在 embedding 之上加显式内积/外积乘积层
NeuFM	2017	`FM(线性) + DNN(非线性) → 融合`	$\hat{y} = \sigma\big(h^T \mathrm{DNN}(V_{\mathrm{BI}})\big)$，$V_{\mathrm{BI}}=\{(v_i \odot v_j)x_i x_j\}$	FM 捕捉低阶 + DNN 捕捉高阶，输出层融合
AFM	2017	`FM + Attention 权重`	$\hat{y}=\sum_{i}\sum_{j>i} a_{ij}(v_i \odot v_j)x_i x_j$，$a_{ij}=\mathrm{softmax}(h^T\mathrm{relu}(W \cdot v_i\odot v_j+b))$	不同特征交叉的重要性不同，用 attention 加权
Wide&Deep	2016	`Wide ∥ Deep → 联合`	$\hat{y}=\sigma(w^T_{\mathrm{wide}}[\mathbf{x}, \phi(\mathbf{x})] + w^T_{\mathrm{deep}} a^{(L)} + b)$	Google：Wide 负责记忆，Deep 负责泛化
DeepFM	2017	`FM ∥ DNN → 联合`	$\hat{y}=\sigma(y_{\mathrm{FM}}+y_{\mathrm{DNN}})$，FM 与 DNN 共享同一组 embedding	用 FM 替代 Wide 中的手工特征工程，共享 embedding
DCN	2017	`Cross Network ∥ DNN → 联合`	$x_{l+1}=x_0 x_l^T w_l + b_l + x_l$（逐层显式交叉）	用 Cross Network 自动做有界阶数的显式交叉
xDeepFM	2018	`CIN ∥ DNN → 联合`	$X^k_{h,}=\sum_{i}\sum_{j} W^{k,h}_{ij}(X^{k-1}_{i,}\circ X^0_{j,*})$（向量级 Hadamard 交叉）	交叉粒度从标量提升到向量级，表达力更强
AutoInt	2019	`Embedding → Multi-head Self-Attention`	$\tilde{e}_m = \sum_{h} W_h \sum_{k}\alpha^{(h)}_{m,k}(W^{(h)}_V e_k)$，$\alpha=\mathrm{softmax}(e_m^T W_Q^T W_K e_k)$	直接用自注意力建模任意阶特征交互

2.3 个人观察

综述把 §2 限定在”矩阵格式”，其实留下两个值得深挖的伏笔：

MF 的”复兴”被严重低估。综述在 §4.3 单独介绍了 LightGCN（详见 §4），但没明确点出 LightGCN 在 user-item bipartite graph 上做的事本质就是 “FunkSVD + 邻域聚合”——把 GNN 退化到只剩归一化邻居加权聚合，与 MF 共享同一组 ID embedding。这其实回答了一个值得讨论的问题：MF 在 LLM 时代到底”过时”没有？综述的答案隐含是”没有”——它仍然是 LightGCN/UltraGCN 这类 SOTA 简化模型的内核。
FM-DNN 系工业化的”反向迁移”未被展开。Wide&Deep 之后的 DeepFM/DCN/xDeepFM 都是大公司发表的工业模型；2022 年之后这条线明显放缓，原因是 Sequential Recommendation（§3）和 Generative Recommendation（综述未充分覆盖）抢走了 CTR 的研究风头。综述对这一行业转向没有评论。

3. 序列嵌入：从 RNN/CNN 到 SSL 增强（§3）

3.1 序列建模骨干

综述把序列建模骨干分三类：

RNN/CNN 类：GRU4Rec、NARM、Caser、GLINT-RU；
Transformer 类：SASRec、BERT4Rec——这是当下序列推荐的事实标准；
图与状态空间类：SR-GNN（把会话当图）、Mamba4Rec（线性时间复杂度的状态空间模型）、STAR-Rec、DiffuRec（扩散模型用于序列推荐）。

综述把 Mamba4Rec 和 DiffuRec 列入主流骨干是个有信息量的信号——它表明“Transformer 不再是序列推荐唯一的答案”已在 2025-2026 年成为研究共识。这与同期的 LASAR（隐空间推理）、GenRec（生成式范式）等工作相互印证。但综述未深入讨论 Mamba 类模型在工业落地中的真实表现（推测基于 §3.1 短短一段话的处理方式）。

3.2 对比学习增强

综述梳理了序列推荐里的五种数据增强（图 2）：Item Cropping（裁剪）、Item Masking（遮蔽）、Item Reordering（重排）、Item Substitution（替换为相关物品）、Item Insertion（在原物品前插入相关物品）。

代表模型：

CL4SRec：用 cropping/masking/reordering 三种增强；对 minibatch 内 $N$ 个用户生成 $2N$ 个增强序列 $\lbrace S_{u_n}^{a_i}\rbrace$，把同一用户的不同增强视图作为正对、其余 $2(N-1)$ 个作为负样本，用 InfoNCE/SimCLR-style softmax 交叉熵优化；
CoSeRec：把 substitution/insertion 加入增强池；
ContraRec：拓展正对定义——不只同一序列的增强是正对，不同序列但相同目标物品的也算正对，这把”协同信号”显式注入对比目标。

综述明确指出对比增强的根本痛点：选哪个 augmentation、按什么强度、对什么场景，没有原则性指导，研究者只能 random sweep。这点在 2024-2025 年的工作（如 SSLRec、MENTOR）里被进一步坐实——不同推荐任务需要不同的 SSL 策略，”one-size-fits-all”不存在。这与 CV 里 SimCLR 早期”任意 augmentation 都涨点”的乐观完全相反，本质原因是推荐数据的 augmentation 缺乏 CV 那种”语义不变性”先验。

3.3 生成式 SSL：BERT4Rec 范式

BERT4Rec 的 MLM 损失（公式 5）：

\[\mathcal{L} = \frac{1}{|\mathcal{V}_m^u|} \sum_{v_m\in \mathcal{V}_m^u} -\log P(v_m=v_m^{\ast}\mid \hat{\mathcal{S}}_u)\]

逐项含义：

$\hat{\mathcal{S}}_u$：对用户 $u$ 的原始行为序列 $\mathcal{S}_u$ 做 item masking 后的序列；
$\mathcal{V}_m^{u}$：被 mask 掉的物品集合；
$v_m^{\ast}$：被 mask 物品的真实 ID；
$P(\cdot)$：BERT decoder 给出的条件概率。

综述把 BERT4Rec 的衍生拆成两族：领域适配族（UNBERT 用于新闻、U-BERT 用于跨域、UPRec 处理异构用户属性）和通用 embedding 族（PeterRec 做 learning-to-learn 跨域、ShopperBERT 用九个辅助任务做电商通用预训练）。这里有个值得点出的争议：ShopperBERT 报告”通用预训练优于专用模型”，但通用 embedding 在工业落地里一直存在”专用 always 比通用强一点”的反例（这也是为什么基础模型在 NLP 已成定局、在推荐还在拉锯）。综述对这个工业 vs 学术 gap 未做展开（推测基于 §3.4 仅简要列出”general-purpose embedding”作为未来方向）。

一个隐藏的现象：综述同时把 BERT4Rec 列在 §3.3 序列生成式 SSL、§4.1.4 图生成式 SSL 两处——这说明在作者的分类法里，“sequence-based generative SSL”是图生成 SSL 的子集/前导（”many approaches first transform graph data into sequences”）。这个判断在 G-BERT、PT-GNN 等工作里得到了延续，本质上承认了Transformer 这套架构在”图 vs 序列”问题上的胜利——把图变序列再用 BERT，比纯图编码器训练更稳定。

4. 图嵌入：四类图结构 × 三类学习范式（§4）

这是综述最长的一节，逻辑层次也最复杂。作者把内容拆成两条正交轴：

学习技术（§4.1）：谱 GNN、空间 GNN、图池化、图 SSL（对比/生成/预测三子类）；
图结构（§4.2-§4.5）：同构图、二部图、异构图、超图。

4.1 学习技术：从谱到 SSL

谱 GNN（公式 6）：

\[g_\theta \ast x = U\,g_\theta(\Lambda)\,U^T x\]

其中 $U$ 是图 Laplacian 的特征向量矩阵，$g_\theta(\Lambda)$ 是定义在特征值上的对角滤波器。在推荐里，这相当于在”用户-物品偏好”信号上做谱域滤波——平滑分量对应协同信号，高频分量对应噪声/个性。综述列出的 SpectralCF、JSCN、SComGNN 各自在这个框架下做改造。

空间 GNN（公式 7）：消息传递的通用形式

\[h_i^{(k)} = \text{Aggregation}^{(k)}\big(h_i^{(k-1)}, \bigoplus_{j\in\mathcal{N}(i)} \text{Message}^{(k)}(h_i^{(k-1)}, h_j^{(k-1)}, e_{j,i})\big)\]

这一形式囊括了 GCN、GAT、GraphSAGE 几乎所有主流 GNN，也是综述最重要的一个统一抽象。后续所有图推荐模型都可以套进这个框架，区别只在 Message/Aggregation/$\bigoplus$ 三个算子的具体实现。

图池化（公式 8，DiffPool）：

\[S^{(l)} = \text{softmax}\big(\text{GNN}_{l,\text{pool}}(A^{(l)}, H^{(l)})\big)\]

可微软分配把节点聚成簇，得到 graph-level 表示。综述指出其在 SR-GNN（会话表示）、RGNN（评论图）、HG-Pool（个性化异构图）等推荐场景的具体用法。

图 SSL 三子类：

对比（公式 9）：$f_\theta^{\ast}=\arg\min_{f_\theta, g_\phi}\mathcal{L}_{cl}(g_\phi(f_\theta(\mathcal{V}_1), f_\theta(\mathcal{V}_2)))$。代表：SGL、HHGR、CCDR、PCRec、DCL；
生成（公式 10）：$f_\theta^{\ast}=\arg\min_{f_\theta, g_\phi}\mathcal{L}_{gen}(g_\phi(f_\theta(\tilde{\mathcal{D}})), \mathcal{D})$。代表：G-BERT、PMGT、PT-GNN，以及图原生路线 GAE/VGAE 和最新的 Graffe（扩散模型用于图表示）；
预测（公式 11）：$f_\theta^{\ast}=\arg\min_{f_\theta, g_\phi}\mathcal{L}_{pred}(g_\phi(f_\theta(\mathcal{D})), \hat{\mathcal{Y}})$。代表：CHEST（meta-path 类型作伪标签）、BUIR（双 encoder 一致性，BYOL-style）。

综述把”sequence-based generative SSL”和”graph-native generative SSL”做了清晰对比：前者把图变序列再用 MLM，后者直接用图自编码/扩散。这两条路径在 2024-2025 年都还活跃，但作者隐含倾向graph-native 是更长期的方向——它”naturally align with the sparsity and implicit feedback nature of user-item interaction graphs”。这个判断需要打个问号：graph-native 模型在工业 100M+ 节点规模下能不能跑还没有公开证据，BERT-style 序列路径反而是当前唯一被工业大规模验证的（推测基于 §4.1.4 关于”sequence-based 仍是 dominant practice”的描述）。

4.2-4.5 四种图结构

同构图：Deepwalk（公式 12，random walk + skip-gram）、APP（asymmetric proximity）、InfoWalk（处理 dangling nodes）、HyperSoRec（双曲空间嵌入）、M2GRL（多视图组合）、DG-ENN（user-user 和 item-item 联合训练）；
二部图：GC-MC、STAR-GCN、NGCF、LightGCN（公式 13）、UltraGCN、CSE、GE；
异构图：DiffNet/GraphRec/DiffNet++/DANSER（社交）、KGCN/KGAT/KGIN（知识图谱）；
超图：IHGNN（用户-查询-商品三元超边）、HyperGroup（群组推荐）、HEMR（音乐推荐）。

LightGCN 的特殊地位（公式 13）：

\[h_u^{(k+1)} = \sum_{i\in\mathcal{N}_u} \frac{1}{\sqrt{|\mathcal{N}_u|}\sqrt{|\mathcal{N}_i|}} h_i^{(k)}\]

LightGCN 把 GCN 里的非线性激活、自连接、特征变换矩阵全部砍掉，只保留归一化邻域聚合。这条”减法”做出来的效果反而比完整 GCN 好。综述对这一现象的解释是”as the inputs of the user and item stem from ID embeddings lacking semantic information, there is no need for nonlinear transformations”。

这个解释值得展开：当输入是无语义的 ID embedding 时，非线性变换没有任何额外信息可以挖掘——它学到的只是把 ID 向量”打散”，而 GCN 邻域聚合本身就足以达到这个目的。这与 CV/NLP 的情况完全相反——那里输入向量本身就携带丰富语义（像素、词），非线性激活帮助模型学到高阶组合。这是 ID-based 推荐与 NLP/CV 一个被严重低估的本质差异：你的输入向量是否”带语义”，决定了 backbone 应该做加法还是减法。这条洞察也直接推导出 UltraGCN（连多层聚合都砍掉，只优化一阶邻域余弦相似度）的设计动机。

5. 部署导向的三大效率技术：Hashing / AutoML / Quantization（§5-§7）

这三节是综述最有”工业实用价值”的部分，分别解决三个独立但相关的问题：

Hashing：怎么用更少的 bucket 容纳千万级 ID？
AutoML：怎么为不同 feature 自动选最优 embedding 维度？
Quantization：怎么把训完的 dense embedding 压缩到几个 bytes？

5.1 Hashing（§5）

Hashing trick（公式 14-16）：用一个哈希函数 $f_H$ 把 ID 映射到 bucket，配合编码函数 $f_E$（取值 $\lbrace 0,1\rbrace$）压缩矩阵。最终用户向量可写为 $U_{p,\cdot}^{T}=W^{T}H e_p$，其中 $H\in\lbrace 0,1\rbrace^{m^{\prime}\times m}$ 是稀疏哈希矩阵，$e_p$ 是 one-hot 选择器。

核心痛点：哈希碰撞。不同 ID 映射到同一 bucket 会损失信息（如图 5 所示，ID 897 和 ID 2045 折叠到同一行）。

解决方案谱系：

多哈希函数：Bloom Filter、Hash Embedding（多哈希加权求和）；
Hybrid Hashing（Twitter）：高频 ID 用 one-hot 全嵌入、低频 ID 用多哈希——承认长尾本来就是低秩可压缩的；
Q-R Trick（Facebook，公式 17）：双哈希表 $W_1\in\mathbb{R}^{l\times d}$、$W_2\in\mathbb{R}^{\frac{a}{l}\times d}$，最终 embedding 是两个表查值的 element-wise 乘积 $W_1^{T}H e_p \odot W_2^{T}H^{\prime} e_p$。这本质上是用”商-余”两个互补哈希函数构造一个 $l\times \frac{a}{l}=a$ 大小的”虚拟全表”，但只存 $l+\frac{a}{l}$ 个参数；
DHE（Google）：用 ~1000 个哈希函数生成 1024 维 identity vector，再用 DNN 解码到最终 embedding。这条路线牺牲存储换 representation 唯一性——多哈希保证碰撞概率极低，DNN 提供端到端学习的灵活性。

综述顺带提到的一个有意思的实证：Tran et al. (2024) 的 benchmark 显示简单的 magnitude-based pruning 有时能打过复杂哈希方案。这是一个对整个 Hashing 子方向相当不友好的发现——它暗示这条线的”复杂度内卷”可能已经过头，更直接的稀疏化反而更高效。综述对这个反例的处理相当克制，未做更深批判。

5.2 AutoML 与嵌入维度搜索（§6）

核心问题：传统做法给所有 feature 都用同一维度（如 $d=64$），但不同 feature 重要性差异巨大（user ID vs 用户所在城市）。Embedding Dimension Search（EDS）就是为每个 field 自动找最优维度。

按搜索策略分三大流派：

RL-based（§6.1）：NIS、ESAPN。把推荐模型当 environment、policy network 当 agent，reward（公式 18-19）依据当前 loss 序列定义：

\[R^{u/i}=\frac{1}{T}\sum_{t=1}^{T} L_t^{(u/i)} - L\]

用 A3C 或 REINFORCE 优化。痛点：硬选择只能在预定义离散候选维度集里挑（如 $\lbrace 8,16,32,64\rbrace$），无法连续优化，且 RL 训练不稳定。

Gradient-based（§6.2）：DARTS 启发的可微 NAS。

Soft Selection：DNIS（公式 20，soft selection matrix $\tilde{e}_i=e_i\odot \alpha_i$）、AutoEMB、AutoDim（Gumbel-Softmax 替换硬选择）；
Pruning-based：AMTL（adaptive mask、双 MLP 分别处理高/低频 ID）、SSEDS（用 saliency score 一次前向反传定阈值）；
Budget-aware：BET（显式纳入内存预算约束作为优化目标）——这是 2024-2025 年的新方向，把”实际硬件约束”从结果筛选变成优化变量。

其他（§6.3）：RULE（演化算法，swap embedding blocks）、PEP（基于 Lottery Ticket 假设直接剪 embedding）、ANT/autoDis（用学习的 anchor embedding 矩阵线性/软组合表示全部 ID）。

综述指出 AutoML 这条线的 致命短板：搜索成本本身就高，加上推荐模型训练成本，整体计算预算非常吃紧。这是为什么 BET（预算感知）和 SSEDS（单次前向反传定阈值）这类”低预算 NAS”在 2024 年后明显占优。真正影响落地的不是”能不能找到最优维度”，而是”找最优维度的开销值不值得”——这个工业经济学问题综述没有显式讨论。

5.3 Quantization（§7）

把 dense embedding 压缩到几 bytes 的极致路线，分三类：

Binary Quantization（§7.1）：$b\in\lbrace \pm 1\rbrace^{r}$，相似度（公式 21）$x_{ui}=\frac{1}{2}+\frac{1}{2r}b_u^{T}d_i$。DPR 通过优化 AUC surrogate（公式 22）学习二值码，加 balance 约束（最大化码熵）和 irrelevant 约束（位间独立）；DDL 用 bag-of-words 文本嵌入约束二值码不能偏离原 embedding 太远。

Codebook Quantization（§7.2）——这条是综述里覆盖最深、也是 2024-2026 年生成式推荐的核心技术：

Vanilla PQ（公式 23）：把 $\mathbb{R}^{D}$ 分解为 $M$ 个独立子空间的笛卡尔积，每个子空间内做 K-means 聚类得到码本 $\mathcal{C}_m$，物品被表示为 $M$ 个 codeword 索引。问题：子空间间相关性高时性能差；
OPQ：用旋转矩阵 $R\in\mathbb{R}^{M\times M}$ 优化子空间分解，降相关性；
AQ（公式 24）：放弃”独立子空间”假设，让所有 $M$ 个码本都覆盖整个 $D$ 维空间，最终 embedding 是 $M$ 个 codeword 之和。计算最优组合是 NP-hard，AQ 用 beam search 近似；
DPQ：用 softmax-based / centroid-based 方法把 K-means 替换为可微优化，端到端最小化重构损失；
Residual VQ：层级残差量化（TIGER 用于 Semantic ID 的核心机制）；
Supervised PQ 系列：PQCF（用评分预测损失替换重构损失）、Distill-VQ（KL 蒸馏 teacher 排序分布）、LightRec（保 user-item 排序不变性）、MoPQ（最关键的洞察：reconstruction quality 不等价于 downstream quality）、xLightFM、CAGE（学可微离散类别树用于 ID-based 推荐）。

综述这里点出一个被多次实证的结论：仅用 reconstruction loss 优化的 quantization 在推荐任务上是次优的。MoPQ 用 multinoulli contrastive learning 直接对齐 query-quantization 的匹配关系，性能大幅优于 PQ。这与同期 AsymRec（2026 年 5 月）”用 MHQ 的多视图层级量化 + 语义正则替代纯重构”的论断完全一致——整个领域共识正从”高保真重构”转向”高推荐效用”。但综述对这个共识的呈现略偏温和，没有把”MoPQ → AsymRec → CAGE 这条非重构损失主流化”的脉络画清楚。

Online Quantization（§7.3）：Online PQ/OPQ/AQ。核心思路是滑窗 + 增量 K-means，处理流式新用户。Online AQ 还推导了 regret bound（基于矩阵求逆引理）。但整体看，online 这块工业实用度不及 offline + 周期性重训。

6. LLM 驱动的嵌入增强（§8）

综述把 LLM 增强分两条主线：作为语义补充（§8.1） 与 作为引导信号（§8.2）。

6.1 LLM 嵌入作为语义补充

序列推荐目标（公式 25）：$\arg\max_{v_j\in \mathcal{V}} P(v_{N+1}=v_j\lvert \mathcal{S})$。LLM 增强的基本形式（公式 26）：

\[e_i^{\text{LLM}} = \text{LLM}(T_i),\quad T_i = [I, A_1, A_2, \dots, A_K]\]

$T_i$ 是为物品 $i$ 构造的 prompt（instruction $I$ + 各属性 $A_k$），$e_i^{\text{LLM}}$ 是 LLM 末层隐状态作为该物品的语义嵌入。三种使用方式（图 8）：

Direct Inference（frozen LLM）：ChatRec、GeneRec、TedRec、LRD、SemSR。直接用预训练 LLM 出 embedding 喂下游推荐模型；
加 trainable adapter：LLM-ESR（adapter + cross attention）、AlphaRec（MLP 做语义-ID 桥接）、Laser、SRA-CL、SAID（语义对齐+联合训练）、SAGE-Rec（fuzzy 原型+蒸馏，缓解长尾）；
Fine-tuning LLM 或 embedding：PEPLER（两阶段 fine-tune）、PPR（prompt+behavior 双层 augmentation）、LLM-CF（数据混合蒸馏）、TPAD（多模态 LLM fine-tune）、LLMEmb（监督对比 fine-tune）、SeRALM（推荐反馈对齐）、LLM2Rec（双阶段端到端把 LLM 训成推荐器）。

6.2 LLM 嵌入作为引导

Self-Guidance：LLM4SBR、LLM-ESR 用 LLM 嵌入找相似用户行为；DaRec 做 LLM/CF embedding 解耦+对齐；LLMEmb 监督对比缓解长尾；
Cross-Embedding Guidance：Jia et al.、PAD（LLM 物品标题嵌入对齐 ID embedding）、LLM4CDSR（跨域全局交互嵌入指导）、EIMF（聚类行为嵌入指导）、LGMcRec（GNN 嵌入与 LLM 嵌入互相增强）。

综述对 LLM 增强这块的处理有个让人意外的地方：篇幅相对短（只有一节，约 4 页）。考虑到 LLM 增强是 2024-2026 年推荐方向最热的子领域，这个比例似乎与领域热度不太匹配。一种解释是：综述完成日期较早（投稿后多次修订），LLM 部分的快速演进未能及时纳入；另一种解释是：作者把更多 LLM 工作归类到 §3 序列嵌入或 §4 图嵌入下，而非单独的 §8（推测基于 §8 与 §3、§4 在 BERT4Rec、PMGT 等模型上的重叠引用）。

LLM 增强的两大挑战在综述 §8.3 被点出：

计算效率与部署：millisecond-level 响应时间下，LLM 推理在线根本无法承受。落地路径是离线生成 embedding + 缓存——这与 §7 Quantization 的需求自然结合（LLM embedding 经 PQ/RQ 压缩后存为高保真离散特征，正是 AsymRec 工业落地的形态）；
公平性与偏见：LLM 训练数据携带的人口学偏见会被嵌入放大，需要 fairness-aware fine-tuning。这与图嵌入章节 §4.6 提到的 FairGap、FairDgcl 形成跨章节呼应——公平性正在从单个推荐子方向的关注点变成整个 embedding 栈的横向问题。

7. 综述自身的反思（§9）

§9 是综述最诚实的一节。作者直接点明：

Embedding 几乎不能被孤立评测——所有指标都是 backbone+loss+负采样+候选集构造的混合产物，公平比较不同 embedding 家族很难；
方法学层面的 trade-off：
- Matrix embedding：简单可扩展，建模复杂上下文/动态/关系结构能力弱；
- Sequential / Graph embedding：表达力强，但训练与服务成本高，对稀疏性/图构建/超参敏感；
- Hashing/AutoML/Quantization：拿一些准确性换内存/延迟，收益高度取决于业务约束；
- LLM 增强：注入语义信号、改善冷启动，但带来计算开销与文本-行为对齐难题；
未来 benchmark 需明确：预处理、负采样、候选构造细节，同时报 效果指标 + 效率指标（内存、推理时延）。

这段反思的价值远高于多数综述的”流于形式”的讨论章节——它实际上把整条研究主线最大的方法论病根说出来了。没有标准化的”embedding-only”评测协议，整个领域的进步是在一个被混淆变量遮蔽的指标系统里发生的。这也是为什么这十几年里”每年都有新 SOTA、但工业 baseline 长期是 LightGCN/SASRec”的根本原因。

8. 综述价值与争议点

8.1 价值

第一份把 embedding 作为一阶研究对象的系统综述。它的 taxonomy 框架——基础学习（matrix/sequential/graph）× 部署效率（hashing/AutoML/quant）× 前沿增强（LLM）——是迄今最清晰的；
公式 + 表格 + 图示三位一体。每节有汇总表（Table 2-9）、关键概念有图示（图 1-8），关键模型有公式（25+ 个），整体阅读体验比纯文本综述好得多；
每节”Surveys and Future Directions”自带子综述。这种”递归结构”对想深入某个子方向的读者非常友好，几乎可以作为细分领域的二级入口。

8.2 争议点与局限

对生成式推荐（Generative Recommendation, GenRec）的覆盖明显不足。 2024-2026 年最热的 SID 范式（TIGER、OneRec、RPG、AsymRec、LASAR、CapsID、VarLenRec）几乎只在 §7.2 codebook quantization 里用一句话带过（”Rajput et al. use an RQ-V AE-style quantization scheme to produce Semantic IDs for generative retrieval”）。这是一个比较大的范式 gap：生成式推荐的核心是 SID 这套表示范式，本质就是 embedding 的”离散化重定义”，理应作为 §7 之外的独立子方向单独成节。综述的处理使得读者很难从这篇文章里建立起对 GenRec 的全貌认知。
Embedding 评测的方法论病根没有给出建设性方案。§9 诚实承认了问题但没有提出可操作的 benchmark 蓝图（如 controlled embedding-only ablation 标准、固定 backbone 的横向对比协议等）。这其实是 embedding 综述能做的最有价值的事——综述放弃了这个机会，略显遗憾。
LLM 增强章节相对短，与领域热度不匹配。Direct Inference / Adapter / Fine-tuning 的三分法是合理的，但每类下面的模型介绍偏列表式，缺乏深度对比（如：什么场景下应该选 frozen embedding，什么场景下应该 fine-tune？fine-tune 的 ROI 阈值在哪？）。
横向决策树缺失。综述梳理了”每个家族有哪些方法”，但没有给出”工程师在场景 X 下应该选哪个家族”的决策框架。例如：千万级 item、CTR 任务、内存预算 10GB、训练预算 1 GPU-week——这种典型 spec 下，最优 embedding 路线该怎么选？回答这个问题正是工业读者最迫切的需求。
正交方法的组合讨论几乎没有。例如 LightGCN（§4 GNN）+ Q-R Trick（§5 Hashing）+ MoPQ（§7 Quantization）+ LLM-ESR adapter（§8）——这种”四层栈叠加”在工业实践里是常态，但综述把这四层视为独立平行的方法族，未讨论组合时的兼容性、性能影响、训练收敛性。这是综述结构本身（分章独立）的固有局限。
冷启动与长尾问题被分散在多处提及，但未独立成节。冷启动作为推荐系统最重要的实际问题之一，本应贯穿 embedding 的所有家族（MF 冷启、Sequential 冷启、Graph 冷启、LLM 缓解冷启），值得单独章节横向梳理。
公平性、隐私、可解释性这些”非功能性”需求在多个章节末尾出现，但没有专门章节系统讨论。这与 §9 整体的反思深度不太一致。

9. 细节延伸

LightGCN 去除非线性的本质再讨论。综述给出”ID embedding 缺乏语义所以非线性变换无意义”的解释。沿这个思路继续推：当输入 embedding 是 predetermined by ID one-hot 时，第一层非线性变换学到的实际上是一种 ID-specific 的 lookup table 重映射——这与直接学习更宽的 embedding 表数学等价。LightGCN 之所以可以”少层但宽 embedding 表”代替”多层但窄 embedding 表”，正是因为这个等价性。这条洞察可以推广到一个更普适的猜想：输入是 categorical ID 的所有推荐模型，第一层非线性都可以被”加宽 embedding”等价替代。这是一个值得深入实证的开放问题。

DHE 用 ~1000 个哈希函数的设计合理性。DHE 选这么多哈希函数本质是为了让 identity vector（1024 维）的每个分量都接近独立同分布——只有这样 DNN 才能在解码端从中”学出”任意所需 embedding 表。如果哈希函数太少，identity vector 的分布就被”哈希碰撞模式”主导，DNN 学到的 embedding 空间会被这种偏置污染。这与随机投影理论（Johnson-Lindenstrauss lemma）的精神一致——足够多的随机投影维度才能保证近似 embedding 距离的保真。

Q-R Trick 的 element-wise product 数学本质。$W_1^{T}H e_p \odot W_2^{T}H^{\prime}e_p$ 表面是两表查值再相乘，本质是把一个 $a$ 大小的虚拟全表参数化为两个低秩表的 Khatri-Rao 积。等价地，这是张量分解（CP decomposition）的 rank-1 特例——Q-R Trick 在结构上和 FM 的低秩二阶交互是同源思想。这条隐藏联系把 §5（Hashing）和 §2.2（FM）连了起来，可惜综述没有显式画出。

Vanilla PQ 为什么用 K-means 而不是反传。K-means 的最优解（在每个簇内取均值）等价于”在 L2 重构损失下的最优固定点”——它不需要反传就能直接求闭式解。反传相对慢、且容易陷入差的局部最优；K-means 是 PQ 这种结构受限优化问题的天然解法。这也解释了为什么后来的 DPQ 必须把 K-means 替换成 softmax-based / centroid-based 可微版本：要做端到端任务级别优化（而不只是重构），就必须放弃 K-means 的闭式优势，回到反传。这是 reconstruction-only → task-aware quantization 的根本架构成本。

BERT4Rec 与 SASRec 的工业偏好分歧。综述把两者并列列出，但工业实践里 SASRec 的使用率远高于 BERT4Rec。原因有三：① SASRec 是 left-to-right 因果注意力，与 next-item 预测目标完全匹配；BERT4Rec 是 bidirectional + masked，预测时需要把”待预测位置 mask 掉”，与训练时不一致；② SASRec 训练快，BERT4Rec 因为 mask 比例约束训练慢且对 mask ratio 敏感；③ SASRec 部署简单（拿最后位置 hidden state），BERT4Rec 需要额外位置标记。综述把两者视为对等并未点出这些工程差异，对一线工程师而言信息密度不够。

异构图与超图的本质差异。综述把异构图（异质节点+边）与超图（一条边连多个节点）并列为两个章节。但严格说，超图可以视为异构图的特例（把每条超边显式建模为一个新节点）——这种视角下，IHGNN 的 $(u,q,p)$ 三元超边等价于一个 $u-q$ 边和 $u-p$ 边再连一个”会话”节点。两者的真正差异不在结构表达力，而在归纳偏置：超图天然鼓励”多元同时交互”的特征聚合，异构图则鼓励”逐对类型化”的关系建模。这层语义差异综述没有展开。

10. 总结

这篇 TOIS 综述的最大贡献是把”embedding”从推荐模型的副产物提升为一阶研究对象，并给出一套”基础学习（§2-§4）→ 部署效率（§5-§7）→ 前沿增强（§8）”的三层结构化分类框架。它通过 ~25 个核心公式、9 个汇总表、8 张概念图、349 篇参考文献，覆盖了从 FunkSVD（2006）到 LLM2Rec（2025）跨越约 20 年的演进，是迄今最系统的推荐 embedding 入门读物。

对推荐工程师 / 研究者最值得带走的三点：

embedding 的设计应在三轴坐标系里思考：① 表达力（matrix/sequential/graph backbone 选哪个），② 效率（hashing/AutoML/quant 哪一层介入），③ 增强（LLM 注入语义/引导）。脱离这三轴空谈”最优 embedding”是空中楼阁；
重构 loss 不等价于推荐 loss，这是 quantization、LLM-ESR 等多条研究路线的共同结论。下一代 embedding 设计应该把”对下游任务的判别能力”作为一等损失，而非只把它当作辅助；
embedding 不能孤立评测——综述自己承认的这点是整个领域最需要被解决的方法论病根。在该问题被解决之前，”新 SOTA”的可信度大多需要打折，工业 baseline 长期是 LightGCN/SASRec 这类简单模型并非偶然。

它的短板也很清楚：对 Generative Recommendation（SID 路线）覆盖不足、LLM 增强章节相对短、缺少横向决策树和”组合栈”的讨论、未给出可操作的 benchmark 蓝图。但作为一个 panorama-style 入门 + 各子方向二级入口的角色，它依然是 2026 年想全面理解推荐 embedding 这条主线的工程师/研究者最值得入手的文献之一。

把这篇综述与同期更专门的工作（如 AsymRec 对 SID 表示范式的批判性重审、LASAR 对生成推理过程的优化）放在一起对照阅读，会得到更立体的认知：综述给出地图，单点工作给出新一代锚点。地图告诉你”embedding 这片大陆有哪些山脉”，AsymRec/LASAR 这类工作告诉你”哪些山脉里正在隆起新的山峰”。两者缺一不可。

机器学习

This post is licensed under CC BY 4.0 by the author.