论文分享-ETEGRec：端到端可学习的物品分词与生成式推荐

雌鲳签 · 2025-10-11 12:35:08

ETEGRec：端到端可学习的物品分词与生成式推荐

摘要

现有生成式推荐多采用"两阶段"范式：先离线构造语义标识（Semantic ID），再以固定标识训练生成器，导致分词器与生成器目标失配、分布不一致。ETEGRec 将 RQ-VAE 物品分词器与 T5 式生成器统一到一个端到端框架中，并引入两类推荐导向对齐（SIA、PSA），通过交替优化稳定地联动两模块学习。在 Amazon-2023 三个子集上，ETEGRec 相比传统序列模型与主流生成式基线均取得稳定提升，消融实验验证了对齐与交替优化的有效性。
1. 背景与问题定义

1.1 两阶段生成式推荐的局限

解耦训练：分词器（构造语义 ID）与生成器（自回归预测）相互独立，优化目标不一致，难以互相适配。
分布失配与模式单一：固定的 token 序列使生成器面对单一的模式，易过拟合；语义空间与偏好空间缺乏耦合。
长度偏置：不等长标识会引入预测偏好偏差，需固定长度缓解。

1.2 任务设定与符号

给定用户历史交互序列 \(S=[i_1,\dots,i_t]\)，目标是预测下一物品 \(i_{t+1}\)。每个物品以固定长度 \(L\) 的层级 token 表示：

\[i \Rightarrow [c^{(1)},\dots,c^{(L)}]\]
生成式推荐将任务转化为自回归地生成下一物品的语义 ID：

\[Y=[c_{t+1}^{(1)},\dots,c_{t+1}^{(L)}]\]
2. 方法总览

双 Encoder–Decoder 架构：
分词器 \(T\) 采用 RQ-VAE，将连续语义嵌入量化为 \(L\) 层 token；生成器 \(R\) 采用 T5 式 Seq2Seq，对历史 token 进行编码并自回归生成目标 token。
两类推荐导向对齐：
SIA（Sequence-Item Alignment）对齐编码器的"下一物品语义预测"与真实物品在码本空间上的分布；
PSA（Preference-Semantic Alignment）对齐解码器的"用户总体偏好表示"与物品重构语义。
交替优化：周期性冻结/更新 \(T\) 与 \(R\) 的参数，稳定推进端到端联合学习。

3. 方法细节（输入→运算→输出）

3.1 物品协同嵌入来源

以已训练的 SASRec 的物品嵌入作为协同语义输入 \(\mathbf{z} \in \mathbb{R}^{d_s}\)。该 \(\mathbf{z}\) 兼具协同信号与部分语义信息，是分词器 \(T\) 的输入。
3.2 物品分词器 \(T\)：RQ-VAE

输入：\(\mathbf{z}\)
编码：\(\mathbf{r} = \mathrm{Enc}_T(\mathbf{z})\)
多层残差量化（码本层数 \(L\)，每层大小 \(K\)）：
设第 \(l\) 层码本 \(\mathcal{C}_l = \{\mathbf{e}^l_k\}_{k=1}^K\)，令 \(\mathbf{v}_1 = \mathbf{r}\)。逐层选择：

\[P(k \mid \mathbf{v}_l) = \frac{\exp(-|\mathbf{v}_l - \mathbf{e}^l_k|^2)}{\sum_j \exp(-|\mathbf{v}_l - \mathbf{e}^l_j|^2)},\quad c^{(l)} = \arg\max_k P(k \mid \mathbf{v}_l)\]
残差更新：

\[\mathbf{v}_{l+1} = \mathbf{v}_l - \mathbf{e}^l_{c^{(l)}}\]
量化表示：

\[\tilde{\mathbf{r}} = \sum_{l=1}^L \mathbf{e}^l_{c^{(l)}}\]
解码与重构：\(\tilde{\mathbf{z}} = \mathrm{Dec}_T(\tilde{\mathbf{r}})\)
损失：

\[L_{\mathrm{RECON}} = |\mathbf{z} - \tilde{\mathbf{z}}|^2\]

\[L_{\mathrm{RQ}} = \sum_{l=1}^L \left(|\mathrm{sg}[\mathbf{v}_l] - \mathbf{e}^l_{c^{(l)}}|^2 + \beta|\mathbf{v}_l - \mathrm{sg}[\mathbf{e}^l_{c^{(l)}}]|^2\right)\]

\[L_{\mathrm{SQ}} = L_{\mathrm{RECON}} + L_{\mathrm{RQ}}\]
其中 \(\mathrm{sg}[\cdot]\) 为停止梯度，\(\beta\) 为平衡系数。
输出：层级语义 ID \([c^{(1)},\dots,c^{(L)}]\)、量化向量 \(\tilde{\mathbf{r}}\)、重构语义 \(\tilde{\mathbf{z}}\)
直观：第 1 层捕获粗粒度语义，后续层在残差上逐层细化；固定长度 \(L\) 减少长度偏置。
3.3 生成式推荐器 \(R\)：T5 式 Seq2Seq

输入：将历史序列中的每个物品经 \(T\) token 化，得到

\[\mathbf{X} = [c_1^{(1)},\dots,c_1^{(L)},\dots,c_t^{(1)},\dots,c_t^{(L)}]\]
查表嵌入并加位置编码，得 \(\mathbf{E}_X \in \mathbb{R}^{|\mathbf{X}| \times d_h}\)
编码器：多层自注意力与前馈后输出

\[\mathbf{H}_E = \mathrm{Enc}_R(\mathbf{E}_X) \in \mathbb{R}^{|\mathbf{X}| \times d_h}\]
解码器：以 [BOS] 起始，掩蔽自注意力保证自回归；跨注意力以 \(\mathbf{H}_E\) 为键值（K、V）。输出隐藏态

\[\mathbf{H}_D \in \mathbb{R}^{(L+1) \times d_h},\quad \mathbf{h}_D = \mathbf{H}_D[0]\]
\(\mathbf{h}_D\) 聚合了对 \(\mathbf{H}_E\) 的全局关注，可视为"用户总体偏好摘要"。
逐层预测：第 \(j\) 个解码位置对应第 \(j\) 层码本分类

\[P(Y_j \mid \mathbf{X}, \mathbf{Y}_{

愤血冒 · 2025-10-17 16:49:03

谢谢楼主提供！

账号		自动登录	找回密码
密码			立即注册

论文分享-ETEGRec：端到端可学习的物品分词与生成式推荐

相关帖子

回复

浏览过的版块

签约作者

论文分享-ETEGRec：端到端可学习的物品分词与生成式推荐

相关帖子

相关推荐

回复

浏览过的版块

签约作者