AAAI 2025 | STKDRec：一种基于时空知识蒸馏的外卖推荐模型

时空探索之旅

发布于 2026-03-10 14:50:11

450

文章被收录于专栏：时空探索之旅时空探索之旅

标题：STKDRec: Spatial-Temporal Knowledge Distillation for Takeaway Recommendation

作者：赵书源、陈炜、史博彦、周理泳、林铄浩、万怀宇

机构：北京交通大学

发表：AAAI 2025

论文链接：https://www.arxiv.org/abs/2412.16502

代码链接：https://github.com/Zhaoshuyuan0246/STKDRec

摘要

外卖推荐系统旨在根据用户的历史购买行为，为其推荐未来可能感兴趣的外卖选择，从而提升用户的满意度并促进商家的销量。现有方法主要集中于通过引入辅助信息或利用知识图谱来缓解用户购买序列数据的稀疏性问题。然而，这些方法面临两个挑战：（1）复杂地理空间下的用户动态偏好捕捉；（2）知识图谱与序列数据中时空知识的高效集成与计算。本文提出了一种新颖的时空知识蒸馏模型用于外卖推荐（STKDRec）。该模型基于两阶段训练过程：在第一阶段，通过对时空知识图谱 (STKG) 编码器进行预训练来提取STKG中的高阶时空与协同关联信息；在第二阶段的时空知识蒸馏（STKD）过程中，首先基于多种细粒度地理空间信息建模用户的动态偏好，然后引入STKD策略来自适应地融合STKG编码器和时空Transformer中的丰富时空知识，同时减少了模型训练的成本。在三个真实世界数据集上的大量实验结果表明，STKDRec的性能显著优于当前最先进的基准方法。

1. 引言

外卖平台，如 Yelp、美团和饿了么，提供了便捷的在线订餐和线下配送服务。外卖推荐作为这些平台的核心服务，其本质是一个序列建模任务，旨在根据用户的历史购买记录预测其未来的购买行为。然而，用户通常只购买少量外卖，这导致序列数据存在稀疏性问题。一些研究尝试将品牌、类别、位置和兴趣区域等辅助信息引入用户的购买序列。还有一些方法利用图神经网络（GNNs）和知识图谱（KGs）来探索用户与外卖之间的高阶关系及外卖的丰富语义，从而缓解数据稀疏问题。尽管这些方法都取得了较好的效果，但仍然存在两个挑战需要解决：

（1）无法有效捕捉用户基于复杂地理空间信息的动态偏好。在外卖推荐场景中，用户的偏好会随时间及当前位置的变化而动态变化。然而，复杂的地理空间信息（如用户与配送商家的距离、商家的功能区域等）作为影响用户偏好的重要因素，尚未得到充分挖掘。如图 1 所示，User#1 白天位于工作区域，经常从附近的商家购买符合其偏好的食物。然而，当用户晚上回到居住区域时，现有方法由于未充分考虑复杂地理空间信息，往往优先推荐附近的食物选项，忽视了用户对更远商业区域内食物的偏好。

图1 一个简单示例（说明捕获基于复杂地理空间信息的用户动态偏好的重要性）

（2）如何高效地集成知识图谱和序列数据中的时空知识并降低计算成本。用户的购买历史是序列数据，而知识图谱是非欧几里得结构数据，有效集成这两种异构数据的优势有助于缓解数据稀疏性问题。然而，知识图谱通常规模庞大，对其进行编码会显著增加训练成本。此外，简单的知识融合方法难以有效地将这些数据集成用于后续推荐。

为了解决这些挑战，本文提出了一种新颖的时空知识蒸馏模型用于外卖推荐 (STKDRec)。STKDRec 由两个阶段组成：预训练阶段和时空知识蒸馏 (STKD) 阶段。在预训练阶段，STKDRec引入时空知识图谱 (STKG)，并预训练 STKG 编码器以提取用户与外卖之间的高阶时空和协同关联信息。在STKD阶段，STKDRec 引入时空 Transformer (ST-Transformer)，从序列角度捕捉用户基于多种细粒度地理空间信息的动态偏好。随后，通过STKD策略，将STKG编码器中的时空知识传递给ST-Transformer，从而促进异构知识的融合并减少了模型训练的复杂性。

2. 问题定义

在这一部分，本文将介绍外卖推荐的任务陈述和时空知识图谱的基本概念。

2.1 任务陈述

外卖推荐任务旨在根据用户的历史购买序列预测其下一次的购买行为。给定用户集合和外卖集合，将每位用户的历史购买外卖按时间顺序排列为序列，其中表示序列中第个已购买的外卖。外卖推荐任务旨在推荐一个包含个外卖的列表，作为用户下一次购买的潜在选项。其公式表示为：。

2.2 时空知识图谱

时空知识图谱由一组实体-关系-实体三元组构成。公式表示为，其中，、和分别表示实体集、关系集和三元组集。在 STKG 中，实体包括用户、外卖和及其相关属性，关系包括时间关系、距离关系和属性关系。这些实体和关系形成四种类型的三元组：用户购买外卖时的时间三元组、用户购买外卖时的距离三元组、用户-属性三元组和外卖-属性三元组。

3. STKDRec模型

STKDRec 的整体框架如图 2 所示，分为预训练阶段和STKD阶段。在预训练阶段，本文预训练STKG编码器从图结构的角度建模用户与外卖之间的高阶时空和协同关联信息。在STKD阶段，首先使用ST-Transformer从序列的角度建模用户基于复杂地理空间信息的动态偏好。随后，使用STKD策略促进STKG和序列数据中时空知识的融合。

图2 STKDRec模型总体架构（包括预训练阶段和时空知识蒸馏两个阶段）

3.1 时空知识图谱编码器

本文将STKG编码器作为教师模型。在预训练阶段，首先根据用户购买序列从STKG中采样子图，训练 STKG 编码器以聚合子图中的时空知识，并结合个性化用户特征。

3.1.1 子图采样

本文采用了一种高效的邻居采样策略。具体来说，序列中的每个节点被视为中心节点，从其在STKG中的所有相邻节点中随机采样固定数量个邻居节点，并保留与这些邻居节点之间的关系。同样的采样过程递归应用于每个邻居节点，以进一步采样其相邻节点及关系，直至达到深度。最终，所有中心节点、采样的邻居节点及保留的关系被整合为一个 STKG 子图，记为。

3.1.2 时空知识聚合

为了建模中用户与外卖之间的高阶时空和协同关联，我们使用GNNs对进行高效编码。在GNNs的第层，消息传递和聚合过程的定义如下：

其中，和分别表示在第层中实体及其邻居实体的嵌入表示；表示和之间关系的嵌入表示。表示在第层中聚合邻居信息后的表示，是聚合中心节点邻居信息的函数，则用于合并这些信息以更新实体的嵌入表示。通过在

上多层 GNN 的消息传播，我们获得了序列中所有实体的最终嵌入表示，以及用户的最终嵌入表示。

为了建模特定用户的时空偏好，我们引入了一种门控机制，将个性化用户特征融入到。特定用户的表示定义如下：

其中，和为可学习参数，表示 sigmoid 激活函数，表示元素级别的逐点乘积操作。

3.2 时空Transformer

本文将ST-Transformer作为学生模型。在实际场景中，复杂的地理空间信息（如空间区域和空间距离）显著影响用户偏好。空间区域反映了用户的一般偏好，而空间距离揭示用户在不同区域内的特定偏好。为了对这些多样的地理空间信息进行建模，本文引入一种空间增强的序列表示来整合这些地理空间因素，使ST-Transformer能够学习用户随这些因素变化的动态偏好。

3.2.1 空间增强的序列表示

为利用序列中token的顺序信息，先前的工作通过添加绝对位置嵌入增强序列。受此启发，本文提出一种新颖的空间位置嵌入以增强用户购买序列。本文通过整合空间区域和空间距离构建空间位置嵌入。具体来说，空间区域集合包含所有外卖的预定义geohash6属性，空间距离集合则包含用户所在区域与外卖所在区域间的距离。对于用户的长度为的序列，其中所有的外卖嵌入矩阵记为。类似地，基于空间区域序列和空间距离序列定义空间区域嵌入矩阵和空间距离嵌入矩阵，其中且。通过整合与，得到可学习的空间位置嵌入：

其中为可学习参数。最后，本文将三种嵌入相加，生成空间增强的序列表示。

3.2.2 时空上下文注意力机制

为捕获用户随区域与距离变化的动态偏好，本文提出时空上下文注意力机制。具体而言，该机制由层堆叠的掩码自注意力头组成，将输入嵌入转换为时空上下文表示。在每一层中，使用三个独立的线性变换矩阵，将输入嵌入转换为第个缩放点积注意力头的查询、键和值，其中，。定义如下：

其中表示对应注意力头的输出表示。我们将所有注意力头的输出拼接以获得最终的时空上下文表示。

3.2.3 预测层

为了实现外卖推荐任务，本文将最终的时空上下文表示与所有外卖的嵌入相乘，以预测外卖在第步的出现概率：

3.3 时空知识蒸馏

尽管 ST-Transformer从序列角度捕捉了用户动态偏好，但未能捕捉STKG中蕴含的时空信息。因此，本文提出了STKD策略，旨在将时空知识从STKG编码器迁移至更高效、轻量化的 ST-Transformer 中。该方法在显著降低训练负担的同时，实现时空知识的异构融合。

在预训练阶段，教师模型STKG编码器利用真实标签进行监督学习，预训练后生成软标签。在STKD阶段，本文的目标是从STKG编码器中蒸馏出有价值的信息，增强 ST-Transformer 从不同的角度捕捉用户偏好的能力，并促进更高效、精简的学习。为此，本文训练学生模型ST-Transformer模拟教师模型STKG编码器的软标签，从而有效地将时空知识从教师模型传递至学生模型。同时为确保学生模型也能学习到真实标签，本文联合优化蒸馏损失和监督损失来训练学生模型。

4. 实验

4.1 数据集

我们选择了由外卖平台饿了么提供的三个公开的城市外卖推荐数据集进行评估：武汉、三亚和太原。数据集的统计如图 3 所示。

图3 数据集统计信息

4.2 Baselines

为了评估我们模型的有效性，我们将STKDRec与以下八个代表性的基准模型进行比较：Caser，GRU4Rec，SASRec，BERT4Rec，DuoRec，FEARec，GCL4SR，MAERec，以及BSARec。

4.3 对比实验

对比实验结果如图4所示。

图4 总体性能比较

4.4 消融实验

为了进一步评估STKDRec中各个组件的效果，本文将其与五个变体进行比较，结果如图 5 所示。

图5 消融实验结果

同时为了验证STKD策略的有效性，本文将STKD替换为其他知识融合策略，包括拼接、加法和乘法。结果如图6所示。

图6 对比其他知识融合策略实验结果

4.5 参数的影响

在本节中评估了两个超参数的影响：采样的邻居节点数量和STKD的温度系数，结果如图7 所示：

图7 超参实验

5. 总结

本文提出了一种新型时空知识蒸馏模型用于外卖推荐，称为 STKDRec。STKDRec 包括两个阶段：预训练阶段和 STKD 阶段。在预训练阶段，本文预训练STKG编码器从STKG中提取丰富的时空知识。在STKD阶段，本文利用 ST-Transformer从空间增强的序列中学习细粒度的空间区域和空间距离信息。STKD用于整合STKG和序列中的时空知识，同时减少训练开销。在三个真实数据集上的实验结果表明，STKDRec的性能显著优于现有的最先进的基准方法。

如果觉得有帮助还请分享，在看，点赞

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-12-09，如有侵权请联系 cloudcommunity@tencent.com 删除

模型