新颖多模态推荐系统范式DiffMM，让扩散模型也能推荐短视频！

2026-05-02阅读 0热度 0

新颖多模态推荐系统范式DiffMM 让扩散模型也能推荐短视频！

港大与腾讯提出DiffMM：一种全新的多模态推荐系统范式

短视频推荐这事儿，怎么才能更精准？香港大学和腾讯的研究团队最近给出了一份新答卷。他们提出了一种名为DiffMM的全新多模态推荐系统架构，核心目标很明确：通过深层理解用户偏好和视频内容的丰富模态信息，把推荐做得更对胃口。

DiffMM的核心方法：三步走策略

那么，这套名为DiffMM的系统，到底是怎么运作的？它的方法可以拆解为三个核心环节，环环相扣。

首先是多模态图扩散模型的构建。简单来说，系统会构建一张融合了用户和视频信息的复杂网络图。这里的关键创新在于，它利用了一种称为“模态感知去噪扩散概率模型”的技术。这么做的好处是，能够将用户与视频之间的协同互动信号，与视频本身的文本、视觉等多模态信息统一到一个框架里。这样做，能有效解决多模态信息在推荐中可能带来的噪声或误导问题。通过图概率扩散和针对性的优化，模型最终能生成并优化出一个更“懂行”、更精准的模态感知用户-物品关系图。

下图直观展示了DiffMM的整体框架和工作流程：

有了高质量的“关系地图”，接下来就是多模态图聚合。这一步负责从构建好的复杂图中，有效地提炼和汇聚信息，为最终决策做准备。

第三个关键环节，是跨模态对比增强。这一招是为了确保系统能更“稳”。DiffMM通过创建模态感知的对比视图，利用对比学习技术，去捕捉用户在不同类型内容（比如短视频的文本标题和画面）上行为模式的一致性。可以理解为，系统在自我验证和强化学习，这使得推荐结果不仅依赖于单一信号，而是综合了更稳健的多模态证据，从而整体提升性能。

当然，技术细节非常丰富。对此感兴趣的读者，可以查阅完整的研究论文，获取更深入的信息。

论文链接：https://arxiv.org/abs/2406.1178

新颖多模态推荐系统范式DiffMM，让扩散模型也能推荐短视频！

港大与腾讯提出DiffMM：一种全新的多模态推荐系统范式

DiffMM的核心方法：三步走策略

相关阅读

最新教程

最新资讯