新颖多模态推荐系统范式DiffMM,让扩散模型也能推荐短视频!
港大与腾讯提出DiffMM:一种全新的多模态推荐系统范式
短视频推荐这事儿,怎么才能更精准?香港大学和腾讯的研究团队最近给出了一份新答卷。他们提出了一种名为DiffMM的全新多模态推荐系统架构,核心目标很明确:通过深层理解用户偏好和视频内容的丰富模态信息,把推荐做得更对胃口。
DiffMM的核心方法:三步走策略
那么,这套名为DiffMM的系统,到底是怎么运作的?它的方法可以拆解为三个核心环节,环环相扣。
首先是多模态图扩散模型的构建。简单来说,系统会构建一张融合了用户和视频信息的复杂网络图。这里的关键创新在于,它利用了一种称为“模态感知去噪扩散概率模型”的技术。这么做的好处是,能够将用户与视频之间的协同互动信号,与视频本身的文本、视觉等多模态信息统一到一个框架里。这样做,能有效解决多模态信息在推荐中可能带来的噪声或误导问题。通过图概率扩散和针对性的优化,模型最终能生成并优化出一个更“懂行”、更精准的模态感知用户-物品关系图。
下图直观展示了DiffMM的整体框架和工作流程:
有了高质量的“关系地图”,接下来就是多模态图聚合。这一步负责从构建好的复杂图中,有效地提炼和汇聚信息,为最终决策做准备。
第三个关键环节,是跨模态对比增强。这一招是为了确保系统能更“稳”。DiffMM通过创建模态感知的对比视图,利用对比学习技术,去捕捉用户在不同类型内容(比如短视频的文本标题和画面)上行为模式的一致性。可以理解为,系统在自我验证和强化学习,这使得推荐结果不仅依赖于单一信号,而是综合了更稳健的多模态证据,从而整体提升性能。
当然,技术细节非常丰富。对此感兴趣的读者,可以查阅完整的研究论文,获取更深入的信息。
论文链接:https://arxiv.org/abs/2406.1178
