LongCat-Video-Avatar 1.5开源:音频驱动视频生成模型深度评测

2026-06-13阅读 0热度 0
Dataset

公共资源速递

本期精选了若干高质量数据集与教程,涵盖药物靶向降解、电商视频分析、多模态情感建模、全景视觉注意力、教育AI行为分析、医疗OCR等前沿方向。每种资源均附简要说明,便于研究者快速定位。以下按数据集与教程两类分别呈现。

公共数据集

1. TACK 靶向嵌合体知识库数据集

专为机器学习驱动的PROTAC降解活性预测任务设计,可支撑靶向蛋白降解(TPD)研究、AI辅助药物发现(AIDD)、计算机辅助药物设计(CADD)、虚拟筛选、多任务学习、分子性质预测、图神经网络及机器学习基准测试等典型应用场景。

2. EA VSD 电商广告视频分镜数据集

包含50,538个产品样本,共计401,351张场景图,覆盖8个匿名化电商品类。每个样本配有一张参考图片、8条英文场景提示词及对应生成的场景图,非常适合电商场景理解、多模态对比生成与产品检索研究。

3. Movie Feelings 电影情感特征数据集

覆盖1920年至2024年间1,500部代表性且具有文化影响力的影片,标注了怀疑、恐惧、平静、厌恶、团结、欣喜等50种细粒度情感状态,对影视情感分析、多模态情绪建模及叙事结构解析具有重要参考价值。

4. OpenSAL360 全景视频显著性数据集

当前规模最大的全方位视频显著性数据集,支持视觉注意力建模、显著性预测、多模态视频分析等研究。适用于全景视频理解、显著性算法评估、多模态感知计算以及VR/AR交互系统设计等场景。

5. AI Student Impact AI 辅助学习影响数据集

包含50,000名学生样本,共16个结构化特征字段,涵盖学术背景、AI使用行为、学习行为、机构背景、心理健康状态及应用场景等维度,适合教育场景下AI效果评估、学习行为建模与因果分析。

6. Noisy Medical Document 含噪医疗文档图像数据集

面向OCR与医疗文档理解的噪声增强数据集,模拟真实扫描环境中的复杂噪声干扰。包含1,000张高保真合成医疗图像(医院账单500张、出院小结500张),并配套完整的JSON结构化标注文件。

公共教程

1. Galaxy-Deconv:星系图像反卷积

由清华大学与Northwestern University联合发布,针对弱引力透镜观测中的星系图像复原问题。采用展开式Plug-and-Play ADMM方法,对受点扩散函数(PSF)模糊及噪声干扰的星系图像进行反卷积,对天文图像处理与弱引力透镜测量有直接推动作用。

可视化结果

2. Gemma4 12B-it:图文音统一多模态模型

Google DeepMind发布的Gemma 4系列统一多模态模型,采用encoder-free架构,将图像和音频直接投影到LLM嵌入空间中,无需独立编码器即可同时处理文本、图像与音频三种模态。在12B参数量级下实现了强推理、编码与多模态理解能力。

项目示例

3. LongCat-Video-A vatar 1.5 视频化身系统

由美团LongCat团队于2026年5月发布,是全新升级的开源音频驱动视频生成(AI2V)框架。仅需一张静态参考图和一段驱动音频,即可生成高度逼真、口型完美同步的动态化身视频,并能轻松应对复杂真实场景以及动漫、动物等风格化领域。

项目示例

4. Sketch-RNN:矢量草图生成与潜在空间插值

Google Brain团队于2017年发布的矢量草图序列生成模型。面向由笔画位移和落笔状态组成的手绘草图数据,能够学习连续的潜在表示,并生成全新矢量草图序列。采用编码器-解码器结构,将输入草图映射到潜在空间,再通过循环神经网络解码器逐步输出笔画。

Sketch-RNN的整体结构

5. Supertonic-3:轻量级本地多语言语音合成系统

Supertone团队于2026年4月发布,面向本地、离线及端侧场景的轻量级多语言文本转语音模型。核心优势在于用小模型体积覆盖多语言本地语音合成需求。相比依赖云端API的在线TTS服务,更适合在本地实现可控、可复现的语音生成;相比体积更大的开源TTS模型,更便于快速启动与边缘端部署。

项目示例

6. AutoFigure:基于LLM的学术论文插图自动生成系统

西湖大学ResearAI团队开发的智能学术插图生成系统,发表于ICLR 2026。利用大型语言模型通过迭代优化机制,从文本描述或研究论文中自动生成达到出版标准的高质量科学插图,支持SVG矢量图和mxGraph XML两种输出格式。

AutoFigure在复杂科学插图生成方面的通用性

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策