RTX 5090 Lammps镜像启动与FigureBench插图生成评测

2026-06-24阅读 0热度 0

RTX

资源库持续更新。本期精选近期发布的公开数据集与开源教程，覆盖长程记忆评估、图表理解、科学插图生成、3D重建、数学推理、分子模拟、语音合成及文本生成等前沿方向。以下直接切入正题。

公共数据集

1. RHELM 长程记忆评估数据集

微软于2026年推出的RHELM数据集，专门用于检验大模型在复杂动态场景中的长期记忆能力，涵盖多跳推理与时序信息整合。数据规模扎实：10组虚拟角色设定、1305组问答对、629个JSON对话会话、625个TXT邮件线程，外加1053个附件文档。评测维度覆盖附件引用、混合推理、事实查询、幻觉检测、信息聚合、时序分析及误导性问题——七大核心类型，一应俱全。

2. ChartNet 图表理解多模态数据集

MIT与IBM Research联合发布的大规模多模态数据集，旨在攻克模型在几何视觉模式、结构化数值与文本联合推理上的短板。数据量相当可观：420万张合成图表样本、超9.4万人工验证图表样本，以及3万张真实世界图表，覆盖24种图表类型与6种绘图库。无论是训练还是评测，均为扎实的基准资源。

3. FigureBench 科学插图生成基准数据集

西湖大学文本智能实验室于2026年推出的科学插图生成基准，专门针对从长篇科学文本自动生成高质量插图这一挑战。共计3300个样本，为自动科学插图生成研究提供了兼具挑战性与多样性的测试平台。

4. SAM 3D Artist Objects 3D物体重建数据集

Meta在2026年6月发布的3D网格配对数据集，用于评估真实场景下物体形状与布局的三维重建算法性能。包含1000组真实图像与专业艺术家手工制作的三维网格配对数据，覆盖大型建筑、动物、日用品、稀有物件等多类物体，并区分公开测试样本与竞赛专用样本。

5. Nemotron-SFT-Math-v4 数学推理SFT数据集

NVIDIA于2026年5月发布的数学推理数据集，直击传统数学数据集质量参差、推理轨迹不规范、准确率低、场景单一等痛点。该数据集能显著提升模型的结构化推理、多轨迹推理与答案校验能力，广泛应用于大模型数学推理微调、推理轨迹分析、答案校验算法研发、长上下文推理系统搭建及推理鲁棒性评测。

公共教程

1. lammps：模拟水分子沸腾蒸发

LAMMPS是经典分子动力学仿真工具，专注于材料建模，可在并行计算机上高效运行且易于扩展。本教程基于RTX 5090显卡，搭配自带水分子经验力场进行模拟。通过实践可掌握水分子建模与模拟的标准流程。

2. dots.tts：全连续自回归文本转语音系统

由rednote-hilab于2026年6月发布，是一个拥有20亿参数的全连续、端到端自回归文本转语音系统。主干结构由语义编码器、LLM和自回归flow-matching声学头组成。核心特点是将文本理解、语音条件建模与声学生成整合至同一连续自回归流程中——设计思路简洁，效果值得关注。

3. DiffusionGemma：基于离散扩散的高速文本生成模型

Google DeepMind于2026年6月推出的基于离散扩散技术的文本生成模型。采用260亿参数混合专家架构，总参数25.2B，活跃参数仅3.8B。通过并行块级扩散采样实现超高速文本生成，单卡H100上每秒可生成1100余个token。对于追求生成速度的场景，该架构极具吸引力。

RTX 5090 Lammps镜像启动与FigureBench插图生成评测

公共数据集

公共教程

相关阅读

最新教程

最新资讯