无需提示词,Stability AI 演示 MindEye:目标想什么就能生成什么
无需提示词,Stability AI 演示 MindEye:目标想什么就能生成什么
AI浪潮的冲击力有目共睹。曾几何时,行业内外热议着一个即将崛起的新职业——“提示词工程师”。人们相信,未来驾驭AI的关键,不在于模型本身有多强大,而在于人类能否用更精妙的指令,让AI高效地完成任务。于是,擅长与AI“对话”、能写出精准提示词的专家,似乎成了未来的抢手人才。
但现实的发展,有时比想象更碘伏。Stability AI在2023年7月推出MindEye1后,近日再度升级的MindEye2,似乎让“提示词工程师”这个岗位的假设变得岌岌可危。为什么呢?因为这套系统的逻辑完全不同:它不依赖任何文本提示词,而是直接读取用户的脑电波来生成内容。说白了,你心里想什么,未来它就能给你生成什么。
这套名为MindEye的技术,核心是直接从功能性磁共振成像(fMRI)记录的大脑活动中,重建和检索出对应的图像,甚至能将二维画面转化为动态的三维视频。这里简单解释一下fMRI:它是一种通过检测血流变化来测量大脑活动的神经成像技术,常用于绘制大脑功能图,评估神经疾病的治疗方法。
那么,MindEye是如何工作的?它的训练基于一个特殊的数据集:参与者在fMRI扫描仪内观看一系列静态图像时,其大脑活动被同步记录下来。研究团队训练系统分析这些脑活动数据,然后完成两项任务:一是从候选图库中准确找出参与者刚才看过的原图(图像检索);二是直接生成能够重建所查看图像的新图片。
效果如何?数据显示,MindEye在图像检索任务上的表现超越了以往所有方法,从一堆图片中识别出原始图像的准确率超过了90%。而在图像重建方面,它则巧妙地利用了预先训练好的生成模型来完成任务。
这项技术的应用前景相当广阔。在医疗领域,它从大脑活动重建视觉感知的能力,可以为那些沟通困难的病人提供全新的诊断和评估手段。更重要的是,MindEye所展现的实时分析潜力,有望大幅提升脑机接口的性能和应用范围。
当然,目前的技术仍有局限。研究团队也明确指出,数据采集过程本身存在挑战,比如所需的扫描时间较长,并且参与者身体的移动或注意力的分散,都可能为数据引入噪声。
无论如何,MindEye的出现指向了一个更直接的未来:人机交互的中间环节正在被压缩。当思考本身就能成为指令,关于如何“使用”AI的叙事,恐怕真的要改写了。
附论文参考
- Reconstructing the Mind’s Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors
- MindEye2: Shared-Subject Models Enable fMRI-To-Image With 1 Hour of Data
- MindEye2: Shared-Subject Models Enable fMRI-To-Image With 1 Hour of Data



