能边说边听的AI交互模型深度解析:Thinking Machines Lab最新发布
由前OpenAI首席技术官Mira Murati去年创立的AI初创公司Thinking Machines Lab,本周一发布了一项引人注目的技术,他们称之为“交互模型”。简单来说,这是一种能打断你说话的AI。
回想一下我们与当前所有AI助手的互动模式:你说完,它听;它说完,你再听。整个过程就像在发一条条严谨的信息。而Thinking Machines Lab试图打破的,正是这种刻板的“半双工”交替。他们构建的模型,能够同时处理用户输入并生成回应,目标是将交互体验从“发信息”升级为更自然的“打电话”。
这项技术的专业名称是“全双工”通信。根据公司公布的数据,其模型TML-Interaction-Small的响应时间仅为0.40秒。这个速度已经与自然人类对话的节奏相当接近,并且明显快于OpenAI和谷歌同类模型的基准测试结果。
当然,这目前仍是一个研究预览版,尚未向公众开放。公司计划在未来几个月内推出“有限研究预览版”,而更广泛的正式发布,则要等到今年晚些时候。
那么,该如何看待这项技术?现在就下结论或许为时过早。从纸面数据看,成绩确实亮眼;其背后的理念——交互能力应是模型的原生特性,而非后期打上的补丁——也颇具吸引力。不过,技术宣称的效果与实际用户体验之间往往存在一道鸿沟,最终评价,还得等到用户亲手试用之后才能见分晓。
Q&A
Q1:TML-Interaction-Small模型的响应速度有多快?和其他模型比怎么样?
该模型的响应时间为0.40秒,这个速度已经趋近于自然人类对话的节奏。与OpenAI和谷歌的同类模型相比,其速度优势较为明显。实现这一点的关键,在于其采用的“全双工”通信技术,使得模型能够并行处理“听”与“说”。
Q2:全双工AI交互和普通AI对话有什么区别?
你可以把普通AI对话理解为“半双工”模式,就像对讲机:一方说,另一方只能听;说完切换,另一方才能回应。这类似于发信息的交替节奏。而全双工模式则像打电话,允许双方在接收对方声音信号的同时,也能处理并准备自己的回应,从而实现更流畅、更即时的自然交互。
Q3:Thinking Machines Lab的交互模型什么时候可以使用?
目前该模型仍处于研究预览阶段,并未对外开放。根据公司披露的路线图,一个有限范围的研究预览版将在未来几个月内推出。而面向更广泛用户的正式版本,预计在2025年晚些时候发布。
