AI分析球赛几乎靠猜 体育主播暂时安全
最近有项新研究给AI狠狠泼了盆冷水。北卡罗来纳大学教堂山分校和美国东北大学的研究人员发现,主流AI模型在分析职业体育比赛这件事上,表现相当拉胯。先给结论:AI虽然能“看懂”画面,但它既解释不了为什么发生,也猜不到接下来会发生什么。
研究的目标很明确:考察热门AI模型在感知、推理、模拟和自主行动四个维度的实际能力——要知道,现有的测试方法很难准确评估这些能力。不过需要提醒的是,这项研究目前还没有经过同行评审。
为了给AI来一场真正的体检,研究人员直接拿职业体育比赛做了一套新基准。这套测试名为“战略视频智能”,简称SVI-bench,数据量相当扎实:35000小时的篮球、足球和冰球比赛画面,1500万条带标注的比赛回合,15000小时职业分析,23000份赛后报道,再加上10.3万条统计记录。
AI表现最好的环节是“看懂画面”——也就是判断比赛中某个时刻,是哪名球员做了什么动作。但即便是这项最基础的感知任务,AI也谈不上可靠。ChatGPT、谷歌Gemini和千问等模型的平均识别准确率大约只有74%。放在体育解说场景里,这个水平连少年棒球赛的义务解说员都保不住位置。
到了因果推理环节,模型表现进一步下滑。研究人员要求AI解释一组战术或者某个回合为什么会这样发生,平均成功率直接掉到40%左右。
举个具体例子:研究人员让模型判断NBA太阳队球员科迪·马丁投进的那记三分球到底有什么异常。那球先打到篮板顶部,弹了一下才落入篮筐,但ChatGPT给出的答案是——这“是他本场比赛命中的第一个三分球”。嗯……这根本就是跑偏了嘛。
模拟能力同样惨不忍睹。研究人员让AI根据球员运动轨迹寻找证据,并预测球员接下来会移动到什么位置。结果呢?即便表现最好的模型,在判断球员下一步移动时也接近随机猜测。要是预测范围延长到朝球门或篮筐移动的更长路线,模型表现还会持续恶化。
美国东北大学计算机科学研究人员、研究共同作者洛伦佐·托雷萨尼在大学新闻稿里直截了当地说:“AI无法告诉你事情为什么会发生,也无法告诉你接下来会发生什么。”
研究人员还测试了模型的自主分析能力——相当于要求AI像人类体育主播一样,结合赛后数据和趋势做出复杂判断。在这项任务上,模型准确率只有5%。95%的自主分析任务都没整明白,相当于完全在碰运气。
托雷萨尼表示,一位优秀体育解说员做的不只是描述画面。他们会解释一套战术为什么有效,预判接下来会发生什么,还能判断哪些瞬间真正关键。研究揭示的是,AI虽然已经相当擅长描述画面,但在其他能力上几乎全面失守。
托雷萨尼总结得很到位:“同样的能力差距会出现在任何一类工作中。真正的价值从来不在描述眼前可见的东西,而在于理解事件为什么这样发展、预判接下来会发生什么、判断什么重要,并提出下一步应该怎么做。” 这话值得所有依赖AI的人好好品一品。
