微软智能副驾实战:电子表格自动操作全攻略
先抛几个核心判断。你有没有过这种体验:对着密密麻麻的电子表格,加粗标题、画边框、标颜色……一百多个手动操作挨个点下来,手指酸、眼睛累,偏偏就是没有一个“自动完成”来搭把手。写代码有GitHub Copilot,打字有输入法联想,而数亿人每天都在用的电子表格软件,在这方面几乎是个盲区。
微软在班加罗尔、雷德蒙德和比利时科尔贝亨三地的研究团队注意到了这个缺口,决定从两个方向同时发力:一是造一套专门测试“表格操作预测系统”的标准化题库;二是设计一套能真实模拟用户使用体验的考试方式。这两件事说起来简单,做起来各有各的门道,而这正是这项研究最迷人的地方。
为什么给表格造一个“预测助手”这么难?
回到一个熟悉的场景。你在用Excel整理季度销售报表:先输入第一行的标题,加粗,给标题行加蓝色背景,再给整个表格画外框……这一连串操作背后其实有明显的规律——你大概率接下来会给数据行加内框、给合计行加粗并换个颜色。如果有个助手能在你完成每一步后,提前猜到你接下来要做什么,就像输入法自动补全后半句那样,那能省多少重复劳动?
但表格操作预测的难度,远远超过代码补全。第一,网上从来就没有“用户一步步制作表格的完整过程录像”这类公开数据。你能找到的多半是成品表格,就像在博物馆里看到一尊完成的雕像,却没有雕刻过程的任何记录。第二,表格操作本身极其复杂:它涉及空间位置(在哪个格子操作)、时间顺序(先做什么后做什么),以及操作的组合性(一次操作可能影响一大片区域)。代码是线性的,表格是二维的,而且同样的最终效果可以由完全不同的操作顺序产生。这比代码补全要乱得多。
微软团队分别给这两个问题找到了解法。针对数据缺失,他们花了不少人力手工制作了一批“表格制作过程”的操作记录;针对评估难题,他们设计了一套全新的“在线评估”机制,摈弃了传统的简单打分方式。
那五万两千步是怎么造出来的?
既然现有的公开表格数据库里根本没有操作过程,团队只能另辟蹊径——从成品表格出发,反向推演用户可能经历的操作步骤。用一个烹饪比喻来说:你拿到一道菜,然后得写出厨师做这道菜的完整菜谱。
整个制作流程分三个阶段。
第一阶段叫“符号冷启动”。程序会自动把表格上所有的格式和数值拆解成一个个最基础的操作,比如“给A1格输入数值”“把B1:B5加粗”等,并把相邻的相同操作合并成区间操作。为了增加序列的多样性,程序还会随机抽取一组“偏好设置”,控制操作的排序方式——有的按行优先,有的按列优先,有的先做内容后做格式,有的反过来。在此之前,还有一个视觉-语言模型会先浏览每张表格的截图,为每个区域打上语义标签,识别出数据表、标题块、汇总区,以及哪些部分的数据很可能是从别处粘贴过来的。
第二阶段叫“大模型润色”。符号程序生成的操作序列功能上没问题,但看起来太机械了——就像一个机器人厨师按照效率最低的路线做菜,不像有经验的人类那样自然流畅。于是团队引入了“评委-编辑”循环:评委模型判断当前序列是否像人类行为,给出修改意见;编辑模型按意见重写;重写后的序列会被执行验证,确认最终结果和目标表格完全吻合才算通过。这个循环最多进行四轮。典型的润色操作包括:把零散的逐格式调整合并成区间操作、删去空白区域上无意义的格式、去掉文字格里插入数字格式这类明显的反常操作。
第三阶段是人工标注。研究者们会逐帧观看操作序列,找出机器改不好的不自然之处并手工修正。从最终数据来看,人工修改的幅度相当大——操作序列在人工处理前后的平均“编辑距离”高达0.69,也就是说平均有近七成的内容发生了改变。52份序列中有19份被直接从头重写。这说明人工介入是这套数据集质量的核心保障,绝非走过场。
最终得到的数据集包含52条完整的表格制作轨迹,共11907步操作。每条轨迹的步骤数从35步到821步不等,平均229步,中位数164步。从操作类型分布来看,输入数值操作占比最高,达57.1%,其次是字体设置(11.6%)、对齐(6.9%)、边框(6.3%)、数字格式(5.6%)、填充颜色(5.5%)、合并单元格(4.9%)、自动填充(1.7%)和粘贴(0.4%),覆盖了日常表格操作的绝大多数场景。
研究团队还做了一个“理论上限”实验:调用多个顶级推理模型,在每一步操作时提供完整的历史记录和当前表格截图,让模型竭尽全力预测接下来会发生什么,然后把所有模型的正确预测合并成一个“全知全能的预言集合”。结论是:52条轨迹中,平均有68%的操作属性是理论上可预测的,中位数66.3%,44条轨迹的可预测比例超过50%。这意味着大多数表格操作并非随机的灵光一现,而是有迹可循的。这为整个研究的可行性提供了理论依据。
为什么不用传统的“考一道题对一个答案”的方式?
传统的人工智能评估通常是这样的:给模型看第N步的状态,让它预测第N+1步是什么,然后对比答案。这种方式在表格操作预测上有一个致命的漏洞——它忽视了预测结果对后续操作的影响。
打个比方:你在搭积木房子,每次搭之前有个助手建议你下一块该放哪里。如果它建议的位置不对,那接下来所有的积木都得跟着移位,后续每一步都变了。如果只是在草稿纸上画“下一块该放哪里”,而不是真的放上去,那评估就完全脱离了现实——助手的错误永远不会引发连锁反应,看起来比实际好得多。
研究团队提出的“在线评估”正是为了解决这个问题。它的运作逻辑是一个完整的动态游戏,而非一次静态问答。游戏从一张空白表格开始,有一个“待完成的操作队列”代表到达目标表格所需的全部步骤。每次用户执行一步操作,预测系统就会被调用,输出它认为接下来应该做的事情。这个预测会被打分:精确率衡量预测里有多少是对的,“用户动作节省量”衡量如果接受这个预测,用户能少做几步。接下来关键的一步来了:根据某些接受标准,系统决定“接受”还是“拒绝”这个预测。
如果预测被接受,操作就真的被执行到表格上,然后“待完成队列”要随之更新——已经被预测正确完成的操作从队列中移除,而预测错误产生的“坏效果”则以修正操作的形式添加到队列前面。如果预测被拒绝,队列不变,游戏继续,用户执行下一步真实操作,再触发新的预测。这个循环一直持续到表格完成为止。
这个机制的精妙之处体现在三点:错误会像真实世界一样产生连锁反应;好的预测真的能改变游戏进程,不只是在纸面上得分;系统必须在自己犯过错的状态下继续预测,考验它的纠错能力。
在这个框架下,研究团队定义了一套从细到粗的指标体系。最细粒度的是“操作属性级”指标:每一个(格子,属性)对被分为四类——预测正确的真正例、预测了但目标里没有的假正例、目标里有但没预测到的假负例、预测了但值对不上的错配。在此基础上,精确率衡量每次预测有多少比例是正确的,用户动作节省量衡量接受预测后实际少做了多少步。最粗粒度的是“全轨迹”指标:总用户动作节省量、接受率、平均精确率,以及“可预测覆盖率”——衡量模型在理论上可预测的操作里实际预测对了多少比例,相当于用可预测上限做分母的成绩单。
谁来参加这场考试?各自表现如何?
研究团队为这套评估框架准备了多种类型的“考生”,从最顶级的大模型到最朴素的统计模型,横跨了很宽的技术谱系。
第一类是零样本大语言模型,也就是不专门训练、直接拿现成大模型来用的方案。操作被编码成文本,比如“将A1格填充为绿色”被写成“FILL | A1 | green”这样的格式,然后把最近的操作历史和可用操作语法一起喂给模型,让它输出预测。研究团队测试了四个版本:带推理模式的GPT-5-R、普通版GPT-5、带推理模式的GPT-5-R mini和GPT-5 mini。
第二类是专门为这个任务微调过的小型语言模型。使用的是SmolLM2,分别取了1.35亿参数和3.6亿参数两个规格,用符号生成流程在1.2万张与评估数据集完全不重叠的工作簿上生成了大约4.5万条训练样本,然后做监督微调。每个训练样本的输入是32步历史操作,输出是接下来16步。
第三类是经典机器学习方法,包括训练好的n元语法模型、在线n元语法模型、LSTM神经网络和XGBoost决策树集成。这些模型都使用相对特征而非绝对特征——也就是说,它们记录“往右移了几列”而不是“在第几列”,这样能更好地跨轨迹泛化。
评估分两种模式。多动作预测模式下,模型每次调用可以一口气预测任意数量的操作,自己决定什么时候停下来。单动作重预测模式下,每次只预测一步,如果被接受就立刻再预测下一步,直到某次预测被拒绝为止——这个模式专门为那些自己不知道该何时停止的模型设计,通过外部接受机制来控制节奏。
从单动作重预测模式下的结果来看,大模型族群的表现形成了清晰的梯度:GPT-5-R以32.7%的总用户动作节省量领先,GPT-5-R mini以28.2%紧随其后,GPT-5为27.4%,GPT-5 mini则降到18.0%。模型越强,节省越多。这证明了任务本身是可以通过学习来提升的,而非碰运气。
微调带来的提升同样显著。未经微调的SmolLM2-360M只能节省21.7%的动作,经过微调后跃升到26.8%,几乎追上了参数量大得多的GPT-5的27.4%。135M版本从18.3%提升到23.2%。考虑到小模型的推理成本远低于大模型,这个结果说明专项训练在这个任务上的价值,不亚于模型规模。
经典方法中,在线n元语法以12.0%的成绩成为最强非学习基线,LSTM为5.7%,训练好的n元语法为3.8%,XGBoost仅2.9%。在线n元语法不需要任何预训练,只靠识别当前轨迹中间出现过的重复模式,在边框传播、合并单元格等结构性操作上表现不俗,但碰到需要理解语义内容的输入操作就完全失灵了。
什么时候接受预测?什么时候拒绝?
一个关键但容易被忽视的问题是:系统应该用什么标准来决定接受还是拒绝预测?研究团队测试了多种接受策略,结果揭示了一些反直觉的规律。
最宽松的策略叫ALWAYS——不管预测质量如何,只要不是空的就接受。这个策略下,系统的平均精确率只有9.3%,用户动作节省量跌到了负19.2%,反而给用户增加了将近20%的额外工作量。52条轨迹中有51条触发了安全上限。这意味着不加节制地接受预测,会让表格越改越乱。这个教训简单又残忍:系统必须有选择地说“不”。
贪婪策略只要预测能带来净收益(即用户节省的步骤数大于零)就接受,是目前效果最好的策略之一,在多动作模式下实现22.3%的节省量和20.0%的接受率。与此相比,仅基于精确率的策略表现令人意外地差:P90只能节省17.0%,P60只有13.3%,甚至P100也只有19.9%,都比贪婪策略低。道理在于:精确率高不等于对用户有用。一个预测可能所有操作都对,但如果这些操作用户自己两秒钟就能做完,那接受预测没有意义;反过来,一个精确率稍低的预测,如果能一次性完成大批操作,用户节省的总量可能更大。
更严格的筛选策略要求精确率100%且至少节省2步,接受率只有7.9%,节省量也降至17.5%——比贪婪策略低了将近5个百分点。这说明过于挑剔反而会错过大量“虽不完美但很有用”的预测,得不偿失。
更多操作,越来越准
研究结果还揭示了一些有实际意义的规律。
预测触发频率对最终效果影响巨大。每做一步就触发一次预测时,总节省量为22.3%;每做四步才触发一次时降到14.7%;每做八步才触发则只剩9.8%。触发越频繁,节省越多,尽管接受率反而随着触发频率降低而上升。原因是:频繁触发时预测质量参差不齐,很多被拒绝;但只要抓住了对的时机,一次接受就能节省多步,累积下来总量更可观。这个发现意味着,未来的研究方向之一是开发低成本、高精度的“预测时机判断器”——不是每步都触发,而是识别出最有可能出现规律性操作的时刻再触发。
上下文窗口越长,预测越准,但收益递减。把模型能看到的历史操作数从8步增加到32步,节省量从19.9%提升到22.3%;增加到128步时提升到27.6%;但从128步继续增加到512步乃至2048步,收益几乎停滞。这说明大约最近128步的操作历史包含了绝大部分有用的预测信息,盲目扩大上下文窗口的边际收益很快就会消失。
预测链越长,反而越容易被接受。对于单次能预测多个操作的多动作模式,预测1步时接受率只有18%,预测4到5步时升到23%,预测11到15步时达到31%,超过15步时更高达51%。解释是:当模型选择一口气预测很多步时,通常是因为它识别到了一段强烈的重复模式,这种情况本来就是接受标准最容易满足的时候;而短预测往往对应着不那么确定的时刻,模型自己都没信心,接受率自然低。预测长度本身,就是模型自信程度的隐性信号。
随着操作序列推进,预测准确率也在持续提升。在轨迹最开头,接受率只有约12.5%;到了最后10%的步骤,接受率上升到约24%。这反映出一个“冷启动问题”:操作刚开始时模式还没建立,预测基本是瞎猜;随着历史积累,模型越来越能识别用户的行为习惯和格式规律。这个规律提示未来的系统可以采用自适应触发策略,早期少触发预测,等模式建立后再积极触发。
不同类型的操作,预测难度差异悬殊。内容相关操作的接受率明显高于样式相关操作。GPT-5在输入数值操作上表现最好,因为它本身就有强大的文字内容预测能力;而在线n元语法在合并、边框、粘贴等纯结构性重复操作上表现出人意料地不错。微调小模型的最大进步恰恰集中在未微调版本最差的几类操作上——数字格式、填充颜色、边框和自动填充各提升了约10个百分点。这说明专项训练对这些“规律性强但语义弱”的操作类型最有效。
预测中越靠前的操作越准。在被接受的预测中,位于预测序列前四分之一的操作有约19.5%达到100%精确率,而位于最后四分之一的操作这一比例降至约14.7%——助手在确定应该做什么时,先做对的部分,然后逐渐漂移失准。被拒绝的预测从头到尾都很差。这意味着,在单条预测内部也存在“及时打住”的机会:一个好的系统不仅要知道什么时候不发出预测,还要知道什么时候在预测进行到一半时喊停,砍掉末尾那些没把握的操作。
这套“考试”到底教会了我们什么?
如果用一句话概括这项研究的核心发现,那就是:表格操作预测是一个真实可学的任务,但要做好它,“何时不说话”和“何时说话”一样重要。
大模型的能力与任务表现呈现清晰的正相关,排除了“表格预测完全是运气”的可能性,说明确实存在可以学习的规律。同时,3.6亿参数的小模型经过专项微调后几乎追上了GPT-5,说明任务本身并不要求无边际的通用智能,合适的训练数据和合适的任务设计可以让小而精的模型发挥大作用。
另一方面,ALWAYS策略的惨败(负19.2%节省量)清晰说明了“不知道什么时候停下来”是当前所有模型的共同软肋。现有的大模型在没有明确用户意图信号的情况下,既不知道该不该发出预测,也不知道预测到哪里该停下。这是未来必须专门研究的方向。
接受策略的比较结果揭示了一个更深刻的真相:系统的价值不由预测的正确率单独决定,而由正确率和覆盖范围共同决定。一个稍微不那么精确但覆盖面广的预测,往往比一个精确但很保守的预测给用户带来更多实际收益。这意味着未来的评估和训练都不能只盯着精确率,而必须把“用户实际节省了多少努力”纳入核心优化目标。
归根结底,这项研究的意义并不只是给现有系统打了个分。它提供了一整套方法论——如何构建真实的测试数据、如何设计能捕捉交互动态的评估机制、如何用多粒度指标诊断系统的具体短板。任何想在这个方向继续深挖的团队,都能在这套框架里找到明确的起点和努力方向。下次当你坐在电脑前,对着表格一遍遍重复同样的格式操作时,也许离一个真正能读懂你意图的“表格副驾”已经没有那么遥远了。
有兴趣深入了解技术细节的读者,可以通过arXiv编号2606.13802查询完整原文,代码和数据集也已在论文中提及的GitHub仓库公开。
Q&A
Q1:电子表格操作预测和代码自动补全有什么区别,为什么表格更难?
A:代码是线性的文字序列,一行接一行,规律相对集中,现有的补全技术可以直接套用。表格是二维的,同一个最终效果可以由完全不同的操作顺序产生,操作还会影响空间上分散的区域,加上公开数据库里根本没有“制作过程”的记录,只有做好的成品,这让数据收集和模式学习都比代码补全困难得多。
Q2:微软这套评估框架为什么要用“在线评估”而不是传统打分方式?
A:传统评估是在草稿纸上打分——预测对了就得分,但错了也不影响后续。实际使用中,预测一旦被采纳就会真实改变表格状态,一个错误会引发后续一连串的连锁修正。在线评估就是让预测真的“落地执行”,把因此产生的额外修正工作量都计入成本,得到的结果才能反映用户真实的使用体验,而不是假设性的理想情况。
Q3:专门针对表格操作微调的小模型,为什么能接近比它大得多的GPT-5?
A:表格操作预测高度依赖“局部重复模式”,比如把同一种边框格式沿一行传播、把相同颜色填到一列数据里。这类规律性强但语义弱的任务,不需要海量通用知识,只需要在大量真实表格操作序列上反复见过这些模式,小模型一样能掌握。专项微调恰好提供了这种训练信号,所以3.6亿参数的模型在这个任务上能几乎追上千亿参数级别的通用大模型。
