微软智能副驾实战：电子表格自动操作全攻略

2026-06-23阅读 0热度 0

微软

先抛几个核心判断。你有没有过这种体验：对着密密麻麻的电子表格，加粗标题、画边框、标颜色……一百多个手动操作挨个点下来，手指酸、眼睛累，偏偏就是没有一个“自动完成”来搭把手。写代码有GitHub Copilot，打字有输入法联想，而数亿人每天都在用的电子表格软件，在这方面几乎是个盲区。

微软在班加罗尔、雷德蒙德和比利时科尔贝亨三地的研究团队注意到了这个缺口，决定从两个方向同时发力：一是造一套专门测试“表格操作预测系统”的标准化题库；二是设计一套能真实模拟用户使用体验的考试方式。这两件事说起来简单，做起来各有各的门道，而这正是这项研究最迷人的地方。

为什么给表格造一个“预测助手”这么难？

回到一个熟悉的场景。你在用Excel整理季度销售报表：先输入第一行的标题，加粗，给标题行加蓝色背景，再给整个表格画外框……这一连串操作背后其实有明显的规律——你大概率接下来会给数据行加内框、给合计行加粗并换个颜色。如果有个助手能在你完成每一步后，提前猜到你接下来要做什么，就像输入法自动补全后半句那样，那能省多少重复劳动？

但表格操作预测的难度，远远超过代码补全。第一，网上从来就没有“用户一步步制作表格的完整过程录像”这类公开数据。你能找到的多半是成品表格，就像在博物馆里看到一尊完成的雕像，却没有雕刻过程的任何记录。第二，表格操作本身极其复杂：它涉及空间位置（在哪个格子操作）、时间顺序（先做什么后做什么），以及操作的组合性（一次操作可能影响一大片区域）。代码是线性的，表格是二维的，而且同样的最终效果可以由完全不同的操作顺序产生。这比代码补全要乱得多。

微软团队分别给这两个问题找到了解法。针对数据缺失，他们花了不少人力手工制作了一批“表格制作过程”的操作记录；针对评估难题，他们设计了一套全新的“在线评估”机制，摈弃了传统的简单打分方式。

那五万两千步是怎么造出来的？

既然现有的公开表格数据库里根本没有操作过程，团队只能另辟蹊径——从成品表格出发，反向推演用户可能经历的操作步骤。用一个烹饪比喻来说：你拿到一道菜，然后得写出厨师做这道菜的完整菜谱。

整个制作流程分三个阶段。

第一阶段叫“符号冷启动”。程序会自动把表格上所有的格式和数值拆解成一个个最基础的操作，比如“给A1格输入数值”“把B1:B5加粗”等，并把相邻的相同操作合并成区间操作。为了增加序列的多样性，程序还会随机抽取一组“偏好设置”，控制操作的排序方式——有的按行优先，有的按列优先，有的先做内容后做格式，有的反过来。在此之前，还有一个视觉-语言模型会先浏览每张表格的截图，为每个区域打上语义标签，识别出数据表、标题块、汇总区，以及哪些部分的数据很可能是从别处粘贴过来的。

第二阶段叫“大模型润色”。符号程序生成的操作序列功能上没问题，但看起来太机械了——就像一个机器人厨师按照效率最低的路线做菜，不像有经验的人类那样自然流畅。于是团队引入了“评委-编辑”循环：评委模型判断当前序列是否像人类行为，给出修改意见；编辑模型按意见重写；重写后的序列会被执行验证，确认最终结果和目标表格完全吻合才算通过。这个循环最多进行四轮。典型的润色操作包括：把零散的逐格式调整合并成区间操作、删去空白区域上无意义的格式、去掉文字格里插入数字格式这类明显的反常操作。

第三阶段是人工标注。研究者们会逐帧观看操作序列，找出机器改不好的不自然之处并手工修正。从最终数据来看，人工修改的幅度相当大——操作序列在人工处理前后的平均“编辑距离”高达0.69，也就是说平均有近七成的内容发生了改变。52份序列中有19份被直接从头重写。这说明人工介入是这套数据集质量的核心保障，绝非走过场。

最终得到的数据集包含52条完整的表格制作轨迹，共11907步操作。每条轨迹的步骤数从35步到821步不等，平均229步，中位数164步。从操作类型分布来看，输入数值操作占比最高，达57.1%，其次是字体设置（11.6%）、对齐（6.9%）、边框（6.3%）、数字格式（5.6%）、填充颜色（5.5%）、合并单元格（4.9%）、自动填充（1.7%）和粘贴（0.4%），覆盖了日常表格操作的绝大多数场景。

研究团队还做了一个“理论上限”实验：调用多个顶级推理模型，在每一步操作时提供完整的历史记录和当前表格截图，让模型竭尽全力预测接下来会发生什么，然后把所有模型的正确预测合并成一个“全知全能的预言集合”。结论是：52条轨迹中，平均有68%的操作属性是理论上可预测的，中位数66.3%，44条轨迹的可预测比例超过50%。这意味着大多数表格操作并非随机的灵光一现，而是有迹可循的。这为整个研究的可行性提供了理论依据。

为什么不用传统的“考一道题对一个答案”的方式？

传统的人工智能评估通常是这样的：给模型看第N步的状态，让它预测第N+1步是什么，然后对比答案。这种方式在表格操作预测上有一个致命的漏洞——它忽视了预测结果对后续操作的影响。

打个比方：你在搭积木房子，每次搭之前有个助手建议你下一块该放哪里。如果它建议的位置不对，那接下来所有的积木都得跟着移位，后续每一步都变了。如果只是在草稿纸上画“下一块该放哪里”，而不是真的放上去，那评估就完全脱离了现实——助手的错误永远不会引发连锁反应，看起来比实际好得多。

研究团队提出的“在线评估”正是为了解决这个问题。它的运作逻辑是一个完整的动态游戏，而非一次静态问答。游戏从一张空白表格开始，有一个“待完成的操作队列”代表到达目标表格所需的全部步骤。每次用户执行一步操作，预测系统就会被调用，输出它认为接下来应该做的事情。这个预测会被打分：精确率衡量预测里有多少是对的，“用户动作节省量”衡量如果接受这个预测，用户能少做几步。接下来关键的一步来了：根据某些接受标准，系统决定“接受”还是“拒绝”这个预测。

如果预测被接受，操作就真的被执行到表格上，然后“待完成队列”要随之更新——已经被预测正确完成的操作从队列中移除，而预测错误产生的“坏效果”则以修正操作的形式添加到队列前面。如果预测被拒绝，队列不变，游戏继续，用户执行下一步真实操作，再触发新的预测。这个循环一直持续到表格完成为止。

这个机制的精妙之处体现在三点：错误会像真实世界一样产生连锁反应；好的预测真的能改变游戏进程，不只是在纸面上得分；系统必须在自己犯过错的状态下继续预测，考验它的纠错能力。

在这个框架下，研究团队定义了一套从细到粗的指标体系。最细粒度的是“操作属性级”指标：每一个（格子，属性）对被分为四类——预测正确的真正例、预测了但目标里没有的假正例、目标里有但没预测到的假负例、预测了但值对不上的错配。在此基础上，精确率衡量每次预测有多少比例是正确的，用户动作节省量衡量接受预测后实际少做了多少步。最粗粒度的是“全轨迹”指标：总用户动作节省量、接受率、平均精确率，以及“可预测覆盖率”——衡量模型在理论上可预测的操作里实际预测对了多少比例，相当于用可预测上限做分母的成绩单。

谁来参加这场考试？各自表现如何？

研究团队为这套评估框架准备了多种类型的“考生”，从最顶级的大模型到最朴素的统计模型，横跨了很宽的技术谱系。

第一类是零样本大语言模型，也就是不专门训练、直接拿现成大模型来用的方案。操作被编码成文本，比如“将A1格填充为绿色”被写成“FILL | A1 | green”这样的格式，然后把最近的操作历史和可用操作语法一起喂给模型，让它输出预测。研究团队测试了四个版本：带推理模式的GPT-5-R、普通版GPT-5、带推理模式的GPT-5-R mini和GPT-5 mini。

第二类是专门为这个任务微调过的小型语言模型。使用的是SmolLM2，分别取了1.35亿参数和3.6亿参数两个规格，用符号生成流程在1.2万张与评估数据集完全不重叠的工作簿上生成了大约4.5万条训练样本，然后做监督微调。每个训练样本的输入是32步历史操作，输出是接下来16步。

第三类是经典机器学习方法，包括训练好的n元语法模型、在线n元语法模型、LSTM神经网络和XGBoost决策树集成。这些模型都使用相对特征而非绝对特征——也就是说，它们记录“往右移了几列”而不是“在第几列”，这样能更好地跨轨迹泛化。

评估分两种模式。多动作预测模式下，模型每次调用可以一口气预测任意数量的操作，自己决定什么时候停下来。单动作重预测模式下，每次只预测一步，如果被接受就立刻再预测下一步，直到某次预测被拒绝为止——这个模式专门为那些自己不知道该何时停止的模型设计，通过外部接受机制来控制节奏。

从单动作重预测模式下的结果来看，大模型族群的表现形成了清晰的梯度：GPT-5-R以32.7%的总用户动作节省量领先，GPT-5-R mini以28.2%紧随其后，GPT-5为27.4%，GPT-5 mini则降到18.0%。模型越强，节省越多。这证明了任务本身是可以通过学习来提升的，而非碰运气。

微调带来的提升同样显著。未经微调的SmolLM2-360M只能节省21.7%的动作，经过微调后跃升到26.8%，几乎追上了参数量大得多的GPT-5的27.4%。135M版本从18.3%提升到23.2%。考虑到小模型的推理成本远低于大模型，这个结果说明专项训练在这个任务上的价值，不亚于模型规模。

经典方法中，在线n元语法以12.0%的成绩成为最强非学习基线，LSTM为5.7%，训练好的n元语法为3.8%，XGBoost仅2.9%。在线n元语法不需要任何预训练，只靠识别当前轨迹中间出现过的重复模式，在边框传播、合并单元格等结构性操作上表现不俗，但碰到需要理解语义内容的输入操作就完全失灵了。

什么时候接受预测？什么时候拒绝？

一个关键但容易被忽视的问题是：系统应该用什么标准来决定接受还是拒绝预测？研究团队测试了多种接受策略，结果揭示了一些反直觉的规律。

最宽松的策略叫ALWAYS——不管预测质量如何，只要不是空的就接受。这个策略下，系统的平均精确率只有9.3%，用户动作节省量跌到了负19.2%，反而给用户增加了将近20%的额外工作量。52条轨迹中有51条触发了安全上限。这意味着不加节制地接受预测，会让表格越改越乱。这个教训简单又残忍：系统必须有选择地说“不”。

贪婪策略只要预测能带来净收益（即用户节省的步骤数大于零）就接受，是目前效果最好的策略之一，在多动作模式下实现22.3%的节省量和20.0%的接受率。与此相比，仅基于精确率的策略表现令人意外地差：P90只能节省17.0%，P60只有13.3%，甚至P100也只有19.9%，都比贪婪策略低。道理在于：精确率高不等于对用户有用。一个预测可能所有操作都对，但如果这些操作用户自己两秒钟就能做完，那接受预测没有意义；反过来，一个精确率稍低的预测，如果能一次性完成大批操作，用户节省的总量可能更大。

更严格的筛选策略要求精确率100%且至少节省2步，接受率只有7.9%，节省量也降至17.5%——比贪婪策略低了将近5个百分点。这说明过于挑剔反而会错过大量“虽不完美但很有用”的预测，得不偿失。

这套“考试”到底教会了我们什么？

如果用一句话概括这项研究的核心发现，那就是：表格操作预测是一个真实可学的任务，但要做好它，“何时不说话”和“何时说话”一样重要。

大模型的能力与任务表现呈现清晰的正相关，排除了“表格预测完全是运气”的可能性，说明确实存在可以学习的规律。同时，3.6亿参数的小模型经过专项微调后几乎追上了GPT-5，说明任务本身并不要求无边际的通用智能，合适的训练数据和合适的任务设计可以让小而精的模型发挥大作用。

另一方面，ALWAYS策略的惨败（负19.2%节省量）清晰说明了“不知道什么时候停下来”是当前所有模型的共同软肋。现有的大模型在没有明确用户意图信号的情况下，既不知道该不该发出预测，也不知道预测到哪里该停下。这是未来必须专门研究的方向。

接受策略的比较结果揭示了一个更深刻的真相：系统的价值不由预测的正确率单独决定，而由正确率和覆盖范围共同决定。一个稍微不那么精确但覆盖面广的预测，往往比一个精确但很保守的预测给用户带来更多实际收益。这意味着未来的评估和训练都不能只盯着精确率，而必须把“用户实际节省了多少努力”纳入核心优化目标。

归根结底，这项研究的意义并不只是给现有系统打了个分。它提供了一整套方法论——如何构建真实的测试数据、如何设计能捕捉交互动态的评估机制、如何用多粒度指标诊断系统的具体短板。任何想在这个方向继续深挖的团队，都能在这套框架里找到明确的起点和努力方向。下次当你坐在电脑前，对着表格一遍遍重复同样的格式操作时，也许离一个真正能读懂你意图的“表格副驾”已经没有那么遥远了。

有兴趣深入了解技术细节的读者，可以通过arXiv编号2606.13802查询完整原文，代码和数据集也已在论文中提及的GitHub仓库公开。

Q&A

Q1：电子表格操作预测和代码自动补全有什么区别，为什么表格更难？

A：代码是线性的文字序列，一行接一行，规律相对集中，现有的补全技术可以直接套用。表格是二维的，同一个最终效果可以由完全不同的操作顺序产生，操作还会影响空间上分散的区域，加上公开数据库里根本没有“制作过程”的记录，只有做好的成品，这让数据收集和模式学习都比代码补全困难得多。

Q2：微软这套评估框架为什么要用“在线评估”而不是传统打分方式？

A：传统评估是在草稿纸上打分——预测对了就得分，但错了也不影响后续。实际使用中，预测一旦被采纳就会真实改变表格状态，一个错误会引发后续一连串的连锁修正。在线评估就是让预测真的“落地执行”，把因此产生的额外修正工作量都计入成本，得到的结果才能反映用户真实的使用体验，而不是假设性的理想情况。

Q3：专门针对表格操作微调的小模型，为什么能接近比它大得多的GPT-5？

A：表格操作预测高度依赖“局部重复模式”，比如把同一种边框格式沿一行传播、把相同颜色填到一列数据里。这类规律性强但语义弱的任务，不需要海量通用知识，只需要在大量真实表格操作序列上反复见过这些模式，小模型一样能掌握。专项微调恰好提供了这种训练信号，所以3.6亿参数的模型在这个任务上能几乎追上千亿参数级别的通用大模型。

微软智能副驾实战：电子表格自动操作全攻略

为什么给表格造一个“预测助手”这么难？

那五万两千步是怎么造出来的？

为什么不用传统的“考一道题对一个答案”的方式？

谁来参加这场考试？各自表现如何？

什么时候接受预测？什么时候拒绝？

更多操作，越来越准

这套“考试”到底教会了我们什么？

Q&A

相关阅读

最新教程

最新资讯