中科院等权威机构测评:网站生成智能体的三大致命盲区与避坑指南
一项由中国科学院深圳先进技术研究院、中国科学院大学、大连理工大学及澳大利亚新南威尔士大学合作的研究,于2026年4月30日以预印本形式发布(论文编号:arXiv:2604.27419v1),该研究聚焦于计算机人工智能领域。
一、自然语言建站:愿景与现实的鸿沟
用自然语言描述一个网站,AI就能自动生成代码——这听起来像是未来已来。在多模态大语言模型与智能编程助手的推动下,这一愿景似乎触手可及。
但现实更为复杂。研究团队发现了一个普遍问题:当非技术用户用模糊、矛盾的语言提出需求时,AI系统往往直接开始编码,而不进行任何澄清或确认。研究团队将这种行为定义为“盲执行”。AI如同收到模糊指令的厨师,不确认细节便直接烹饪,最终成品可能与用户期望相去甚远。本研究的核心,正是系统性地量化这一问题的严重性,并构建一个可靠的评测基准。
二、现有评测的局限与新框架的必要性
在介绍新工作前,需审视现有基准的不足。此前的评测,如Design2Code或WebGen-Bench,均基于一个理想化前提:用户需求总是完整、清晰且自洽的。
这脱离了真实场景。真实用户的需求可能极其简略、充满无关信息或内在矛盾。现有基准无法有效评估AI处理此类“不完美输入”的能力。
为此,研究团队构建了InteractWeb-Bench——首个专门针对“非专业用户模糊需求”场景的交互式网站生成评测框架,旨在填补这一关键空白。
三、系统化模拟四类真实用户
InteractWeb-Bench的核心创新之一是引入了四类模拟用户,其设计基于软件工程的“需求缺陷分类”与语言学的“会话准则”。
第一类:“极简派”。代表需求不完整。指令如“做个购物网站”,省略所有细节。这测试AI识别信息缺口并主动澄清的能力。
第二类:“话痨派”。代表低信噪比。需求被大量无关叙述淹没。AI需具备强大的信息提取与过滤能力。
第三类:“直觉派”。代表模糊与非技术化表达。用户使用感官与情绪描述(如“夏日海滩的感觉”),而非技术术语。AI需完成从诗意描述到具体技术参数的翻译。
第四类:“矛盾派”。代表逻辑冲突。需求包含互斥要求(如“纯文字网站但要有丰富插画”)。AI应识别矛盾并寻求澄清,而非强行实现不可能的任务。
这四类角色通过对规范“黄金指令”进行系统化的“指令变异”生成,确保了测试样本既真实可控,又具备可量化的难度梯度。
四、定义AI的交互式操作空间
框架为被测试AI定义了四种核心行动,构成一个灵活的操作空间。
行动一:澄清。AI可主动提问以获取缺失信息。行动二:实现。AI编写代码、安装依赖并运行。行动三:验证。AI通过截图检查运行中网站的界面与功能一致性。行动四:提交。AI宣告任务完成。
AI可自主决定行动顺序与次数,这模拟了真实的、非线性的开发流程。“验证”行动尤为关键:AI需基于截图、对话历史与代码状态制定测试清单,像真人测试员一样操作网站。若发现问题,系统会提供包含错误截图与控制台日志的详细反馈,指导后续修复。
为防止无限循环,系统设置了总步数上限与连续验证失败次数限制。
五、基于“约束槽位”的量化评分机制
为客观评估,研究团队设计了“约束槽位”评分机制。每个任务被分解为多个可验证的“槽位”,每个槽位包含目标组件、预期结果和验证类型。
任务最终得分(任务完成率)为通过验证的槽位权重之和与总权重之和的比值。权重根据实现难度动态分配:基础CSS样式权重最低,基础JavaScript交互居中,涉及异步请求与复杂状态管理的高级功能权重最高。
此外,研究团队引入了“幻觉率”指标,专门计量AI自行添加用户未要求功能的情况。最终评分由一个基于WebVoyager技术的独立视觉评测智能体执行,确保客观性。
六、数据集构建:101个种子与404个测试案例
测试数据集源于WebGen-Bench,团队从中精选了101个高质量网站设计任务作为“种子”。
根据约束复杂度,使用K-均值聚类算法将种子任务分为简单(21个)、中等(54个)、困难(26个)三个难度层级。随后,对每个种子任务应用四种用户角色的变异算子,最终生成404个动态测试案例,形成一个覆盖全面、难度分层的完整评测套件。
七、实验结果:主流模型普遍陷入盲执行陷阱
研究团队在框架上测试了九个主流多模态大语言模型,包括Qwen3.6-Plus、Kimi-K2.5、GPT-4.1等。
结果具有警示性:表现最佳的模型(Qwen3.6-Plus)任务完成率仅为38.78%。这意味着,即使是最先进的系统,面对模糊需求也只能满足不到四成的要求。其他模型完成率在24%到37%之间。
任务难度与表现呈负相关。所有模型在简单任务上的得分均显著高于困难任务。用户角色影响显著:几乎所有模型处理“话痨派”需求的表现优于“极简派”,表明其处理信息噪声的能力强于识别信息缺失并主动追问的能力。
八、六大发现:深度剖析盲执行根源
通过分析模型行为轨迹,研究团队归纳出六个关键发现。
发现一:意图对齐与澄清命中率存在剪刀差。所有模型的“意图对齐分数”(理解用户大致意图)尚可,但“澄清命中率”(问到关键缺失信息)均低于40%。这揭示了盲执行的核心:AI能感知用户想要什么,但无法精准定位理解缺口。
发现二:代码行数与幻觉率正相关。部分模型(如Kimi-K2.5)倾向于通过生成大量代码(超1900行)来“覆盖”不确定性,导致幻觉率超过60%。而生成代码较少的模型(如GPT-4.1,约440行)幻觉率仅31.7%。过度补偿策略并未提升任务完成率。
发现三:视觉验证利用效率低下。模型虽进行验证,但多用于修复局部问题(如按钮颜色),而非重新审视整体需求理解是否根本性偏差。验证行为未有效转化为任务完成率的提升。
发现四:模型应对“噪声”强于应对“缺失”。这一发现具有现实意义:AI更擅长从冗余信息中提取要点,而非识别信息不足并主动提问。即使在最理想的“黄金指令”输入下,模型完成率也仅提升约10个百分点。
发现五:模型策略在“探索”与“承诺”间两极分化。GPT-4.1-mini等模型过于谨慎,陷入确认循环;而Qwen3.6-Plus等模型则过于激进,快速提交错误方案。两者均未找到最佳平衡点。
发现六:视觉呈现存在“天花板效应”。各模型在基础视觉布局和创意对齐上分数接近,均能产出结构完整的页面,但在细节上普遍存在轻微缺陷。幻觉率差异巨大(23.5% 至 72.3%),表明“做得能看”已相对稳定,但“做得正确”仍是重大挑战。
九、人工与AI评审的一致性分析
研究邀请了三位计算机科学博士生进行人工美观度评分。结果显示,人工评审与AI评审具有中等一致性,且人类评审员间的一致性略高。
在两种评审方式下,Kimi-K2.5均获最高美观度评分,表明其在视觉和谐与配色方面有优势。Qwen3.6-5在内容丰富性上突出,GPT-4.1擅长生成有纹理的背景,Gemma-4-31B-it则在布局结构性上表现较好。
本研究的核心结论明确:当前最先进的AI系统,在面对真实世界不完美的需求时,仍普遍陷入“盲执行”陷阱。它们在过滤噪声方面尚可,但在识别信息缺口并主动澄清方面严重不足;它们用过度编码掩盖不确定性,进行验证却缺乏全局反思;不同策略模型均未找到探索与决断的平衡点。
InteractWeb-Bench的价值在于提供了一个可复现、可量化的测试环境,用于系统性地测量与改进这些问题。该框架旨在推动AI编程助手从“被动执行指令”向“主动协同理解”演进——一个真正高效的AI助手,不仅要会写代码,更要懂得在关键时刻提问:“您能否再具体说明一下?”
Q&A
Q1:InteractWeb-Bench是什么类型的评测框架,和以前的网站生成测试有什么区别?
A:InteractWeb-Bench是一个针对非专业用户模糊需求场景的交互式网站生成评测框架。与WebGen-Bench等传统基准不同,它不预设需求完整清晰,而是通过四类模拟用户角色制造接近真实的模糊输入,并允许AI进行澄清提问、编码、视觉验证和提交等一系列交互操作,从而全面评估AI在“不完美输入”下的端到端应对能力。
Q2:盲执行问题在实际使用AI建网站时会造成什么影响?
A:盲执行会导致AI生成的网站表面可运行,但核心功能与用户真实意图不符。实验中,最强模型的任务完成率不足39%,意味着超六成需求未被满足。同时,AI常擅自添加未要求的功能(高幻觉率),这不仅增加了不必要的维护成本,还可能导致用户需要从头沟通和返工,实际降低了开发效率。
Q3:为什么AI对信息缺失比对信息冗余更难处理?
A:实验表明,AI处理“话痨派”(信息冗余)的表现优于“极简派”(信息缺失)。这是因为处理冗余信息本质上是信息提取与过滤,属于语言模型的固有强项。而识别信息缺失则需要AI具备“元认知”能力——即意识到自身知识的边界并主动发起追问。当前模型在此方面的训练尚不充分,更倾向于基于已有信息进行“脑补”而非主动澄清。
