中科院等权威机构测评：网站生成智能体的三大致命盲区与避坑指南

2026-05-08阅读 0热度 0

智能体

一项由中国科学院深圳先进技术研究院、中国科学院大学、大连理工大学及澳大利亚新南威尔士大学合作的研究，于2026年4月30日以预印本形式发布（论文编号：arXiv:2604.27419v1），该研究聚焦于计算机人工智能领域。

一、自然语言建站：愿景与现实的鸿沟

用自然语言描述一个网站，AI就能自动生成代码——这听起来像是未来已来。在多模态大语言模型与智能编程助手的推动下，这一愿景似乎触手可及。

但现实更为复杂。研究团队发现了一个普遍问题：当非技术用户用模糊、矛盾的语言提出需求时，AI系统往往直接开始编码，而不进行任何澄清或确认。研究团队将这种行为定义为“盲执行”。AI如同收到模糊指令的厨师，不确认细节便直接烹饪，最终成品可能与用户期望相去甚远。本研究的核心，正是系统性地量化这一问题的严重性，并构建一个可靠的评测基准。

二、现有评测的局限与新框架的必要性

在介绍新工作前，需审视现有基准的不足。此前的评测，如Design2Code或WebGen-Bench，均基于一个理想化前提：用户需求总是完整、清晰且自洽的。

这脱离了真实场景。真实用户的需求可能极其简略、充满无关信息或内在矛盾。现有基准无法有效评估AI处理此类“不完美输入”的能力。

为此，研究团队构建了InteractWeb-Bench——首个专门针对“非专业用户模糊需求”场景的交互式网站生成评测框架，旨在填补这一关键空白。

三、系统化模拟四类真实用户

InteractWeb-Bench的核心创新之一是引入了四类模拟用户，其设计基于软件工程的“需求缺陷分类”与语言学的“会话准则”。

第一类：“极简派”。代表需求不完整。指令如“做个购物网站”，省略所有细节。这测试AI识别信息缺口并主动澄清的能力。

第二类：“话痨派”。代表低信噪比。需求被大量无关叙述淹没。AI需具备强大的信息提取与过滤能力。

第三类：“直觉派”。代表模糊与非技术化表达。用户使用感官与情绪描述（如“夏日海滩的感觉”），而非技术术语。AI需完成从诗意描述到具体技术参数的翻译。

第四类：“矛盾派”。代表逻辑冲突。需求包含互斥要求（如“纯文字网站但要有丰富插画”）。AI应识别矛盾并寻求澄清，而非强行实现不可能的任务。

这四类角色通过对规范“黄金指令”进行系统化的“指令变异”生成，确保了测试样本既真实可控，又具备可量化的难度梯度。

四、定义AI的交互式操作空间

框架为被测试AI定义了四种核心行动，构成一个灵活的操作空间。

行动一：澄清。AI可主动提问以获取缺失信息。行动二：实现。AI编写代码、安装依赖并运行。行动三：验证。AI通过截图检查运行中网站的界面与功能一致性。行动四：提交。AI宣告任务完成。

AI可自主决定行动顺序与次数，这模拟了真实的、非线性的开发流程。“验证”行动尤为关键：AI需基于截图、对话历史与代码状态制定测试清单，像真人测试员一样操作网站。若发现问题，系统会提供包含错误截图与控制台日志的详细反馈，指导后续修复。

为防止无限循环，系统设置了总步数上限与连续验证失败次数限制。

五、基于“约束槽位”的量化评分机制

为客观评估，研究团队设计了“约束槽位”评分机制。每个任务被分解为多个可验证的“槽位”，每个槽位包含目标组件、预期结果和验证类型。

任务最终得分（任务完成率）为通过验证的槽位权重之和与总权重之和的比值。权重根据实现难度动态分配：基础CSS样式权重最低，基础JavaScript交互居中，涉及异步请求与复杂状态管理的高级功能权重最高。

此外，研究团队引入了“幻觉率”指标，专门计量AI自行添加用户未要求功能的情况。最终评分由一个基于WebVoyager技术的独立视觉评测智能体执行，确保客观性。

六、数据集构建：101个种子与404个测试案例

测试数据集源于WebGen-Bench，团队从中精选了101个高质量网站设计任务作为“种子”。

根据约束复杂度，使用K-均值聚类算法将种子任务分为简单（21个）、中等（54个）、困难（26个）三个难度层级。随后，对每个种子任务应用四种用户角色的变异算子，最终生成404个动态测试案例，形成一个覆盖全面、难度分层的完整评测套件。

七、实验结果：主流模型普遍陷入盲执行陷阱

研究团队在框架上测试了九个主流多模态大语言模型，包括Qwen3.6-Plus、Kimi-K2.5、GPT-4.1等。

结果具有警示性：表现最佳的模型（Qwen3.6-Plus）任务完成率仅为38.78%。这意味着，即使是最先进的系统，面对模糊需求也只能满足不到四成的要求。其他模型完成率在24%到37%之间。

任务难度与表现呈负相关。所有模型在简单任务上的得分均显著高于困难任务。用户角色影响显著：几乎所有模型处理“话痨派”需求的表现优于“极简派”，表明其处理信息噪声的能力强于识别信息缺失并主动追问的能力。

八、六大发现：深度剖析盲执行根源

通过分析模型行为轨迹，研究团队归纳出六个关键发现。

发现一：意图对齐与澄清命中率存在剪刀差。所有模型的“意图对齐分数”（理解用户大致意图）尚可，但“澄清命中率”（问到关键缺失信息）均低于40%。这揭示了盲执行的核心：AI能感知用户想要什么，但无法精准定位理解缺口。

发现二：代码行数与幻觉率正相关。部分模型（如Kimi-K2.5）倾向于通过生成大量代码（超1900行）来“覆盖”不确定性，导致幻觉率超过60%。而生成代码较少的模型（如GPT-4.1，约440行）幻觉率仅31.7%。过度补偿策略并未提升任务完成率。

发现三：视觉验证利用效率低下。模型虽进行验证，但多用于修复局部问题（如按钮颜色），而非重新审视整体需求理解是否根本性偏差。验证行为未有效转化为任务完成率的提升。

发现四：模型应对“噪声”强于应对“缺失”。这一发现具有现实意义：AI更擅长从冗余信息中提取要点，而非识别信息不足并主动提问。即使在最理想的“黄金指令”输入下，模型完成率也仅提升约10个百分点。

发现五：模型策略在“探索”与“承诺”间两极分化。GPT-4.1-mini等模型过于谨慎，陷入确认循环；而Qwen3.6-Plus等模型则过于激进，快速提交错误方案。两者均未找到最佳平衡点。

发现六：视觉呈现存在“天花板效应”。各模型在基础视觉布局和创意对齐上分数接近，均能产出结构完整的页面，但在细节上普遍存在轻微缺陷。幻觉率差异巨大（23.5% 至 72.3%），表明“做得能看”已相对稳定，但“做得正确”仍是重大挑战。

九、人工与AI评审的一致性分析

研究邀请了三位计算机科学博士生进行人工美观度评分。结果显示，人工评审与AI评审具有中等一致性，且人类评审员间的一致性略高。

在两种评审方式下，Kimi-K2.5均获最高美观度评分，表明其在视觉和谐与配色方面有优势。Qwen3.6-5在内容丰富性上突出，GPT-4.1擅长生成有纹理的背景，Gemma-4-31B-it则在布局结构性上表现较好。

本研究的核心结论明确：当前最先进的AI系统，在面对真实世界不完美的需求时，仍普遍陷入“盲执行”陷阱。它们在过滤噪声方面尚可，但在识别信息缺口并主动澄清方面严重不足；它们用过度编码掩盖不确定性，进行验证却缺乏全局反思；不同策略模型均未找到探索与决断的平衡点。

InteractWeb-Bench的价值在于提供了一个可复现、可量化的测试环境，用于系统性地测量与改进这些问题。该框架旨在推动AI编程助手从“被动执行指令”向“主动协同理解”演进——一个真正高效的AI助手，不仅要会写代码，更要懂得在关键时刻提问：“您能否再具体说明一下？”

Q&A

Q1：InteractWeb-Bench是什么类型的评测框架，和以前的网站生成测试有什么区别？

A：InteractWeb-Bench是一个针对非专业用户模糊需求场景的交互式网站生成评测框架。与WebGen-Bench等传统基准不同，它不预设需求完整清晰，而是通过四类模拟用户角色制造接近真实的模糊输入，并允许AI进行澄清提问、编码、视觉验证和提交等一系列交互操作，从而全面评估AI在“不完美输入”下的端到端应对能力。

Q2：盲执行问题在实际使用AI建网站时会造成什么影响？

A：盲执行会导致AI生成的网站表面可运行，但核心功能与用户真实意图不符。实验中，最强模型的任务完成率不足39%，意味着超六成需求未被满足。同时，AI常擅自添加未要求的功能（高幻觉率），这不仅增加了不必要的维护成本，还可能导致用户需要从头沟通和返工，实际降低了开发效率。

Q3：为什么AI对信息缺失比对信息冗余更难处理？

A：实验表明，AI处理“话痨派”（信息冗余）的表现优于“极简派”（信息缺失）。这是因为处理冗余信息本质上是信息提取与过滤，属于语言模型的固有强项。而识别信息缺失则需要AI具备“元认知”能力——即意识到自身知识的边界并主动发起追问。当前模型在此方面的训练尚不充分，更倾向于基于已有信息进行“脑补”而非主动澄清。