多智能体抽样 vs 单模型角色扮演:四组评分对比测评
单一LLM的评估困局
依赖单个大语言模型来评判内容效果,存在一个结构性缺陷:你询问的对象是它,它反馈的仅是自身视角的解读。现实中的消费决策,受十多个维度的用户人口学变量共同驱动。单一模型通过角色扮演进行推演,本质是演绎推理路径;而多智能体分层抽样,则遵循统计归纳的逻辑。为此,我们设计了一组受控对比实验,检验这两种方法论之间的实际鸿沟。
实验设计方案
测试素材选用醒醒WKUP气泡茶文案(主打0蔗糖、低卡、便利店9.9元售价)。该文案对差异化人群的吸引力分化显著,是检验人群敏感度的理想样本。
| 变量 | 设置 |
|---|---|
| 评测系统 | 方案A:DeepSeek 角色扮演;方案B:万智多智能体抽样 |
| 人群 | 年轻潮人画像 / 熟龄实用画像 |
| DeepSeek 窗口隔离 | 两个独立会话,Prompt 结构一致,仅替换角色设定 |
| 万智人设隔离 | 每轮独立子智能体链路,人设标签固定不可跨轮串扰 |
| 评测任务 | 打分 + 评价理由 + 购买意愿(完全一致) |
操作上,两套系统独立对同一文案进行判断。DeepSeek分配两位截然不同的角色视角;万智则分别调用两组天然人群的模拟样本进行投票统计。
实验结果
DeepSeek 角色扮演输出
24岁/上海/社交打卡型:6/10。
结论为“便利店顺路会买,线上不囤”。扣分集中在文案风格——缺乏打卡氛围营造、口味描述偏向功能化、缺少情感共鸣点。
45岁/三线/茶客:3/10。
即便首单减5元、到手价4.9元,依旧直接拒绝。“剧本杀、健身房跟我毫无关联”“9.9元能买一斤好茶泡俩月”——反馈十分直白。
差值:3分。仅调整角色设定,同一模型评分波动高达50%。
说明模型虽然知道当前“谁”在发言,但其判断逻辑仍高度依赖预设的演绎路径。
万智多智能体抽样结果
年轻潮人组(n=11):综合评分7.54。受众适配度8.09,可信度6.59(最低项)。点赞率81.8%,点踩率0%,分享率0%。转化路径上,72.7%选择“先继续了解”,27.3%选择“立即咨询”。
熟龄实用组(n=67):综合评分5.33。受众适配度骤降至3.01(降幅达5.08,为本次实验最大单项波动)。点赞率仅1.56%,点踩率飙升至42.2%,负面情绪占比50%,立即购买意愿为0%,71.9%表示无感。评论区高频词赫然出现“什么剧本杀局”(占比20.3%)。
差值:2.21分,适配度差距5.08。
分析解读
- 方向趋同,精度悬殊。两套系统均识别出“年轻人吸引力 > 中年人”。但DeepSeek输出的是单点估计值——一个角色对应一个数字,无误差范围。而万智输出的是分布估计——同一人群内部分数具有离散度,转化意愿可细分为三档。
- 角色扮演无法提供的核心数据维度:分布形态(例如82%点赞却0%转发,本身即一个信号)、转化漏斗(72.7%停留vs27.3%行动)、评论趋同诊断(高频词聚类分析)、人群亲和度排序。这些维度决定了:角色扮演适用于文案润色调整,但绝不能作为投放决策依据。
- 独立系统的交叉验证价值凸显。有趣的是,DeepSeek与万智在无任何共享信息的情况下,同时标记了一个共同问题:“提神不心悸”这句文案存在广告法违规风险(普通食品宣称保健功效)。两条截然不同的技术路径在同一问题上达成一致,构成了高可信度的交叉验证信号。
场景应用建议
| 场景 | 推荐 |
|---|---|
| 文案初稿快速迭代 | DeepSeek 角色扮演(即时反馈,零成本投入) |
| 投放前效果预估 | 万智测评多智能体(需要分布数据和人群适配度做决策) |
| 合规审查 | 两者并用,交叉验证提高召回率 |
| 受众拓展验证 | 万智多智能体(非目标人群覆盖度只有抽样能测) |
核心结论
本次实验的关键发现,并非评判“哪个更好”,而是揭示这两条评测路径先天回答不同层级的问题。角色扮演能判断“方向是否对”——3分的差距告诉你文案可能偏移了核心人群。而多智能体抽样能判断“方向能否落地”——42.2%的点踩率、0%的购买意愿、以及那条“什么剧本杀局”的评论聚类清晰表明:错位不仅存在,而且足以导致一次投放的完全失败。两者并非替代关系,而是评测链条上下游的互补工具。如果你正在从事AI内容评测或人设模拟相关工程,建议将两条路径同时纳入流程。
