通义千问产品体验笔记:提示词输出检查清单
通义千问产品体验笔记检查清单:1.是否已确认登录态且非游客模式?2.是否已输入5类问题各至少1次?3.是否已连续发送3条≥2000字符输入并记录系统响应?4.是否已比对网页端、APP端、API三渠道首屏响应一致性?5.是否已保存带时间戳截图、关键节点录屏及UTF-8无BOM文本文件?
你需要把通义千问产品体验笔记的提示词转化成一份可执行、可核对的检查清单,确保每条提示词都对应到具体操作动作或验证标准,避免遗漏关键项。
提取原始提示词中的核心要素
先把那份通义千问体验笔记提示词文档摊开,从头到尾逐句扫一遍。别偷懒,把里面所有明确的动作动词都圈出来,比如“记录”、“对比”、“截图”、“输入”、“切换”——这些才是后续生成检查项的主心骨。那些没有动词的描述性语句,先放一放,它们多半是背景铺垫,不属于待检项。
注意一个关键点:如果一句话里包含了多个动作,比如“输入问题→观察响应→记录延迟”,那就得拆成三个独立的检查项,不能图省事合并成一条。每个动作都得有对应的检查位置。
将动词短语转为检查清单条目
方法一:直接转换法
这招最直接。把每个动词短语补全主语和宾语,套进“是否已【动作+对象】”这个疑问句式里。举个例子,“输入问题”就变成“是否已输入至少3个不同类别的测试问题?”。
方法二:补充验证条件法
碰到像“观察”、“感受”、“注意”这类模糊动词,就得给它加一个可观测的标准。比如“观察响应质量”不能就这么放着,要改成“是否已标注响应中间出现的事实错误、逻辑断裂或格式异常?”。
【必须补全触发条件,否则该条无法检查】这一点很重要。比如要检查多轮对话能力,不能只写“是否记得上一轮提问”,那没法核验。正确的写法应该是:“在第三轮提问中复述第一轮关键词后,模型是否复用前序答案中的实体信息?”——有了具体的触发场景,才能执行验证。
按体验流程排序并编号
第一步:确认登录状态与环境配置→先打开千问网页端或APP,检查是否已登录个人账号,并且确认不是游客模式。
第二步:执行基础交互测试→把预设的5类问题(常识问答、代码生成、长文本摘要、多步推理、中文古诗续写)逐一丢进去,每类至少测一次。
第三步:触发边界场景→连续发送3条超长输入(≥2000字符),然后盯着屏幕看系统什么反应——是直接截断?弹个报错?还是静默吞掉没动静?
第四步:验证输出一致性→拿同一个问题,在网页端、APP端、API调用三个渠道分别提交,然后逐字逐句比对首屏响应内容,连标点、换行、空格都不能放过。
第五步:归档证据材料→把整个测试过程中的截图(记得带上时间戳)、关键节点的录屏、以及原始输入输出的文本文件(UTF-8编码,无BOM)全部保存好,一个都不能少。
