DoorDash LLM测试系统构建指南
这个飞轮到底怎么转?
这个飞轮由两个相互咬合的部分构成: * 第一部分:离线模拟器。它能够生成逼真的多轮对话,而不需要任何真实用户参与。 * 第二部分:评估框架。它能够自动为聊天机器人在这些模拟对话中的表现打分。 两者结合,就形成了一个高效的迭代闭环。
模拟会“推搡”的顾客
一个静态的测试用例只能检查聊天机器人对单条消息的回应是否合理,但它无法捕捉到真实场景中的复杂性:一位沮丧的顾客连番追问三次,在对话中途提供了新的信息,或者威胁要升级投诉。 DoorDash的模拟器完全摒弃了脚本化消息。它本身就是一个LLM,扮演顾客角色,根据详细的测试场景动态生成回应。在每一轮对话中,模拟器会进行结构化分析,自问几个关键问题:问题解决了吗?对话有进展吗?顾客是否需要提供更多信息?是不是在兜圈子?基于这些分析,它来决定一个真实顾客下一步会说什么。 这些测试场景也并非凭空想象,而是来自真实的历史客服记录。LLMs会分析过去的对话,从中提取结构化的行为画像,包括客户的个性特征(是愤怒苛刻,还是困惑耐心)、具体的场景描述,以及客户期望达成的目标。这让模拟器根植于真实的客户行为,而非理想化的测试案例。