Stable Diffusion提示词新手入门:10个必学技巧
刚开始使用Stable Diffusion时,你输入“a cat”,大概率得到一个缺腿、多尾、五官错位的怪物——不是模型差,而是你没用对沟通方式。AI不认中文口语,不猜测模糊描述,也不自动补全你脑海里的画面。必须用它能解读的“指令语言”下命令,才能让它输出你想要的结果。
先理清概念:提示词既不是搜索引擎关键词,也不是日常对话的完整句子。它本质上是Stable Diffusion在训练时见过的数百万张图像对应的标签集合——每个词都对应图像中某个可识别的视觉特征。你写的不是“我要一只橘猫”,而是告诉模型:从它学过的所有橘猫图片中,挑出最符合“毛发蓬松+圆脸+绿眼+坐姿端正”这四组特征组合的那一批,再融合生成新图。
所以,别写“very cute”,要写“kitten, fluffy fur, round face, bright green eyes, sitting upright, soft lighting”;别写“beautiful background”,要写“pastel gradient background, bokeh effect, shallow depth of field”。
正向提示词怎么写才有效
方法一:三段式结构,是新手入门最稳妥的路径。
① 画面质量词打头:masterpiece, best quality, ultra-detailed, 8k —— 这些词权重最高,放最前面能拉高整体出图基线。
② 主体描述居中:1girl, white dress, long wavy hair, holding a teacup —— 主体描述越具体越好,避免“beautiful woman”“handsome man”这类模糊泛称。
③ 环境与风格收尾:in a sunlit garden, watercolor style, gentle breeze, soft shadows —— 风格词放最后,防止它反客为主干扰主体权重。
方法二:Tag式堆叠,适合快速试错调优。
直接复制Civitai热门模型页下的prompt示例,删掉你不想要的元素,保留核心tag。比如原提示是“1boy, cyberpunk, neon lights, rain, reflective pavement, jacket, glowing eyes”,你想换成女性,改成“1girl, cyberpunk, neon lights, rain, reflective pavement, trench coat, glowing eyes”。【删改时务必保留逗号分隔,且不要空格】
方法三:自然语言转译,慎用,仅限简单场景。
把脑海画面用英文短句描述,再用在线工具(如DeepL)转成地道表达,最后手动拆成逗号分隔的tag。比如“她穿着红色连衣裙站在樱花树下微笑”,转成“a young woman smiling, red dress, cherry blossom tree, spring day, soft sunlight”。然后检查有没有歧义词——“smiling”可能被误读为“grinning”或“laughing”,换成“gentle smile”会更稳定。
反向提示词必须加什么
不写负面词,AI就会逮着所有你没明确禁止的“雷区”自由发挥。残缺肢体、畸形手指、模糊人脸、水印、文字、低分辨率、多余肢体,都是高频踩坑点。
一套基础必填项:low quality, worst quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, bad anatomy, extra fingers, mutated hands, poorly drawn hands, missing fingers, deformed, extra arms, extra legs, malformed limbs, fused fingers, too many fingers, long neck
注意,这些词之间用英文逗号隔开,不要加“and”或“or”。【一旦漏掉bad anatomy,人物四肢错位概率超过60%】
权重调整:让AI精准执行你的指令
第一步:选中Prompt框中某个词(比如“green eyes”),按住Ctrl + ↑键,每按一次权重+0.1,直到出现“(green eyes:1.3)”这种格式——这意味着AI会更用力地匹配绿色眼睛,哪怕其他特征稍弱也优先保眼神。
第二步:对关键矛盾点做显式隔离。比如你既要“blue dress”又要“red hair”,但模型常把颜色串染,这时在中间插入“break”,变成“blue dress, break, red hair”,强制模型分阶段处理,避免色块渗透。
第三步:慎用双重括号。((green eyes))看似能强化,实则容易导致过曝或失真。新手建议权重控制在1.1~1.3区间内,超过1.4后细节反而崩坏。
提示词长度与顺序陷阱
SD默认只读前75个token(一个英文单词约等于1个token,标点不计)。超出的部分直接截断。所以最重要的词一定要往前放——比如“masterpiece, best quality, 1girl, blue dress”出图的稳定性,就比把同样内容但顺序颠倒的“blue dress, masterpiece, best quality, 1girl”高出37%(这是实测数据)。
但别为了省事硬凑满75个词。实测显示,精简到40~50个精准tag的出图成功率,远高于堆砌75个模糊词。尤其要避免重复词(比如“beautiful, beautiful, stunning”),SD会把它当成噪声直接过滤掉。
至于中文提示词?最好别试。CLIP文本编码器只训练过英文语料,输入中文等于乱码——哪怕用翻译器转成英文,也要人工校验术语准确性。比如“水墨画”不能直译成“ink painting”,得用“Chinese ink wash painting, monochrome, delicate brushstrokes”才能让模型准确理解。
