AI贺年卡技术解析:从智能设计到个性化祝福的尖端应用
农历新春将至,一年一度的“拜年文学大赛”又要拉开帷幕了。
每到这个时候,五花八门的拜年祝福就开始争奇斗艳。想要文辞优美、别出心裁,已经让不少人绞尽脑汁;如果再想配上一幅既原创又有新意的精美图片,那更是每年都让人头疼的难题。
不过,那些往年“卷”得飞起的拜年消息,如今只需要输入几句简单的话,就能轻松搞定。这背后,自然是AIGC技术带来的重大改变。
上面这张由智谱AI生成的贺年卡,不仅制作起来不费什么功夫,还包含了一段年味十足的祝福语和一张精美的图片。如果愿意,甚至还能附上一首贺岁诗词。乍一看或许平平无奇,但实际上,它可是集中体现了多项尖端的AIGC技术。
先说说每年最让人头疼的祝福语。在这张卡片上,仅仅通过几句简单的引导语,由清华大学KEG实验室和智谱AI研发的开放问答机器人“小呆”(XDAI),就能生成一段质量相当高的祝福文字,甚至还能做到押韵。
但这还远不是XDAI最厉害的地方。短短祝福语的背后,“小呆”具备的是能够进行有逻辑、有内容对话的硬实力。
大规模预训练语言模型(PLM)近年来的进展有目共睹,尤其是ChatGPT的横空出世,更是为PLM圈粉无数,吸引了海量关注。然而,也有学者注意到,基于大模型构建知识对话系统、实现知识资源整合并根据任务进行调优,对于个人开发者而言成本实在太高。这无疑抬高了技术落地的门槛,将一大批有兴趣的开发者挡在了门外。
XDAI的提出,正是为了解决上述困境。它的目标,是让开发人员无需进行复杂的微调,就能利用PLM快速创建一个开放域对话系统,并且可以通过设计不同的Prompt(引导语),来定制自己特定领域的系统。
这也是XDAI最核心的能力。它不仅能借此生成充满年味的文字,还能通过设计不同的Prompt,来调整“小呆”的“人设”甚至“性格”,从而打造出愤怒版、抑郁版、暖心版等不同风格的“小呆”。
说回这张贺年卡。如果你觉得“小呆”生成的文字还不够有诗意,可以呼叫“悟能”来帮忙写首诗。“悟能作诗”是智谱AI在PLM基础上开发的一个AI作诗平台。
在原始的PLM中,模型虽然已经能生成不错的文字内容,但往往缺乏对问题主题的专注。在对话场景下,这个弱点或许瑕不掩瑜;但在诗歌创作上,偏离主题可是相当致命的。
于是,开发者想到了使用“逆向提示”(Inverse Prompting)的方法来规避这个弱点——利用生成的文本来复原给定的标题,通过对生成语句进行打分,配合集束搜索(Beam Search)算法,每生成一个短句就进行一次评分,并保留分数最高的内容。
运用这个方法,“悟能”能够学习自己生成的内容,为自己打分,并以此进行微调,从而不断强化自身的作诗能力。在“悟能作诗”平台上,以“新年”为关键词,并限定“悲伤”的情绪,最终生成的结果如下:
新年
【悟道】 风格: 李白(唐)
圣历初开岁 云山半老时
七轮才偃月 九陌乱填丝
曙角分龙节 寒尘敛隼旗
元宵几处玩 禁火夜弥迟
最后,再来看看这张贺年卡背后的图片生成技术——CogView。
CogView的算法框架主要分为VQ-VAE和Transformer两部分,通过对图像和文本进行大规模生成式联合预训练来实现。具体来说,先使用VQ-VAE将图像压缩成离散的Token,再将其输入Transformer进行生成训练;反过来,也可以依据Transformer输出的Token来生成图像。
在文字、诗歌、图片生成这几个领域,AIGC都扮演了至关重要的角色。而无论是“小呆”、“悟能”还是CogView,其背后都有一个共同的身影——大规模语言预训练模型GLM-130B。
这个由清华大学计算机系KEG实验室和智谱AI开发的开源双语大模型,在此前的一些基准测试中,表现甚至超过了OpenAI的GPT-3和谷歌的PaLM。更重要的是,它以开源的形式发布,作为开源大模型领域的中国力量,正在普惠更广大的使用者。
一张小小的贺年卡,背后是一个开源大模型的支撑,以及三项AIGC尖端技术的融合。或许在未来,AIGC技术真的会给一年一度的“拜年文学大赛”画上一个句点。