百度曦灵数字人平台升级 支持文生 3D 数字人、音色克隆等功能
百度智能云曦灵数字人平台重大升级:高效低成本生成,全场景矩阵打通
从6月20日开始,百度智能云旗下的曦灵数字人平台,将迎来一次堪称革新的重磅升级。这轮升级带来的变化不小:一方面,它让制作出精美的2D或3D数字人变得高效且成本更低;另一方面,更关键的是,它在直播、短视频、对话等核心应用场景之间,实现了矩阵式的深度打通。这意味着用户能获得一个更流畅、更完整的体验闭环。无论是企业想打造专属IP,文旅项目需要设计虚拟形象,还是娱乐行业开发数字偶像,曦灵平台现在都能提供一套真正智能、便捷且好用的“一站式”解决方案。
这次升级最抓人眼球的地方,莫过于数字人生成能力的飞跃。你只需要想一句描述人像风格的话,比如“一位富有未来感的东方艺术家”,输入进去,平台就能模仿人类的创意思维,在10分钟左右自动生成一个逼真的3D数字人模型。这种近乎“一句话画人”的效率,确实为各领域的IP创造打开了新的想象空间。
在更轻量级的2D数字人克隆方面,曦灵平台的表现同样可圈可点。操作非常直接:你上传一张清晰的正面照片,平台在几秒钟内就能生成对应的2D数字人形象。这个功能听起来简单,但在实际应用中却能解决大问题。想一想那些需要大量数字人形象,但又受限于拍摄条件的场景,比如AI电子名片、保险经纪人的数字分身等,这种“秒级”生成能力带来的便利性,不言而喻。
形象克隆之外,平台还针对不同的需求精度,提供了两种克隆模式。如果你追求的是效率,那么“极速克隆”会很合适——它只需要一段1到4分钟的闭嘴视频作为训练素材,半小时内就能完成克隆。它的口型特征会基于大模型进行智能匹配,在多数对效率敏感的场景下已经足够好用。反过来,如果你追求的是极致的拟真度,需要对真人进行1:1的数字分身,那就得用到“精品克隆”了。这个模式需要提供一段5到8分钟的张口说话视频进行训练,最终效果能够高度复原真人的神态与细节,适合那些对还原度要求苛刻的场合。
当然,一个栩栩如生的数字人,离不开有特色的声音。曦灵平台考虑到了这一点,同步推出了音色克隆功能。用户只需要提供一段30秒的清晰录音,就能生成属于自己的专属定制音色,并直接应用于数字人的播报与内容创作中。这相当于为数字人装上了个性化的“声音外衣”,让整体形象更加丰满和独特。
