机器之心原创
撰文:吴昕
小冰全新数字孪生虚拟人的最大技术亮点在于其虚实难分的视觉效果,背后离不开小冰深度神经网络渲染技术。而且,这样一个真正端到端实时在线系统,也是业内还从来没出现过的。其产业意义在于,虚拟人自此不再停留在简单的宣传层面,而是落地成为一种工业化、商业化输出,切实改变某个产业及其部署的具体场景。
「节目 24 小时都在做,半夜也直播,你们得给主播多少加班费?」每日经济新闻一亿多的财经用户中,终于有人按捺不住疑问,「到底哪些地方是 AI 做的?」
此时,距离两位每经知名财经主播数字孪生虚拟人 N 小黑、N 小白上线直播已经过去 70 多天。上次,全民被「蒙」还是英伟达发布会上闪现几秒的虚拟「黄仁勋」。
事实上,屏幕上所有内容都是出自 AI 之手。除了 7×24 连续播报的主播,背景播放的视频,包括金融资讯,都是 AI 做的。
「这套东西在业内还从来没出现过。」小冰公司首席运营官、人工智能创造力实验室负责人徐元春说。
一、何以虚实难辨?
N 小黑双手自然摆放身前,播报内容不同,他的眼睛、嘴唇和口型也会随之变化,眉毛甚至脸部肌肉也会微妙运动。
虚实难分的视觉效果,离不开小冰深度神经网络渲染技术(Xiaoice Neural Rendering, XNR)。与传统计算机图形技术不同,这种渲染技术通过数据驱动而非物理定律获得渲染函数,其函数一般用深度神经网络通过学习构建。
它使得数字人的面容、表情、肢体动作等在内的整体自然度大幅度提升。尤其是整个嘴型的驱动,以及嘴部动作和整个眼部脸部肌肉的协同。
具体来说,小冰团队首先需要训练两个专家模型。一个是在大数据上训练语音专家模型,它能理解人类语音。
另一个是在目标主播数据上训练嘴形专家模型,学习目标主播嘴形与表情以及语音之间的关系。
比如,主播说「我」、「我爱祖国」,与眼睛会有怎么样的联动关系、与脸部肌肉有什么联动的关系。团队会做一个模型去来学习训练这个过程。
接下来,团队还要训练人脸渲染模型,输入是语音,渲染出正确的人脸。该训练过程受到之前两个专家模型的监督,以保证渲染质量。
最后是驱动过程,输入语音,形成完整的主播视频。
小冰数字孪生主播 N 小黑。
其实,「虚拟人」表现性一直是个很大的技术挑战。人眼对表情的识别能力强, 「虚拟人」一旦动起来就很容易被识破。
一些常见的市面技术打造出来的虚拟主播,形象通常比较呆板,肌肉、眼睛也不动,只适合播报一些快讯、天气预报。
我们希望用户使用这项技术时,不排斥,也不觉得不自然。「这在数字虚拟技术上是一个非常大的挑战。」徐元春说。
当一些人士开始疑问哪些部分源自 AI 时,已经说明人们在过去一段时间已经不知不觉地接受了新技术。「这是一个非常好的 measurement,」在徐元春看来,也正是这个项目的标杆意义所在。
值得注意的是,小冰团队采用的神经网络渲染技术,与今天风靡的 3D 建模技术路径不同。
后者需要在每次制作内容的时候,在绿幕前进行动作捕捉,再进行模型绑定,然后形成生成视频,进行后期渲染。
这种生产模式其实和好莱坞电影的生产方式其实是一样的,只不过标准可能会低一些、内容时长会短一些。
这种技术逻辑优势在于只要愿意砸钱,可以打造非常多样的场景,但问题在于,生产成本会非常的高、制作周期也会比较长。而且,无法做到实时大量生产内容。这些因素也严重阻碍了该技术逻辑广泛赋能 2B 行业。
相比之下,小冰全新数字孪生虚拟人技术的打造成本和周期都大为降低。
据徐元春介绍,项目的训练数据来自 N 小黑(@N 小黑财经)和 N 小白(@每经小白基金),采集完一个人视频数据、处理好后,用小冰团队的模型,大概一周时间就能训练出一个比较高质量的虚拟数字人形象,然后驱动「他」完成播报,制作内容。
如果采用 3D 建模技术,仅建模就一个多月。这还不算后续流程所需时间。整个项目运作下来,几个月的周期都还算快的。
二、首次实现采编播全流程自动化
市面上做很多虚拟人的技术,往往都停留在了一个离线的状态或者叫半离线的状态。
比如,在网上他有他的图片,有他的海报,但其实你并不会看到他,那可能你会看到他的一段广告的视频,但也就仅此而已。
某公司做了一个虚拟人,播报了一段东西,然后上线,赚取了一些流量。这种技术更像是一种宣传,并没有真正改变某个产业及其部署的场景。
而 7×24 小时持续播报,内容都是实时生成的 N 小黑们,正在改变今天内容生产和分发的方式:
只要输入播报内容,系统会自动将文本信息转化为声音,经过预训练的模型,驱动虚拟人形象、表情,最终生成完整的直播视频推流,全过程不再需要人工参与。
N 小黑们不会因为主持人的生病或者其他原因缺席工作,导致内容生产断掉。人类生产内容都会有瑕疵或都会有错误,AI 会完全按照原来既定文本内容去生产。
这样一个真正端到端实时在线系统,也是业内还从来没出现过的。徐元春说,他们不再是一个简单的宣传,而是一种工业化、商业化输出。
事实上,通过小冰框架实现视频采编播全流程的无人化操作,也是源自几年前的「脑洞」—— 有没有可能以 AI 的方式,帮每日经济新闻做成一个类似彭博资讯那样的 24 小时财经电视节目?
当时,每日经济新闻金融资讯均由小冰人工智能技术自动生成,在中英文双语资讯同步生成的同时,已实现秒级速度的自动化全平台推送。每日经济新闻也因此可以面向全球客户和用户提供金融信息服务。
但小冰团队希望可以走得更远,做一些更具开创性技术,赋能这个行业,也因此一路披荆斩棘。
小冰已经可以实现各种上市企业公告秒级的形成摘要。为了实现虚拟播报,还需要其他数据。比如,怎么将每日经济新闻提供的数据端口和摘要技术结合到一起,然后,再和数字人的形象结合到一起?
屏幕上,数字主播不只是在播新闻,旁边还有一个背景视频也在播出新闻,这也需要视频混合生成技术的支持。
你要让这个节目可看,就不能只有两个人,还得需要有别的视频出现,徐元春举例说,这些视频也要被用 AI 生产出来。当然,难度没有数字主播这么高,但也是一项技术挑战。
最后把所有技术再捆绑和包装起来实时推送到直播平台,也是一个巨大的工程挑战。
对于小冰数字孪生虚拟人技术的先进性和竞争力,团队很有自信。
数字虚拟人市场上,有的人会做形象,有的人可能自己会做 NLP,提供一些创作的工具,但是,因为其只是整个链条中一个环节,其实很难产生实际的效果。
人工智能的内容生成最大的特点是稳定输出高并发,整个内容生成流水线一旦启动,如果任何一个环节掉链子,整个内容生成就都卡在那个环节上了。
从技术的完备性角度来讲,我们是最完整的,从自然语言处理、计算机语音到计算机视觉再到人工智能内容生成,有一个完整的技术栈,徐元春说。
而且,积累的大量端到端 know how 经验,更有利于将虚拟人带到现实世界,而不仅仅停留在宣传层面。
真要做这件事情的时候,就会发现,端到端地实际上解决很多问题。换句话说,已经发现的问题远远少于那些你都不知道的问题,徐元春说。
事实上,每日经济新闻这个项目做的时间是比较长的,主要时间不是花在技术,而是场景打造、探索 know-how 上,最终的打造和磨合也花了不少时间。
比如,大多数虚拟主播,播报了一段新闻或者播报了几十秒的信息。如果是这样做的话,就失去了虚拟人的最大价值。
三、释放产业价值
现在,小冰团队正通过模型迭代,将训练时间压缩到更短。
另外,据徐元春透露,这一次只发布了我们和每日经济新闻的项目,后面还将陆陆续发布一些技术。大家能看到实测,比如虚拟主播不仅可以说中文,也可以说其他不同语种。
得益于全新数字孪生虚拟人技术中语音专家模型,虚拟人能够去理解人类语音,不只是中文,要理解不同语言。这个模型训练好后,虚拟主播不仅可以说中文,也可以说其他不同的语种,不用再为单独语种做训练。
比如,做完数字孪生建模之后,通过最后渲染,虚拟主播可以说中文,也可以说英语,即使原型从来没有学过英语。
新增一种能力,就像插卡一样方便。从这个角度来讲,小冰的数字孪生虚拟人技术不仅仅是一个把原来的人复刻了,在这种复刻基础上,它将来会拥有更大的可能性,包括能力。
在数字孪生领域,小冰已经走完第一阶段,完成端到端所有的技术和产品化开发,行业用户可以非常方便的去使用这个平台,创造自己的虚拟人。
接下来,小冰希望赋能更多行业。在每日经济新闻,小冰赋予虚拟人撰写金融资讯的能力,对于其他的虚拟人,小冰可能会赋予其他不同的专业能力,最后放在一个具体场景里,通过端到端的方式实现出来。
不过,每个行业场景存在区别,要做针对性开发,因此也需要对技术做更多拓展。这个时候,所谓技术布局,也意味着和很多生态合作伙伴合作赋能。
比如,有些客户仍然喜欢 3D 建模超写实技术,但同时也希望这个虚拟人拥有交互能力、声音的能力,小冰框架仍然可以赋予虚拟人这些能力。
在徐元春看来,这种方式会让整个虚拟人生态呈现出一个比较完备,不至于完全封闭型的逻辑。
被新冠疫情割裂的 2021 年成为很多人眼中所谓的数字虚拟人元年。
远程办公、在线娱乐等在线生活场景用户暴增,激活市场对虚拟现实的进一步想象。
在强大的云计算技术支撑下,内容制作突破限制,人工智能算法辅助内容生成,似乎让虚拟人的想象力可以无限拓展。
与那些希望借此蹭一把热度的企业来不同,过去七年,小冰团队一直坚持在做这种虚拟人,一直在完善各种各样的技术栈。
并不是因为大家觉得虚拟人市场火了才做。徐元春说,我们一直在这个领域在做自己认为正确的事情。
从产业链角度来看,大家也正在慢慢看到,数字虚拟人的格局其实远远超过虚拟偶像的范畴。
比如,今年北京冬奥会,测试赛的自由式滑雪空中技巧项目,没有用人来裁判,而是采用了小冰框架竞技体育国际赛事评分系统。
未来,小冰仍然会遵照这样的布局和节奏,加速数字虚拟人战略布局和研发。
「我觉得,这是一个不变的东西。」徐元春说。