今天,华为开发者大会(Cloud)在东莞盛大开幕。华为云媒体服务产品部部长吕阳明在大会主题演讲中带来盘古基础大模型赋能的MetaStudio数字内容生产线,也是华为云MetaStudio的全新升级。通过提供模型生成和模型驱动两大服务,快速生成和驱动数字人模型,赋能在线教育、文娱直播、企业会议等行业应用,从“0101的比特传输”走向“有温度的模型交互”,改变传统交互方式,重塑内容生产。并通过现场展示数字人阿拉伯演讲视频生成和数字人云会议实时驱动引爆全场。
在数字内容产业,内容力决定了企业的竞争力。当前,AI生成内容(AIGC)正在重构数字内容生产模式,重新定义内容力。企业在内容生产上用到的算力核数、模型参数量和行业知识数,决定了企业在内容生产上的竞争力,因此,知识力(模型的深度)决定了内容力。
华为云基于盘古基础大模型,赋能MetaStudio数字内容生产线,打造了盘古数字人大模型,实现MetaStudio数字内容生产线全新升级,通过提供模型生成和模型驱动两大服务,让每个人实现数字人自由,帮助企业构筑更强的内容力。
数字人模型生成服务
基于盘古基础大模型,MetaStudio使用了PB级的音视频数据进行训练,构建了数字人通用大模型,包括数字人形象、动作、表情、口型、声音等;每个用户可以基于数字人通用大模型,再结合个人数据进行训练,构建用户自己的数字人个性化大模型。
数字人模型生成服务,可以通过文字、图片、视频等多种模式来生成数字人。
· 文本生成数字人:通过输入文本,描述希望生成数字人的样子,10秒即可生成模型;
· 图片生成数字人:通过上传一张照片,根据照片中的个人特征,生成不同类型的数字人,比如风格化数字人、美型数字人,模型生成时间仅需30秒;
· 视频生成数字人:只需要拍摄一段5分钟的视频,就可以生成数字人个性化大模型,包含用户自己的表情、口型、动作特征,整个模型训练过程只需要1个小时。而业界一般需要训练12个小时以上。
数字人模型驱动服务
数字人大模型可以使用多种方式进行驱动,包括文字、语音、视频等,通过驱动向量信息来驱动数字人,生成高清视频。
· 文字驱动:基于识别文字的语义和情感,实现数字人动作和文字的精准匹配;
· 语音驱动:通过多语言泛化技术,一种语言、一次训练,即可使用多种语言驱动数字人;
· 视频驱动:现在业界大部分数字人都是站在固定点讲解,无法支持移动,华为云通过2D视频,以及2D/3D数据的联合训练,实现数字人走动、侧身、手势的精确驱动。
华为云MetaStudio数字内容生产线,基于盘古大模型、渲染引擎和实时音视频能力,提供数字人模型生成服务和模型驱动服务,联合伙伴和开发者,共同构建有“温度和情感”的企业应用。