近日,启元世界数字人团队invatar在业界初次亮相,便凭借过硬的AI驱动技术,在世界人工智能大会创新大赛(AIWIN)“文本语音驱动数字人表情口型竞赛”中,取得了第一名的好成绩。
作为世界人工智能大会(WAIC)的品牌赛事,AIWIN已连续举办5年,在各个前沿科技应用赛道中,发掘了众多优秀的技术团队。此次文本语音驱动数字人表情口型竞赛由SMG融媒体中心、SMG技术中心(上海东方传媒技术有限公司)、AR/VR技术及应用国家工程实验室和AIWIN携手,共有255人报名,67支团队提交,并经过了A榜、B榜、初评、终审多个环节。
最终,启元世界invatar团队从来自上海交通大学、中国电信集团、mobvoi、特斯联、小米集团、清华大学等企业和高校的参赛队伍中脱颖而出,以AB榜两个客观评测和主观评测均取得第一名的成绩夺冠。
随着元宇宙概念的普及,数字人正在受到学术界、产业界的高度重视,与此同时,这一新兴领域也存在不少有待提升的地方。
总体而言,数字人被分成了真人驱动数字人和AI驱动数字人两大类。在真人驱动数字人方面,存在虚拟形象需由动捕演员驱动,缺乏高并发和量产能力;动捕设备及培训、运用成本高昂,导致高质量数字人的批量复制成本高;运营侧隐含中之人“塌方”、解约、版权纠纷不可控风险等诸多痛点。
AI驱动数字人被认为是行业未来发展的必然趋势,但目前也面临着拟人化效果差,口型偏“大众平均化”,难以体现出人物个性化表现力特点;以及需采集大量中之人的表情动作使用,缺乏智能对话和行为能力,难逃“人造人”的困境等问题。
作为领先的通用人工智能公司,启元世界的数字人团队invatar采用了纯AI驱动数字人的方案,可以在无需中之人的环境下,具备任意人、任意语言的2D/3D数字人驱动能力,极大提升了数字人量产能力。其还通过自研的口型匹配、眼动技术算法模型,使数字人表情口型具备高表现力和高情感度,且可同时驱动头动、眨眼、眉动等,提升AI驱动数字人拟人化能力。
例如,凭借自研的口型匹配技术,invatar不仅可以通过多尺度特征使模型从不同角度学习语音表征,兼顾口型标准和说话风格,还采用了多语种的预训练特征,支持中文、英语、日语、法语等多语言驱动;此外,其还在模型层面进行自适应的上下文特征学习,一定程度上解决了多语种语音复杂多变的协同发音效应,也让口型动画更加接近真人。在表情生成技术方面,invatar则能令表情生成可控制、可解释,通过调整幅度、时长建模使得最终表情更丰富,并能根据客户需求定制新的情感和风格。
“我们的AI驱动数字人技术,还可以同时支持离线/在线的文本生成语音口型(TTSA)和语音生成口型(STA),支持实时内容生成和搬运,帮助客户进一步优化效率。”启元世界数字人团队invatar的负责人傅天晓说到。
除了invatar所代表的感官智能之外,启元世界还正在从认知智能、决策智能、运动智能和端到端训练优化几方面,提高AI驱动数字人的能力。启元世界表示,公司希望未来数字人不但具备认知决策大脑,具备从任务理解—任务拆解—任务规划—任务执行全流程的能力,还能通过AI驱动,在语言、情绪、个性等方面与人展开千人千面的、有趣且可信交互,并能在不同环境下做出更加拟人、丰富、自然的动作,从而创造更好的人与AI共生的世界,让数字人能够更好地陪伴人、服务人。
(来源:新视线)