启元世界获世界人工智能大会创新大赛数字人相关赛事第一名|数字人|AI|创新大赛

　　近日，启元世界数字人团队invatar在业界初次亮相，便凭借过硬的AI驱动技术，在世界人工智能大会创新大赛(AIWIN)“文本语音驱动数字人表情口型竞赛”中，取得了第一名的好成绩。

　　作为世界人工智能大会(WAIC)的品牌赛事，AIWIN已连续举办5年，在各个前沿科技应用赛道中，发掘了众多优秀的技术团队。此次文本语音驱动数字人表情口型竞赛由SMG融媒体中心、SMG技术中心(上海东方传媒技术有限公司)、AR/VR技术及应用国家工程实验室和AIWIN携手，共有255人报名，67支团队提交，并经过了A榜、B榜、初评、终审多个环节。

　　最终，启元世界invatar团队从来自上海交通大学、中国电信集团、mobvoi、特斯联、小米集团、清华大学等企业和高校的参赛队伍中脱颖而出，以AB榜两个客观评测和主观评测均取得第一名的成绩夺冠。

　　随着元宇宙概念的普及，数字人正在受到学术界、产业界的高度重视，与此同时，这一新兴领域也存在不少有待提升的地方。

　　总体而言，数字人被分成了真人驱动数字人和AI驱动数字人两大类。在真人驱动数字人方面，存在虚拟形象需由动捕演员驱动，缺乏高并发和量产能力;动捕设备及培训、运用成本高昂，导致高质量数字人的批量复制成本高;运营侧隐含中之人“塌方”、解约、版权纠纷不可控风险等诸多痛点。

　　AI驱动数字人被认为是行业未来发展的必然趋势，但目前也面临着拟人化效果差，口型偏“大众平均化”，难以体现出人物个性化表现力特点;以及需采集大量中之人的表情动作使用，缺乏智能对话和行为能力，难逃“人造人”的困境等问题。

　　作为领先的通用人工智能公司，启元世界的数字人团队invatar采用了纯AI驱动数字人的方案，可以在无需中之人的环境下，具备任意人、任意语言的2D/3D数字人驱动能力，极大提升了数字人量产能力。其还通过自研的口型匹配、眼动技术算法模型，使数字人表情口型具备高表现力和高情感度，且可同时驱动头动、眨眼、眉动等，提升AI驱动数字人拟人化能力。

　　例如，凭借自研的口型匹配技术，invatar不仅可以通过多尺度特征使模型从不同角度学习语音表征，兼顾口型标准和说话风格，还采用了多语种的预训练特征，支持中文、英语、日语、法语等多语言驱动;此外，其还在模型层面进行自适应的上下文特征学习，一定程度上解决了多语种语音复杂多变的协同发音效应，也让口型动画更加接近真人。在表情生成技术方面，invatar则能令表情生成可控制、可解释，通过调整幅度、时长建模使得最终表情更丰富，并能根据客户需求定制新的情感和风格。

　　“我们的AI驱动数字人技术，还可以同时支持离线/在线的文本生成语音口型(TTSA)和语音生成口型(STA)，支持实时内容生成和搬运，帮助客户进一步优化效率。”启元世界数字人团队invatar的负责人傅天晓说到。

　　除了invatar所代表的感官智能之外，启元世界还正在从认知智能、决策智能、运动智能和端到端训练优化几方面，提高AI驱动数字人的能力。启元世界表示，公司希望未来数字人不但具备认知决策大脑，具备从任务理解—任务拆解—任务规划—任务执行全流程的能力，还能通过AI驱动，在语言、情绪、个性等方面与人展开千人千面的、有趣且可信交互，并能在不同环境下做出更加拟人、丰富、自然的动作，从而创造更好的人与AI共生的世界，让数字人能够更好地陪伴人、服务人。

　　(来源：新视线)

责任编辑：曹蕊

关键字 : 数字人 AI 创新大赛人工智能大会

我要反馈