新浪新闻客户端

三大技术指标全面提升,出门问问数字人系统再升级

三大技术指标全面提升,出门问问数字人系统再升级
2024年04月09日 10:19

  在 AIGC 技术的推动下,视频生成模型领域正迎来创新的高潮。出门问问独立研发的数字人克隆及生成服务,以其领先的创新能力,提供了高度真实与生动的数字体验,吸引了众多用户的目光。目前,这一先进技术已经成功部署在出门问问的 AIGC 产品——「奇妙元」和「奇妙问」中,持续扩大其在行业内的影响力和用户基础。

  出门问问数字人系统持续迭代

  自出门问问启动数字人服务以来,其技术团队已经多次进行数字人系统的迭代更新。如今的第四代数字人系统——基于多尺度3D模型的WetaAvatar 4.0,通过整合「序列猴子」的强大文案生成能力以及「魔音工坊」的高质量语音合成技术,我们进一步强化了数字人的呈现效果,实现高度仿真的外观,同时还精心打造了生动的表情,媲美真人。

  综合来看,在WetaAvatar 4.0中,不论是数字人进行讲话、唱歌或者静音状态,其表现均优于前代,技术指标Sync-C的数值普遍高于WetaAvatar 3.0,清晰度也相比上代有较大提升。

  Sync-C (SyncNet Confidence):使用预训练的衡量音画同步性的模型 SyncNet 计算的音画同步置信度。相同的驱动音频和驱动视频,数值越高越好。

  TTS引擎MeetVoice Pro赋能数字人

  在第四代数字人系统WetaAvatar 4.0中,用户提交文本后,系统将调用出门问问的TTS引擎MeetVoice Pro,该引擎基于大语言模型—「序列猴子」,支持产生清晰自然的语音输出。随后,这段语音被输入数字人系统,确保视频中的数字人物可以以精准的口型匹配、自然的面部表情及流畅的身体动作呈现。通过这种方式,我们将文本信息转化为一个高度真实的数字化视频,为用户提供视觉与听觉相结合的真实体验。

  实时语音解析能力— 本技术能够即时准确地从语音音频中提取信息,并转换成可操控虚拟形象的音频信号。

  精确的口型驱动能力 — 采用深度学习模型,将音频信号精准地转化为自然流畅的口型及面部动作,提供真实的视听体验。

  领先的音频编辑能力 — 本系统整合了魔音工坊配音的核心功能,包含快速准确地调整多音字和韵律,以确保配音的专业水准,特别适合虚拟主持人等应用场合。

  三大核心特色 打造超真实数字人体验

  WetaAvatar 4.0采用了一套先进的人脸重建与生成机制。首先,通过人脸重建模型捕捉到人脸的核心特征数据,这一数据反映了人脸的不变属性。然后,人脸生成模型使用这些基础数据,并结合具体的人脸图像及配套的音频信息进行处理,以此同步创造出与音频匹配的嘴型动作和表情。这项技术的应用确保了数字人的表现不仅仅是视觉上的逼真,还能在语音和表情的同步上达到极高的自然度,大幅提升了数字人的真实感。

  全新升级后的第四代数字人系统具有“精致外观”、“迅捷响应”、和“多样选择”三大核心特色。

  精致外观

  利用最新数字人系统WetaAvatar 4.0,出门问问的数字人实现了前所未有的逼真还原。目前,数字人不仅拥有极大的真实感,嘴形与声音的同步精度也不断突破,带来了动态上的全新提升——让数字人的每一个微笑、每一次皱眉都宛若真人。

  迅捷响应

  最新数字人系统WetaAvatar 4.0基于强化的底层架构,极大提升了合成速度并显著降低了延迟。在普通消费级显卡上,系统能以0.3的实时率合成视频(即1分钟的视频仅需20秒左右)。同时,实时驱动延迟被控制在1秒内,大幅减少用户等待时间,实现流畅无缝的迅捷体验。

  多样选择

  出门问问倾力打造,旨在拓展数字人的多样性:从融合多音色、多语种的声音,到整合不同年龄和性别的人物形象,再到多角度、多动作的灵活展示,这一全新升级的数字人系统实现了质的飞跃,极大降低了数据集成的复杂度,为创建丰富多彩的数字世界提供了无限可能。

  三大技术指标 多方面综合提升性能

  WetaAvatar 4.0系统的最新升级实现了多维度的重大突破,推动行业标准再上新高。本次升级的全面性能,可通过以下三个关键技术指标以及相应的demo展示进行深入评估与体验:

  FID (Fréchet  Inception Distance)

  使用预训练的图像分类模型 Inception v3 网络抽取图像特征,假设特征向量的分布为高斯分布,计算真实图片序列和生成图片序列两个高斯分布的均值和协方差矩阵。通过测量两个概率分布之间的“距离”(相似程度)来评估生成图像序列与真实图像序列的相似程度。数值越低越好

  SSIM(Structural Similarity Index)

  SSIM全称为结构相似性指数,是一种用于衡量两幅图像相似度的指标。它是一种全参考的指标,即它需要一张原始的图像作为参考。SSIM将图像的亮度、对比度和结构等因素考虑在内,通过比较这些因素的相似性来计算两幅图像之间的相似度。数值越高越好。

  PSNR(Peak Signal-to-Noise Ratio)

  PSNR全称为峰值信噪比,是一种常用于衡量图像或音频质量的指标。它是通过比较原始信号与经过压缩或处理后的信号之间的信噪比来评估质量的。数值越高越好。

  根据综合指标测算和数据对比分析,得出结论:WetaAvatar 4.0在关键性能参数上相较于其前代系统取得了实质性进展。具体而言,在图像的真实感呈现、角色相似度的精确匹配,以及视频输出质量上,均体现出明显提升。

  打造出更加人性化、情感丰富的数字伴侣

  出门问问的技术团队持续探索创新,不仅将这一全套技术精益求精,更确保其在行业中处于领先地位,带给ToC和ToB客户前所未有的高质量数字人使用体验,速度与效果兼备。

  出门问问AIGC产品——「奇妙元」与「奇妙问」现已全面集成我们最新一代的数字人系统。截至目前,「奇妙元」与「奇妙问」已上线超过200种数字人形象,并且我们正致力于对这些形象进行持续的优化迭代,以提供更优质的数字化体验。

  出门问问的自研大模型「序列猴子」,其以语言为核心的能力体系,涵盖“知识、对话、数学、逻辑、推理、规划”六个维度。凭借「序列猴子」在跨模态迁移方面的出众表现,出门问问的技术团队推出了MeetVoice Pro语音大模型。此外,我们团队也计划利用「序列猴子」的核心能力,打造多模态数字人模型,进一步拓展和强化数字人的能力范围。

  面向未来,出门问问将继续秉承深耕数字人技术的理念,逐步将其应用到更广泛的产品服务中。我们的目标是利用先进的智能技术,为用户打造出更加人性化、情感丰富的数字伴侣,可全天候提供陪伴。这将使人机互动变得更为自然,并将AI融入每个人的日常生活,引领智慧生活的新潮。

  用户福利来袭

  注册「奇妙元」后,

  点击我的 - CDK兑换码,

  输入兑换码:AIGC2024,

  免费获得数字人合成时长。

  (来源:News快报)

责任编辑:何奎良

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2024 SINA Corporation

All Rights Reserved 新浪公司 版权所有