探访神马工场第二代数字人技术--多模态数字人

　　目前我们知道，数字人技术已经广泛应用在短视频、带货、直播、金融、医疗和客户服务等多个领域。数字人应用的便利性也得到了很多行业的认可。但是数字人模型的建模复杂，成本高昂，视频生成的形象单一等问题却一直是行业内，特别是口播博主、短视频带货等应用不够全面的主要痛点。率先在行业内降低数字人建模和视频生成成本，将数字人进行全面普及的神马工场致力于这方面的研发，为了解决这个问题，第二代多模态数字人技术也准备就绪，即将准备投入市场。

　　神马工场数字人采用的是自研矩阵训练算法，数字人的唇形与语音适配水平达到了行业前三，适配率更是到达了95%以上；将原本万元内的数字人建模费用直接给打到百元水平，做普通人用得起的数字人产品对神马工场来说绝非一句口号那么简单。

　　首先，多重模式。目前主流的第一代传统数字人建模是一人一个模型，每个模型的录制时间都需要在4-5分钟以上，而且录制过程中是一镜到底，录制后是不能有中间部分的剪辑处理，模特基本要保持从开始到结束基本一致的情感、语气和表现。简单的说，我如果是情感类博主，一个模型只能录制一种情感模式，比如开心，从头到尾必须表现出内容的一致性，不能出现悲伤表情的内容。否则后期数字人生成出来就会有明明是在讲欢乐的故事，数字人表现的却很悲伤的状态，这个明显就不合适了。神马工场多模态数字人很好的解决了这个问题，模特可以同时录制悲伤和开心两种或多种模式的素材，每种情感模式各录一段时间，就能在一个数字人模型中建立多种造型模式，生成的视频可以随意切换，这对于口播博主来说是非常必须的功能。

　　第二、造型多变。以往被带货主播抱怨的服饰单一的问题，现在也在神马工场多模态数字人系统中得到了升级。一个数字人以往只能用一种服饰妆容建模，同一人需要多个造型可能需要建立多个数字人模型，而且生成视频还需要反复用不同数字人来切换，费时费力。现在好了，神马工场第二代数字人模型可以在一个模型中植入多套服饰和妆容，生成视频时候可以任意切换服饰，简单加上转场特效就能完美解决口播博主，乃至Vlog博主们最吐槽的一套衣服从头穿到尾的困扰，多变造型更适合短视频中场景的任意搭配。

　　第三、容错率高。做过数字人模型的朋友一定知道，数字人拍摄素材过程中是不能出现NG（笑场、穿帮）镜头的。传统数字人虽然可以一定范围内解决念错台词的问题，但是也是需要模特有一定表演和临场应变能力，这无疑增加了普通人完成数字人视频素材采集的难度。而第二代神马工场多模态数字人解决了这个困扰普通用户的问题，用户可以录制长时间视频，哪怕视频中出现一定的笑场、或是其他有问题的表情、语句，生成数字人模型后也可以通过多模态跳帧模式避免，让输出的数字人保持正常造型，避掉素材中有问题的部分影响数字人视频的生成，提高建模容错率，有效降低普通用户拍摄建模素材的难度。

　　第四、性价比高。传统数字人制作是一个造型一个模型，无法做到多造型用一个模型，神马工场第二代多模态数字人可以做到一个模型多个造型。如果以单模型多造型的方式来计算，建模成本足足降低了几倍。神马工场原来的价格已经是行业低价，第二代多模态数字人问世后，势必将数字人价格打到行业难望项背的低价，也让这项技术的普及成为可能，给更多需要数字人的用户提供更高性价比的解决方案。

　　神马工场致力于研究数字人技术的创新，对于数字人技术如何解决实际问题，解决用户痛点方面，在利用其自身技术优势上起到了关键作用。产品迭代是为了更好的为用户服务，相信神马工场本次多模态数字人的推出，不仅在行业保持了领先优势，更能促进数字人技术的更好发展。

　　（来源：News快报）

责任编辑：孙青扬