近日,在世界三大顶级计算机视觉会议之一的ECCV大会上,第四届人脸表情国际挑战赛(The 4rd Workshop and Competition on Affective Behavior Analysis in-the-wild ,简称ABAW)公布了比赛结果,思图场景以大比分胜出,在多任务表情识别国际挑战赛中夺得冠军。这是思图场景第二次夺得ABAW挑战赛冠军,同时参赛的还有全球众多人工智能学术及研究机构,展现了其在情感计算领域深厚的技术实力。
本届竞赛在今年的欧洲计算机视觉国际会议(ECCV)上举办,ECCV两年举办一次,是计算机视觉三大会议(另外两个是ICCV和CVPR)之一。每一次ECCV都吸引了来自美国、欧洲等顶尖实验室及研究所及世界各地的顶尖专家和学制参与,本届ECCV的论文总投稿数达到了5803篇,再创历史新高,堪称“史上最火ECCV”。
ABAW竞赛致力于解决自然情境下计算机对人的情感行为进行分析的问题,并以此提升人机交互系统的场景应用能力,目标是创造出能够理解人的感觉、情绪和行为的机器和机器人,从而让机器能够以 "以人为本"的方式与人类互动,并有效地作为人类的数字助手。
与往届ABAW相比,本届比赛更注重对比算法在实际应用场景下的表现,所以竞赛重点落在了多任务、多模态计算上。竞赛所使用的视频数据样本突出了“极度不均衡、多个任务训练过程中相互干扰、标签不够准确、标注样本少且不全”等特点,相比往届比赛难度大幅提升。
多任务表情识别国际挑战赛“Multi-Task-Learning (MTL) Challenge”冠军
思图场景在该项比赛中凭借143.61分的成绩战胜其他54支来自全球的参赛队,并大幅领先第二名中科院计算所获得冠军。与以往表情识别等比赛不同,本次比赛使用的是多模态算法,参赛队伍需要对307支来源于现实场景的视频(17万张图片)进行分析,通过视频中的图像、人物、声音来预测人的连续表情、面部肌肉单元以及二维情绪进行综合计算并综合分析出表情趋势,考验的是参赛队伍算法的综合能力。
比赛算法涉及三个维度,包括对VA的一致性相关系数(CCC)、表情的F1 Score 以及AU的F1 Score进行计算,思图场景在各个维度都具有一定优势。其中VA的一致性相关系数(CCC)是对画面中人物表情的判断对人物进行二维情绪(Valence效价-Arousal唤醒度)度量,思图场景在上届比赛中这个维度的比赛获得了冠军,此次参赛进一步改进了算法对网络、更多的感知特征的识别能力;表情识别指的是对7种基础情感(愤怒、厌恶、恐惧、快乐、悲伤、惊奇和中性)进行识别,思图场景早在2018年的EmotiW比赛中即获得了此种算法的冠军,本次比赛在原有优势算法的基础上,又首补齐了缺失标签、平衡数据类别并在神经网络的算法上进行了创新;AU识别方面,将时序信息与图像信息融合到一起,并将多个高精度模型结果融合,在本次比赛中刷新了AU识别新记录;
大比分胜出的关键,思图场景情感计算在金融场景应用中的深厚积累
思图场景已经在双录、面签、面审等金融业务场景解决方案中深度应用情感计算技术多年,包括消费信贷、人寿保险、互联网财险及银行零售业务场景,情感计算技术能够这些场景应用的技术基础即“多模态情感计算”。
早在2020年思图场景即将多模态情感计算的算法维度增至四十余个维度,除音频、视频这些情感计算研究的传统算法,思图场景还将心理学等模型不断丰富到算法维度中,并形成思图场景特有的基于多种模态融合的多模态情感计算判断器。
本届比赛思图场景能够以大比分领先其他参赛队,核心优势即在实际应用场景中不断优化迭代的情感计算算法。相比其他参赛的学术及科研机构,思图场景将情感计算技术从实验室“搬到了”金融业务等商业应用场景,这与人工智能算法技术的发展趋势是一致的,同时也让人工智能技术能够更加深入地融入实际应用场景,特别是以银行、保险等业务为主的金融业务场景中。
此外,思图场景还通过与清华等知名学府的学术交流不断提升情感计算技术的场景应用水平,通过大数据、心理学等技术不断丰富算法维度。目前,思图场景情感计算技术正立足于金融向教育、辅助驾驶、零售营销以及跨学科学术研究等应用领域拓展,将为更多行业带来人机交互的跨越式提升。
(来源:新视线)