9月5日,昆仑万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型(Multimodal Large Language Model,简称“MLLM”)测评中,综合得分排名第一。
其他上榜该项国际性多模态大模型测评的包括全球范围内具有多模态能力的大模型。这标志着昆仑万维天工大模型在多模态方面跻身世界领先水平,未来将有力支撑公司旗下AI业务矩阵取得关键性突破。
多模态大语言模型(MLLM)依赖于LLM丰富的知识储备以及强大的推理和泛化能力来解决多模态问题,目前已经涌现出一些令人惊叹的能力,比如看图写作和图文对话。但仅就这些案例很难充分反映MLLM的综合性能,目前行业内缺乏对MLLM的全面评测。
腾讯优图实验室联合厦门大学在新建的评测基准MME上首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜,包含感知、认知两个总榜单以及14个子榜单。MME数据集是一个最近发布的多模态语言模型测评基准。MME通过评估大型多模态语言模型在涵盖感知和认知任务的 14 个子任务上的表现来全面评估它们。昆仑万维天工大模型多模态团队的Skywork-MM模型位列综合榜单第一,其中,感知榜单排名第一、认知榜单排名第二。
随着文本大模型的快速发展,构建具有多模态理解能力的多模态语言模型是行业大势所趋。多模态模型展现了较好的多模态信息理解能力,但依然存在一些问题,如现有的多模态语言模型存在较为严重的幻觉问题,对于大多数问题,模型都倾向于回答“yes”,如图1所示;同时,跨语言能力较弱,在中文场景中对问题的回答不尽如人意,有时甚至会直接回复英文,如图2所示。基于以上问题,昆仑万维天工大模型多模态团队给出了自己的解决方案——Skywork-MM。
在昆仑万维天工大模型多模态团队最新一篇论文中可知,在数据侧,为了解决幻觉问题,团队构造了更加多样和精细的微调数据,加强大模型对于图片特征的理解能力,增强多模态语言模型的指令跟随能力并减少“幻觉”,如图1所示,Skywork-MM在减少幻觉方面提升显著:
此外,Skywork-MM通过适当的数据构造,增强了中文的指令追随能力、中文相关场景的识别能力,减轻了文化偏差对于多模态理解的影响。例如,对于典型的中文场景中的电视节目《非诚勿扰》,现有大模型难以准确识别,但Skywork-MM中文场景识别能力很强,如图2所示:
在模型侧,在模型设计上团队将视觉模型和大语言模型完全冻结,保持视觉模型在前置CLIP训练中学习到的视觉特征不损失,大语言模型的语言能力不损失。同时为了更好的关联视觉特征和语言特征,模型整体包含了一个可学习的视觉特征采样器和语言模型的LoRA适配器。Skywork-MM模型的训练上,分为两个阶段,第一阶段使用双语的大规模图文pair数据进行图像概念和语言概念的关联学习;第二阶段使用多模态微调数据进行指令微调。
最终,Skywork-MM实际上使用的图文数据并不多(约50M),远远小于其他现有的MLLM使用的图文数据量(大于100M),却在测评中取得了综合排名第一的优异成绩,证明了昆仑万维在训练多模态大模型方面找到了合适的技术路径,团队实力不俗。
未来,昆仑万维将加速提升多模态能力,将研究、研发与产品相结合,支撑旗下AI产品朝着多模态方向发展,如近期推出的天工AI搜索在具备良好的多模态能力后将助力用户获得颠覆式搜索体验。可以预见,多模态能力将助力昆仑万维在AGI与AIGC的研发、产品落地、商业化进程中获得领先业内的显著优势,在广告营销、游戏、娱乐、社交、咨询、办公、金融、能源等众多行业落地应用。
(来源:News快报)