新浪新闻客户端

请回答2023:从文本到视频生成的大模型进阶之路

请回答2023:从文本到视频生成的大模型进阶之路
2024年01月11日 09:29

  站在2024年的起点回望2023,AI是所有人都无法回避的年度词汇之一。从AIGC、大模型、ChatGPT,再到多模态、AI应用,短短一年内AI已经衍生出无数的“变体”,也逐渐从年初的“学术专用”到“红遍大江南北”。

  抛开大火之时的盲目乐观,一年时间内,人们开始从热度里抽身出来,用更加冷静的视角评判这个新兴行业,而行业内部也逐渐从年初以ChatGPT、百度文心一言为代表的文本生成,转向了以Runway、Pika以及万兴“天幕”多媒体大模型为代表的更加复杂、要求更加高的视频生成,大语言模型的热度渐消之后,新的机遇仍在生成。

  ChatGPT引爆大语言模型热潮

  一切故事都开始于2022年11月30日。彼时,远在大洋彼岸的OpenAI推出了搭载GPT3.5的大模型ChatGPT,短短5天之内就吸粉百万,并且在2023年1月底一举引爆国内资本市场,彻底将“AI”这个一直以来代表着高门槛、高科技的词汇带到了所有普通人的面前,并在行业内引爆“百模大战”。

  回望2023年,全球各大科技巨头大模型之间的竞争进入白热化。OpenAI继“开疆功臣”ChatGPT之后,高速迭代至GPT-4,并直接开启“GPT版小程序”时代;微软借助对OpenAI的投资与合作,将旗下Office办公产品全线整合,5月宣布Win11接入GPT-4,到了年底又推出了自家定制的人工智能芯片、新平台Copilot Studio;为了和OpenAI与微软合体展开竞争,微软的直接竞争对手谷歌今年果断地决定从PaLM 2切换到新一代的原生多模态大模型Gemini上……

  国内的科技巨头也不甘人后。百度今年3月率先落地推出文心一言大模型,目前已经迭代到文心大模型4.0;阿里云4月发布首个超大规模语言模型通义千问,12月对外宣布开源720亿参数模型Qwen-72B;腾讯则在6月以行业大模型先行入局之后,9月份混元大模型正式亮相;紧接着,字节跳动、商汤科技、科大讯飞、浪潮信息、昆仑万维、360等一众互联网企业都在大模型领域进行了布局。“百模大战”正式拉开序幕,但显然,大多数厂商主要发力方向还是在文字生成上。

  AI视频“大器晚成”

  实际上,AI视频几乎与文生图同一时期进入到人们视野中,但是在发展速度方面显然远逊于后者。

  2023年初,以“瞬息元宇宙背后的公司”为噱头的Runway激起了“人人制作电影大片”的无限遐想。2月,Runway发布视频模型Gen-1,功能类似于AI版的PS,可通过文字输入进行视频的风格转化和修改;3月,Runway发布Gen-2,支持文生视频、文本+图像生成视频,打响了AI视频的“第一枪”,一时间风光无两。但这份话题度却并未像ChatGPT一样持续下去。随着Gen-2的根本性突破迟迟未到来,AI视频着实沉寂了一段时间。

  直到去年12月,就在大家快要失去对AI视频耐心的时候,Pika、Genmo、Moonvalley、NeverEnds、谷歌VideoPoet、阿里Animate Anyone、字节Magic Animate、万兴“天幕”,踏着希望之光来了。

  在Pika的官方宣传片中,仅需一句话,就生成了动画版的马斯克,不但神形兼备,而且背景和动作都非常合理连贯,面部一致性也惊人得完美。

  而作为深耕AIGC软件领域的上市公司,万兴科技(300624.SZ)的“天幕”多媒体大模型也在年末密集发布《女孩的一生》《人生四季》《百变girl》《让AI来装修你的家》《名画秘境》等多个短片,展示了大模型从AI文生视频、AI视频生视频、AI扩图等多样化的AI视频类能力,高质量的视频内容也让其进入了更多人的视野。

  作为国内首个专注于以视频创意应用为核心的多媒体大模型,万兴“天幕”由视频大模型、音频大模型、图片大模型、语言大模型组成,涵盖当前市面上语言、音频、图像的大模型能力,具备一键成片、AI美术设计、文生音乐、音频增强、音效分析、多语言对话等核心能力,并在视觉、听觉等多模态关键能力上持续迭代。

  AI视频有望来到爆发前夜

  一直以来,AI视频生成因其准入门槛较高,被视作是少数专业玩家的主场。首先是从数据层来看,AI视频训练所需要的数据集的规模越来越大,种类也越来越丰富。这意味着,只有有能力获得足够多视频数据的厂家才能拥有AI视频大模型的准入资格。除TikTok等主流视频平台、万兴科技等以视频创作工具出名的工具厂商、一直发力视频生成赛道的部分独角兽之外,想要后来居上,显然具备一定的难度。

  此外,视频生成在技术难度与算力需求上也远超文本与图片生成。与文生文、文生图的直接生成即可使用不同,视频的底层原理是多帧图像的组合,文生视频/图生视频需要在文生图的基础上增加时间维度,这意味着计算成本高昂——一个短视频每秒包含大约30帧图像,单个视频片段有数百数千帧,为确保每一帧之间空间和时间的一致性,需要大量的计算资源。

  去年底Pika的出现,为AI视频行业带来了一丝曙光。不少产业人士已经感知到了市场的风向。中信证券研报指出:“参考文生图在广告领域的应用,文生视频同样有望推动生产力革命,降低生产成本、创作门槛,促使AIGC技术产业化进程加速。我们认为从能力的角度出发,文生视频有望率先在短视频和动漫两个领域落地。”至于具体何时落地、效果如何,还有待时间证明。

  (来源:News快报)

责任编辑:何奎良

AI视频AI

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2024 SINA Corporation

All Rights Reserved 新浪公司 版权所有