直击2024 WAIC | “智象大模型2.0” 领航多模态大模型行业应用与发展|智象|图像

　　7月6日，在2024 世界人工智能大会“智启文创-激发无限新质生产力”论坛（简称“WAIC 2024”）上，智象未来联合创始人兼CTO姚霆博士，发布了“智象大模型2.0”升级版。

　　“智象大模型2.0”在继承了1.0版本对文本、图像、视频和3D元素联合建模能力的基础上，2.0版本在多个方面进行了显著的性能提升。“智象大模型”自2023年8月上市以来，凭借其友好的操作界面、卓越的成像效果以及便捷的应用性，被推崇为大众使用首选的AIGC大模型应用平台。

　　姚霆博士介绍，本次2.0提升方向可概括为三点：图像美、视频长、质量高。

　　图像美：文生图，是AIGC产品应用的基础，是智象大模型的行业突出优势。在文生图的应用板块中，“智象大模型2.0”展现了其卓越的图像生成能力，尤其在处理长文本输入时，模型不仅能够深入理解文本内容，还能将这些内容转化为具有高度视觉艺术性的图像。值得一提的是，“智象大模型 2.0” 还增添了「文字嵌入生成」的能力。这意味着它不仅在单一的文生图方面，能够生成更为优质和复杂的图像。而且对于长文本输入中，需要在画面里呈现的文字，也能够精准识别，并进行设计与表达。使得文字和图像的结合更加自然和谐，从而提升了成像的整体质量和表现力。

　　视频长：在视频生成领域，“智象大模型2.0”在保持4K高画质的基础上，实现了视频画面的运动更加流畅自然。7月中旬平台将面向大众提供5、10、15秒三种视频生成时长，和多种视频常规应用尺寸的搭配组合，并且在商业化应用中提供分钟级的连贯性视频内容。在现场演示环节中，其震撼的视频成像能力瞬间引爆全场！

　　质量高：在故事性视频生成领域，“智象大模型2.0”支持剧本多镜头视频生成、IP连贯一致性等功能特性，本次升级面向行业提供文生Vision Pro场景下的3D生成与编辑功能，3D编辑将在多场景下实现低成本、短周期、批量化的内容生产模式，以及构建大量产品外观及IP形象的立体数据库、加快演进AIGC在多场景下的商业化应用。

　　智象未来在“死磕”技术的同时，对于商业化也有着务实的发展路径。从2023年3月成立以来，智象未来已经确立了清晰的“多模态大模型+应用”的布局。

　　随着“AI+”向产业的不断延伸，在现有的业务中提前布局大模型应用能力，从而提升产品效能，拓宽产品应用边界，已逐渐成为众多领域头部企业战略发展的首要重心。

　　在本次论坛发布会中，印象笔记、杭州灵伴两家企业宣布与智象未来展开战略合作，旨在将大模型技术应用于云端服务。这些合作将使各方能够发挥各自的行业优势，率先引入AIGC技术，为用户带来更加智能化的内容创作体验。

　　在此之前智象未来已与中国移动、联想集团、科大讯飞、上影集团、慈文集团、神州数码、央视网、天工异彩等知名企业建立了战略合作关系。其中，与中国移动咪咕共同开发的“AI一语成片”应用，不仅为普通用户提供了零门槛的AI视频彩铃创作工具，还帮助企业客户制作丰富的品牌和营销视频内容，让每个企业都能拥有独特的彩铃品牌标识。

　　“智象大模型” 是智象未来自主研发的Diffusion Transformer (DiT) 架构模型，是全球范围内首个上线开放使用的图像和视频生成平台，能够契合多行业场景中的能力需求，并已通过模型和算法双备案。截至目前基于“智象大模型”构建的“智象 AI ”系列产品，全球单月访问量超百万、累计AIGC内容生成破千万；已服务的头部企业客户近百家，中小企业超三万家，API已被调用300万余次。