从ChatGPT引发的广泛关注,再到大量的云端AI服务上线,利用人工智能提升效率、优化流程正在变得唾手可得。但在大多数人印象中,AI应用意味着背后庞大的服务器集群夜以继日的运算,需要将自己的信息共享至云端,这与人们关心的隐私与信息安全背道而驰。
就在COMPUTEX 2023期间,英特尔提出了一种全新的可能性,它可以让未来每一台笔记本、台式机或者其他终端设备,在低功耗的前提下也能拥有不错的AI算力,而这个算力模块称为英特尔VPU。
与CPU、GPU不同,英特尔VPU将更专注于AI加速,特别是稀疏化处理的运算,并且具有低功耗、低延迟的诸多特点,不仅可以轻松处理视频背景虚化、智能语音降噪等判定式AI,加速Stable Diffusion这样生成式AI也没有问题。
重点是,英特尔已经确认下一代处理器Meteor Lake将集成VPU,这意味着未来的轻薄本也同样具备一定的AI算力,实现不曾想象的AI操作。那么究竟是什么样动力,让英特尔如此积极的驶向终端AI的新赛道?
AI的质变
尽管英特尔以CPU和IDM模式而闻名,但在AI硬件领域英特尔也同样进行了长时间的积累,例如在CPU中添加AI加速的相关指令集,并在架构上针对AI不断进行优化,已经发展到第四代的英特尔至强可扩展处理器就是其中很好的例子,从2017年开始,至强可扩展处理器就不断增加了深度学习加速、矩阵计算扩展AMX等功能。
而今,英特尔在AI领域即拥有负责高端深度学习加速器Gaudi系列的Habana Labs,也拥有可以制造低功耗视觉处理单元的Movidius。在大量的AI经验积累下,英特尔开始尝试让消费产品涉及AI加速功能。也正是从Ice Lake架构第10代酷睿开始,CPU开始搭载AI加速单元GNA,用于处理神经噪声抑制、背景模糊等功能判定式AI加速,让笔记本开始走向智能化。
同时AI需求在近2年内变化非常明显。以降噪功能为例,2年前降噪计算复杂度与现在相比,相差将近50倍。类似Stable Diffusion这样的生成式AI加入,对PC性能需求提升了一个唯独。如何在不插电的笔记本中流畅运行更高负荷的AI应用成了新问题,VPU正是为了填补这个空白而诞生。
即将实装Meteor Lake的英特尔VPU其实已经进阶到了第三代,这款源自于英特尔全资子公司Movidius的处理模块最早计划应用于无人机、相机、VR设备等基于视觉深度学习和AI加速。在2017年,VPU的前身Myriad X就能实现1 TOPS的吞吐量,这无疑让人们对全新的VPU性能表现抱有更多期待。
同时,VPU不是旗舰处理器的独占功能,它将出现在Meteor Lake的所有SKU中。这意味着VPU带来的AI加速功能将是处理器一项基础功能,与集显、Thunderbolt 4等一样,成为CPU中不可缺少的一部分。
但VPU的加入不代表着之前集成在CPU上的AI技术会划上句号。恰恰相反,由于AI应用场景的复杂性,英特尔将AI使用场景分成了三个部分,其中CPU负责处理诸如语音降噪、变声这样的轻负载、低延迟、高响应的AI加速,GPU负责重负载且对响应需求不高的AI模型加速。VPU正好介于CPU和GPU之间,即拥有低功耗、快速响应的特点,也可以负责基础的视觉处理,比如流媒体中的手势识别,背景虚化等等。
在Meteor Lake中,VPU和CPU、GPU将相辅相成,不同的AI应用场景会指派不同的处理单元应对,确保AI加速效率最大化。同时从功耗上来看,VPU则是要求最低的,次之是CPU,再次之是GPU。VPU的加入能给注重续航的笔记本在获得新功能的同时,保证笔记本的续航和体验顺畅。
为此英特尔也特意准备了一个DEMO演示。一款只有集显的Meteor Lake开发笔记本,在Stable Diffusion的文字生成图片模型内,仅使用了20秒就完成了工作。这个过程中,Meteor Lake的VPU主要承载了VNET模块的运行,GPU则负责Encoder模块运行,CPU则负责软件运行的其他部分,整个系统被得到充分利用,实现了在当下只有依靠高性能独立显卡PC才能完成的工作。
软硬件相辅相成
生成式AI的快速成长自然也会带来不少问题,比如的AI开发界面,AI库以及AI模型标准化或者统一化上需要时间,不同软件、模型、开源项目之间各自为战,虽然百花齐放,但很难形成统一管理,会影响资源调用的效率。比如时下热门的Stable Diffusion也仅诞生于2022年,作为一个开源项目,还有大量的工作需要适配。
在行业内拥有庞大影响力的英特尔深刻了解软硬件结合的重要性,在宣布VPU进驻Meteor Lake的同时,英特尔也已经紧锣密鼓的在软件层面、软件合作伙伴方面展开行动。
从软件层面来看,VPU身后已经具备了整套软件基础,英特尔OpenVINO工具可以帮助VPU在应对不同领域的AI网络模型时,进需要通过统一的软件接口实现。OpenVINO相当于一个包裹,可以帮助应用把底层不同架构之间的异构计算的差异统一封装,以实现更广泛的应用适配。
同时英特尔也提供了对目前主流标准的支持,比如通用的网络视频格式ONNX,W3C允许通过浏览器进行神经网络推理硬件加速的WebNN API,微软基于DirectX12的机器学习底层推理接口DirectML等等。
同时英特尔也已经与软件开发商展开紧密合作,包括Adobe、微软、字节跳动、腾讯在内的100多家软件开发商已经开始进行AI相关方面的合作。
得益于VPU非常省电的特性,使得许多终端可以在仅使用电池续航的状态下,也能拥有高效的表现,原本需要CPU、GPU高功耗合力进行的AI任务,现在仅使用VPU即可完成。比如在执行GPU渲染的过程中接通会议电话,通过VPU介入流畅的实现降噪、背景替换等工作。
再比如Adobe上的自动抠图、滤镜、文字生成图片等最新功能,通过VPU运行也已经可以获得很好的效果。另外,Blender、虚幻引擎等软件也已经对VPU展开了适配。
在庞大的安装量推动下,英特尔在产品投向市场之前已经做足了软件层面适配的铺垫。笔记本VPU与CPU、GPU以及其他功能模块一起,成为下一代PC的标准配置,也进而推动了整个AI生态的普及与标准化,从而推动AI应用的持续发展,最终实现了良性循环的局面。
开创AI体验新局面
在过去两年中,英特尔进步非常显著,通过12、13代酷睿的两代高性能混合架构设计,英特尔已经与OEM合作完成了超过700个系统设计,交付了1.2亿个高性能混合架构处理芯片,使之在短时间内快速普及。
但对于英特尔而言这还远远不够,按照英特尔CEO帕特·基辛格提出的IDM2.0战略,英特尔还会在四年里跨越5个制程工艺节点,从现在的Intel 7迈进Meteor Lake开始使用的Intel 4,紧接着Intel 20A和Intel 18A也会相继到来。
不仅如此,英特尔也将使用第三方代工的制造工艺来完善处理器产品,从Meteor Lake开始使用的分离式模块架构,让处理器设计不再一体化,而是不同单元会成为不同的独立设计模块、不同的制造工艺和升级策略,实现效率的最大化,英特尔VPU的加入就很好的印证了这一点。
在即将到来的Meteor Lake上,英特尔将从另一个维度提升处理器的每瓦性能表现,让处理器获得表现更好的CPU、GPU,并加入独立的VPU单元提升PC整体对AI性能优化,从而带动PC体验的又一轮升级。
在过去几年中,我们经历了Wi-Fi 6、处理器混合架构、Thunderbolt 4接口的快速普及,均得益于英特尔将新技术无保留的放入主流的处理器设计中。英特尔VPU则成为下一个增长点,凭借着新一轮处理器升级带来的庞大体量,不插电、低功耗环境下使用流畅的AI加速体验,无疑会给现有的AI软件生态、AI标准制定带来全新的变化。英特尔也将再次成为整个PC软硬件生态升级的重要推手。