最常见的方式是提供算力。大模型需要大算力,因此,对算力尤其是英伟达GPU的巨额投入是不可或缺的。英伟达曾透露,2023财年数据中心业务有40%的收入来自超大规模数据中心与云服务商。
但现在,云计算厂商又多了一门新生意。
近期,有“混合云第一股”之称的云厂商青云科技推出了两款新的云产品——AI算力调度平台与AI算力云。AI算力调度平台是一款软件产品,它介于底层的资源层与上层的模型层之间,通过整合不同来源、类型和架构的算力资源,实现统一调度与运营,为用户提供按需获取和调度的服务;AI算力云,就是以青云为主来运营的AI算力服务。
这两款AI算力产品与服务针对的是算力中心的短期建设与中长期运营的需求。青云科技总裁林源表示,今天中国云计算市场处在算力建设阶段,大量的数据中心如雨后春笋般出现,这些建设者有地方政府、国资央企、地方AI集成商等。对于建设者而言,成本与技术的挑战都很大,比如一台最新的一台英伟达服务器高达200万元。如此大的投资,怎么建?建成之后如何运营,如何赚钱?这些问题都需要有人来解决。
青云科技的AI算力调度平台已经成功服务于国家超算济南中心。济南超算中心是一个多元计算中心,对外提供1000P算力、300PB存储,算力类型包括HPC超算,主要服务于山东省的高校;以CPU为主的通用算力,主要服务于传统的政务云、企业数字化应用;以GPU为主的智算,主要服务于智慧城市,以及正在爆发的AI需求。
济南超算中心的建设覆盖了几乎所有产业链上下游公司,但青云科技为其独家提供了算力调度平台,至今已经运营了3年。济南超算中心目前已经盈利。
对于AI算力云服务,不同于大厂选择重金投入GPU来获取稀缺的算力资源,青云科技采用了“轻资产”运营,以生态合作的方式共同运营AI算力。
以济南超算中心为例,建成之后不仅服务于当地企业,也会服务于全国其他地区的企业。当青云科技的客户有算力需求,青云科技可以通过直接调度济南超算的算力向客户提供AI算力资源。因此,青云科技既是济南超算的供应商,也是其渠道商。
这样的案例不在少数。青云科技已经与北京、宁夏、河南、湖北、四川等地区的算力中心建立起合作关系。
在2023年半年报中,青云科技披露AI算力服务的收入超2000万元。林源表示,未来AI算力产品与服务将会成为青云科技营收的主力。
过去十年中国云计算市场一共经历了三次比较大的市场机会。第一次是数字化,移动数字化催生了公有云,产业数字化催生了私有云;第二次是信创与国产替代。而当前爆发的生成式AI,就是第三次大机会。
林源认为,2023年由GPU驱动的智算,正如十年前的2013年由CPU驱动的通用云计算。而这一次的市场规模,要比过去大10倍、甚至100倍。
近期,「甲子光年」等媒体采访了青云科技总裁林源,青云科技产品经理苗慧。以下是专访实录,略经删改:
与大厂定位不同
问:青云的算力调度产品有哪些特色?
苗慧:简单做几个举例。第一,青云针对上百台机器的大集群,研发了更加优化的调度算法。比如在调度的链路标签上,尽可能做到调度同一个交换机,减少数据的损耗。第二,在应用环境上,青云应用了K8s和Slurm两种调度平台同时为客户服务,是完全集成好的。在颗粒度和运维传统机器方面,也会有更多的优化。
问:大厂、运营商、私有云厂商也有软件能力,为什么说青云的AI算力调度运营是青云科技的优势?
林源:首先,私有云厂商想做,需要补齐十几年公有云运营的经验。第二,大厂的定位一定是发展自己的云,而不是支持别人去做云,或者说支持第三方做云只是他的一个项目而已,他的主力在自己的云产品与服务。
苗慧:比如对于国家超算的人员配置,根本没有研发这个岗位,全都是运维人员。用户通过青云AI算力调度平台,申请10台机器,5分钟内就能得到。否则,运维人员需要两个人部署三天,这就是更多的投入。
问:英伟达今年推了一个AI云产品叫DGX Cloud,青云的产品和英伟达DGX Cloud在定位上有没有相似?
苗慧:DGX-Cloud还是基于硬件。英伟达在今年发布了24台机器的整机,巨大的机器上云一定会有优势。但是DGX Cloud不在中国区运营。从资源层和运营层都是其自身的。而青云的算力调度产品不仅自己的公有云能用,还能给到任何一家算力中心。
林源:英伟达DGX Cloud还是单一算力,肯定以GPU为主。站在英伟达的角度,他服务于大模型的训练、推理,定位就是主面对AI的场景,以及卖GPU卡。而青云科技根据中国市场国情,需要向下兼容,不同的客户需要的芯片算力种类不同,既有GPU,也有CPU、超算。比如我们跟英特尔9系列做适配,一个芯片2T内存,在推理场景比英伟达还要好一些。青云的算力调度平台,针对的是多元算力。
问:很多大模型厂商会选择自己买卡,这类厂商对于青云科技的AI算力云还有需求吗?
林源:大模型厂商自己的规划中,有相对固定的部分,他会更愿意买卡,因为现金充裕,会更加可控,这部分跟青云确实没太大关系。但在模型训练阶段、项目落地阶段,有很多弹性需求,比如他需要训练行业模型,同时希望跟一场算力云厂商合作提供MaaS的服务。大模型公司一定会买一部分,自建一部分。
“轻资产”提供AI算力
问:青云自身在算力上的投入是怎样的?
林源:GPU不太一样,青云不会跟云大厂拼投资,而是以相对“轻资产”的方式与别人一起运营AI算力云。青云是联合运营方,投资的是技术与产品,但不会花1个亿买几百张卡、几百台服务器。重资产不是青云的价值所在。
问:那谁来做算力层面的投入?
林源:目前来看,算力层面上的投资建设者主要有以下几种。第一种是地方国企和地方央企,例如能源公司,他们有强烈的兴趣将电力转变成算力。第二种是地方政府,他们需要新的工具来促进产业聚集,提升GDP,有些直接进行投资,有些与央企或银行合作。第三种是大模型公司、AI芯片公司等,他们在各地都参与建立了算力中心,但缺乏标准平台,他们也想销售他们的硬件或整合解决方案,通常更愿意与独立的供应商合作。我们之间互为渠道伙伴,青云协助他们进行计算资源调度,并一起提供AI计算资源云服务。
以济南超算为例,济南超算会基于他投资的算力直接卖给他的客户,青云也会出售给青云的客户,青云既是他的供应商,也是他的渠道商。未来所有的本地数据中心建设都会面临这个问题,当地企业会消费一部分,剩余部分他会希望有人帮他消耗。AI算力云与算力调度中心是青云的同构产品,可以进行系统级的产品对接。
问:除了和济南超算有合作外,还有其他的合作方吗?
林源:跟北京、宁夏、河南、湖北、四川等地区有合作。北京是以高校为主,宁夏是地域性的算力投资建设者,四川、湖北是能源公司,河南是地方政府。还有一些小城市,主要是一些AI合作伙伴,对接当地的算力中心后,用青云的调度平台做赋能。
问:青云自己提供云服务和青云给甲方提供算力调度服务,会成为一种竞合的关系吗?
林源:我们先看下市场现状,为什么会有那么多供应商和地区云、国资云、地方私有云平台呢?这是中国的市场形态决定的,每个人都有所属的客户和资源。AI来了之后,市场会不一样吗?我觉得不会那么快改变。
问:目前市场上算力资源不够,怎么办?
林源:算力不够的核心是GPU芯片的供货问题,不在于我们。用户一般是签完合同后等着我们的算力供应,所有厂商都面临相同的问题。但是不同厂商的解法不一样,大厂是靠钱买,青云的方式是与合作伙伴一起。青云的核心是调度平台,但不妨碍青云一起给客户提供AI算力云。
问:在青云开放同盟中,有哪些厂商?青云处于什么地位?
林源:可以分为技术生态和商业生态。技术生态的第一层是GPU、CPU等异构芯片;第二层是模型生态(MaaS),包括主流的商业大模型、开源大模型。在芯片层跟模型层之间,就是算力调度层。算力调度层不仅靠青云,也有很多厂商在做模型的加速和模型的驱动。技术生态还有一环,就是行业ISV。
商业生态,包括我们说的智算中心建设方,以及天然就能帮你售卖的合作伙伴。
问:在AI时代,大家合作的意愿会比以前更强吗?在巨大的市场红利面前,为什么会愿意收益共享?
林源:先谈主观看法,我认为有必要这么做,大家就应该各司其职、合作共赢。现在持这种想法的不只青云一家。哪怕是客户,也不希望一家独大,不希望被一家厂商绑定。他希望在每一个细分领域找到最优秀的人,为他提供整体解决方案。这是一个正常的、合理的商业模式。
第二点是客观。一家企业很难从底层资源到上层应用,自己把做有事情做好,AI时代这会比过去更难。现在的经济环境,要核算投入产出比,需要成为所有行业的专家,才能“单打独斗”,这是一个客观的挑战。
问:AI会给现有的云厂商格局带来一些什么样的变化?青云如何定位自己未来的位置?
林源:AI一定会对于现在的云厂商带来变化。第一,对于底层技术的需求,以及对于合作的模式,都在发生变化。
第二,现在所有人都在同一起跑线上。我判断会有一些新晋做AI Cloud的公司进入市场。传统的IDC已经不适合GPU运行,因为能耗、设计都不一样,传统IDC面临改造升级。
第三,有些云厂商自己也做大模型,青云科技不做,而是深耕AI算力调度平台。面对新的AI应用需求,大家需要很多技术积累、技术迭代,这特别像2013年的云时代。
在资本侧,确实可以自己投资建设,但现在AI不缺投资者与建设者,缺的是运营平台。资本会有影响,但不会像以前那么大。
总结来说,大厂在技术与资本层面并没有明显的优势。我们为什么拥抱AI,因为AI是唯一的新生市场,是增量市场。2017年之前,大家不会考虑增量市场的问题,但之后客户应用在饱和,越来越多的云厂商冒出来,这时候大厂靠自己的品牌以及价格优势在公有云市场上来抢夺机会。现在大家忙的不是竞争,而是在AI时代如何为客户更好地服务,解决算力问题。
AI会成为未来营收主力
问:青云科技的半年报显示,今年上半年AI算力服务的收入有2000多万元。青云的算力产品与服务,未来可以带来多大的营收?有哪些期待?
林源:营收以公开的财报口径。但基本上有这样一个趋势:AI算力现在更多以训练为主,之后我们希望它进入推理阶段。训练的增速是可以期待的,2023年以GPU为主的算力云,就跟2013年以CPU为主的云一模一样。2013-2017这几年,所有云厂商都是100%的增长。
问:AI算力是一个很大的市场,但AI算力调度是否只是其中一小部分市场?
林源:我们看的是两块,第一块AI算力调度本身,这有点像原来传统交付模式的生意。第二块是AI算力云,它既有产品的部分,也有服务的部分。这一部分未来十年的市场空间更大,我觉得是10倍、100倍的增长,而青云科技至少会比上一阶段做到的规模更大。
问:青云现在的营收主力还是私有云,未来AI算力调度会成为营收的主力吗?
林源:我觉得它一定会成为主要的营收,但是它需要点时间。过去青云最早做数字化、做信创业务,尤其过去两年信创占私有云很大一部分,这不是青云决定的,而是市场决定的。之后所有的客户都会往AI迁移,不管是传统客户还是互联网客户,生意模式与运营模式都会由AI驱动。如果不做AI,真的会落后。所以,它一定会成为主营的业务。
问:在AI算力服务这一块,客户需求比较旺盛的主要集中在哪几个领域?
苗慧:主要就是训练。现在大模型作为技术基础,在上层面向不同的行业。只要能标准化的,都在大规模地做模型的训练,然后生产出自己的小模型。在理解人类意图的时候,意图模型也随之更新。所以,如果我要做一个行业,大概要训练3~5个小模型,为这个行业提供服务。
问:青云算力调度平台是一个标准化平台吗?在行业的应用上有没有差别?
林源:青云对算力调度平台的定位就是“产品”,产品就是标准化的。在济南超算这一客户中,会有客制化的部分,但那是他要做的事情,不是青云要做的事情。青云的定位始终是一家软件产品公司,而不是一家项目公司。
问:青云现阶段更希望吸引什么样的行业,或者什么样的行业有更大的意愿采用这一产品?
苗慧:青云AI算力调度平台主要服务于超算中心、区域算力中心、区域电信、区域的一些合作伙伴,我们共同建设起那朵云,共同运营。
第二是青云公有云的AI算力云,主要服务于大模型的开发商。因为大模型开发商也在面向客户提供一些像金融领域的模型、交通领域的模型,它需要大规模的机器进行训练,青云还是面向于这种模型提供商比较多。
第三是青云计划今年年底或者明年,大规模的推理就会上云,因为大规模的训练研发工作会有一个阶段性的成果,推理服务会是之后相对重点的工作。
(来源:News快报)