3月6日,中兴通讯股份有限公司发布2025年度业绩,虽然净利下滑,但是该公司算力业务实现了跨越式增长,全年营收同比增长约150%,该公司表示将持续构建AI端到端能力矩阵,为长期竞争力夯实基础。
伴随着人工智能产业的快速迭代,应用的持续发展,算力像水一样流淌,中国的算力服务商正迎来一个全新的发展机遇,同时也不得不直面众多不期而遇的挑战。
1月下旬,AI云计算服务商派欧云计算(上海)有限公司 (即PPIO)进入一种特别的“备战”状态。中国人工智能模型的使用占据了全球市场的主导地位。彼时,多家国产大模型厂商密集敲定档期,不约而同地选择春节前后推出新模型。为了保证首发时的算力弹性,作为算力服务商的PPIO,其核心任务是帮助模型厂商兜住不确定的流量冲击。
一方面,模型性能持续提升推动Token消耗量暴涨,另一方面,AI编程、OpenClaw等智能体应用带来了巨大的Token需求增量。清华系国产算力软件企业北京清程极智科技有限公司联合创始人师天麾表示,至少在两三年之内,直接调用API而无须关注底层技术细节的MaaS(模型即服务)还会保持高增长,算力价格正在面临上行压力。
在PPIO联合创始人兼CEO姚欣看来,AI已进入到未来一两年内十倍百倍高速增长的时期,所有没有准备好应对这种增长的行业,短期内都会遇到这种供不应求的情况。但就像水波纹那样慢慢扩散,最终会趋于平稳,产能提升。
Agentic AI爆发推动算力增长
在AI模型聚合平台OpenRouter上,中国人工智能模型的使用占据了主导地位。2月24日公布的数据显示,中国大模型占Token总消耗量的61%,这些模型主要应用于编程和智能体驱动的工作流程。
周度统计数据显示,中国模型的Token总消耗量达5.3万亿,前十大模型总消耗量为8.7万亿Token。该平台使用量排名前三的模型均来自中国。受编程应用场景推动,MiniMax M2.5 Token使用量激增近200%,以单周消耗2.45万亿Token登顶榜首。Kimi K2.5位居第二,消耗1.21万亿Token,智谱GLM-5以7800亿Token消耗量排名第三。
应用重点的结构性转变支撑了Token的消费数据。在OpenRouter上,编程已成为Token消耗的最大应用类别。此外,自主执行多步骤任务的智能体驱动工作流,消耗的Token占该平台输出Token总量的一半以上。
成立于2007年的北京并行科技股份有限公司董事长陈健告诉澎湃科技,算力服务已形成模型训练、推理服务、科学计算三大明确场景,用户需求从算力资源向Token服务转变。其中,推理服务与Token消耗深度绑定,是当前体量最大、增长最快的场景。大模型应用多为输入少、输出多,AI编程则呈现输入输出双高特征,Token消耗量呈指数级增长。
“目前行业共识是,2026年在MaaS领域,Token的需求量至少有十倍增长。”清程极智联合创始人师天麾对澎湃科技表示,模型能力持续提升是Token消耗量暴涨的根本动力,其中又以编程和角色扮演类聊天这两大应用的Token消耗量为大。在AI编程中,模型需处理极长的上下文才能准确编程,开发者要反复与模型沟通、调试、优化,长上下文和高频交互的特点使得编程调用的Token远超普通问答。
而OpenClaw等热点应用的涌现迅速吸引大量用户,推高Token消耗。未来主要的Token消耗量将集中在OpenClaw等智能体应用上。“调用一次智能体实际上是调用了多次MaaS或API(应用程序接口),比如用智能体点外卖,智能体会调用多次API执行任务。”
编程和聊天的算力消耗以Token为计,从更广义的算力消耗来看,以图片数量计价的图片生成,以及以时长和分辨率计价的视频生成,同样消耗大量算力。
云服务是AI落地的“输水管道”。PPIO联合创始人兼CEO姚欣对于算力增长的预期同样乐观,“2024年,模型训练慢慢转向推理,去年推理大爆发,Token成为核心关键词,背后和大量国产开源模型的爆发相关。到今天,无论是OpenClaw还是AI编程,主题都从生成式AI切换到Agentic AI。”
由于“算力需求增长实在太快”,他计划进一步上调今年的企业目标。一个确定性的增长就是AI编程。MiniMax M2.5、Kimi K2.5、智谱GLM-5的AI编程能力基本追平海外半年前的顶尖模型,Token出海的主要消耗几乎是AI编程。
“在海外,我们已经看到的一个趋势是,大家不是因为国内模型的Token便宜而使用它,而是因为足够好用才用它。”这让PPIO在今年春节期间面向海外市场推出Coding Plan,“本质上,大家购买的是智能能力。”
产能不足传导供应链价格整体上涨,配套部件扩产
推理需求持续增长,但在算力供给侧,高性价比的推理显卡产能有限,国内外均稀缺。算力供不应求,提高算力价格是一个合理选择。
今年2月,智谱发布Coding Plan调价公告。“由于GLM Coding Plan市场需求持续强劲增长,用户规模与调用量快速提升”,决定取消首购优惠,保留按季按年订阅优惠,套餐价格整体涨幅自30%起。由于算力供不应求,今年以来,智谱多次对国产芯片集群扩容,并限量发售GLM Coding Plan套餐,招募“算力合伙人”,开放核心技术接口,针对GLM-5的底层优化,提升软硬一体化性能。
随着AI编程等应用的普及,陈健表示,并行科技和Token相关的收入在总营收中的占比正持续提升。Token使用量和生成质量要求同步攀升,推理算力需求持续高涨,算力价格面临上行压力,产业链价值向算力供给和模型优化端集中。算力网络将成为支撑AI应用规模化发展的核心底层基础设施,开发面向Token生成的专用芯片成为产业共识,预计明后两年针对主流模型推理的专用芯片将规模化落地,届时专用芯片将与算力网协同,释放AI应用潜力。
师天麾表示,硬件采购成本日趋透明,国内电力支出相差无几,单纯依靠硬件堆叠难以构筑竞争壁垒,必须在软件技术层面形成差异化优势,以软件技术提升推理效率,降低算力成本,提升利润率。“MaaS的特点就是推理优化的infra技术越强,MaaS利润率越高。”
MaaS通过云端平台将预训练模型封装为可调用服务,用户可通过API直接调用而无须关注底层技术细节,由于所有用户均摊服务器成本,调用一次API的成本仅几分钱。“随着越来越多的企业明确了AI在业务场景中的落地路径,确定了所需的并发处理能力以及对应的服务器规模,今年我们接到的大规模推理性能优化的需求越来越多。”师天麾表示,“比起纯粹租算力,MaaS是一种更好的服务形式。对开发者来说,使用门槛和使用成本更低,至少在两三年之内,MaaS会保持高增长。”
算力成本整体呈上涨趋势,姚欣对此补充了一个“反直觉”视角。今天,限制AI和算力的瓶颈并非最高端的芯片,而是那些普通的IT技术、传统的配套部件。过去十年,内存、硬盘乃至交换机等传统IT基础设施产业链一直保持与全球GDP增速相当的平稳增长,长期稳定的需求预期决定了温和的产能扩张节奏。但人工智能的爆发式增长打破了这一平衡。GPU出货量大增,配套周边部件在这种“拐点式”需求下,供给能力被甩在身后。“高端芯片产能是扩上去了,但其他产能没跟上。当然,这一波大家都被打疼了,所以包括内存硬盘在内的传统部件纷纷扩产。”
姚欣表示,产能扩充只是第一层。当上游部件到位后,中游的机房建设、设备部署等基础设施环节又成为新的堵点,这些物理设施的建设周期天然缓慢。“它就像供应链一样,一层层往上传导。在北美更夸张的是,找到了电力,找到了机房,买到了所有设备,最后施工工人告诉你,排期已经排到16个月、18个月甚至2年以上了。”
AI全球扩散,价格的传导也不再局限于科技领域,大宗商品及基础工业原材料市场同样受到冲击,以铜为代表的金属材料因广泛应用于AI相关的元器件制造,导致需求增加,价格上涨。姚欣表示,AI已经进入“奇点时刻”,“进入到未来一两年内十倍百倍高速增长的时期,所有没有准备好应对这种增长的行业,短期内都会遇到这种供不应求的情况。但就像水波纹那样慢慢扩散,最终会趋于平稳,产能提升,届时全球GDP也能上涨。”