输入关键词搜索这篇报告

📚 我的书签

🔖

还没有书签

使用章节导航快速跳转报告内容。

📊 阅读进度
阅读进度0%

供电与冷却:AI 工厂时代的投资笔记

Rubin 800V、液冷、模块化与 AI 工厂电力架构研究报告

分析日期: 2026-06-24

写在前面

先把结论放在最前面:供电和冷却系统正处在一轮结构性升级的早中段。但真正的变化,不是“液冷替代风冷”这么简单,也不是“800V 替代旧电源”这么简单。它的本质是——在英伟达 Rubin 之后,AI 数据中心开始要求电力、散热、储能、控制、安装和质保被当成同一个系统来设计。

再往下推一层:这一轮价值捕获最强的公司,不一定是某个零件出货量最大的公司,而是能从源头参与参考架构、能把“电”和“热”打包在一起、能在工厂里把系统预制好、并且愿意对现场实际运行负责的公司。换句话说,行业的定价逻辑正在从“卖设备”迁移到“卖控制权”——谁能控制功率怎么调度、电力怎么缓冲、热量怎么排出,谁就占住了下一代 AI 工厂里最稀缺的位置。

这份笔记就是围绕这条主线,把时点、本质、关键位置、未来趋势和具体标的,一条线讲清楚。需要说明的是:下文出现的所有公司,都只是我个人的研究和跟踪对象,不构成任何买卖建议;很多看法依赖我自己对扩产、招聘和订单节奏的推断,可能出错——请各位用自己的框架,再独立判断一次。

第1章:时点:产业升级的前段,尚未全面兑现

先看需求底座,这部分可核实、可查证。国际能源署(IEA)的基准情形预计,全球数据中心用电到 2030 年会升至约 945 太瓦时(TWh),比 2024 年大致翻一倍;高盛(Goldman Sachs)预计美国数据中心的电力需求,会从 2025 年的 31 吉瓦(GW),上升到 2026 年的 41GW、2027 年的 66GW,两年翻一倍多。也就是说,AI 工作量、功率密度和数据中心用电,构成了一个较强的长期需求根。但要分清楚几件不是一回事的事:工作量需求、规划中的兆瓦、真正能交付的兆瓦、以及最后落到公司报表上的收入。需求根强,不等于所有公布的容量都能按期变成设备收入——项目还要依次穿过客户的资本回报、融资、并网许可、架构冻结,最后才落到现场验收。所以真正的预期差不在“有没有需求”,而在“谁能把需求接住、并把它转化为利润和现金”。

但需要注意,今天市场的主线仍然是上一代和过渡代的架构:传统交流配电、机柜内 54V 左右的供电路径,加上 Blackwell(GB200/GB300)那一代的高密度液冷部署。英伟达 Rubin 这一代(VR200)会从 2026 年下半年开始进入更明确的设计、认证和交付节奏;但把 800V 直流大规模推上主线,更可能是 2027 年 Rubin Ultra(对应 Kyber 机柜)之后的事。Vertiv 把 800V 直流产品线安排在 2026 年下半年发布、用来配合 2027 年的 Rubin Ultra,印证了这个节奏。

所以未来几年大概率是“多种电压、多种冷却路径并存”的过渡期,而且要把时间分清楚:2026 年的主流,更接近传统交流设施底座加机柜内 50/54V,再叠加机柜或 Pod 侧的 800V 高压直流“桥”,以及风冷与液冷双路径并存;2027 年原生 800V 和更高密度机柜开始商业化;再往后(2028 年以后),整流、储能和控制才可能进一步上移到 Pod、数据厅乃至设施边界。把这几种拓扑摆在一起看,真正耐久的价值,不在某一台 sidecar、某一台 CDU 或某一台冷机上,而在能跨越这些拓扑的接口、安全认证、工厂测试、服务和运行数据——这也是为什么“位置比订单更重要”。对投资而言,价值会高度集中在少数几个环节上,但那不是简单的“垄断”——800V、OCP、机柜和液冷正在同时推动开放标准和多源采购,所以更准确的说法是:高认证壁垒、高责任边界、高切换成本、能收到结构租的位置。这一点后面会反复出现。

第2章:本质:电和热正在变成同一个系统

从结构上看,这一轮的机会不应被拆成“电源股”和“液冷股”两个孤立赛道。

原因在于物理本身。AI 训练和高强度推理的负载不是平滑的,会形成同步的峰值功率;机柜密度一旦提高,从机柜里的电流、铜材、母线(busbar,传输大电流的铜排),到冷板、CDU(后面会解释)和最终排热,一长串环节都会被同一件事牵动。所以未来真正有竞争力的公司,会把电力和散热统一整合,朝“全栈方案商”的方向走——Vertiv、施耐德(Schneider)、伊顿(Eaton/ETN)就是例子;西门子(Siemens)这种传统电力设备巨头,也开始联合 nVent(NVT)这类做散热和液冷接口的公司,一起参与英伟达的设计。而英伟达自己早已不是只卖 GPU 的公司,它在交付一整套“AI token 工厂”的参考方案。

在这个过程里,有几个底层变化正在发生,值得逐一讲清楚。

2.1 为什么必须走高压直流(800V 解决了什么)

过去数据中心的供电方式,是把电网来的中压交流电(AC)逐级降压、整流、再降压,最后送到 GPU。未来 AI 工厂的方向,是把一部分转换过程“前移、集中、直流化”:用固态变压器在设施入口处直接把中压交流转成 800V 直流,用高压直流母线把电送到机柜附近,再在机柜(rack)、机箱(shelf)、板(board)这几级做最后的降压。概括而言——过去是“很多小电源各自分散转换”,未来是“集中整流 + 高压直流分配 + 靠近芯片的高效率 DC-DC 转换”。

这里有一个常被忽略的关键区别:现在大家说的 48V/54V 直流,其实还是在机柜里做交流转直流,只是把机柜内部的配电从交流换成了直流;而 800V 直流是把转换这一步直接推到设施层,机柜里只留一次高效的直流降压。这是从“机柜级直流”到“设施级直流”的架构跃迁,不是同一件事。

这么改的原因,是 AI 机柜的功率密度已经显著超出传统低压交流配电和服务器级电源的承载能力。背后有两层机制。

第一,转换损耗会逐级叠加。在传统路径下,每一级转换的效率看起来都很高,比如 96%、97%、98%;但逐级相乘之后,损耗就很明显。如果每一级保留 97%,转五次之后只剩下约 86%(0.97 的五次方)——也就是额外损失约 14% 的电,这些电全部变成热,又给散热系统增加了负担。(这里的五级、97% 只是用来说明复合损耗的示例,真实系统的转换级数和效率曲线随拓扑、负载率而异,不代表某个具体平台的实测值。)

第二,低压系统真正的麻烦是电流过大。功率等于电压乘电流,功率上升、电压不变,电流就会大幅上升;电流一大,铜线的电阻损耗、连接器、发热和安全冗余都会迅速恶化。高压直流的本质,是用更高的电压把电流压下来:英伟达给出的数据是,同样的铜,800V 能多送 150% 以上的电,单个机柜可省掉约 200 公斤的铜母线。而电流不只影响铜线,还牵动一连串配套设备——UPS(不间断电源,停电时顶上的电池)、PDU/RPP(把电分配到机柜的配电设备)、配电柜等等。这些冗余设备会挤占 GPU、HBM、NVLink、网络交换芯片和液冷的空间,也直接加大施工难度。新方案就是把多级低压交流配电和分散整流,压缩成更少层级的“集中整流 + 高压直流分配”。

还有一个直接对应投资机会的细节:电流的麻烦,到了芯片那“最后一厘米”最尖锐。GPU 核心工作在约 1V、却要吃下上千安培的电流,而铜的电阻损耗与电流的平方成正比(I²R)——在上千安培下,哪怕电路板上只有几毫欧的电阻,也会烧掉可观的功率、并在局部形成热点。应对办法有两条:一条是前面说的、在上游把电压抬高、把电流压低;另一条,是把稳压模块(VRM)从芯片旁边(横向供电)搬到芯片正下方(垂直供电,vertical power delivery,VPD),把大电流路径缩短到毫米级,直接削掉电路板平面的电阻损耗。这条“把电源搬到芯片底下”的趋势,正在变成一个独立的争夺点——受益者是做中间总线变换器(IBC)、VRM 和板级电源模块的公司,以及封装和基板环节,也正是 Flex 这种“芯片级电源提前介入设计”能切进去的位置。

对投资的含义很直接:价值会从普通 UPS、低压配电、传统机房电源,迁移到高压直流保护、固态断路器、整流柜、母线槽(busway)和板级 DC-DC 模块这些新环节上。

2.2 高压时代被放大的三个“不平衡”,催生了三类新硬件

当系统走向 800V 乃至更高电压时,有三种“不平衡”会被放大,而每一种不平衡,都对应一类新的硬件需求。这是判断功率链投资机会的主框架。

第一种,是电压稳定性的不平衡,也就是“多时间尺度的能量稳定”问题。GPU 需要极其稳定的低压供电,一旦电压不稳,GPU 会在极短时间内拉高电流、把电压拽低,严重时可能损坏核心器件。解决这个问题靠的是高端电容(高容值 MLCC 等陶瓷电容),它要在纳秒级内把电压稳住,通常贴在 GPU 的稳压模块(VRM,把电压降到芯片能用的那一级稳压电路)旁边、CPU 供电模块和 DC-DC 输出端。电压跨度越大、密度越高,对这种高端电容的需求量就越大。

第二种,是算力需求的不平衡,也就是常说的功率脉冲(power spike)。这里值得把机制讲透:一个训练任务会把成千上万张 GPU 同步起来,于是负载可以在几秒内阶跃几十兆瓦,或者在梯度同步(all-reduce)停顿、保存检查点时骤降——这种又大又快的阶跃,是电网最不喜欢的东西,会冲击频率和电压、触发保护。所以越来越多的公用事业开始对数据中心提出功率爬坡速度(ramp-rate)的限制。过去的 UPS 只需要解决很短时间的断电;现在要解决的是更大、更长时间尺度的功率缓冲与爬坡平滑。于是储能系统——BESS(电池储能系统,Battery Energy Storage System)——在并网要求严格、AI 负载波动大、峰谷价差明显、或者需要表后供电的项目里,附着概率会显著上升;但会不会变成普遍标配,仍取决于 UPS 拓扑、可中断负载、燃气发电配置、消防规范和项目经济性,这一点不宜当成必然。需要区分清楚:上面说的高端电容和这里的 BESS 是完全不同的硬件,一个管纳秒级的电压稳定,一个管秒到小时级的功率缓冲,但它们都是被同一件事——算力脉冲——逼出来的。

再往前推一步,是一条结构性趋势:储能在 AI 数据中心里的角色,正在从“备电”升级为“实时电力缓冲器”。它要同时完成三件事——平滑短周期功率波动、在电网拥堵时缓冲负载、在峰谷电价之间做成本套利。换言之,储能会越来越像电力市场里的“做市商”或“流动性提供者”:低价时吸电、高价时放电、电网紧张时顶上。这也是 Fluence(FLNC)的核心逻辑,后面单独讲。与此同时,UPS、超级电容、BESS 和固态保护,未来会被整合成一套“多时间尺度缓冲系统”:毫秒级用超级电容,秒到分钟用电池,小时级用园区储能或现场发电。

第三种,是电压跨度的不平衡。未来的供电要从 800V 一路降到 48V、再降到芯片需要的约 1V,跨度比过去大得多。只要有“电压变化”,就一定要有功率半导体来做转换;而跨度越大、密度越高,每一级转换就越苛刻——电流不再是平稳流动,而是高频的瞬态跳变,要求微秒级响应和高频控制。传统硅基 MOSFET 不够快、也不够高效,于是两种新材料的功率半导体被推到台前。

SiC(碳化硅)耐高压(600V 到 3300V 以上)、耐高温、稳定性好、适合大功率,缺点是开关频率不如 GaN、成本较高、体积偏大。GaN(氮化镓)则是极高频率(兆赫级)、响应极快、能做得很小,缺点是耐压能力弱(不适合 800V 输入端)、成熟度略低,主要用在板级 DC-DC、VRM 和 GPU 供电这些“最后一厘米”。这里有一层常被忽略的逻辑:GaN 的价值不只是效率,更在密度。开关变换器里的电感、电容这些无源元件,体积大致与开关频率成反比——GaN 在兆赫级开关,意味着磁性元件和电容可以做得更小,整个变换器的功率密度因此大幅提升、占用的板面积更少。在一个 120 到 600 千瓦的机柜里,空间本身就是最稀缺的资源,所以 GaN 的拉力在板级、最贴近芯片的地方最强。

可以把两者的分工概括为:SiC 是高压电力的“骨架材料”,GaN 是高速电力的“神经系统”。两者是互补关系——高压主干(800V)用 SiC,中间转换(48V)是 SiC 加传统 MOSFET,低压高速(GPU 供电)用 GaN。而 SiC 这条技术路线未来的需求量很可能被显著放大,因为 AI 工厂的高压主干正是它的主场。

在美股里,最纯正的 SiC 标的是 Wolfspeed(WOLF)——它从 SiC 衬底、外延到功率器件全链条自做,没有传统业务做缓冲。但这家公司风险极高,必须单独看:它刚在 2025 年走完一轮 Chapter 11 债务重组(6 月底申请、9 月底完成),债务削减约 70%,代价是原股东几乎被清零、债转股后重生。它的技术路线高度押注在“AI 数据中心高电压”这一个方向上,没有别的产品缓冲。市场把它从一家“电动车周期的 SiC 公司”,重新定价成“AI 电力基础设施的 SiC 核心供应商”,但它同时背着一个明显的矛盾:AI 叙事在强化,可供给过剩、股本压力、盈利仍弱的问题没解决。整体看,它是一家高波动、强期权属性的标的,不是底仓。

另外,还有一个指标层面的趋势值得记下:未来衡量数据中心好坏的核心指标,会从 PUE(电能使用效率)逐步让位给 tokens/watt(每瓦能产多少 token)、tokens/MW、revenue/MW 这类“产出口径”。一个 PUE 漂亮、但 GPU 利用率低、排队严重的数据中心,并不是真正高效的工厂。这一点会反过来影响整条供电冷却链的价值判断。

第3章:位置比订单更重要:源头参与设计

这一轮一个关键的变化,是 Vertiv、施耐德、西门子、nVent、Fluence 这些公司,不再只是等客户招标后报价,而是提前进入了英伟达 AI 工厂的参考架构。这相当于提前看到了标书,甚至参与制定标书。

这个位置之所以重要,是因为下一代架构越复杂,客户越不愿意在现场临时拼装、调试一堆没有共同验证过的设备。谁能提前进入参考设计,谁就更容易把自己的电源柜、保护、冷却回路、控制软件和服务,设计进客户的“默认方案”里。

但需要保持克制:设计导入(design-in)不等于订单,参考架构也不等于在手订单(backlog)。更严格地说,“真正的 design-in”不是公司在新闻稿里说自己“支持 800V”,而是它能进入 Rubin/Rubin Ultra 的参考设计,能参与电力和散热的边界定义,能在平台正式发布前做过联合验证,并在客户实际部署时继续负责调试、运行和质保。满足这个标准的位置,比普通供货值钱得多。它真正提高的,是认证概率、客户信任和后续订单速度;但最终能否赚钱,还是要回到订单、毛利率、现金流和质保来检验。

第4章:全栈化:电和冷却在互相补短板

行业里的动作现在很清楚:过去做电力的在买冷却,过去做冷却的在往电力和控制靠,过去做机柜和连接件的在往液冷接口和模块化靠。这是一波明确的整合趋势。

伊顿(Eaton)在 2026 年 3 月以约 95 亿美元完成了对 Boyd Thermal 的收购,并把它并入电气板块。这笔交易之后,伊顿的逻辑就不再只是电气设备,而是从“电网到芯片”(grid-to-chip)的供电加冷却组合。施耐德收购 Motivair 之后,也不只是卖配电和软件,而是在补“靠近芯片的散热”能力。西门子和 nVent 合作,做面向英伟达 AI 数据中心的参考架构,再把 Fluence 的储能拉进来——这说明储能、配电、保护和液冷,正在被画进同一张设计图里。而 Vertiv 本来在电力、热管理、机柜、预制和服务上的边界就很宽,所以它在这一轮里最像一个“系统平台”。

可以把这些公司分成几层来看,而不是简单比谁更“沾 AI”。最上面是全栈平台(能参与源头设计,把供电、散热和控制打包成一整套可交付、可负责的系统,比如 Vertiv、施耐德、伊顿,以及“西门子 + nVent + Fluence”这个组合),它们的风险是估值高、项目周期长、并购整合和工程责任都很重;往下是接口与保护层(母线、机柜、连接、保护、预制电气房,比如 nVent、Hubbell、Powell、Eaton),风险是如果只是按图供货,利润率容易掉回普通工业品;再往下是设施级热管理(冷机、风墙、CDU、最终排热,比如 Modine、AAON、Trane、JCI、Carrier),风险是扩产吸收不足、质保、应收和库存、客户集中;以及功率器件层(onsemi、Infineon、MPS、Vicor、AOSL、Navitas、Wolfspeed),它们认证后收入爬坡更快、弹性更大,但波动也更大;最后是现场电力和储能层(Fluence、Quanta、EMCOR、Caterpillar、Cummins、GE Vernova),受监管、项目周期、燃机槽位和资本强度影响。

第5章:模块化与工业化

AI 数据中心会越来越复杂。如果所有设备都堆到现场组装,工程风险会显著上升——电力、冷却、控制、储能和网络同时调试,任何一个接口出问题,都可能拖累整座数据中心的上线。对客户来说,GPU 闲置无法投产,机会成本极高。

所以未来方向一定是更多工厂预制、更多出厂验收测试(FAT,在设备离厂前就把电力、冷却、控制、冗余和故障切换验证一遍)、更多标准模块。这条路径会催生几个具体趋势:交付单位会从“项目工程”变成“工业产品”,标准化的 AI Pod(固定 GPU 数、固定功率、固定冷却和网络的交付单元)成为新单位;电力、冷却、泵站、储能会被做成一个个橇装模块(skid,在工厂里预制成型、整体运到现场拼装的设备包);现场施工时间下降,但系统的复杂度并没有降低,只是从现场转移到了设计、仿真、接口、控制、认证和供应链同步上。更长远看,标准化模块还能被提前采购、融资、租赁甚至证券化——“电力模块融资”“储能容量合同”“冷却即服务”这类金融化安排,未来很可能出现。

但模块化不能简单看多,它有两面。如果一家公司能把模块化做成可复制的产品,毛利和周转都会很好;可如果它只是把现场工程风险搬到自己的资产负债表上,那么固定价格合同、接口错误、现场返工和应收回款,会逐步侵蚀利润。所以判断一家模块化公司,重点不是它宣布了多少订单,而是三件事:第一,它的模块是不是可重复的平台;第二,工厂验收能不能真正减少现场调试;第三,项目收入能不能转成现金,而不是变成库存、应收和质保。

把这条主线落到一个最直接的标的上,就是 Flex(FLEX)。它原来是全球最大的电子代工(EMS)厂商之一,这两年把数据中心的电力、冷却和算力集成打包成了一块高增长业务——从设施级配电、机柜内电源、芯片级电源模块,到直接到芯片的液冷(来自它收购的 JetCool),再到把算力、存储、网络、电源、冷却整机装配并出厂测试。如果说前面那些公司在卖“系统设计”,Flex 卖的是“把系统造出来、装起来、测好、运到现场”的能力,它最接近“AI 数据中心工业化装配厂”这个定位。

但这里要先纠正一个容易被夸大的说法:Flex 不是什么“AI 工厂操作系统”,也没有在“吃掉”伊顿、Vertiv、Modine 的利润——它本质是集成商和装配商,买别人的器件来组装,护城河在工程、全球产能和整机测试,而不在母线、开关、SiC 这些有 IP 的环节上。集成商真正的结构问题,是它夹在“有 IP 的器件厂”和“有规模、有议价权的超大规模云厂商”中间,到底收不收得到租金。这一点放到后面讲标的时再展开,因为它的答案,恰好藏在毛利率里。

第6章:一个需要澄清的误解:液冷不会取代风冷,800V 不会取消排热

这里要澄清一个常见误解:液冷不会把数据中心变成一个没有风冷的地方。GPU 和 CPU 的热量会更多地进入液体回路没错,但网络、存储、电源、机房环境和残余热负荷,仍然需要空气侧来处理。施耐德给 Rubin 做的参考设计,也不是“只有液冷”,而是液冷和空气侧并存。

真正改变的,是利润池的位置,而英伟达 Rubin 一代把 45°C 暖水液冷推到前台,正是理解这件事的钥匙。这里先回答一个很多人会问的问题:为什么新一代用的是 45°C 这种“温水”,而不是更低的水温?关键在于,芯片其实并不需要冷水。GPU 的结温上限大约在 85°C 以上,而现代冷板的热阻已经做得极低(每瓦约 0.03°C 量级),所以即便进水是 45°C、芯片功率上千瓦,结温离上限仍有很大余量。也就是说,约束根本不在“芯片够不够凉”,而在“热往哪里排、排得贵不贵”。

一旦把水温抬到 45°C,事情就变了:在多数气候下,设施这一侧可以直接用室外干冷器(本质是装在户外的大散热排)把热排掉,一年里大部分时间都不需要开机械压缩机——这就是“自由冷却”。英伟达的 AI 工厂参考设计正是朝这个方向走:闭环、干冷、几乎不用机械制冷(在某些气候下,一年里可能只有约 1% 的时间需要开冷机)。这带来两个量级上的好处。其一是省电:散热历史上能占到数据中心总用电的四成,而把冷却回路温度每抬高 1°C,冷机能耗大约能降 2%–4%,把冷机基本关掉,意味着设施开销大幅下降、更多的电量留给 GPU。其二是省水:传统冷却塔靠蒸发散热,每兆瓦每年要消耗约 260 万加仑水,而一套 45°C 的闭环干冷回路是“一次注满、终身闭环”,用水接近于零——这恰好直接缓解了“水”这个越来越硬的选址约束。那为什么不干脆更低或更高?更低的水温只会带来芯片用不上的余量,却要付出开机械制冷的能耗,纯属浪费;更高则有两个天花板——随着芯片功率继续上升,结温裕度收窄,而且水温越高、冷却液的化学衰减越快(遵循阿伦尼乌斯规律)。所以 45°C 是一个有意设定的上限:在保证芯片安全的前提下,尽量调到“几乎在所有气候都能自由冷却”的那个点。落到投资上,价值会从低温机械冷机、压缩机,迁移到干冷器、CDU、低热阻冷板、冷却液与水处理、歧管快接和回路控制这些环节上,冷板的热阻指标本身也成了设计赢家的争夺点;与此同时,更高的排热温度也让余热回收变得更现实——排出的热温度更接近建筑供暖和工业低温热源能用的区间,但这要看地理、气候、热用户距离、监管和经济性,并非所有地方都成立。

在这套新热系统里,CDU(冷量分配单元,Coolant Distribution Unit)的角色变了。要理解它为什么重要,得先知道这里其实有两套水回路:一套是“设施侧回路”(FWS),连着楼宇和室外,水质和温度都比较粗放、共享;另一套是“芯片侧回路”(TCS),直接通到冷板,必须干净、去离子、加了防腐缓蚀剂、不能有杂质、还要单独控制压力和流量。CDU 就是横在两套回路中间的那台“液-液换热器 + 泵 + 控制”,它把两边解耦:设施侧的粗放水不直接接触芯片,芯片侧的洁净回路被独立地稳压、稳流、隔离泄漏,并把全部数据采集上来。这也是它被称作“热流路由器”的原因——它是采集、控制、隔离故障的中心节点。所以判断一家散热公司,未来不能只看它“卖不卖冷却设备”,而要看它是否掌握冷板设计、歧管与快接头、CDU 控制、液体兼容性、泄漏检测,以及把芯片热点(高功率芯片是局部热点问题,不是平均发热问题)稳定、可预测地带走的能力。

落到标的上,Modine(MOD)这类公司就是典型:方向对、需求也在,但市场早就知道数据中心制冷在增长、也知道它那份大订单了。真正的预期差,已经从“有没有需求”,转到了产线良率、毛利和扣除客户预付后的真实现金流上——这部分留到后面讲标的时细说。

第7章:电从哪来:供给侧的核心约束

前面讲的都是“电进了数据中心之后怎么用”。但从供给侧看,真正卡住整个行业的,是更上游的一句话——电从哪来、多久能到。需求那一端已无重大争议(IEA、高盛的数字摆在那里),可供给这一端正在变成最硬的约束。所以“拿到电的速度”(speed-to-power),正在取代“GPU 数量”,成为新数据中心能否落地的第一道门槛。

最直接的证据在燃气轮机。GE Vernova(GEV)的燃机订单到 2026 年一季度已累计到约 100GW,公司预计到 2026 年底连同预留产能会到 110GW 以上,等于把产线排到了 2029、2030 年;新订单的单位价格在 2026 上半年比 2025 四季度高出 10%–20%,按第三方测算,燃机价格到 2027 年底可能升至约 600 美元/千瓦、接近 2019 年的三倍。换句话说,大型燃机已经不是随时能买到的设备,而是要排队抢产线槽位的稀缺品。

槽位排到 2030,逼出了三条很现实的替代路径,每一条都是新的投资方向。第一条是“桥接电力”:在大燃机到货之前,先用更小的航改型燃机、甚至往复式燃气发电机(recip engine)顶上——xAI 就用这种机组在几个月内把一座数据中心点亮了,受益的是康明斯(Cummins)、卡特彼勒(Caterpillar)这类发动机厂。第二条是“表后自发电”(behind-the-meter):直接在园区里建天然气电厂,绕开电网排队,甚至出现了把发电厂和建设用地打包卖给数据中心的“物理基础设施即服务”模式;这背后还有一层政策推力——美国 2026 年开始要求科技公司为自己新增的用电自掏腰包、别推高居民电价。第三条,也是这两年最值得关注的变化,是燃料电池。

燃料电池这条值得单独讲。Bloom Energy(BE)和甲骨文(Oracle)把固态燃料电池(SOFC)的合作扩到了最多 2.8GW,其中新墨西哥的 Project Jupiter 直接用最多 2.45GW 的燃料电池做园区主电源,把原计划的燃气轮机和柴油发电机整套替掉、合并成一个微电网园区;Bloom 还和 Brookfield 签了约 50 亿美元的融资合作,单是 2026 年初的 90 天里就拿了约 76 亿美元的数据中心相关合同。这件事的意义有两层:一是燃料电池从“试点”真正走进了“园区级主电源”,二是它顺带动了柴油备电这块老市场。这也呼应前面的工业化判断——按 Bloom 自己的说法,AI 基础设施要像工厂一样、按规模和速度去造。

再往后是核电,但要把时间分清楚。截至 2026 年中,几乎所有超大规模云厂商都签了核电协议,公开口径已经超过 13 笔、近 10GW:微软和 Constellation 签了 20 年长约重启三哩岛一号机组(Constellation 投入约 16 亿美元、计划 2028 年重启,合同金额并未公开;外界常引用的“160 亿美元”其实是 Brattle 机构对该项目拉动宾州 GDP 的估算,不是合同价)、亚马逊在萨斯奎汉纳核电站旁建园区、谷歌和 Meta 押注小型模块化反应堆(SMR),连英伟达都投了 SMR 公司。但关键的判断是:现役核电站的长约和重启是“未来两三年”的事(首批 AI 核电电力大约 2027–2028 年起),而真正的 SMR 新建大多要等 2030 年以后;核电单位造价是天然气的好几倍,只有在“要碳中和”这个前提下才算得过账。所以核电是一条确定但偏长线的主线,短期还落不到硬件订单上。

把这几条放在一起,会看到一个新的稀缺资产正在形成:“电力确定性”。能在压缩工期内交付一块“自带电源、不用排队并网”的场地,本身就值钱——市场上这种“电力确定”的场地,租金能比受电网约束的场地高出约 15%–25%。所以这条线的关键,不只是谁卖发电设备,更是谁能把“电”做成一个可交付、可融资、可复制的产品:燃机和桥接机组(GEV、Cummins、Caterpillar)、燃料电池(Bloom),以及把发电、储能、配电打包进园区的开发商和集成商。还要注意前面那条电气化主线——GEV 的电气化板块(变压器、开关柜、高压直流)单季拿到的数据中心订单就超过了去年全年,大型变压器和开关设备本身就在经历一轮供不应求的“超级周期”。

第8章:电力和计算正在金融化

把前面几条线再往前推,会看到一个更大的图景,也是这一轮最深层的趋势:AI 数据中心正在从一个“IT 系统”,变成一座“电—热—计算一体化的工业工厂”。它以 token 为产出,以兆瓦(MW)为约束,以热流为风险,以电力调度为现金流核心。

沿着这个图景,有几件事会陆续发生。

一是计算调度和电力调度开始融合。AI 的负载(尤其是可延迟的训练、批处理推理、视频处理、嵌入更新)是可以按电价、碳强度和并网约束,跨时间、跨地域去调度的。谷歌已经在把机器学习的工作负载纳入需求响应——也就是在电网紧张时主动降低 AI 用电——这说明超大规模云厂商(hyperscaler)正在把“算力负载”变成一种可调度的电力资产。再往前,已经有研究在试“把推理当成柔性负载”:通过调整推理的批量大小,配合储能去管理训练的功率爬坡,从而显著降低储能的放电压力。这意味着未来不是单纯多加电池,而是“算力调度 + 电池调度”一起优化。

二是电力动态定价会进入 AI 的成本结构。未来用户看到的 API 价格,背后可能已经包含了 GPU 折旧、电力的峰谷价、储能、并网容量费,乃至碳和排热成本。当算力变成一种相对稳定的商品、而电力成本又明显波动时,市场上很可能出现“算力远期”“推理成本对冲”“token 容量预订”这类金融化安排。这不是短期会上线的交易产品,而是一个产业结构的方向——AI 工厂的产出,会越来越像一种“金融化的容量”。

这些连起来看,最终形态不是一座单纯的数据中心,而是一条链:电力买入 → 储能缓冲 → 热系统约束 → GPU 产出 token → token 变成收入 → 电价、负载、故障和碳排又形成新的风险市场。谁能把这一整条链调度起来,谁就接近了所谓的“AI 电力操作系统(Power OS)”。而这个 Power OS 不是单一软件,而是一套跨层系统:把负载调度、储能、冷却控制和并网合规打通,最终服务于 token 经济的优化。

这就回到开头那条主线:行业的定价逻辑,正在从“卖设备”迁移到“卖控制权”。但要把“控制权”拆开,别让设备公司白拿了本不属于它们的“软件溢价”。可以把它分成四层:工作负载调度权(把训练、推理、储能、电价和冷却一起调度)——这一层主要握在超大规模云厂商、模型平台和 GPU 平台手里;电力市场参与权(需求响应、辅助服务、峰谷套利、表后电源);设施功率控制权(UPS、BESS、配电、限峰和动态控制);以及热系统控制权(CDU、流量、温度、液体质量、故障隔离)。后两层,才是公开市场上这些设备公司能真正切进去的位置——它们能拿到接口、服务和运行数据的价值,但工作负载调度和 token 经济的最高控制权,大概率仍留在云厂商和算力平台手里。所以 Power OS 更应被当成一个长期假设,而不是某一家上市设备公司的自然归属。公开市场的机会,是找出那些已经被嵌进这套架构、能收到“接口/服务/数据”这层租金、但还没有被市场完全按“控制权”来定价的公司。

供电与冷却:AI 工厂时代的投资笔记 | 100Baggers.club