📚 我的书签
还没有书签
使用章节导航快速跳转报告内容。
AI Agent 时代的半导体设备与内存周期:从推理负载、库存放大到 WFE 拐点
AI Agent Semiconductor Equipment & Memory Cycle 趋势型深度研报
1.1|一页决策驾驶舱
一句话 thesis
AI agent 会把 AI 硬件需求从“训练大模型”扩展到“企业业务事件触发的持续推理”,但这条需求不会直接变成半导体设备收入。它会先通过云厂商 capex、GPU/ASIC/HBM 采购、晶圆厂/存储厂/封装厂 capex,再传导到 WFE 和设备订单;在这个过程中,内存价格和库存是最早的周期温度计,设备订单和收入是更滞后的资本品验证层。
当前最重要的判断
| 判断 | 当前读法 | 投资含义 |
|---|---|---|
| Agent 需求真实 | agent 不只是聊天,而是规划、检索、工具调用、执行、验证、回滚和审计的业务流程 | 长期推理负载、HBM 带宽、先进封装、测试和过程控制受益 |
| 设备不能直接吃到 agent 收入 | agent 需求必须穿过云 capex、芯片/存储采购、fab/封装 capex 和 WFE 订单 | 设备研究必须看订单、backlog、递延收入、DIO/DSO,而不是只看 AI 新闻 |
| 内存更容易先被放大 | DRAM/NAND/HBM 有价格、合约价、现货价、客户库存、渠道库存和投机库存 | 内存股要反周期读,低 PE 和高毛利率可能是峰值信号 |
| HBM 是周期延迟器 | HBM 有认证、良率、封装、客户绑定和带宽瓶颈,但高价格会诱导供给响应 | 短期质量高,中期要看 2027-2028 新供给能否被 agent 需求吸收 |
| 设备公司要拆控制点和 beta | ASML/KLA 更像硬控制点;Lam/AMAT/TEL memory beta 更高;先进封装检测/测试弹性更大 | 不应把所有设备公司都写成同一类 AI 受益者 |
| 2027-2028 是关键窗口 | 需求曲线、效率曲线、供给曲线谁跑得最快,将决定内存和设备周期位置 | 未来不是判断“AI 是否真实”,而是判断硬件强度是否继续上升 |
公司分层
| 层级 | 公司 | 资产属性 | 周期属性 | 当前最该盯的变量 |
|---|---|---|---|---|
| 硬物理/良率控制点 | ASML、KLA | 最接近长期控制点 | 仍受 WFE 和客户 capex 影响,但比 memory beta 更钝 | ASML order intake、客户预付款、High-NA;KLA 毛利率、服务、process control intensity |
| 高质量 memory / 工艺 beta | Lam Research、Tokyo Electron | 刻蚀/沉积/清洗/存储相关控制点 | 对 DRAM/NAND/HBM capex 更敏感 | memory capex、Lam CSBG、deferred revenue、DIO、TEL production share |
| 广度型设备平台 | Applied Materials | 多工艺、多市场、多服务 | 广度提供缓冲,也稀释控制点 | AGS、EPIC 投资回报、DRAM/HBM/先进封装订单、FCF/NI |
| 窄而深的材料/工艺控制点 | ASM International | ALD/Epi 暴露于 GAA、先进逻辑、先进 DRAM/HBM | 高质量但客户和节点集中度需看 | 订单持续性、毛利率、多客户化 |
| 先进封装/检测/量测弹性 | Onto、Camtek、Nova | HBM、CoWoS、TSV、hybrid bonding 的二阶受益者 | 主题弹性高,需防单客户/单产品周期 | 多客户订单、毛利率、FCF、volume purchase agreement 后续验证 |
| AI/HBM/SoC 测试链 | Teradyne、Advantest | 高端 SoC、HBM、chiplet 测试需求 | 新品周期和 tester 采购节奏敏感 | backlog、测试机订单、利用率、下一代 tester ASP |
| 内存周期核心 | Micron、Samsung、SK hynix | 直接吃 HBM/DRAM/NAND 价格和 mix | 周期弹性最大 | ASP、现货价/合约价、库存、CapEx/D&A、HBM 供给 |
未来 6-8 个季度最重要的红黄绿灯
| 变量 | 绿灯 | 黄灯 | 红灯 |
|---|---|---|---|
| 云厂商 capex | capex 继续上修,AI/云收入和 backlog 同步支撑,FCF 可承受 | capex 高但 FCF 压力明显 | capex 下修或管理层转向 utilization / ROI / 消化产能 |
| Agent 生产级采用 | agent 写入流程、执行任务、进入企业生产工作流 | 试点多,生产客户少 | 仍主要停留在演示和功能发布 |
| HBM | 长约强、交期紧、价格坚挺 | 交期缩短但价格仍稳 | HBM 价格环比下跌、客户推迟或重排订单 |
| DRAM/NAND | 现货价和合约价同步稳步上行 | 现货过快上涨、合约滞后 | 现货价连续下跌,合约价跟随下修 |
| 存储厂 capex | capex 主要用于 HBM、技术迁移和先进封装 | wafer capacity 开始增加 | 三大厂同步扩总产能,CapEx/D&A 持续偏高 |
| 设备订单 | order intake 补充强,backlog/递延收入稳定 | 订单低于收入但可解释 | 订单连续弱于收入,backlog/递延收入下降 |
| 设备财务质量 | 毛利率稳定,服务收入增长,FCF/NI 接近或高于 1 | mix 稀释或 working capital 扰动 | 毛利率下台阶,DIO/DSO 同步恶化,FCF 转弱 |
最短结论
AI agent 是长期需求源头,内存是最早的周期温度计,设备是滞后但更高质量的资本品链。最危险的误读有两个:第一,在 AI 需求真实时过早否定设备链;第二,在内存和设备周期后段把峰值利润、峰值毛利率或峰值订单当作长期复利。
2.1|核心 thesis:agent 是需求源头,内存是温度计,设备是滞后资本品链
AI agent 时代和上一轮大模型训练周期最大的不同,不是“模型更大”,而是“推理进入业务事件”。训练模型主要对应一次性大集群建设和阶段性训练任务;agent 工作流则把模型调用嵌入客服、销售、代码、财务、合规、数据分析、IT 运维、审计、审批和自动化执行。
一次成熟 agent 任务并不是一次回答,而是一条执行链:识别意图、规划任务、检索数据、调用工具、执行动作、读取结果、校验、回滚、重试、总结、写入系统、生成审计记录。这意味着一个业务事件可以变成多次模型调用、多轮检索、多次工具调用和多轮验证。
传统聊天机器人的硬件需求可以粗略写成:
推理需求 = 活跃用户 × 提问次数 × 每次 token 消耗
企业 agent 的硬件需求更接近:
推理需求 =
业务流程数量
× 每个流程的事件频率
× 每个事件的 agent 调用次数
× 每次调用的上下文长度
× 工具调用和验证轮数
× 多模态输入强度
÷ 模型、缓存、路由、小模型和芯片效率提升
这个公式的关键是“业务事件频率”。企业事件频率远高于人工主动提问频率。客服工单、销售线索、代码提交、财务凭证、IT 告警、供应链异常、数据库查询、内部审批,都可能触发 agent。若 agent 成为默认执行层,推理需求会从“人类主动问问题”扩展到“系统自动触发任务”。
但这仍然不等于半导体设备公司可以直接把 agent 需求当作设备收入。中间至少有四道闸门:
- agent 使用量是否真的转化为更多推理计算,而不是被模型效率、缓存、路由、小模型和蒸馏抵消;
- 推理计算是否转化为云厂商和企业新增资本开支,而不是先消化既有 GPU/ASIC 产能;
- 云厂商 capex 是否转化为 GPU/ASIC、HBM、网络和服务器订单,而不是被电力、土地、冷却、供应链和现金流约束;
- 芯片和存储订单是否转化为晶圆厂、存储厂和封装厂的新设备订单,而不是只提高既有产能利用率。
因此,本报告的主线不是“agent 强,所以设备和内存都强”,而是:
agent 工作流渗透
→ 推理调用和上下文需求增长
→ 云厂商 capex
→ GPU/ASIC/HBM/网络/服务器采购
→ 代工厂/存储厂/封装厂 capex
→ WFE、先进封装设备、测试和过程控制订单
→ 设备公司收入、毛利率、FCF/share
内存在这条链里最敏感。它既受益于 HBM、长上下文、多轮推理和 memory bandwidth 需求,也最容易被价格、库存、客户预期和渠道补库放大。设备在这条链里更滞后、更资本品化,但也更容易通过控制点、装机基数、服务收入和毛利率形成长期质量差异。
2.2|Agent 硬件负载:不要只看 token,要看执行链长度
企业 agent 的硬件需求不能只用 token 数量估算。Token 是模型推理的直接计量单位,但企业任务的真实硬件负载来自完整执行链。一个 agent 工作流可能由多个模型、多个工具、多个数据库、多个权限系统和多个验证环节组成。对硬件链来说,真正重要的是执行链长度、并发度、可靠性要求和上下文保持方式。
可以把 agent 工作流拆成七种负载:
| 负载类型 | 具体含义 | 对硬件链的意义 |
|---|---|---|
| 规划负载 | 拆解任务、选择工具、设定步骤、判断权限、确定回滚策略 | 高责任任务通常需要较强模型和多轮自检,偏高质量推理 |
| 检索负载 | 向量数据库、企业搜索、RAG、权限过滤、日志/文档/代码库扫描 | 拉动内存、存储、网络、数据中心 I/O,不只拉动 GPU |
| 生成负载 | 文本、代码、SQL、报告、客户回复、合同草稿和数据解释 | 直接消耗 GPU/ASIC 算力和 HBM 带宽 |
| 工具调用负载 | 调用 API、浏览器、ERP、CRM、数据库、支付、邮件、代码执行器 | 要求低延迟、多系统连接和持续运行;失败会带来重试推理 |
| 验证负载 | 代码测试、财务对账、合同审查、数据库修改回滚、安全审计 | 高责任任务会带来第二轮、第三轮模型调用和冗余计算 |
| 记忆负载 | 长期上下文、客户状态、历史任务、偏好、流程状态、审计记录 | 增加外部 memory store、向量库、数据库、SSD、网络和 HBM 需求 |
| 审计与合规负载 | 记录谁触发、用了什么数据、调用了什么工具、写入了什么系统 | 增加日志、存储、安全、权限和可靠性要求 |
把这七种负载合并,可以得到更接近企业 agent 的硬件负载公式:
Agent 硬件负载 =
规划推理
+ 检索与重排
+ 生成推理
+ 工具调用失败重试
+ 验证推理
+ 记忆读写
+ 审计记录
+ 并发冗余
这就是 agent 工作流比聊天机器人更可能持续拉动硬件的原因。但也要注意,七种负载并不都同等拉动高端 GPU。部分负载会迁移到 CPU、ASIC、小模型、存储和网络。因此,agent 时代的硬件受益会更分散,也更需要判断利润落在哪一层。
需求曲线和效率曲线
Agent 需求的上行来自三类放大器:
| 放大器 | 对推理需求的影响 | 对硬件链的含义 |
|---|---|---|
| 事件频率放大 | 业务事件远高于人工提问频率 | 持续推理、低延迟推理、推理集群利用率提高 |
| 调用次数放大 | 一个任务多轮规划、检索、执行、验证 | GPU/ASIC 利用率、HBM 带宽、网络和存储压力上升 |
| 责任等级放大 | 高责任任务需要校验、审计、回滚和多模型验证 | 测试、可靠性、冗余和硬件错误成本上升 |
同时存在三类抵消器:
| 抵消器 | 如何降低硬件强度 | 哪些环节最先受影响 |
|---|---|---|
| 模型效率提升 | 同等任务所需 token、算力或内存下降 | GPU/ASIC 单位需求、云 capex 斜率 |
| 软件层优化 | 缓存、路由、小模型、蒸馏、批处理降低昂贵模型调用 | 高端 GPU 利用率和新增采购节奏 |
| 专用推理芯片 | 部分推理从通用 GPU 转向 ASIC/NPU | GPU mix 变化,但先进制程、HBM、封装和测试仍受益 |
所以,2027-2028 年真正要比较的是两条曲线:
需求曲线:agent 任务数量 × 调用次数 × 上下文长度 × 责任校验
效率曲线:模型效率 × 芯片效率 × 缓存/路由 × 专用化
如果需求曲线跑赢效率曲线,硬件链继续受益。如果效率曲线跑赢需求曲线,AI 应用收入可能继续增长,但设备和内存 capex 斜率可能下降。这种情况对软件公司可能是好事,因为推理成本下降释放毛利;但对内存和设备公司不一定是好事,因为硬件强度下降会降低上游扩产需求。
2.3|从 agent 到设备订单:半定量传导漏斗
这篇报告最重要的模型不是某个公司估值,而是从 agent 使用到设备收入的传导漏斗。它告诉投资者:什么时候 agent 需求真的进入设备周期,什么时候它只是上游叙事。
3.1 传导漏斗
企业 agent 任务数
× 每任务模型调用次数
× 每调用平均计算 / 内存消耗
÷ 模型和硬件效率提升
= 推理算力需求
推理算力需求
× 云厂商自建 / 租赁比例
× GPU / ASIC / HBM 采购强度
= AI 硬件采购
AI 硬件采购
× 代工 / 存储 / 封装产能缺口
× 客户 capex 纪律
= 晶圆厂 / 存储厂 / 封装厂 capex
晶圆厂 / 存储厂 / 封装厂 capex
× WFE 占比
× 公司份额
× 订单转收入时滞
= 设备公司收入
这条漏斗说明,agent 需求进入设备公司的过程中,每一层都可能出现放大,也可能出现抵消。最上游的 agent 使用量增长,不一定等于云 capex 增长;云 capex 增长,不一定等于 WFE 增长;WFE 增长,也不一定等于每家设备公司收入和 FCF/share 同步上升。
3.2 漏斗变量表
| 漏斗变量 | 低情景 | 中情景 | 高情景 | 对投资判断的作用 |
|---|---|---|---|---|
| 企业 agent 生产级任务数 | 试点多、生产少 | 部分流程进入生产 | 多行业核心流程进入默认执行 | 决定真实需求源头 |
| 每任务模型调用次数 | 单轮问答为主 | 多轮规划和检索 | 多轮规划、工具调用、验证、回滚 | 决定调用强度 |
| 平均上下文 / 计算强度 | 短上下文、小模型 | 中等上下文、混合模型 | 长上下文、多模态、高责任验证 | 决定 GPU/HBM 强度 |
| 模型效率提升 | 抵消大部分需求 | 抵消部分需求 | 需求增长跑赢效率 | 决定 capex 斜率 |
| 缓存 / 路由 / 小模型抵消 | 成本快速下降 | 成本分层下降 | 复杂任务仍依赖高端推理 | 决定高端硬件需求强度 |
| GPU / ASIC / HBM 采购强度 | 利用率优化为主 | 新增采购稳定 | capacity constrained 持续 | 决定云 capex 到硬件订单 |
| fab / 存储 / 封装 capex 转化 | 先消化既有产能 | 局部扩产 | 多环节扩产 | 决定 WFE 与封装设备需求 |
| WFE 占比和公司份额 | mix 不利 | 稳定 | 先进逻辑、HBM、封装、过程控制强 | 决定设备公司收入和利润分配 |
| 订单转收入时滞 | backlog 消耗 | 正常交付 | 新订单持续补充 | 决定收入何时反映 |
这个表不需要立刻填满具体数字。它的作用是把未来季度更新变成可验证模型:每一季看哪些变量变强、哪些变量抵消、哪些公司真正受益。
3.3 云厂商 capex 是第一道验证
云厂商资本开支是 agent 需求向半导体设备传导的第一道验证。2025-2026 年,Microsoft、Meta、Alphabet、Amazon 的资本开支都处于高位,且管理层把 AI、数据中心、GPU、CPU、网络和 agent 平台作为重要投入方向。这是设备链和内存链的正面证据。
原稿中的关键锚点如下:
| 云厂商 | 原稿锚点 | 投资含义 |
|---|---|---|
| Microsoft | FY2026 Q3 call 披露当季 capex 319 亿美元,约三分之二投向 GPU/CPU 等短寿命资产,并称至少到 2026 年仍 capacity constrained | AI 和云需求进入真实资本开支,但短寿命资产折旧也要求未来收入和利用率证明 |
| Meta | Q1 2026 capex 198.4 亿美元,全年 2026 capex 指引上调至 1250-1450 亿美元,提到 higher component pricing 和 data center costs | 硬件需求真实,同时组件和数据中心成本正在压缩 FCF |
| Alphabet | Q1 2026 purchases of property and equipment 356.74 亿美元,TTM capex 1099.24 亿美元,Q1 FCF 被 capex 压缩 | AI capex 真实,但现金流约束成为投资者必须审查的变量 |
| Amazon | AWS 在 Trainium、NVIDIA GPU、Bedrock、AgentCore 和企业级 agent 工作流上继续投入 | Amazon 既是算力采购方,也是 agent 平台和企业工作流供应商 |
高 capex 有两种含义:一种是需求太强、供应跟不上;另一种是投资太重、未来需要更高收入和利用率证明回报。对设备链来说,capex 上修是短期绿灯;对中期周期来说,FCF、折旧、利用率和 ROI 表述同样重要。
3.4 三段时滞
| 传导段 | 典型领先/滞后 | 最该看的指标 | 常见误读 |
|---|---|---|---|
| AI 使用到云 capex | 0-6 个月 | 云 capex、capacity constrained、AI revenue backlog、FCF 压力 | 把高 capex 直接等同设备订单 |
| 云 capex 到芯片厂/存储厂 capex | 3-12 个月 | TSMC capex、CoWoS、HBM 合同、DRAM/NAND capex、先进节点利用率 | 忽略客户库存和订单重排 |
| 芯片厂 capex 到设备收入 | 6-18 个月 | SEMI WFE、设备订单、backlog、预付款、递延收入、DIO/DSO | 用当季设备收入判断周期起点 |
这个时滞解释了为什么设备股常常在收入和 EPS 最好时已经接近周期后段,也解释了为什么设备股可能在收入仍弱时提前反弹。投资者如果只看当季收入,会被周期错位误导。
