TA的每日心情 | 怒 2025-8-7 11:56 |
|---|
签到天数: 1132 天 [LV.10]大乘
|
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
}) {+ U& v S; }! ?3 Q8 Q/ z$ z
0 h* B# F0 N7 x! c8 j/ a一、总体分析框架与核心结论8 L" G4 W/ o k
1.1 分析框架概览+ S. g- G, L2 r3 |) N
拆分维度* [. t" _ m& w1 l2 U K
6 k" d% a9 n V: z* y# S阶段:/ k5 d% u5 e7 h/ a8 K! H
建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施% ]" E: y* P' O
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等
|) t5 [5 @6 ?5 r# U区域:, q2 Z( \/ y: h& Y
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
1 {" w+ l) ^4 i0 m' D技术方案:; V" C8 F/ `: K1 t V
NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)
2 ~9 X9 V& |# v; y/ QGoogle TPU(v5e/v5p/Trillium 等)8 w; o* w9 S5 F! ~2 V4 d/ H: {
中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
4 S* u2 M a, V1 l3 L% ]6 L算例基准
$ v3 c; P2 u3 ?% f6 ]3 ~
* D! W# v, L3 N9 ~& ?以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
/ _# g T) }7 T" ~% N% Q其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW9 S0 B' V j: X( {8 T
PUE 假设约 1.11(高效液冷场景)[1][29]9 x' W+ _& e+ U$ {. {
时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
( Y+ j- y; ~# u- S9 _" Q关键指标( ]+ B; g n! o
1 f8 U6 c, _7 f. C4 D$/MW 建设成本(含/不含 IT 硬件)
+ x1 |. T$ T! [; H/ l& \! P$/kWh 电力成本、L/kWh 水耗
. D9 e2 U7 V3 s% ^3 P. y$/token 或 $/百万 token 的综合成本
4 v% y# R8 P% ^Token-per-watt / Joule-per-token 作为能效基准[17][18][26]
! s# r( X, J1 U5 n+ f# I项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
( ~+ P4 u8 a2 o+ w& {1.2 高层结论(供决策快速参考)
7 h$ t, P' T b2 @- V" t) N( T建设成本:AI 数据中心相对传统云数据中心成本翻倍+ K' F$ E4 J" p- O. w/ T* Q
( h, @- o* c, a
传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。
" A6 i' i" a1 _, s# x& rAI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。5 u z9 d: ~- z" Q
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。* S, K, ]7 y9 t8 B
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区% r4 O: G3 v7 o# L1 \
! m& Y0 F" L9 c7 r0 W中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]' v! L# j' c2 c
美国:$8–12M/MW,400 MW 约 $4.0B[1]
& W8 p6 p! e$ @9 V, l8 c, }9 G# d欧洲:接近全球平均 $10.7–11.3M/MW[2][41]7 M: _) m+ c/ i M2 d- e
中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]
; Z3 d6 e- d$ Y2 U+ n结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。4 ]6 D; y0 k' b) y2 h: M. I
OPEX:电价与人工决定区域优势0 I( J/ d3 N& E5 Z( e; x! {
0 _3 U3 t7 [1 r
电价(2025–2026 工商业大致区间):. F. H# Q" F( V1 u% O
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]6 }2 a6 q, X4 |5 u: x
美国:工业用电约 $0.085–0.09/kWh[44]
9 R+ }) r# f& ^( x; ^' u) X# v欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
$ ~5 c; ~8 E2 e1 j中东/UAE:工业用户 $0.07–0.13/kWh[47]
) d" }8 K2 ]5 V5 P+ } X; c9 B人工:7 Z& d- g5 F8 ]: o
中国数据中心运维:约 $22k/人/年8 ]1 w- q0 {; b' _, k
美国数据中心运维:约 $120k/人/年[1]
0 Y* @, Y& o7 d结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
' u2 R3 `8 H. C6 K' t能耗与每 token 能源成本:能效差异远大于电价差异
) q. L* }" Q8 w) w3 N! @" d0 v
0 U( g4 ?5 j% `9 l8 LIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
h9 ]: J% m# J0 H大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。
% J4 _, p/ b9 H7 X9 Q, J将 token 能耗约化为统一口径:
5 X6 i O5 \- l9 B+ l: E5 k9 A粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
, l" i' f) O7 e0 s! B$ g中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token" p4 e- q) x0 Z1 u
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token! Q, Q7 c& N7 P, H$ B
对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。
2 o3 g% A) P8 w2 H! e( e$ Y: F. g9 ^不同芯片方案的核心差异
7 F2 W! z" W' i; ], |
" [) N& \' \+ l! t* v1 y$ ?) \9 W4 @5 \NVIDIA Blackwell/B200 & GB200 NVL72:
6 m" ^6 P9 ^8 O. T单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
' c& W9 C+ ~6 h6 ?GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。; }) C+ N; q/ D8 Q9 d
Google TPU v5e/v5p/Trillium:# f! V p+ f+ G H; B, h* r" I
TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。9 d* V1 f4 w3 S' U+ C- I
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。4 I$ m& d" |3 Q2 h
华为昇腾 910B:8 w( u2 [0 h; _1 `. v
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。
: T, M9 L$ G5 G单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。+ F- C7 @4 M" n6 M$ v
阿里平头哥真武 810E(Zhenwu PPU):
3 @6 `; ?- P5 @3 j1 L96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。# h) ]7 Z e; ~/ N
结论:* \3 F5 N% ^) p4 m) @0 Q% {+ Y! _2 U
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。
% l. i3 h" E( h6 Y j1 M: y单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。
1 B1 o- b: H. J) v: l7 ^' I对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。
6 }, b' C- `( p3 x9 ~自建 vs 云租的 TCO 与 token 成本
G2 C9 q3 E$ ]# d3 i1 V
, N8 d. W& S# E5 r: e- t! GLenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:5 ~; O( a. k7 F7 }3 {2 }
8×B300(Config D)自建 5 年 TCO ≈ $1.01M;6 \, X; O: x) g* t1 b
等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
$ ?$ n5 u) v: p, y; O8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。& \; H" g5 ]7 i% ^$ o Y" C
Token 成本对比示例(LenovoPress 场景)[28]:
% a2 H/ }* I$ | l" CLlama‑70B 推理,8×H100 本地:约 $0.11/百万 token
3 a" U E" I5 kvs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。
$ A# ^6 I. B( C5 [) p# |8 I3 E同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。9 [; R" A1 K3 [+ l+ x5 Z8 L6 b6 p5 a8 ?6 H
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
% p, S6 {: `6 t' f5 c! L- J结论:
, A% D v# Q, U- q高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。- N# n# J9 \6 x f* b0 ~# y
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。
8 U6 [5 d6 {( a! T二、建设期成本分布:区域对比3 J8 y! L" k \7 t4 B
以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。4 ~7 |! o4 r% Q3 |1 w5 h# b2 U! K
" o0 L/ i) a: |3 O# u# {4 T* b
2.1 全球/通用结构(以 1 MW 为单位)
& E) R' h: F" E9 D! ?0 Y综合 JLL、ConstructElements 等[2][41][40]:
. P w( G- I3 i9 k U7 z: D1 F0 R% T8 t% k m: M
壳体+机电(Shell & Core)
/ `# s# k, a( F; o/ }$ J
8 [' V3 D2 R! B7 Q4 I4 v+ j全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]( G" q$ L" @3 E) z4 {6 P& v
其中按成本构成[40]:; } a2 }3 y1 t$ Q x$ m
电力系统(变电、配电、UPS、母线等):40–50%
4 \, a4 r" ?, p9 D& P8 i& n" Q; n机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%7 W; f% ~- ]# ~ S2 [
建筑与土地、结构:约 15–20%
5 w% G$ m2 v2 D0 \" Z( _, S其他(消防、安防、楼宇管理等):约 10–15%
1 e5 h0 |1 }% k# `' O0 I: q ]2 LIT 内装与 AI 基础设施(不含芯片)
4 p( M _5 l8 Y q2 @: R! e) B0 T& i8 i, a. [, e9 n
高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。2 G: L. Y( [' J, h( \: F6 ^
GPU/加速卡硬件 CAPEX
8 j$ s) O0 o& m* ?& h
, H0 l7 m' s. x% w$ r7 c1 y多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
4 d& ]9 P7 \/ I4 h: k2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX3 g. H2 L: _3 H
结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
! A% V, T! u, K$ Y4 y) a8 K' H
$ H8 C8 F: u% i区域 典型建设成本(壳体+机电,$M/MW) 备注! e3 g( O" x. p& m( F, s+ W/ K
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
/ w+ ~0 r* D2 B) g a& ]' _美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
9 T k( H: Z# M4 ^欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]
7 X$ c, _2 @$ P0 u" g8 \2 n4 S中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]8 W1 ]9 ]9 f$ N% d1 t3 u- S
结论:
7 T* |: y1 b5 Y; w# B4 I. F
: W6 D& B/ {) v9 f单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。# i4 Y6 y4 \0 m9 Q: A
若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。7 u7 z4 \- |, _ ?; y2 q
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)7 \4 E% m8 B! w+ ?' Y
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:
* h. p' [0 I( ^4 E1 l
; i8 a7 Y4 R) X- f! ~% {4 C假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
# z- v4 ?% J# m1 @GPU 配置:
$ y3 T- O& Y0 y( b有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);2 w4 {% r* R0 ]- L
每 rack 成本 ≈ $3.0–3.35M[34][69];
' S2 \5 @$ x" ]6 s& A' B% V) hGPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。" V9 C1 n5 O5 j5 c/ i6 }
与不同区域壳体+机电组合:
# J! h7 }4 Q$ C0 Z! U! z
# p2 S, K; `4 N3 H0 g以中值估算:8 `9 q/ J% \6 K/ }9 f3 Z
1 ? T9 _9 n9 w& }! ]1 x, k3 u
中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
% Q" O; }1 z$ w$ [美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B, e/ S3 v# c6 P. S* m1 {: L
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B5 V7 n4 u! K5 d' @* [* g/ B& S
中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B) ?$ M# L7 i8 q) y# P7 C
可见:
7 ~! z" ~. @2 l9 c) m# r# d3 z- v
GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。3 m1 W0 |* a$ _* C" ?+ c
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。! x2 \! O; ?0 ^8 B
三、运营期成本结构与区域对比
: f% ~4 q0 o) F* F3 z- v: g" D3.1 通用 OPEX 结构(高密 AI DC)
! Q; g5 q: I3 s$ o2 n! l结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:+ |' [; M# D8 R3 ~# k0 [7 s
! Q" V7 G0 P/ n4 S8 H电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。
! P$ X1 Z% A0 N( e冷却与水资源:! ~+ f Q+ n' N- v" Y
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
9 x3 N) o2 E+ K" W, D. j" [水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。
# e' }5 }. W% t/ t$ Z人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
& v$ R& ?5 c- v, q0 t# g/ n托管/物业与维护:1 t$ s: X( M0 l/ i3 P2 Q' b1 q
托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
2 J7 Y- m0 P% I0 `硬件维护:LenovoPress 模型中按设备价 12%/年[28]。4 [' j4 X( Q. R6 b
3.2 区域差异(以 400MW / 3 年期为例)
1 { |! J! `1 T& \* |# J使用 ChinaTalk 的电费与人工估算[1]:
7 M& n* i* f! X- S
, e O1 N4 Z% ]4 P i电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:5 A& A# l4 `& Y& W1 b- G* t
中国:约 $0.06/kWh → 3 年电费 ≈ $350M
0 q- e% {4 R4 t; e( o美国:约 $0.09/kWh → 3 年电费 ≈ $600M
: j6 a* A! w$ r- A中东:约 $0.07–0.10/kWh → $400–550M
& W3 j. L) s# P欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
: f" e1 r9 f& G* K+ w水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:8 u7 l! ~" o: Q, y' H
美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]2 m4 G' M- @; n4 C2 }
三年水费级别:
: e9 y m) R i5 w! z4 |3 u/ U6 E- l7 I0 n美国:$40k+. R" D7 D6 M) S4 b8 s1 k
中国:$20k+
5 v$ @ ?" {" X7 T9 `: ^结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。0 `( L& w9 H% w1 a8 N1 g
人员成本(3 年) – 假设 500 名全职运维:9 Z! E: j8 i! ?4 Y& _: m% c) D( a8 Z
美国:500 × $120k × 3 = $180M+
4 d: ~; F% v8 w0 Z7 Q- [中国:500 × $22k × 3 = $33M+" s9 Y' {/ W# Z
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。
! B. @) ]- O! A( x4 Y$ E整体 OPEX 粗算(3 年) – 400MW 场景下:
T6 U& B$ E) i4 R; @. t6 Y* T& b$ M1 ]: R
项目 中国 美国; i4 w$ K' n2 @' k% T# [! l
电费 $350M $600M0 z) y j2 W& m% a0 D# M
水费 <$0.05M <$0.05M
1 N# U1 b: ~, r$ p5 z) k/ _人员 $33M $184M
- J, p* F7 j- K8 x其他维护/托管 同比例估算,地区差异主要体现在人工与地价
* f/ [: C! g2 B7 M! F2 m! T结论:5 m5 f' F9 K' P8 Z0 Z9 Q7 D1 U
) w5 u, N% L) u1 F5 W- B
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。) I) Y2 D7 m6 L% ?
对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。
9 S ~( p: g3 I: L" r四、基于 token 的成本与利润推演
5 ]9 R/ t1 g4 f6 H4 u4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)
r1 k) }0 Z+ B; ^& d* L统一假设:
2 J) u! Q) v8 W. B8 ]. d) U+ q2 n) O
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])
- j& H: {% Q/ @/ k% W1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
5 p) v3 v+ M- t, [0 w1 百万 token:278 Wh = 0.278 kWh* u: M$ }" t2 K7 v2 i
场景 A:美国电价 $0.30/kWh2 H& L) C8 |1 ]( P4 e3 X
电费/百万 token = 0.278 kWh × $0.30/kWh
0 X1 M; ]% g4 |1 B≈ $0.0834 / 百万 token
. j2 D+ d) K9 Q1 ^* ^( O场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
' Z$ R6 O3 E* A电费/百万 token = 0.278 kWh × $0.0425 o* L, _+ L* p, |0 {% P6 ^5 b
≈ $0.0117 / 百万 token
9 @' t8 F5 i3 V8 s+ G对比当前 API 价格(OpenAI 2026Q1)[62]
: `; r! t: r) S以输出侧为主(成本最敏感):8 Y P+ w: K0 j% i% b1 \
- E$ H% ?* @8 @2 [ z模型 输出价 ($/百万 token)9 _: Q5 l( e! t x$ i; E
GPT‑5.2 $147 }6 m+ p; A( b3 @
GPT‑5.2 Pro $168* s* l) i1 K% O2 u( f
GPT‑4.1 $82 n' E! b7 u" g$ D+ H# K- v5 D( ~/ c
GPT‑4o $10; C) H' z; r: O# {
GPT‑4o mini $0.60
0 b2 \% A+ V4 ^! ~: X- j则:
5 j8 y3 A* u! J; p4 I$ X! v! l
/ R& e( W8 S* E' H' H! W' Y, n在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
* d O; m2 P3 U1 h8 P( m7 e5 `5 h; K在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。
5 k: J* \* X& ^# B5 P相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。7 F; l" g* Z9 y) J
结论:
; f7 p6 s6 t2 Q4 f4 i即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。" D! W! o9 T- a8 o
2 w! R7 u2 i8 D7 m4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)( c1 T1 N) f. [8 C
以 LenovoPress 的 8×H100 Config A 为例[28]:
4 C% b& @9 y/ m3 c( D2 w4 l6 q5 [8 B" E9 g/ B8 Y$ m; {
5 年摊销下,8×H100 本地推理 70B 模型:9 P6 L1 L( s7 p9 Y: o7 R7 f3 k; R
小时综合成本(CapEx摊销+Opex):$12.08/h
2 l) E" @3 h7 [0 O+ G. w吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens/ N6 @1 ~% H" `+ [" h, e
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token# J$ N8 m: ^. E7 y5 A
电费在其中的占比:" k3 f7 X2 n/ [8 R
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]3 H0 ?/ ^' D- k" W x
电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token
9 L7 h" |" G, F$ h* _ ~电费占 总 token 成本 ~7% 左右。4 k2 j9 p0 q: @2 F# I+ z
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
, G+ F/ u) \% V9 ^& F若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。! g! Q8 \: Y: A, ?' ~4 R J
1 b$ g% J/ _' x. p7 ~" b1 Q
因此:
1 G3 j! J4 o, ?$ x; F( Q% l( u: h9 D8 H$ r1 O( y
在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。5 w2 x3 X3 ?! E
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。* a6 _6 H! f/ y+ N3 U
五、不同芯片方案的建设与运营成本对比 j& K8 `& h7 D: ` {
5.1 NVIDIA 方案(H100/H200/B200/GB200)
3 m& Q5 O/ h0 ^4 y ^. yCAPEX:
" W; O: O( W) w6 {. ?0 ?/ k, }4 \1 W+ r7 h: W! C" @6 y) z
H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。5 {/ h. }9 `' L7 K# a3 E
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。
5 H! k8 M: Q2 u$ j: T J, UB200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
) ~) B) L" R, p( j1 Q+ C3 IGB200 NVL72:; f" f3 ?% t& a0 v
每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。
4 e" y. g T) o( D" s冷却系统每 rack 额外 $50–56k[35]。$ _# G7 B4 Y5 e0 i* H7 F& x
在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。! c9 S) h) B* j( B" K& p1 a/ ~. W/ e( e) V
OPEX & 能效:
7 S" }; [2 q6 w" b- X+ X
3 M2 E3 T4 S- z0 A' T. P6 [单 GPU 功耗:" v$ B" e% y+ r! [/ ?. P+ Q. }* I: n# b
H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
7 Q3 u, N; l' z$ |8 [6 d5 N4 m' vH200:功耗类似或稍高,但性能/W 提升[9][10]。
0 p9 q8 x7 u& IB200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
' V0 M# K N5 M2 Z0 jToken 性能:) B! S/ L9 Z! h. u
B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
% [6 r' I# h: j2 ]NVIDIA 的优势:
1 C8 Z& q2 d! c; Y( W
% J9 d) t, ~: B+ v3 i1 O8 |软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
2 m% F; x0 P0 `( W但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。& L- J, a& p }4 y6 M
5.2 Google TPU 方案7 D6 `$ r% l+ ~" \
CAPEX:
, ~5 D- ?( e5 M
# U. Y" ~4 p3 _' }# c* q单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。4 E/ h( Z( s2 o+ Q$ \0 X3 X
GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。
' }4 L/ o: N% z/ k, Q' Y4 p& x8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
* q9 f6 y" X* u4 t4 h能效:- A8 ?' P2 I3 ^, R
0 ^& Z7 \% E& M# e0 |9 v
TPU v5e vs H100:) E: x o' J" V# ?
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
2 Q8 ] H& e, t8 d: } L+ z- z! i测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。
& J+ n7 u% d2 g, R9 q8 g" S新一代 Trillium/TPU v7:% {0 Z" x4 ?7 Y3 R5 N: m- |
能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
0 b* K! V$ h1 {, S" uGoogle 方案的特点:
8 ?+ p( N/ Y5 h. A
& w' o* g q! R; K7 e: I0 Q自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;8 V& D( i& Q" {5 E9 ]2 l- d
对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。0 y3 L7 I4 ]0 z! e
5.3 华为昇腾 910B / 910C 方案
7 k" j. e% ^% ^0 q9 t- ZCAPEX:
; H! H$ o) S3 U6 U+ o0 w$ x7 W r* f$ v& {
单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
8 n Z/ @6 v6 N8 c/ H与 A100 对比:7 e: @2 R' x; P, d# l
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。
% P4 Q5 l& T$ R+ ?7 R0 y$ U% S市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。, ]0 ]( ~; ~2 n: `& K
使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。
. r- K& |( f& [% V* ROPEX & 能效:
8 s/ c' }9 D& d/ `7 A0 |, p1 k+ b0 B2 v A5 _
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。5 R3 T- B' T3 }2 B! g
部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。3 ~2 w: s( m3 C t* v3 a$ }7 Z. c
在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。; B0 f8 O/ H- f. Q$ x! j
5.4 平头哥真武 810E(PPU)方案: D$ o, i7 J( p0 y8 m$ r( I' u: I" t# |
CAPEX:
k! i8 S1 R) @6 Z" R) Y" h
" B$ j: A0 V, m技术参数:
% R- u8 Z$ }" e96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
+ d O, `4 b. _& b5 t0 G, \性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
" h! O9 w& _1 |, A- L9 i! _6 P价格:" m( [6 j: j( P( l3 h
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。
1 u8 c6 k( @2 S; k& e结合国内报道:. L) Q5 ~, D& S0 c/ S
2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
% R3 p5 L- Y# X" w2 q& I3 M数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。9 U6 Z6 ^' L7 s m) P
OPEX & 能效:
5 h& `$ S6 J# j" X6 |- n0 R5 F+ r' _. f
400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;
" D& t! i3 j& h! `* o v' j# l在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。; U4 O# @3 v$ n& \4 f( U
六、综合比较与策略建议4 @% |$ ~) p; l, _. Q2 @) K' d
6.1 区域维度:在哪里建 AI 数据中心?
6 }/ |% h) o4 ]3 Y7 x5 W8 c纯经济性(TCO/tokens)排序(假设无政策/合规约束):
% \9 c" H# C" d6 F, F
. G- T4 c) A7 `, I中国西部/北部(电价低、人力低、建设成本低); N3 \# f- d7 E5 a F! u) m1 H4 c
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)
6 Q( w3 a3 Z+ W% E5 Y9 b美国电价低但人工高;东海岸/加州电价上涨压力大+ a1 n$ Q* F3 V1 L" q Z0 M1 z3 P
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求
% [, z( t+ S, l5 @% F( @+ Z1 Q若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:' P! x6 m5 s. C+ Q9 z
- {. ?& A7 w; Q! D0 t7 c& |纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
4 X. J0 y0 {/ o3 `# Q对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;
" E5 d" l5 Y7 p5 `8 A但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
G" }: D* `) q0 z) D4 q6 ?6.2 技术栈维度:选哪家芯片/云栈?
% ?8 A& L! I" F2 P# z% s! P若目标是全球最优 tokens/$ 且不受出口管制:, q. p o$ f( ]5 }
) ^4 `5 a2 H8 s2 ?: P; \, T4 _+ t
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。" h+ X, ^# M( V; c9 }
若在美国/欧洲,能自由采购 NVIDIA:
7 c( T( P1 G5 `( M& ]! ~' V0 j0 {4 B; n& k6 ^0 H
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:1 K. F/ m. t$ f& p
成熟的软件栈与生态,极高的 tokens/s/GPU; ~; j% w0 U9 D8 ?9 k2 q* C
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
$ }$ P; l. `( ]+ Z0 }2 C2 q9 e# \但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。7 N$ k' {& I4 M4 i5 ]) h% l5 R
若在中国或存在出口管制约束:4 |+ C6 d* x+ {& V% a6 S4 g8 ] c
8 j/ s* v+ ~4 L6 a: Z8 r6 P+ }3 ^昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:: |0 h! c9 t2 D+ k" b
性能上已能覆盖大部分 GPT‑4 类推理需求;
+ Q& K( n7 `3 b单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;0 a1 S, \6 f5 ^- X% m. |
软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
% Y4 \+ |. |. R0 [; }建议配合:. ~# i, A- R# N8 X6 u. \
高效液冷(PUE~1.1)、! B9 h: Y/ T) h2 f' {5 f
大 batch、路由(浅层任务走小模型/低成本芯片)、
: B4 |6 L2 X- V4 ?. o2 F C& e强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。; s j6 j+ [- n4 ]* @0 q8 h4 W
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
5 Q# d; _9 E6 ~: w2 R
2 |4 ^$ _4 h' L! G7 Y2 M6 L数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];1 Y& [5 c6 W7 }9 Q! ~
这意味着:
, w6 @- R; Z3 [( @' a, N; s% d优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);+ R# i8 n( ~0 ?* F' [) T
精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
! c9 u- a7 o3 b Y8 z6.3 针对你关心的具体问题的简要回答4 S- I4 V4 c; k0 {1 z
AI 数据中心建设 vs 运营成本的大体比例?
9 R. C% n3 e* z$ c
4 B% G4 B5 E- `在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。
* n/ C3 e: o# g8 T+ f% X5 I4 k$ t8 X# p1 q其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。+ R! |1 ~: w! c7 k& e8 `( i) O/ \- U M
中国、美国、欧洲、中东的成本结构区别?! q0 o% b# a' ^; a6 O! H
* U, k' p9 Z7 X+ I; [. `建设期:
- Y: q n7 ?! `8 r% }中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。 G% c. M/ L U
运营期:7 s) c0 d( V2 K# {) I, N
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲, E# o0 G: N+ L/ q8 w- q0 T
人工:中 国 ≪ 美 欧,中东居中。( y: d I3 e8 J& d
在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?
. ]5 z- \. {7 l% }% G* W
- A. U6 y- t6 V' }5 [ f4 a对于典型 1 J/token 推理负载:% J& [5 y" R8 h/ ~
美国 $0.30/kWh:电费约 $0.083/M token4 G- Q# S0 r* S, {
中国 0.3 元/kWh:电费约 $0.012/M token
5 q" @2 L5 L6 T( D) j对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。$ C# z, z( J7 v. e( ^! N0 |; g
不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?/ z2 n1 c* ^7 ^2 n
6 A, H' ?1 E A( t- G# n在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;" z# k3 \: j3 Y3 u
全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
* \* u9 u v- E" F: i中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
|