TA的每日心情 | 怒 2025-8-7 11:56 |
|---|
签到天数: 1132 天 [LV.10]大乘
|
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
+ G g( @9 w4 o& P! C5 @8 L
5 J# d) p6 g0 k2 s一、总体分析框架与核心结论
% e$ b. N. ]. ^1 ]1.1 分析框架概览
# @1 y5 e1 f! s, x7 S/ E4 Z. ~拆分维度7 r6 J" b; b: V% l8 X. n& o% D. G
/ S1 j% ^* p' T阶段:: W [+ v2 ]7 E4 |) H! I5 p
建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施
0 R! E- M( b" U# Q( }/ r) E运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等% ]9 g( u) s7 G1 V
区域:. N. [$ R9 ?. l' b$ t6 ]. t* D
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)! R- P" P. s6 I5 _
技术方案:1 p9 M" _) r4 j* r7 g$ w3 d+ t4 {
NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)% W9 Q0 f/ N2 q w) _7 V
Google TPU(v5e/v5p/Trillium 等)# G/ i2 E; M" f+ M- _0 V4 \
中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
+ H$ i8 S: Y8 Q/ G9 A1 q算例基准
. c1 X \7 A4 p- j8 w7 o4 U9 D h- ]& C
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
) f- H. S. w0 p( m5 \其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW9 G/ r7 a7 O$ m8 w
PUE 假设约 1.11(高效液冷场景)[1][29]
2 A7 ~5 q0 s% w2 C9 ]6 |2 T/ [时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]9 T) S: f9 E, g5 ^ J4 a
关键指标
' v* N, L: X. a* Q$ R$ K% g3 c- {7 Y+ V2 A/ V0 G2 v. j6 e
$/MW 建设成本(含/不含 IT 硬件)
. Z; s5 E6 r2 r5 Y! c5 D- e$/kWh 电力成本、L/kWh 水耗5 V; u( c# T! z! A ?
$/token 或 $/百万 token 的综合成本
' y; y5 j+ r$ o6 `/ A- C4 L( O$ c! A% fToken-per-watt / Joule-per-token 作为能效基准[17][18][26]
& i7 N C! T( `+ P/ i: s* R项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)! ]; P0 o. _# h: l# [5 b- M( f5 `* k
1.2 高层结论(供决策快速参考)9 r6 V' B( b$ l& l1 \: {: z5 t
建设成本:AI 数据中心相对传统云数据中心成本翻倍/ f4 q* |" G' m3 J9 Z7 V
0 p/ c) B' {7 L6 M
传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。0 A3 E7 U( l9 H6 j9 N
AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。
T/ F2 d- n% e( [, B按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。7 d5 z$ O; U. l8 ^+ t
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区% M5 S7 h! \) u7 D$ g" F2 R8 ]
6 G0 P8 \' L4 J `# n8 u
中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]
9 s9 W3 w1 X l- J: e美国:$8–12M/MW,400 MW 约 $4.0B[1]- U! r6 N& N# c) a; d0 z( n6 T2 }
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]0 K) V* f% O2 E0 ?9 K3 p. Z0 r* D
中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]7 P& }& N$ ? D0 `% ~: e
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。
+ @$ x( T# ?* a M+ |0 r/ NOPEX:电价与人工决定区域优势
' ] P( H' L1 o! U$ p# f$ \1 I* C0 b
电价(2025–2026 工商业大致区间):% o0 ]5 b* c, _: F: V
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]8 A" Q) E4 Q5 Y
美国:工业用电约 $0.085–0.09/kWh[44]
) O! k( L( k0 {: z( u% m欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
6 Y: P" u9 J. q1 K2 r# K中东/UAE:工业用户 $0.07–0.13/kWh[47]
@. L- u4 {, Z, Y. [人工:
: L1 b& U |5 ~% {; j$ R中国数据中心运维:约 $22k/人/年
6 h8 s2 Q3 @5 t& o7 }( ^2 W1 q美国数据中心运维:约 $120k/人/年[1]# G6 w; c& S, k H
结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
* N! s+ R: Z, F( M2 E! U) n- B能耗与每 token 能源成本:能效差异远大于电价差异
5 C/ z: c9 F$ d
j$ I2 O6 F2 k J( c+ Y3 kIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
/ p5 q5 B2 p, e; B* J3 v大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。9 e! u) f b9 M5 M# r
将 token 能耗约化为统一口径:
) W( X1 x# K" L3 f* S粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
1 `( |2 D h6 z ^ M9 R中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token/ d# ]8 t/ o: O3 i# O3 \
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
0 w# @& z/ O, }, A2 B7 t. m# q对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。, M7 U' u6 p/ e* d
不同芯片方案的核心差异
, R- y' K) s( y
+ `) n) {; C9 i2 |7 Z1 INVIDIA Blackwell/B200 & GB200 NVL72:
& x4 n; c( K2 o" w单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。2 x% o N& R4 P# \
GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。7 y! ]9 w2 s( G: F3 e
Google TPU v5e/v5p/Trillium:
+ D0 @% z8 Y+ XTPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。+ ^6 q. Q- k# n! N, u e
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。
* L: c- |2 \4 t5 g/ D" J( c- U华为昇腾 910B:
( A9 {/ ^' W; {% x* V9 h5 OFP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。+ E& M0 M! c1 a
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。
( i' H1 K/ E0 b阿里平头哥真武 810E(Zhenwu PPU):
& v) g1 e) s2 B0 a, d/ L; V96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。1 h, `( p) }& |. P' L
结论:
* F/ R, N8 L; \5 A能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。( E+ d1 Y! s) L6 e- C
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。; Y3 B7 U+ T1 `5 K! W
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。
$ y. c: ^+ q1 `" g. [; y1 y自建 vs 云租的 TCO 与 token 成本) c) W' j% X! u- |4 u- ^# D& B- b
/ [. }# R! b! L6 W$ y# b0 D" n9 }LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
% x. ?- B; ~- @/ t* F; B* r8×B300(Config D)自建 5 年 TCO ≈ $1.01M;2 Q0 l7 Y# E# T' U. E
等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。4 ?* s) A( K* T
8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。& D4 M0 [2 z$ \! R& \ h* [7 ^4 l5 d5 U
Token 成本对比示例(LenovoPress 场景)[28]:9 O* j! t. q+ N! M! j
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token
2 } ~2 s* k( z l& bvs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。, [" C, Y, F: Z1 q" G3 D
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。
! y3 C) C# G# xLlama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。$ K. S; s6 p& a% a- c
结论:
- ^8 _/ _+ V/ k n+ i高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。/ Z6 l) n& m/ c Y9 I5 f u
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。2 |3 r @: v7 ]2 l* F7 l0 h K7 o
二、建设期成本分布:区域对比3 Z; r, } A2 g/ w3 J* j+ x8 u! ]) o, Q
以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。0 Q6 a1 @4 R/ Q
( i- A# V3 o/ q
2.1 全球/通用结构(以 1 MW 为单位)
# F# h, Z8 O" g' o; a综合 JLL、ConstructElements 等[2][41][40]:
3 h, u5 h! Y- J" g2 C$ a! v# O% ^$ _
壳体+机电(Shell & Core)4 p0 I0 Q+ z7 }* I9 k* y* q0 y7 P' \
/ H1 Q7 s8 F, [9 d9 k6 h: U' i
全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41] p6 s- P8 b! z: P9 m: E
其中按成本构成[40]:
7 m, V( y. F& ?7 H( H电力系统(变电、配电、UPS、母线等):40–50%3 h- g8 u* B8 ^3 X! [
机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%
3 c" s: |6 \5 O- F- J7 Y建筑与土地、结构:约 15–20%% B! M; _8 i+ q, @' E% K& n, _
其他(消防、安防、楼宇管理等):约 10–15%
* A, N5 F f y& V: I' w1 V& GIT 内装与 AI 基础设施(不含芯片)' i O) T# ^) s6 m
8 c' E" A1 J( p6 ?2 u' u5 u: @' N3 l高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。% G7 ]4 \) x5 ~; \2 `8 f J" ?4 b G
GPU/加速卡硬件 CAPEX/ \& h) u/ T( }: S& V+ p! Y o% j# ]
' E: p) @$ `% _! p9 l多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
8 x0 i# a( B7 t5 i2 D1 b2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX
$ P3 Y3 K) q+ V# h: t5 Y结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):8 k! d4 g/ u- ^
* E! T, J% |# j! S' k/ `区域 典型建设成本(壳体+机电,$M/MW) 备注4 V4 R3 D% H" N4 x4 P
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]9 K; E( a6 R- j6 t9 T! l
美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
5 t9 {/ D: x) |* F) g! z欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]2 e% H) B, S5 d a4 x; j7 P
中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
% W V+ P- m+ O. R' V结论:
' |" k9 [3 j' M0 P
* O% D! d) T: T& i单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。
/ V- a$ a- ~; ?& R5 X若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。' v$ r. ]" `. y4 l: r& d
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例), l. O3 C' J3 ]& D
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:
5 n1 _ s% W5 v5 c v, `! m
# M7 @# R* N& E y+ w假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;) _. f8 v. |( k2 ^: `9 S0 G% U
GPU 配置:
. X% v- P0 Q, n8 c$ s/ l有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);
! d0 D, N1 }0 W* A( e每 rack 成本 ≈ $3.0–3.35M[34][69];
/ z; P- ?- p9 n( v8 f- |5 { tGPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。
E m7 O: t2 I6 p% D' y" {5 H与不同区域壳体+机电组合:
; h0 [- ~3 {6 v! R7 R' d, J
5 B% W, t% I! d( v以中值估算:
1 F* O; i/ q' R. ~/ k- R
; |, F8 P. w9 A1 w5 t) o8 @中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
# c7 l; r5 ~& {) l* H8 z美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B t% o! q0 W1 Y* ]( y5 c
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
9 E* x2 r1 q0 X! q* g( h中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B
# N' o- I4 Z% q8 ?- k可见:4 C6 o7 }# i2 b, X! |
, A; g0 n) @* `. [ k5 N! JGPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。
" a3 m6 ]7 P) G! l相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。0 I! J) B. p; _' O, s' R, H
三、运营期成本结构与区域对比
& a0 l! w4 g+ }& a3.1 通用 OPEX 结构(高密 AI DC)
; Y1 U1 G0 ? G, A8 P* P结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:8 i0 L9 N& o. S8 J9 n. j% M& b6 R
2 d3 G; w% n) f- X3 Q/ S4 P1 i. Y
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。/ c- i$ V) o' f8 q2 }6 L
冷却与水资源:
, H4 k2 ~4 V% H/ m# G能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。5 k3 [' R, ]5 J% H4 r! K- u- D
水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。* j4 y4 Y- c' V# F' a% z
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
# q8 @9 g m+ j" g6 K0 u3 P$ X托管/物业与维护:6 k3 |. ?7 d) Q
托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
4 M3 T: B4 l/ n- Y硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
; M& d5 _( N8 F4 Z3.2 区域差异(以 400MW / 3 年期为例)
/ p: x7 G6 _0 f }) v使用 ChinaTalk 的电费与人工估算[1]:
( h6 n' e ]- b) q) }% M& r( w! R- C3 u. p) h% m9 u
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
$ U X2 v" c/ w中国:约 $0.06/kWh → 3 年电费 ≈ $350M# F6 x8 s9 A: g+ O, ]* P8 T
美国:约 $0.09/kWh → 3 年电费 ≈ $600M
" F$ Z \ G5 W# ~中东:约 $0.07–0.10/kWh → $400–550M
; `( s3 Z! y& d- `' t4 N欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
/ P7 ]! q. f6 C6 I0 C水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
6 }+ y5 K6 R( f' M9 M1 Y/ p9 r' t美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
3 p; G# r! `4 L$ }三年水费级别:
) E9 _ ?$ @8 H0 U8 a美国:$40k+% [9 N y {- o$ d/ d; ]$ p
中国:$20k+: c p# [7 x9 Z7 |; m/ H
结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。! [! k, y3 E0 a
人员成本(3 年) – 假设 500 名全职运维:+ {8 u9 o, l! `
美国:500 × $120k × 3 = $180M+, v+ D2 E; K1 a: b2 s
中国:500 × $22k × 3 = $33M+2 h1 y; C7 F% W* {+ |
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。
. W1 {1 T, l6 G整体 OPEX 粗算(3 年) – 400MW 场景下:2 S4 U: V [& ]( C, q% y2 N
' H u; W: j P' P# w
项目 中国 美国
! o1 L0 B8 a+ j k" O电费 $350M $600M
1 P, ~8 y6 g2 c. q/ b' X+ x% a水费 <$0.05M <$0.05M, C1 m3 F. ?' I; I
人员 $33M $184M$ P1 `) Q8 {# z. s
其他维护/托管 同比例估算,地区差异主要体现在人工与地价
/ z c: ]% @) s& m! y# J; X0 y结论:! f$ ^+ ?( z( U j& S& P
. `& I4 R8 ~3 D% @8 b& C
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。' W, v" ~6 f d7 `- ~5 T% f
对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。) C. }9 y( ~( V# j' x
四、基于 token 的成本与利润推演0 H) G2 \" Y% A8 h" n( r5 }; A
4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)' |, I9 q9 Q" w2 T
统一假设:
- Q& S7 L \ K6 B) ^* q* ^: q' d& S- b( W
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])
4 H( Y. r( }. \4 D4 {1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh; n' Q. B$ R- G& C
1 百万 token:278 Wh = 0.278 kWh7 r i3 ?) h8 _5 \7 w. X! r
场景 A:美国电价 $0.30/kWh
) B3 `) d1 k! m( u电费/百万 token = 0.278 kWh × $0.30/kWh
2 p3 z) h3 t3 B≈ $0.0834 / 百万 token
5 y" x: c+ F8 Y& i9 g, J场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
) A$ h: R" r1 R: h) M电费/百万 token = 0.278 kWh × $0.0422 G) [. @9 W# c
≈ $0.0117 / 百万 token% J8 H7 O8 G: j" m+ J8 D
对比当前 API 价格(OpenAI 2026Q1)[62]
+ W6 ]& q% ^5 I8 m0 y3 `7 N6 Y以输出侧为主(成本最敏感):
! q4 B) |. l$ v. E* n6 r5 o# v3 ]# t B
模型 输出价 ($/百万 token)
3 r5 M' n$ ~7 n5 d/ Z1 f/ cGPT‑5.2 $141 w$ [0 }1 s# `! R" D% F
GPT‑5.2 Pro $168
5 s1 _& o% s* H& w! }' ]* |GPT‑4.1 $8
, i" Z/ T) R, v! ?2 pGPT‑4o $10
- {+ F' S' `0 z1 I+ `GPT‑4o mini $0.60
7 i; q/ h/ r2 y$ a, P则:
+ I2 H/ q7 r4 r4 }* ^$ h! R S4 ~2 Y/ R: A& b
在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
. J2 m1 C* R- x$ V- b在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。
. A; [7 R6 z8 f# E) J3 N相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。( c+ y- w$ r* W* J3 s) t+ T
结论:
0 l; v- J3 [( q即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。' K' R, K0 j5 O* } i
" P+ l2 U! ^ H/ p8 Y$ V" s
4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)2 q' _1 K. H- U/ @7 z8 ]* l
以 LenovoPress 的 8×H100 Config A 为例[28]:
1 T3 e2 f) {; w! e! T
" f7 G) `5 g) k% c0 k5 年摊销下,8×H100 本地推理 70B 模型:. a; D, o% Y! Q+ c7 L
小时综合成本(CapEx摊销+Opex):$12.08/h& U8 W, E/ f5 g5 @$ o( j0 v( E
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens
8 ~) |' Z6 J/ ^" y" E1 G成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token1 N# x/ m t6 c
电费在其中的占比:
$ i( J% i9 C0 S' ^' J( yOpex 6.37$/h 中电力+冷却约 $0.87/h[28]. n) ?( R& N' f
电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token: `1 X) y9 Z# w7 I0 N, |
电费占 总 token 成本 ~7% 左右。
1 t* z' u" X5 G; e H, M8 Q若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
0 ?/ d/ {; h5 [; Q3 X$ j# v7 v若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。
$ ]& o. j! V3 u/ S: s5 v5 L$ n% z( \0 O [( ^; z. @3 [
因此:
$ L) m# z) R7 }* |9 g# j- z. C# |4 J
在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。9 R' K) Y6 F1 _; [' D: a# {" Z, ~
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。9 c. A7 r* ?, t- p8 u+ ~
五、不同芯片方案的建设与运营成本对比# `' J% U7 V; x8 a4 s
5.1 NVIDIA 方案(H100/H200/B200/GB200)5 v0 I- F/ N* ~
CAPEX:; J8 K4 n, G0 V' V0 w4 I
+ z! n2 `( `9 ~7 U' B& D" M
H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。# |2 K' O9 T) o" I" _9 `; `4 _2 ?
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。" H. A9 S' c) O
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
6 T' X/ A# ]$ g& GGB200 NVL72:
( i9 Y+ u$ ~# ~每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。+ W" a& L; G: |, T- z
冷却系统每 rack 额外 $50–56k[35]。
: E7 Z: p% a1 `2 k在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。
, q2 ]1 ?* I( EOPEX & 能效:
T' ~, Y6 h" b ~0 S- s1 A
8 S( X1 U& F2 O4 H5 X3 A单 GPU 功耗:/ ?, y, S8 L. n7 Z+ P! U
H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。7 e) }! {7 v% r ?- J
H200:功耗类似或稍高,但性能/W 提升[9][10]。8 {: S1 I1 r% j' F
B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。$ p& ~. W- ^/ F3 |1 a% t i9 X
Token 性能:& L4 E1 U% o" ]) ?
B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
0 A# ~* \" n( ~& N# i$ K! z: g! K4 zNVIDIA 的优势:
1 P2 R* x( K) |; y4 I) Z7 \; L2 @2 z7 @
软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。( o. o+ [4 ]4 t4 v' |2 y
但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。- D) X) ?3 C4 t" {+ s9 x" V
5.2 Google TPU 方案
/ x4 f. I# c/ Y8 V3 hCAPEX:0 G0 e( ?, C. q* g* f2 ]) c
% ]( c e C% D7 d8 K
单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。8 |: M, c2 h7 s1 [0 w. G
GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。' D- c9 r1 u6 C4 Q" |' A- O R+ F0 e
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
1 p8 X2 j0 q1 H* v% H' E: L能效:
& {0 ^1 K( I2 Q( z6 I! z, V! A9 I) ^3 C2 E
TPU v5e vs H100:; r! |: C/ |: I9 J: ?' o5 r
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。4 g8 s& r( m2 K" A
测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。! d6 M1 p& p/ z) Y
新一代 Trillium/TPU v7:
6 d# C6 r) ~6 h能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。: l- w5 Z1 h1 i, |+ t2 K
Google 方案的特点:
- g$ |( q4 Z$ R$ P6 o- E1 G- @0 }9 O4 [
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;* @( Z2 x3 V6 n$ J
对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。- N: |. C8 w& O1 d- c
5.3 华为昇腾 910B / 910C 方案
# T$ Z8 ^: {+ A$ aCAPEX:$ {! E9 ^& q, `) d/ l# H
, p4 V! O' ?7 g) Z7 Z- {' c" l
单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
. ?4 E, T- W; f2 A4 o7 T. j# i与 A100 对比:
/ h, g8 L1 n. A$ ~, jFP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。$ G5 \$ l4 m' w, l3 E8 a
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
4 n& j; @* S5 V, |使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。# U5 X+ [. V3 t% r8 { z
OPEX & 能效:. u R0 Z1 s, Z
6 O P6 A4 j2 z
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。
$ }8 m7 C. s6 b4 u& N1 m( N部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
( j1 _$ L5 D7 j5 J# A在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。
y) S; X- U9 [) n1 A5.4 平头哥真武 810E(PPU)方案 W6 b8 H7 E: s, w
CAPEX:
4 i8 L T6 q6 C# ?1 k4 F2 D
& v! i- F3 ]/ v* J: G7 ^4 j技术参数:) l9 n% a+ E3 X) ~ c" w
96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。) H# P0 T% W; @. L7 N* \
性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。& X+ d$ j0 _; }% i9 B
价格:
8 _7 v5 b# d3 u6 U未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。
, r0 F6 a4 B2 I ^; f+ T结合国内报道:( R1 U% }/ K" C6 }: k# @
2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。 v+ Y6 @0 ~, E; w
数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。# H( j# {0 U% S( x
OPEX & 能效:
4 ?) d' ~, [. ^. |" n7 e6 G- I. t6 y7 D5 O M: U$ C; F
400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;
/ \ u) p( R7 e; t在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。$ B1 O, ]% V: Y8 i. x/ v; H3 n9 u4 ]
六、综合比较与策略建议 s2 {3 ^8 V, i9 R
6.1 区域维度:在哪里建 AI 数据中心?
: e+ p" c0 n+ M7 b- W纯经济性(TCO/tokens)排序(假设无政策/合规约束):
' P0 c% v/ v* w* ]1 M, v( O/ [. @2 N1 v9 l7 F
中国西部/北部(电价低、人力低、建设成本低)
$ ~8 j6 P* W/ l中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)4 y) i1 v2 W- O
美国电价低但人工高;东海岸/加州电价上涨压力大2 U8 o6 X' }0 p9 m9 w' _$ M
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求
7 p5 M% w' y/ V: j3 J; q若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:& Z! s# f; M0 ~+ D. z$ _
9 M8 E$ }* d) M8 r o! u) _
纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;- S( V6 q% e/ D
对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;
/ q& } j5 O P: A( }* i( |但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。+ C' {6 }) V' Z1 q9 x+ W7 J# ~0 K
6.2 技术栈维度:选哪家芯片/云栈?! j9 {/ X6 ]2 x$ c; a7 d
若目标是全球最优 tokens/$ 且不受出口管制:# _: h( j- O' V3 F; l0 ^
% L( B; y* N( G3 C2 e9 _4 A4 t# dGoogle TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。& D* b3 u- d8 Y8 B9 x3 V
若在美国/欧洲,能自由采购 NVIDIA:
/ |# W) V7 r- X q9 H. V' d1 _( B' v) X; |" f
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:
" R8 U" X9 A3 t$ A7 C" z成熟的软件栈与生态,极高的 tokens/s/GPU;0 _0 A' a0 g% y8 A; P/ B
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;& [- e8 u# u; C( Z
但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。0 O0 A* @% e$ C2 N
若在中国或存在出口管制约束:
" K \* ]7 w% j" `) b
, R: h% e$ Y7 o8 L b昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:0 E8 R5 Y9 E9 |+ y1 m
性能上已能覆盖大部分 GPT‑4 类推理需求;4 W! a7 T" P% g: z* L1 r
单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
% z% g2 n. Y4 H) _2 E+ {软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
0 P' c! w5 K. R7 Y1 n: Q$ _建议配合:" S/ p9 A4 I( `/ n/ P% z" A+ F- ^
高效液冷(PUE~1.1)、
; g. d* q n' `, A- Z5 x& T大 batch、路由(浅层任务走小模型/低成本芯片)、, L7 v& H) }0 ?! h. _/ {2 f
强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。
4 [# v1 v8 z) n2 w5 S长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
# k n5 W2 _4 E2 X, Z) b5 k
3 P& L& |% v4 R9 ~; v, v0 [数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];3 n7 ]- F0 J# M, @# L* U
这意味着:
# v* o% N' O2 R" A* w优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
% [# b( x# X/ ^精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。# b. K3 j2 W( Z5 W6 L
6.3 针对你关心的具体问题的简要回答+ P" w9 w) }$ Y; q6 @8 `: q
AI 数据中心建设 vs 运营成本的大体比例?! T1 ]1 q/ _5 X! o( r/ b
3 |/ z+ v# i' s% m8 A y9 A% P
在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。
' d& P! l. Y1 p: x6 H i% s其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。# O' o" u3 j1 F; r" R" v* @1 [
中国、美国、欧洲、中东的成本结构区别?6 o- L2 [' h# k# ?2 q2 `0 `; b
1 z9 c" s ?+ R; @: p
建设期:
4 x p i O! V$ n6 y中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。& J x; P- L; M6 A; F+ B
运营期:
& V3 Y! a- K" _电价:中东 ≈ 中国西部 < 美国平均 < 欧洲8 m3 |& p, O$ v a# X* ^5 X0 e7 A
人工:中 国 ≪ 美 欧,中东居中。+ ?: n6 d! {$ Z/ M
在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?
- b F. _( D9 w d# h- G; z9 b( D4 x( h O" T5 u9 }8 Q
对于典型 1 J/token 推理负载:% }! p! a, A! m8 ^2 Q. c0 a
美国 $0.30/kWh:电费约 $0.083/M token2 I+ p; ?! I- e, i
中国 0.3 元/kWh:电费约 $0.012/M token
( {& {( E, \. c6 l+ O对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
$ ?' R/ K9 f. ]3 N1 w' o不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?) S" O: i7 @% o/ X; B
# U' ?1 i4 P. B% f6 i: @在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;% i( Z1 u4 O2 j
全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
( l/ \- O4 K: y0 O5 e0 W中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|