TA的每日心情 | 怒 2025-8-7 11:56 |
|---|
签到天数: 1132 天 [LV.10]大乘
|
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
2 I3 t5 n2 ^& M+ w* Y/ K
( J6 B$ U0 C- B' f* l4 X. R$ Z0 z7 m一、总体分析框架与核心结论
+ d, E. y- ~# ]) P8 j9 X- z1.1 分析框架概览
( T0 u' D6 m0 T. U拆分维度+ R! e% B; o1 T8 }% ^) q/ Q
4 Z+ z7 W. w; |3 M: p8 U阶段:9 K- c8 d; l4 v; {% i5 E- w
建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施
' u! M p8 T3 D f2 W运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等3 v& p1 [2 \4 P1 y9 x: W( Z
区域:
1 r7 b. f; k) Z, y& _中国、美国、欧洲、中东(以海湾地区/UAE 为代表)0 W; S1 ?$ [; @+ s$ `5 X: Y o
技术方案:& H" B& q; J7 R y+ R- ]
NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)
4 t! D) w: ~, D- ZGoogle TPU(v5e/v5p/Trillium 等)
; f' ?$ M! L9 r% }' W! J1 H1 A中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
0 T- T, L; M' [算例基准
# X$ f6 E! F ~6 g3 x' a0 p% I; S' n: A: l- d+ o
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
! F; q _ S$ h" ^( z# s5 t w其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW# `5 u1 j) k8 A- y: B5 Q
PUE 假设约 1.11(高效液冷场景)[1][29]
4 q8 y. L4 x8 V) {2 ?, `时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]% @6 J1 o" k8 \! T7 ~ @* A
关键指标- d6 \3 Y* f9 |) g- ]. H. T! `) `
0 b/ `! x' }* F( ~ X5 E Q$/MW 建设成本(含/不含 IT 硬件)
1 c9 F% H7 \" l' H5 E: L$ x$/kWh 电力成本、L/kWh 水耗* [; s- Q/ t. M
$/token 或 $/百万 token 的综合成本) u/ D1 O, {% _! Y
Token-per-watt / Joule-per-token 作为能效基准[17][18][26]" t1 c n4 x3 s F
项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)7 v# |$ V5 _; b4 y* f7 I
1.2 高层结论(供决策快速参考)
! H: ?3 f0 b4 a0 H建设成本:AI 数据中心相对传统云数据中心成本翻倍
& H6 W; y( q& i: o% T" P1 t- K9 M( e& p$ V; g" }" m$ V
传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。4 M1 ], |" {" P( A0 c
AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。
* O( ^5 q+ K6 L* f$ O! d按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。
: s. a3 x5 z# ^: _2 `区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
1 w! \" ^& P9 M2 u6 a) g
; i- `* |* W! y/ |/ O, D中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]! `- F% c3 s' j. C
美国:$8–12M/MW,400 MW 约 $4.0B[1]) {( _ b( I) a
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
. @* t* F, f n; V/ Z中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]8 m# C+ H0 }1 q5 ]7 N5 a& i
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。8 E4 U, n0 l# P" b; E' \& \* D; Y L
OPEX:电价与人工决定区域优势0 c8 V' ~. l- T$ s
; Q2 d4 s# h9 U5 Q# C5 Y电价(2025–2026 工商业大致区间):5 p# n0 W$ c, ^3 W
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]
& n& e' w R0 X, [0 O E美国:工业用电约 $0.085–0.09/kWh[44]- Q* n0 M; f2 {. \' c9 f- i
欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]8 {* }* a' N2 n$ s. w: G
中东/UAE:工业用户 $0.07–0.13/kWh[47]9 K4 x M) F. S% q, N2 ]$ W
人工:
* H- e6 E. g' J' i$ X0 v+ t- A, E中国数据中心运维:约 $22k/人/年: V/ ^7 z( W% G/ I1 ~$ }% ^0 `$ V
美国数据中心运维:约 $120k/人/年[1]
$ u/ j: @4 a5 `2 V! z5 E结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。 x. q0 d; e1 D8 d% t9 d- c$ `
能耗与每 token 能源成本:能效差异远大于电价差异; j& _9 b9 s0 j2 W6 W8 k2 n$ w
* w& i U/ x* q$ q5 _
IEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
( p3 E F0 u0 }大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。) i J$ v& V/ V* B7 x+ [3 d
将 token 能耗约化为统一口径:
! f: _5 ]1 J+ P粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:' q, S. ?% H8 x- o( R" ]
中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token3 j: ^! J9 p) I
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
2 `# D$ n; ]3 b2 _( `/ I对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。
! j* u( o# I: q8 n; I' b不同芯片方案的核心差异
. j) A% ~. |& r9 j0 @
0 X- w$ Y |' f, Y1 ]NVIDIA Blackwell/B200 & GB200 NVL72:
0 a: l8 k9 ?5 X: H, ~单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。: x( c! l4 B9 S0 P
GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。& A9 J J3 a t4 P( c* H; d
Google TPU v5e/v5p/Trillium:4 Z1 i$ W8 s; b" h0 Z( i' L
TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。
# s5 e: F9 U: `* ?, W \Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。4 P2 L( a3 Z( {% {( |2 T
华为昇腾 910B:
( t$ |# Q- r$ b h/ R% `. t: XFP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。% v% E- R0 v! D3 A `
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。7 t: Z0 W& X) X
阿里平头哥真武 810E(Zhenwu PPU):
. F M! X% g$ W- {96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。 k' B% `# h5 m$ W. |5 R) a- r
结论:
8 s) A' r. c5 o4 d能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。. H3 K! i6 ?0 t3 R' E z
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。
' f2 }% x) E6 g& C5 L Q3 e对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。8 }+ p" @& m, P( |
自建 vs 云租的 TCO 与 token 成本2 `- h. J; q* q4 \ ?
+ Y4 j/ B( i3 m; B
LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
; `$ j4 v' n$ m0 {8×B300(Config D)自建 5 年 TCO ≈ $1.01M;, _ i; ?2 L9 u+ C1 J& b% Y
等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
9 g6 R$ `. \" Z8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
1 [4 f: D6 q# J+ z: X, W- @ ^Token 成本对比示例(LenovoPress 场景)[28]:" h9 \/ @- _/ k9 W. O# |$ s
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token
. n2 Q9 |2 a* a. q: svs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。
/ h2 ]3 U6 e/ B6 L) Y$ u同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。 c. \% m' A% @& v+ r, M
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
5 x D) b; F' Q" U结论:/ J$ a7 F2 I. N: f3 f# @0 F- z
高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。, \" R$ r) ^4 l" m d
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。. {8 x$ z& _- G( s" N6 d' d5 `
二、建设期成本分布:区域对比
6 k- g( j/ x3 G1 {以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。
- D8 h1 n0 F" j9 b7 o2 J+ R8 x% U& `' ~6 [! N0 |
2.1 全球/通用结构(以 1 MW 为单位)* E. r9 s& h0 [) F2 R7 M+ E
综合 JLL、ConstructElements 等[2][41][40]:3 z$ h* {, d1 ], J" d
; A6 J& i K* }, @3 D# o
壳体+机电(Shell & Core)2 J' [; p5 Q }" o
/ W9 Q% s3 B f" \% U9 q全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]
4 u* r) a0 p$ [0 T& x其中按成本构成[40]:
) j1 n$ o: M+ R' e3 D4 K电力系统(变电、配电、UPS、母线等):40–50%
. _) P# Z; r, [, Z" h机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%
7 X- r0 S5 |9 R0 k建筑与土地、结构:约 15–20%. }# k5 Z J! K
其他(消防、安防、楼宇管理等):约 10–15%
# C. Q- P6 H9 E! u( `* w4 wIT 内装与 AI 基础设施(不含芯片)
/ i( ^ f* g9 u" [. R' l: p- ?- u. s; A8 r: m1 L: [
高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
# m) m2 @# a6 k/ l" R& @, YGPU/加速卡硬件 CAPEX% _5 E# A5 n. L0 ~$ Z# K0 x
& Z4 Z9 `+ ]' G; F
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
3 I: j$ X1 n$ q/ [! ]2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX
& F' s O0 ^- @4 I0 s% `2 p' y结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):0 m. J2 C5 F% ]( a$ U* ^+ t
) I, l' i% o M: C, ?" [9 M
区域 典型建设成本(壳体+机电,$M/MW) 备注
; F. }. o/ l8 T* N中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]/ D5 W1 k- {) w" ?
美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
% i* x! s# T; x欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]; `8 M/ ?5 N! J7 T& R
中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
* {- T+ r2 N6 T: j. P& A4 I$ g6 n结论:
# U! z ~, H/ c' k7 V8 U+ l5 Y3 |9 \* {
单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。
3 _) S* W8 u s0 K若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。$ w: G2 E. O! k7 G( B$ r& i/ B
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)
' J; ^3 q. y6 U/ S2 ]以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:
, ]6 T e) m G! Q. ~ A8 a; N0 y* I
假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
5 {* w) \! ~7 D$ T( tGPU 配置:- S: P$ t# W, q- |) B
有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);8 M0 F" b9 B0 ~7 H
每 rack 成本 ≈ $3.0–3.35M[34][69];
7 k4 \' ^/ p7 Q$ PGPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。
4 S$ S; G @- t8 l, e与不同区域壳体+机电组合:& l/ Q& d0 U+ F, E4 c2 |) }/ C
7 H& `5 B# ^3 @以中值估算:4 X; d$ W6 W0 k" r& @. w
7 }( E3 N0 W0 @" L( F# a( q中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B5 p! j, @) E! a# E
美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B' g- w) d( ?! d
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
7 z3 T$ V) n) x: S中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B# n( r- Q% l, P6 J N3 \" C4 e& s
可见:
' v# W f/ f) I+ o4 v% e0 Z+ e) B: i1 }4 x# h* f7 z
GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。
4 R% Y7 H+ R- E7 {, g! C4 Y相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。
* q8 f, n% B# W三、运营期成本结构与区域对比! @4 S5 t* m' ?% D
3.1 通用 OPEX 结构(高密 AI DC)
' X# g7 h, m+ p: [) z结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:* q7 `5 P+ u$ X! G8 r
, U( U3 ?+ O/ q8 Q电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。
. Z* D/ {2 C4 L; x* @! a冷却与水资源:
9 n6 z X+ L* L: w, C能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。; ~% e. C+ g+ j0 ?0 A! _) }8 D
水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。
; \/ |" U5 ~2 ~6 y人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
& V$ W! h$ l9 B1 x托管/物业与维护:
' N/ J' Z: S4 `5 Q) L) Y: D4 n托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
) l8 [# q; R: R5 l1 y9 Z( f硬件维护:LenovoPress 模型中按设备价 12%/年[28]。* o, N* |3 p6 T4 |' W
3.2 区域差异(以 400MW / 3 年期为例)
- a7 s% `2 ^ `, K( \使用 ChinaTalk 的电费与人工估算[1]:. y+ p" H) ]0 s! L" p! c$ `
/ O; o( ~. T; g( ~7 f' z
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:- h% z/ Q8 `0 B6 X3 Q
中国:约 $0.06/kWh → 3 年电费 ≈ $350M7 S: v0 b3 b& m/ V
美国:约 $0.09/kWh → 3 年电费 ≈ $600M4 F' ~4 _ M& a) L2 x& ]1 k6 [ V0 ]$ C
中东:约 $0.07–0.10/kWh → $400–550M
( i+ L: g( d: O: ?欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)# t! K, e8 f4 n
水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:4 t Z% t( ~# g- n! T9 [
美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]; U. s) H3 P x3 s( a8 o, s
三年水费级别:
3 p0 p3 C% {6 i* U+ Z5 g美国:$40k+( k" X/ P5 ~, O: J
中国:$20k+; j, m, p& D9 Z4 S' I7 y' X
结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
7 P& L- J! H; [ j9 a/ m" G" L人员成本(3 年) – 假设 500 名全职运维:
+ u- M+ ^. ]$ E美国:500 × $120k × 3 = $180M+; F' } R/ Q1 s6 @% J
中国:500 × $22k × 3 = $33M+
, `/ f4 {' D0 z1 S* e9 ~+ m5 u# l' |0 G差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。& g/ c) M9 U9 u v' d7 s" t& ^
整体 OPEX 粗算(3 年) – 400MW 场景下:. J( B. a1 j4 _/ c3 Y. w6 V P! \
( Y8 {" T( o5 q9 r8 M% r5 F! R项目 中国 美国+ S t! H H2 u
电费 $350M $600M
2 S& @, `1 \% l0 A) z水费 <$0.05M <$0.05M% [; B* d* P# S4 ^' U
人员 $33M $184M0 j! {; e- `6 X' O }
其他维护/托管 同比例估算,地区差异主要体现在人工与地价 5 m8 F, x6 X5 _+ P# a6 ~( b3 `
结论:1 Q& o* F8 J' d: _
$ w/ a& |+ t- ~: E% `1 Q9 `. L7 ~. D( A
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
" k8 q1 ?: ~) b2 j) B6 U; h对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。& _4 A) \$ N4 L
四、基于 token 的成本与利润推演
; G$ o9 {. ^- i9 Y' F1 m4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)
% g; j0 p+ i' S' ^4 _; M! Y统一假设:* _7 I. {6 o" Y6 Y) I
- r) e' h7 }& m: W0 S8 ?- \
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])$ o b% h8 d- I1 G' L
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
- O5 q% I: o* o! k* K1 a; S1 百万 token:278 Wh = 0.278 kWh- j; E/ a# J# ~7 ?8 k, Q/ O
场景 A:美国电价 $0.30/kWh! K) D8 W- }) A8 Z& h6 L
电费/百万 token = 0.278 kWh × $0.30/kWh; ^* D3 b1 Y* U6 {8 r3 s6 o! y
≈ $0.0834 / 百万 token6 ~# d. T8 _9 f: D7 k
场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
$ d2 F. a7 K& z" S6 I, a/ c8 `电费/百万 token = 0.278 kWh × $0.0427 B2 J5 U: _* E
≈ $0.0117 / 百万 token
" S4 E- t, H3 @& q对比当前 API 价格(OpenAI 2026Q1)[62]
2 u- w! L+ U- y/ t以输出侧为主(成本最敏感):
. m# M) _% _' M$ v1 [, m1 W
/ o$ ~ |) a# b3 J6 w* E模型 输出价 ($/百万 token)1 ^" k3 p# I( f& Q; i' C
GPT‑5.2 $14
$ R' c5 h1 w: o0 Y$ EGPT‑5.2 Pro $168
1 U" F$ }; N+ t4 A- c' |. RGPT‑4.1 $8$ _2 k+ L- K" e6 v, Y
GPT‑4o $10
/ r5 R$ A* U4 Y" p$ X3 B+ I5 o( oGPT‑4o mini $0.60
- v0 b6 E8 e/ j {% G则:
) A0 U# q5 y( _0 i' a
0 _$ q! U3 G6 R. d0 a. j1 K2 a, ^) Y在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
, M5 R+ E$ S6 V% z0 Y( Z0 _. W在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。, S9 g f/ E- |7 B: P! _
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。
# C) j: R6 m0 U& B# ?结论:. f7 Z( o: g6 t. t3 L
即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。
s% |+ g3 ?. `( E) a! y6 N0 j3 f3 d8 E9 Y2 S
4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)6 [% M* [- ~/ n
以 LenovoPress 的 8×H100 Config A 为例[28]:6 j$ Z- t" M( j0 v6 M7 Q% T k
5 C; |0 C& p. g
5 年摊销下,8×H100 本地推理 70B 模型:
' [' D1 \) ^1 M( F0 b小时综合成本(CapEx摊销+Opex):$12.08/h X8 d! {. a8 U: ~6 g
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens2 W$ D) @, D1 s* }' a1 ?
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token" Z7 Y2 C/ d7 m H* E5 I2 c0 O) R
电费在其中的占比:) K5 G/ I: B' `# `
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]
! p/ t! u8 \9 {( s' X7 X% q电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token
' `) k8 I/ j) Y$ X+ E电费占 总 token 成本 ~7% 左右。4 u) }6 Y/ G; n) h4 {0 {: \# X
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
/ f# a e3 R0 j) N- s: c- x) E. h2 U若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。* K$ R: |2 |% Z M
$ j; f! p; l( U" [- K9 z8 B; ^
因此:
3 K7 h; P: B/ F) i9 X9 l7 E* n- [+ H6 h# d& Y. R3 [
在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。
, z+ `3 s7 C: x& y; W/ p+ a, A" Y在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
8 Z$ D4 C1 H$ E五、不同芯片方案的建设与运营成本对比 M% n! |8 ~6 ^6 [4 w
5.1 NVIDIA 方案(H100/H200/B200/GB200)0 V, i8 ]4 H, ?& [! @4 H
CAPEX:( }, y! c2 E4 H
4 l, b9 T9 }6 r/ M! F
H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。3 Y8 [% _1 a- T9 e% A
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。 ^4 b6 G. N* U' _9 s0 t8 n
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
: m* l' H" {3 K$ \GB200 NVL72:
0 N3 X; I) ^, F' P& [) u5 C每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。' @9 U$ a- p( T" T2 u
冷却系统每 rack 额外 $50–56k[35]。
: X- p! M. C1 |2 o* _+ W在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。; F/ m$ d0 I e' Q5 W7 g) O
OPEX & 能效:- h, ^7 d4 C! I% ]
6 r7 Q4 Q4 G( f4 p0 {5 P单 GPU 功耗:& B) `7 M9 N! G. z- L
H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。1 W: [9 `4 A. G2 e Q1 ]
H200:功耗类似或稍高,但性能/W 提升[9][10]。
! ~/ G+ H2 y- }B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。4 `$ x, N1 i! M, h4 T
Token 性能:3 \+ z6 b7 e9 f# R+ Q
B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
& l, {9 X, B n: m1 wNVIDIA 的优势:
6 z# j5 G0 y5 A8 t
# ^5 S; V0 ]5 W8 O1 j软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
9 ?$ Y; k% l+ G但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。
i1 U; C5 M' X- s# D; i' u5.2 Google TPU 方案% e. ^+ O8 I0 I& ]: s5 X( p Z
CAPEX:
% b5 ~8 |' m/ V' h0 H/ ^% i2 Z% K; C
. u/ M0 {* N& V* g! l3 @9 S单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
! h; ^3 T3 b6 R2 f, D$ iGSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。/ d2 \' r4 Z) m- @% \4 p8 i2 o6 f
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
! `# l9 C' }% p; k能效:: f; V+ m/ G1 O
& K' w! q6 S: ]& R1 x8 {TPU v5e vs H100:7 t* h6 G7 i4 ^# ?% S
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
0 C) f2 A( r. ~( C测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。: M5 d- j: j7 M4 Q0 v5 y! R
新一代 Trillium/TPU v7:
5 i/ s" T. A# z3 u* O4 ]+ d7 Y能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
+ Z4 S* [# j$ \" T; P8 jGoogle 方案的特点:9 [; t0 U# Q+ Y$ K2 r
5 n9 n0 C- b0 ^# p自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
/ K: v4 D3 p# N5 |4 v) u对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。/ ^3 q1 `: g% A4 n! S/ [: `3 w Y
5.3 华为昇腾 910B / 910C 方案
- Z& H- y7 W( N& \0 I4 GCAPEX:
2 r% c; j, F+ B5 U/ B' ^1 t& C
$ S5 Q! c. T; W' V: [6 t: P9 a |单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。/ ~2 P( x$ ^9 c6 ^1 e- Q
与 A100 对比:6 d& P9 G: C8 c" N& D/ e
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。' u6 G. w9 x$ _8 T+ K0 V6 o
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
& \! q3 d( W" @- ` K使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。
1 n, y6 L$ V$ q8 W9 S t! AOPEX & 能效:
8 t( d7 u9 i8 `" n# ~" i( {; s/ ?& F! Z
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。
. S9 A, o" V# X& w部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。# c' `1 Z T9 n7 S7 y4 ~
在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。
! }: V. Q- C/ y5.4 平头哥真武 810E(PPU)方案1 E) ]; k0 m: n, ~
CAPEX:; W/ z: ^. H/ M) d" i
: |! J" w- R: ^; D- k- x
技术参数:) a& u9 q3 R, w) D
96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。$ d6 Z- L# l/ D$ ]- p
性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。8 o0 R0 N, i( r; n2 E2 }+ ?
价格:
' `* C% G, A4 W1 o0 L @/ y未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。$ M4 W5 f' l* z9 \
结合国内报道:9 }8 v) l% M- U7 q; H
2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
$ x$ U4 q8 L( [数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
% \% v0 @7 C/ k+ s( KOPEX & 能效:
1 `2 d. e6 R, o$ J/ ~
. ?' P2 ^) c& O3 m7 g400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;
4 o1 q4 L! H" b* c% B: u# P在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。
5 Q0 u2 q$ o! j5 _- r六、综合比较与策略建议, q, T; n4 m1 a
6.1 区域维度:在哪里建 AI 数据中心?/ S: H z) J/ h; D) d' A0 @
纯经济性(TCO/tokens)排序(假设无政策/合规约束):8 a* i% J4 l: y5 C# r
: W4 d5 M( U. `& E l; z9 T中国西部/北部(电价低、人力低、建设成本低)4 N3 f1 N+ B$ E2 G
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)
. {" P3 `+ z9 g$ ] E, F美国电价低但人工高;东海岸/加州电价上涨压力大
3 a6 j) f+ }8 B3 u- G( c! L* h欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求4 ]6 T6 T. b5 x) S6 ^
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:# s- _$ f9 P' m- t4 r* M
7 q1 n0 t6 `" i( u
纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
0 K( G2 B+ T3 f9 i对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;
9 Q8 `5 H+ O3 @. l& y但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
8 }6 n* R0 [4 A0 x, |6.2 技术栈维度:选哪家芯片/云栈?
( ?% t O; H" q5 Y" D9 i若目标是全球最优 tokens/$ 且不受出口管制:
+ r) Y/ s& `+ ^( { o
) {& w, \" q) mGoogle TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。: x- s: D* {! o
若在美国/欧洲,能自由采购 NVIDIA:
6 b0 H* d5 t+ P/ g. n; o k0 q
! E" _% z. S3 k9 w2 @: c. t短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:: i# d7 v5 T+ V" f3 B
成熟的软件栈与生态,极高的 tokens/s/GPU;, T' \/ D- f8 D. D. x5 y! V1 V
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
4 p2 T! I6 C4 L0 R" s0 y/ j5 r但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。
: G# [! \# ]" ~: O4 x若在中国或存在出口管制约束:% W$ t; Q( k8 i: Q, K3 T+ q
6 |! F, K+ {6 V! T! E- r; t( x& ?昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:
% u; M" F9 Q l# g$ h性能上已能覆盖大部分 GPT‑4 类推理需求;( Q8 x! ]1 x. x& [3 y
单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
5 ~4 f: I' d0 O8 I软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;# m& V7 }6 `8 v$ W. p
建议配合:
1 Q! ]5 N+ j5 \2 l$ b) c, f高效液冷(PUE~1.1)、9 `* a8 W9 |! ?% ]) f: N0 H# _: v' H
大 batch、路由(浅层任务走小模型/低成本芯片)、
9 }3 ~3 j6 {/ z' Z- M+ F, W强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。$ ^1 o* y+ Z" `; F
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:$ M1 C: ~* [3 c0 H/ C: [
- I V8 O) l5 V1 H- i0 q) h
数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];$ s, h3 Y9 X* h, ^, _
这意味着:8 }8 E/ t' u: R9 {6 M
优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
, @% r) t- L7 z! `1 K9 G2 E3 F9 b精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。# q& B/ e% _3 n0 U' h
6.3 针对你关心的具体问题的简要回答
, ?( x. y4 @3 t& n& g( k( m/ IAI 数据中心建设 vs 运营成本的大体比例?
* Y' z+ c" m6 \! |$ \2 [% G j3 o7 v9 G1 T8 @
在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。8 R* p+ o v8 Y, s- r& ?" D
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。
6 T- ~% s9 p0 H' `* S中国、美国、欧洲、中东的成本结构区别?
8 A& d& a9 T E, O
* Y( m$ k7 C. \建设期:0 ?& K; T( [: g4 b" R
中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。
4 e- Y+ R6 X) u+ A9 h- V" F4 V运营期:. v* l, t1 R$ m) c T' Y
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲' ]- R# o* d8 G6 \* _0 |8 Z
人工:中 国 ≪ 美 欧,中东居中。
! }8 l8 w3 W: p. }: [) l: M在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?$ b- Q& l" P Z' I7 j
+ C# Y& `& \$ C& ?对于典型 1 J/token 推理负载:5 ~2 I4 H F& x+ c( L
美国 $0.30/kWh:电费约 $0.083/M token
' T) X$ u/ z0 {: h6 r5 p; m% b1 q中国 0.3 元/kWh:电费约 $0.012/M token2 ~0 j2 N( z1 |, Y; M* v+ y" v y* q
对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
: k* V8 k5 t& K5 S不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?
; N, _( G* Q1 j0 w- y h* P# j
$ x- B( X, a) W/ y; r/ |4 Y在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
3 |/ n) h) F9 I5 P+ h( Q* M( S, Q全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;" u$ K1 ?# x$ \$ o4 @2 ^
中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|