TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:1 u) |" X4 m! P
( H6 j" x6 }" }" c% s* l0 X1 Q一、总体分析框架与核心结论
4 g+ G: E9 m4 Y5 L1.1 分析框架概览* o; s, H! Q1 ~% @4 Q9 i
拆分维度
4 ^. ~" `2 D' j- U$ H* y
0 x0 W- F% q: r! y" f阶段:
6 i. h! R9 S+ q: e% X" j4 V建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施* f0 ?: n- l1 A" w2 W& V8 I. v
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等, S* n7 Z; c! j" h
区域:
. ~3 }8 h& B' g/ w9 L2 K! b中国、美国、欧洲、中东(以海湾地区/UAE 为代表)3 I1 S9 t% v7 M7 b# A- D" t9 p+ Z
技术方案:0 [8 K5 ]! b) Z) F
NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)
' P; E- q" W) I! iGoogle TPU(v5e/v5p/Trillium 等)
: Q; b& o9 \, Z% } J中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
5 p6 u. P2 I0 F! ]6 ^9 t算例基准% c6 }- j/ ^1 E& S( K3 ?" o
) ?; u) \2 K# r- A
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:8 }% \2 Y- S# h! Y9 ?
其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW
; L% W& X0 i5 J) _0 D+ H e) R; c* XPUE 假设约 1.11(高效液冷场景)[1][29]6 y( x5 b1 G( V2 J5 l4 Q) T
时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
3 b9 u. }7 N" _$ ~+ W! v$ Z关键指标 R% }8 e, o3 K) W$ @
9 g2 C+ h+ G/ A# R0 l1 G9 W
$/MW 建设成本(含/不含 IT 硬件)
& M O( x; N$ r' q$/kWh 电力成本、L/kWh 水耗
, {9 \5 N. T( ?: w5 Z$/token 或 $/百万 token 的综合成本
$ @- y% c' X! B/ _, \Token-per-watt / Joule-per-token 作为能效基准[17][18][26]' D$ P8 j# p" O- M2 `
项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
6 b/ V8 k8 S1 i9 z% g! @1.2 高层结论(供决策快速参考)
6 J. m& D* _) d/ Q建设成本:AI 数据中心相对传统云数据中心成本翻倍
9 {2 ~& J/ e% Y7 R0 E) V. M# \+ ]! o5 w2 ?' k- D/ {2 d% r' r+ U
传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。
) F' o! n" S, Z. AAI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。
" B% v: I$ _7 l按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。- A/ h3 H& D' S, e0 X
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区' O' Q+ ], }6 I; t
% `- K7 D: B. K- f- a中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]1 r4 H3 y; q8 Y, S& Q
美国:$8–12M/MW,400 MW 约 $4.0B[1]
; p4 x. }, C% k, J$ ]2 \欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
+ x8 T2 ]+ B5 e, l1 ?* n6 C$ ]8 J4 ?中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]# V$ R; Y1 a' C3 n) ?* }- g
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。
1 R7 L/ B- w/ Z. X$ FOPEX:电价与人工决定区域优势* ~" C# o% s0 `+ j& `5 h8 B
; T" C+ O7 D* E. J8 u {+ d9 U电价(2025–2026 工商业大致区间):! N- q+ f+ ?) a; L9 `+ D
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]
* k* \7 S3 V9 D. J( C. {! ~6 s美国:工业用电约 $0.085–0.09/kWh[44]* g1 D* \2 H! S: W: U- c
欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
% c2 q0 ?0 G' _) m; L5 H中东/UAE:工业用户 $0.07–0.13/kWh[47]2 w: p- t; b4 D# {5 h) {& `; j
人工:
; x: k Y! i; d中国数据中心运维:约 $22k/人/年4 h h6 G) M, {9 x7 {
美国数据中心运维:约 $120k/人/年[1]
- R2 `: G. x' r, b: W结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
* R B) ~8 }4 ]2 G) `+ U( i# U能耗与每 token 能源成本:能效差异远大于电价差异
4 [/ p3 @8 s& C$ I1 A7 P8 ]9 |1 c
IEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
" m. v$ C+ W1 C8 \大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。1 B( {4 p, [# w5 T
将 token 能耗约化为统一口径:) F5 T$ D% r7 {/ p3 ~ Y
粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:+ T! C0 s3 K" L
中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token) i" I( }! \4 }' }
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token% P& [$ `7 Y Z
对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。
v' n6 ?0 `, H( ]不同芯片方案的核心差异8 p6 G, y. `" ]7 {2 |/ A6 M
6 _' V0 l' s! D( C6 z& S% FNVIDIA Blackwell/B200 & GB200 NVL72:
8 q0 n2 U* ~8 W/ t$ Z( w7 Y单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。8 u7 \$ p% w2 J4 ?, h' z! D. I
GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。8 Z6 |3 q) }" T+ \5 k
Google TPU v5e/v5p/Trillium:# q& W2 X4 p1 r5 o
TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。
7 E: ?: A, t( c$ S3 k8 ^Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。
! u8 F! i8 ]7 y0 W" V9 X- ^* }& f华为昇腾 910B:
* z7 n5 U1 [4 E; UFP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。) k5 x9 _9 ~2 I
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。4 N. J7 L B0 z, h- ^2 [2 N
阿里平头哥真武 810E(Zhenwu PPU):* ^( m, o* T% c6 ~2 q! z) M
96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。
% j# m5 t7 n2 \ u+ @# F- k6 A j, t结论:
- i/ n8 H$ D1 T. W能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。
3 I0 | N) x, w- q; _& j单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。
& I- Z, |3 T& `& Z对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。& Y* Y% w. X' }; C- C/ l
自建 vs 云租的 TCO 与 token 成本. s% i6 e' l. @2 T: j5 Y
, |$ k8 f3 c+ Y
LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:: n$ q' r# S' v
8×B300(Config D)自建 5 年 TCO ≈ $1.01M;* f- ^! F8 |* y& e
等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。! O }$ r& p% o/ t' T1 g
8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。3 I- ]% M* J& T
Token 成本对比示例(LenovoPress 场景)[28]:* o( x' Q7 U/ q: _( g
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token
$ {" z" b. `# ?1 h* }vs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。
3 a' o+ y' h) f' Q8 R同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。
5 K4 x4 d1 g' T0 dLlama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
m) J8 w, m8 q& I& T" X( Z结论:, o" N7 u2 R) @3 s5 s# n3 S& k
高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。7 S, y% F; W& _/ Q
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。: S6 r- J% C1 v L8 l* R
二、建设期成本分布:区域对比4 g$ H0 |0 u" v H* y
以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。) h& \( r# g. f% s1 k
6 ^5 l% ~) [$ f+ @, t. u
2.1 全球/通用结构(以 1 MW 为单位)2 k6 \5 v! f" i- ~( J( L; u
综合 JLL、ConstructElements 等[2][41][40]:, A/ O4 R1 d0 v
8 o9 w) z& @, u4 T6 h
壳体+机电(Shell & Core)4 }+ o( j' w! f9 b" d
+ P4 i" e p" T# X
全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]
% p6 w' @" _* J1 t$ Z8 r0 k+ C其中按成本构成[40]:1 {& R% k1 @. m( @
电力系统(变电、配电、UPS、母线等):40–50%4 M7 t% `) _4 S }# T) F% }
机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%- G, `6 L$ k- S
建筑与土地、结构:约 15–20%! i8 I: ~4 n0 Q
其他(消防、安防、楼宇管理等):约 10–15%9 m8 T) V7 K( A' l
IT 内装与 AI 基础设施(不含芯片)
a; b0 V0 u- D% b9 g. l0 Q
, {& c o. q* Z: Z高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。! n6 u2 D- K" l
GPU/加速卡硬件 CAPEX
) G7 C: q1 [9 `) F
0 t1 K6 I& C3 t3 d1 B$ J: f5 l多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。' L+ K4 f& y- Q/ e4 d" b V: Y, C- s
2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX5 q9 A" F. a$ p5 p+ u
结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
- |4 F! \7 }+ C' v; O: G( a1 j8 O' v
区域 典型建设成本(壳体+机电,$M/MW) 备注, a- z; c1 D) x4 W& ]* S% Z1 z/ R% v
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]# ?' E, L$ l! A' _
美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]3 ^2 d0 A, u0 x4 C: Q. G
欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]
& L# w- Q. o$ W- ~5 B/ c0 `5 ~( C中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
7 A9 u* r) ^ w2 \7 l/ |: b结论:- w. Z5 x9 M" u$ M( e0 q. n2 I
& g4 o0 a R! r6 _
单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。+ H7 p5 P2 f' v% T. H+ m
若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。7 [1 m y+ ]- K3 v1 l0 b: O! v
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)+ U: Y6 c# T: L# j
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:5 ^( N9 L% _" s$ O9 h' H
: W1 b. i6 C8 _9 _( [8 a2 C7 P假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
8 v' d* z5 X0 y$ N% AGPU 配置:
2 E3 @) Q8 V& k" ~3 S( d有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);* I. p/ g$ F5 R k
每 rack 成本 ≈ $3.0–3.35M[34][69];
: t4 @# O4 ]0 n; Q9 d2 z+ q( wGPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。
9 b$ {; S4 k7 t K" ~: ~与不同区域壳体+机电组合:
! l; S0 z* A; v& J7 s' d3 o ?& D) |3 G6 R: } x
以中值估算:
% z; X3 K2 O% |0 [# q2 a
$ c0 g+ s" E; I# Y5 l7 u0 [& b中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
6 `5 d3 X0 j* E美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B5 J9 e: e+ S7 y: @) y) R3 @
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B: f- G0 p7 W0 |8 w+ `! q
中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B' V2 {+ }9 B6 Q
可见:" `, A3 |5 A' S8 y
5 \. @ Y2 \3 z! V6 Y
GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。 I9 @& w' s8 {: H+ R% C. e1 w
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。4 F9 o; A! t2 g; L/ ?8 T
三、运营期成本结构与区域对比
! g7 K1 E! U' J9 }( h3.1 通用 OPEX 结构(高密 AI DC)5 F( _( G! x0 N) H' q7 j, w
结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:
& _5 C$ D! `9 M- B% Z) T7 y$ e/ D4 P0 l3 r/ \
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。
' _( O& x1 J) F/ V+ a冷却与水资源:* r' T( @+ a% a5 C. _9 l
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
+ Z2 ?# t( \1 C水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。$ L) T1 p9 Y m8 |
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。6 Z7 [& m" i6 O, j, t. y
托管/物业与维护:" y3 w4 D% [7 l7 b
托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
+ j; u6 j1 h% ^2 m硬件维护:LenovoPress 模型中按设备价 12%/年[28]。5 n5 j) Z1 O d
3.2 区域差异(以 400MW / 3 年期为例)
( U4 m8 E( I" E+ I9 j- _& N( N使用 ChinaTalk 的电费与人工估算[1]:, x: j. w8 y6 {6 G/ t& R
" ]% _9 A! N3 l0 \3 m5 C
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
) w) f$ |1 j! Q( T中国:约 $0.06/kWh → 3 年电费 ≈ $350M
# q; y: p: _7 U8 ?美国:约 $0.09/kWh → 3 年电费 ≈ $600M" u2 B% K& ]5 E9 ~3 [% X
中东:约 $0.07–0.10/kWh → $400–550M! T, h& Q# @* a8 S
欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
* B' j# ~1 q4 a! _5 o- p; ^水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
- U4 B0 K7 }* X# d& Z美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]; e# j: A2 \. g1 f
三年水费级别:
! s6 X+ Y5 k1 d! Z美国:$40k+
* q- |$ b, X- ]! B7 ^5 k0 b- W# c8 `中国:$20k+
* C: p" d4 i8 b: K/ Y: l% c; D5 I结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
, B$ A; h M8 H8 F( n人员成本(3 年) – 假设 500 名全职运维:
( Z! Z- G$ c7 F6 V8 J美国:500 × $120k × 3 = $180M+# S7 \& L6 ]/ p
中国:500 × $22k × 3 = $33M+
/ u/ Q4 D# k/ {; c9 W7 J6 G7 k: r差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。" n& N( U# I; R9 k2 m
整体 OPEX 粗算(3 年) – 400MW 场景下:
& t9 b f9 \' _ w) j2 F" v
" Z O) W7 ?6 e* l! @1 b项目 中国 美国
6 K. C$ F7 X: V+ s, N8 D& V7 o电费 $350M $600M
: K+ H- d$ [1 o水费 <$0.05M <$0.05M; R$ g. n5 B9 ^: \4 K4 k0 K
人员 $33M $184M
# k: e( T F0 H! y6 x3 [; {其他维护/托管 同比例估算,地区差异主要体现在人工与地价 8 L4 n6 V- n; F( [( x
结论:
8 P0 Z0 q5 b; V* g
1 j5 g, s z( S: B6 B2 ]就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
; y+ s) G4 I, k, E" y' L5 u对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。! q$ ~. u5 C4 _( \/ T2 J
四、基于 token 的成本与利润推演
1 E' u6 J m( h- o/ o0 ^$ U4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)# C5 O; H" e& @/ q5 _
统一假设:
4 W, @4 i; z5 e: v4 b( z0 C9 e4 ^; Q! b" U( |
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])
$ w" T7 {% I5 [/ K* w1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
5 s$ X- C& U; E/ d( g* C8 s8 t1 百万 token:278 Wh = 0.278 kWh
' M+ o/ l; u, h6 m场景 A:美国电价 $0.30/kWh6 n2 V' N8 N ?! L& K. \. i
电费/百万 token = 0.278 kWh × $0.30/kWh
6 I+ h" d% C5 s6 y4 Y! Z9 a≈ $0.0834 / 百万 token$ C1 Q% s% R! _8 E) Q# z+ @
场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh7 q& }( p+ a: S) ?
电费/百万 token = 0.278 kWh × $0.042
" V. L: P- [1 r' C: L, D≈ $0.0117 / 百万 token
$ w" }, W) x ~, a2 h对比当前 API 价格(OpenAI 2026Q1)[62]$ e* u6 M3 q1 }! b& t$ B' I
以输出侧为主(成本最敏感):
& F8 T( ?% v, S
2 C! Y7 E$ W" W7 ^/ N: \) X6 m模型 输出价 ($/百万 token)" w( b, I+ |3 S. D* Q/ {
GPT‑5.2 $14& V \* B9 k" O; D I$ T8 S0 V
GPT‑5.2 Pro $168& b# I# S7 Z5 m0 z$ J5 C# d
GPT‑4.1 $8
. s2 P3 w: b) NGPT‑4o $10
. D. X7 ~; c' U4 R8 J5 u' ?GPT‑4o mini $0.60
1 Y x( I' B+ y% ^则:$ |9 V. O9 s5 c5 Y
8 {) |, t d* ~4 W! s在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
' s7 E& [% r1 h( @在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。- O0 q+ h% U' X* V/ q3 ~2 e
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。
9 ? n4 U/ N! V6 @结论:
; d7 \2 t. ?3 f; Q7 L7 ~即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。
% q: e0 v: S3 ~% d& t
: s2 n- V7 n7 {0 A5 ?! V" h4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)3 f% m" w% R7 x" R. h
以 LenovoPress 的 8×H100 Config A 为例[28]:( t9 G2 s3 i% t9 c0 A
) J' P4 m. A$ I# W& S$ t2 t
5 年摊销下,8×H100 本地推理 70B 模型:3 y& a1 b7 t. `9 {. ~, ~
小时综合成本(CapEx摊销+Opex):$12.08/h; [% M8 h8 ]4 I; H6 T
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens; D' y5 a9 F, O* i$ J
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token
9 R+ L2 T' ]* j7 [: A9 N( V电费在其中的占比:1 q- B8 a# V: Y( R, d+ b& g' G
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]
6 v5 f' O$ K, Z7 a' U, q, E# e$ e: k电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token ^9 N. a$ ^5 ~) }
电费占 总 token 成本 ~7% 左右。% }0 X1 U+ N1 `: ^* O
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
6 b C( M1 f+ f6 f- W2 ^9 P' w若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。
- v, I2 `0 u$ e) r% M% j$ R! s7 N
因此:
, y( W2 n ]& c; y3 y
3 t X D* y4 a% w6 y( g* n在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。; ?" y' z! U0 ~% o) B4 ^
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
- q! B2 o& L4 y4 g$ B五、不同芯片方案的建设与运营成本对比
( C# b3 w. p! X$ I' W% A5.1 NVIDIA 方案(H100/H200/B200/GB200)
0 \) i4 R+ Z7 m' u1 r+ A2 B* wCAPEX:
; G1 |9 n& v3 v5 S( c" e
* _% _ a( R6 K3 Y4 X. NH100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。 u8 W/ R& v9 x; k4 v( \
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。8 o' s: J- O" ~8 O
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
6 e2 O! u- a @9 F" C; CGB200 NVL72:/ T+ A D" z& O9 r3 x. c" ^& c
每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。
/ `& u6 T2 p2 P4 b/ d2 }, ^冷却系统每 rack 额外 $50–56k[35]。
7 p$ B2 S) f! }2 N, T在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。
% Z$ T" `6 q$ HOPEX & 能效:6 l( z; }( y( i
0 b+ d7 n; u% R6 Z' x单 GPU 功耗:
$ m( r! [+ v$ t( ^H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
3 T! ]9 Y6 x7 b3 r4 ~H200:功耗类似或稍高,但性能/W 提升[9][10]。) }- v X! J9 h; O
B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
, R! n' k* t& Z( X1 l0 L4 nToken 性能:0 U1 Q/ }" ?& p
B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。6 I K1 H- f: @ v1 M
NVIDIA 的优势:$ F9 X$ }6 I* |( \$ \! P
. b/ L4 D! T n {8 T
软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。& Q1 ]% \* B* k# V/ G3 g
但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。( N* w& z0 S- L
5.2 Google TPU 方案
" |9 g; M: z/ m- C* OCAPEX:
5 [$ t0 l* [$ s: ~- Q" S e
+ @% ^7 g! X0 y& U2 s7 Z9 ~单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
; C3 c* Y' C+ uGSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。
+ I$ g" F, i% P& u0 v8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。% Z _. H* |; U* b
能效:7 c/ a8 Q9 m$ m% v& A/ x
3 V+ ~+ {+ C& h: o! S% TTPU v5e vs H100:
# r; d- J3 M5 h- e同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
* F! W- X' q& H5 F5 T# {4 {测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。
" Z9 j2 W9 \$ x% R$ i新一代 Trillium/TPU v7:
6 |* {: w1 _) o4 U' h能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。8 ]0 o& L0 J& W7 W7 \
Google 方案的特点:
3 ?0 q/ r' t" Q# u& W% w
( |$ x% T: c3 D, W自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
7 j- J! |2 I4 c4 Q+ B/ ~对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
! u. P9 F0 Q* ^/ ]5.3 华为昇腾 910B / 910C 方案) C+ H4 t+ u" @7 [- W
CAPEX: Q9 ~$ c6 v. l/ ?
" O3 S! }9 e1 H9 D6 j单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
9 F4 Y# j( K( I* U+ C与 A100 对比:. z/ Z2 T- s* t* m0 ]3 g9 Z
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。6 c# `( _6 J: f0 l$ `
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。0 V5 ^% E, y7 @/ t
使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。
3 j5 ^* Q4 H0 B! X% HOPEX & 能效:2 A( b! }3 G4 k3 A3 ~
/ w; {9 R2 }& R5 Z910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。
w; ?' S, G+ ]$ \1 X, B1 Z- f! v部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
. b. o, j& k; d6 h$ |+ `! Z在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。# q+ X7 x& |: K8 w
5.4 平头哥真武 810E(PPU)方案
0 G/ [1 W5 }6 W" Q, ^# gCAPEX:
0 l5 n) m) E+ b# N4 }; ?( E
# ~9 X* e# c+ I7 G. K4 j Y技术参数:9 @, _- D( }+ r# g5 e
96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
% ^* {" S4 v7 f- Z! x性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
; O1 @ Q5 d2 K+ q6 {# Y o价格:0 J* U8 j: D2 m9 S
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。
3 N) ?7 I% s: u5 h/ \2 M+ C7 c结合国内报道:
9 G4 H }+ B1 H6 e2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
, S) ?+ X! x# \# J% E数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。- {3 H" r, B0 Y9 w0 x. W
OPEX & 能效:
4 m6 q( M8 J ^. c5 l' z" p9 t% O# Y" E0 @+ f
400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;# A& n$ x* I& p# ]
在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。
+ K0 {1 T" ~1 Y) n! X六、综合比较与策略建议
/ Y! N+ e) |' f% B W5 P6.1 区域维度:在哪里建 AI 数据中心?* R) s' a# ?) b5 O8 q/ a1 R
纯经济性(TCO/tokens)排序(假设无政策/合规约束): P+ l& T5 _6 u, v; I- b6 v6 o* |4 {
5 w$ r# m! a5 [1 d8 V
中国西部/北部(电价低、人力低、建设成本低)
8 }" ?) U" s) d% N9 c中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)1 p# l4 L9 B( V% V8 K8 j" O
美国电价低但人工高;东海岸/加州电价上涨压力大
; R9 }: i+ ~, ]欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求 d! Q% F) }4 R8 S( h: s
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:: h8 h$ X1 ?5 ?" ?
& z# Y* U9 [% ~纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;( R" k, {3 R0 ~9 c# ]* z1 t
对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;* T4 O/ b0 A" _7 Y" s( i
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。) o) c ]. `5 l% q4 t0 m2 q
6.2 技术栈维度:选哪家芯片/云栈?2 z, X& @. E% K% |% S% T$ P" P
若目标是全球最优 tokens/$ 且不受出口管制:
+ m2 l5 M5 i1 D0 P8 u6 a( ?, f5 f8 K" e. L0 ?1 ~! ~$ e7 R+ ]/ ?8 X
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。
2 V0 l" [7 S; h若在美国/欧洲,能自由采购 NVIDIA:$ I# P# h% v0 M' u7 Q
* s, k& i- R6 h" C, i2 L
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:
' o' z3 H; h N" y成熟的软件栈与生态,极高的 tokens/s/GPU;3 s% S! y& V, e o+ l K
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
* C+ k9 I: C& c2 b( b: r, x但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。7 U0 G5 u2 b4 W5 P' I
若在中国或存在出口管制约束:/ O% [9 y. i7 i3 q) {; ]: `
$ {/ C1 u V# Z0 C. J
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:2 t: i9 V, p; g. A# P' n
性能上已能覆盖大部分 GPT‑4 类推理需求;
- J1 K. S" @9 F D单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;* i2 N; ]. c' ^, N$ J9 N# P8 G
软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
! @+ n0 Q7 x7 C: G: o建议配合:+ l7 q& b, ^; o
高效液冷(PUE~1.1)、
1 G+ Q. P0 |% }大 batch、路由(浅层任务走小模型/低成本芯片)、
' b$ }( y9 r! x, P s+ g( ~强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。
5 `: B1 \0 I% c9 a# b( [2 S" Y长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:: H' ]2 `4 @, C) z1 a
( Z* h4 i5 i4 X6 A/ k4 a
数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];
. \3 Y' b0 a1 A. i: b这意味着:7 t* e+ ^$ ~6 |
优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
, o- |1 i& K9 G: S: _) j精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
0 u. B1 @+ t9 f" e+ d" P6.3 针对你关心的具体问题的简要回答( l% q8 N9 H+ W, Z0 x3 _
AI 数据中心建设 vs 运营成本的大体比例?! J- G3 j, m& z, ~- M
- u6 f8 _2 P/ G5 o" e1 K在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。
; u5 H6 U; y- R$ N% H) v其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。' @8 T- U# y1 m& d5 q9 b4 ^
中国、美国、欧洲、中东的成本结构区别?& a( _/ @& m; s
; c3 L" U2 i" ~- m
建设期:
2 {+ y; | ~) I' S/ N3 l中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。. j8 X+ T* v8 P% b2 m
运营期:
' D% P; O5 c+ c! h4 ~* D- S5 r电价:中东 ≈ 中国西部 < 美国平均 < 欧洲6 l0 s2 K: y: H( M- a: c" V6 D
人工:中 国 ≪ 美 欧,中东居中。, c/ X/ u- w& v' ~2 J: c
在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?7 q; t) g* [6 r/ L, P: _. X$ u3 S' F
' D0 m* K: `. i: i( L
对于典型 1 J/token 推理负载:
, t0 q& m8 Y7 ^! J6 ~( j. [2 B美国 $0.30/kWh:电费约 $0.083/M token. j4 ]8 ], E+ }6 O+ J) O
中国 0.3 元/kWh:电费约 $0.012/M token
, d/ q/ T9 {$ D; K" E* `6 @3 ~对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
) t2 O" Y4 a6 `6 Z. F' M; m不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?
2 B3 C: u2 L. o% b; B' n
3 V* f0 x" r. I在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;9 l1 q, {" n+ `6 R
全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
" ^% w4 g& `5 m4 `3 \6 p" q中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|