TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
+ _7 R9 N# P% w3 s9 @! @
3 m9 T. g) p. @: f! E一、总体分析框架与核心结论5 L+ U, z' [- M
1.1 分析框架概览
1 w5 A! i4 F0 X拆分维度
+ H y0 F- ^, i+ P! m( i2 s% o& m b# r0 ^* |+ M, A# o! \
阶段:
6 E0 K7 Z6 z! h' Q4 r$ ]3 _建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施4 }$ U: p8 Q5 u& r1 V& f
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等+ e0 x$ M2 {7 X( W( W4 N _$ Z J4 k
区域:$ m2 q+ A/ g+ W1 }- B
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
1 Y+ V* f, q% V- J( Z$ ?' o+ r技术方案:
* w. @3 l" ^) F( x: GNVIDIA(H100 / H200 / B200 / GB200 NVL72 等)
3 G; P7 p) e, E! Q# Q. ^Google TPU(v5e/v5p/Trillium 等)
A+ x/ k [, Q; N N" k, G; |3 Q9 F中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
/ b, q4 ~; H( H( }4 ^0 `$ e算例基准
: U. s/ W; s! F' w; U. z) `. ^" \7 L, ]6 k
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:$ C S5 o: e2 r+ D# u1 ^8 W+ P
其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW4 k' z! w/ {# P1 l
PUE 假设约 1.11(高效液冷场景)[1][29]
& }4 J% E+ a2 O' ]2 V4 r; I. Z时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
2 Y% D- p; s+ n8 }关键指标
& _9 O. p8 I0 A8 V% \: ~
2 ?0 G0 O3 [. L! x$/MW 建设成本(含/不含 IT 硬件)7 o% E% }3 L W5 Z. n6 c
$/kWh 电力成本、L/kWh 水耗, B2 V5 ^" S+ `) V+ f b
$/token 或 $/百万 token 的综合成本 l4 Z" C4 T z0 P9 m2 J! p
Token-per-watt / Joule-per-token 作为能效基准[17][18][26]
, T! O4 D0 L7 Z- }& @! S3 R项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
e, ~- }0 e9 g+ u1.2 高层结论(供决策快速参考)$ U! O' f* p3 e+ S4 Q4 s% `
建设成本:AI 数据中心相对传统云数据中心成本翻倍$ _+ Z4 }) Q8 U3 Q" E6 S4 Y+ \) ^
: D$ M" g1 Y0 k+ U$ D- W
传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。
( R; ?. J1 r3 A0 h, ]3 J) c8 ^2 OAI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。: I8 G D/ ~* Z1 E8 f& g
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。3 C4 K: m. f! K- x
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
; S1 [; o+ i6 G3 f @. }5 l$ K$ ?6 l2 k2 c; y6 |. V
中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]
# W; Q' C: Q7 z5 K. e美国:$8–12M/MW,400 MW 约 $4.0B[1]8 U) r- Y0 c& R4 u! ? M
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
& F* a1 ]# C) {! ^2 A中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]
: N+ z, {# @ S9 n结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。. D& q, {7 S* G1 N, A- X
OPEX:电价与人工决定区域优势
: C$ O# V8 c0 b8 P5 F1 u3 _7 H
2 _4 A, X* Y" _( V. ~电价(2025–2026 工商业大致区间):! Q: Z) C/ k* r* V) n. }; {& f, O
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]
7 o4 p3 _4 X3 j; I" B& l; b6 S0 M美国:工业用电约 $0.085–0.09/kWh[44]
! x* }# a3 O4 v" L* M3 w2 i% J欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]: N5 e0 W+ c w8 t
中东/UAE:工业用户 $0.07–0.13/kWh[47]7 H- q& u4 l- T- J! a
人工:
5 j8 h1 p4 t0 N: n' U# P( W9 d中国数据中心运维:约 $22k/人/年
' `7 r4 _! [' m& ^0 E) N美国数据中心运维:约 $120k/人/年[1]
! U& r3 k4 v8 F O6 o5 k% {结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。% u: W! |: i% a( s& G* G
能耗与每 token 能源成本:能效差异远大于电价差异" J9 s3 n. d# O- v3 w' ~7 l
) F( i* z4 o+ L+ D0 q x y, a2 Q
IEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
+ [ `0 b: Q/ z. z! k. f+ f大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。
) i1 `- U* s6 Z9 d7 x将 token 能耗约化为统一口径:: K# t9 X4 x$ J4 R
粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:9 w. m0 T# M# s$ M4 Z$ d6 d
中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token$ l/ y2 ~, d$ ]5 g' a$ G. i5 X
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token' E& j5 w1 G% K4 g$ p+ V4 R+ v
对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。
1 @* X2 x+ w, K/ g2 {& }0 D不同芯片方案的核心差异2 b i& q1 h g4 M' I* i
1 l. l. A! U4 U) O3 p5 cNVIDIA Blackwell/B200 & GB200 NVL72:
$ D$ K& e# R9 M9 H单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。 c0 E' |; m' `
GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。
# ~0 H; i6 ]- x4 C" Y& vGoogle TPU v5e/v5p/Trillium:
9 K3 S% ^2 A2 w L9 o; ~) \TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。; |: a" p3 M! I
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。6 [8 ~% Z/ o1 k" u5 S
华为昇腾 910B:
0 q* W p/ t' w( _4 e$ ~FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。3 N) ^8 L# w) d' ?( ]0 U2 R$ q& [
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。
- N8 K! y& `& N5 t' l6 o阿里平头哥真武 810E(Zhenwu PPU):! A1 p: ^9 ^5 P7 L! U; C- q7 F
96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。' K, w8 |% \( ~; ?- Z5 S
结论:
$ W4 l) [6 ~; i; U# r9 A能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。
1 D! ?+ \: R7 ?" V单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。
; l1 |* h- [) Q, O2 X( Y对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。
7 h, A, W, n% r$ a1 c自建 vs 云租的 TCO 与 token 成本
8 w1 y0 D* [% R4 I9 T+ L" }1 U5 }$ k7 d2 Q2 d
LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
~- F3 P% h7 t4 [5 k0 e8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
% I# d- \8 M" p) d- r+ c等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。" ]4 D5 A- k- l, y# S( k
8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
) C0 H5 z$ j. c, s% K" Y+ ZToken 成本对比示例(LenovoPress 场景)[28]:
- I. h8 f( \3 t: ZLlama‑70B 推理,8×H100 本地:约 $0.11/百万 token
( P8 F) H/ I. Zvs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。4 D# |7 j: m. u4 U/ m' e
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。
! w4 u+ B* v+ E. B5 `2 ?Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。. M) G* h# k5 m8 M& |: p) @
结论:
1 |# g2 j. n8 H. O, N" C0 K高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。
$ Q6 J+ R6 L) R3 JToken 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。: I4 v1 V" B$ K( \/ u
二、建设期成本分布:区域对比
7 [* L7 [& A" K' J以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。0 G" u$ t9 s; P( c
7 t/ `) G2 G; ^7 o. H2.1 全球/通用结构(以 1 MW 为单位)) x$ n& V# t$ E1 b! V
综合 JLL、ConstructElements 等[2][41][40]:
2 z2 D! c/ K( L# I+ U1 g6 i/ S
' @8 F% s, e9 Z: z! a, X壳体+机电(Shell & Core)
1 g7 z5 _% e0 }6 {7 G* Q9 I- E
" F0 d4 Q$ @. G$ Y" f全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]
- a- }9 ]' o5 h( {4 V其中按成本构成[40]:9 A. ~( H9 @" g) F
电力系统(变电、配电、UPS、母线等):40–50%
+ V# |, ]+ ^8 l2 U机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%; m; \' J. e: e" y% @4 _* y
建筑与土地、结构:约 15–20%3 b% m w" K& E7 i* D# K( k
其他(消防、安防、楼宇管理等):约 10–15%/ C0 a: a, [( S9 C5 P/ T6 v
IT 内装与 AI 基础设施(不含芯片)
2 m9 [6 [, ?2 u% S ^& @8 b# W4 h3 h' g$ g* Y
高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
' Y$ d/ U' ^9 I2 T# G' zGPU/加速卡硬件 CAPEX
# e; z, w* d4 G5 R
: D6 g. k+ a. M- i$ h& w" `多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。; v1 O/ n- S- F* Z
2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX
( e) R+ ]9 W( L6 l' d+ p结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):( C$ b; Z5 x; d5 Y( `- }# R
4 L) T- `1 o+ H) [ l
区域 典型建设成本(壳体+机电,$M/MW) 备注$ g& J5 m0 H8 T2 ^& z$ G. X
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]& B7 X3 p4 O3 V5 u5 p; \+ e' L( L
美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]3 i; G, D; j: S
欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]
" q% {- q/ a- ]( q! j4 Y中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]4 ?% h/ L1 G1 h6 `& q8 {
结论:
/ ~ q3 h; V- N) r- s1 J4 `" R& i; n" X" X
单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。
0 Z( ?; H, U7 ]# M2 f3 S8 @' l若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。% H A' J( e2 X/ f* a
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)7 Y8 \: V; U4 V: g0 u5 m
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:5 v: F+ W2 g9 Q: ~
' _, B1 |& t$ o% S* b假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
! u0 l& q. e- _' |% A# ~' c% B# KGPU 配置:
( Q* S! ~2 t2 u7 ~0 @有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);
! C; p$ U7 W: \% X% |每 rack 成本 ≈ $3.0–3.35M[34][69];2 [: Z6 J8 R3 ]% I* d
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。
) Y# T5 @+ C4 K, F与不同区域壳体+机电组合:
2 n1 W; F2 p8 i1 T" K
- d+ A' H. w3 d) a以中值估算:. |. I% F8 ^: P: X& i
# j9 N- |5 u8 D$ t
中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B% S; K' M* z. x) Y
美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B& Q: j+ g! ~" O1 |/ {& J+ x1 C" q
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
% V- @3 F# Z1 c" {2 [中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B
9 E2 I* k$ s8 t- U+ |可见:
- B1 ~5 U. W# N% p+ ^; N
, ]/ Y4 c a, F1 fGPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。* O& B$ n9 ^" z
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。3 H" Y$ e, m& t; _/ b
三、运营期成本结构与区域对比
; X/ v% [- y+ b% {6 E3.1 通用 OPEX 结构(高密 AI DC)
z0 n q* d& c! s结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:
/ g- h( t1 j( E d0 t p. M: b
/ X* h3 _: }" p+ r: n0 ~电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。; w' ?2 ?, {0 [: G( y
冷却与水资源:
& }' M \7 J2 T3 Z7 h能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。1 H, I! z1 G' V* \" z0 z
水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。
% J* V ]: e: K人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
. S4 R: H2 ]/ Y5 L6 G# g* N3 G托管/物业与维护:
( d1 k* B! e+ b. I" ]1 s托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];. [, O! S; b$ C) p" [2 G
硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
9 S- z8 O; o9 C ~9 i z3.2 区域差异(以 400MW / 3 年期为例)
; T0 ^* Y4 ?+ G0 b4 G使用 ChinaTalk 的电费与人工估算[1]:
* ^" I0 P8 v% \' w
% O: S& } s$ }- H* s! {! I6 I电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:( q) k% l6 U0 O5 P+ b: P5 Z
中国:约 $0.06/kWh → 3 年电费 ≈ $350M
! B; e" l7 k, N/ w; U1 W美国:约 $0.09/kWh → 3 年电费 ≈ $600M
+ h. o7 k( A0 T( z中东:约 $0.07–0.10/kWh → $400–550M
. s* ]; \% ]2 ^) K- ?( h3 q) u* Q欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
6 c/ S' N% r- C水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:; u/ a4 V+ J' P, R9 @
美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
6 N% \6 ]" \- }% U5 R' X7 B2 P9 \三年水费级别:
" o* i' V X# q+ O# P美国:$40k+
" S$ g% z! K7 G: k/ L3 j* C& p! |中国:$20k+' F! M& W+ ?5 f2 k/ B! _$ [# ?
结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
' R. v9 |4 O$ Z人员成本(3 年) – 假设 500 名全职运维:
; J, z8 P2 K+ e& G k美国:500 × $120k × 3 = $180M+
! E. W" _4 X7 W7 O9 C中国:500 × $22k × 3 = $33M+. Y3 n X3 ~* }
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。# [3 F4 @& e0 M2 ?
整体 OPEX 粗算(3 年) – 400MW 场景下:% o' ]/ Q/ t) w% S3 Y+ b
+ D( Q0 X0 v1 h( d
项目 中国 美国# ?9 [) C3 U& N6 U
电费 $350M $600M$ G' Q7 T2 i' _" h- l* ?7 d
水费 <$0.05M <$0.05M4 P8 f& i+ U+ A
人员 $33M $184M$ F* P0 p& q* m7 C N; H
其他维护/托管 同比例估算,地区差异主要体现在人工与地价
0 w" \, W: w/ f- Q, z( X结论:
* P) \3 Y: E1 [$ K) a2 m& O
1 b. s+ G0 k6 [1 L就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。% Z2 M Y5 H& U4 }$ B
对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。6 \% Z. E P& |8 V
四、基于 token 的成本与利润推演& K3 E4 N" S5 {) d7 u# o
4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)
K$ O0 i% G# V* O$ j6 K; P统一假设:& r! M$ a) k8 x
Z* e2 ~% ^9 R( ?% H7 P4 l典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18]); w Q# M6 ?: M
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
- T' v4 d. n" T- V$ @/ u8 F1 百万 token:278 Wh = 0.278 kWh* C5 R/ {2 T0 C. n6 \' i* u4 ?
场景 A:美国电价 $0.30/kWh8 m# K* H o0 R& |( e# ]. r0 ]
电费/百万 token = 0.278 kWh × $0.30/kWh# j2 w$ y+ Z" ~8 C
≈ $0.0834 / 百万 token
" C7 F- k1 E: E% K0 Y9 {) T场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
. K: ?. ~" K" I电费/百万 token = 0.278 kWh × $0.0425 j. z+ ^9 i' r5 U4 E
≈ $0.0117 / 百万 token
/ V6 N+ L6 H# l, H* b" W3 m, r对比当前 API 价格(OpenAI 2026Q1)[62]3 f$ j# ?) I9 { d9 W
以输出侧为主(成本最敏感):) s( n' q) w2 C& q
) D- c U b+ N9 z' Z* s4 Q8 G
模型 输出价 ($/百万 token)
# \# H/ d' c7 I& \& L$ h9 O8 j4 A3 W/ D0 CGPT‑5.2 $14
% o. o1 _: O' A5 y2 h* b% p8 @0 [' OGPT‑5.2 Pro $168! y# z; V) V% U+ ?* {
GPT‑4.1 $89 o% c$ w- | a% }8 K5 t$ ]
GPT‑4o $10( _8 N W1 F- B
GPT‑4o mini $0.60
* f! t1 D. K9 ^" n+ z+ G则:
# F8 u5 Q% Y X, d+ T4 C$ x% N* p8 q8 h1 o
在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。2 H, K* M# n5 K7 Q3 D1 c1 V
在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。
8 y+ U# m& h# q) J2 g' j相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。
% X! h! c" l, Y! l9 Z9 }9 G2 o结论:# t t9 L. x0 O- A" R& e+ d
即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。
) z# Z. ]) j& F7 W* V
0 @$ s# m- L" J# m- F4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)
. r6 i+ d4 I2 W& Q4 N: q以 LenovoPress 的 8×H100 Config A 为例[28]:8 k+ u; k1 V/ o I+ Q
4 r* {1 w. P9 p- S3 j/ I3 n* q5 年摊销下,8×H100 本地推理 70B 模型:
. L% g+ D1 X4 I8 ~( g Q( M小时综合成本(CapEx摊销+Opex):$12.08/h0 r7 Q4 X/ C9 K8 B; {
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens
1 j( U$ P5 i+ [- d+ d成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token
# l% U+ q" N' [! O, |0 K( S电费在其中的占比:
9 o7 s) Z: a0 C: Q- I3 oOpex 6.37$/h 中电力+冷却约 $0.87/h[28]
+ b5 D2 k1 a( H7 p电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token, X! y7 V# l! B6 ~3 u
电费占 总 token 成本 ~7% 左右。" @% @/ k& N, M" ?# M/ t
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
" e* o! R' g2 U. [若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。
5 j+ ~! w& o- v' X, o+ w4 Q9 A- f G/ C2 i# q
因此:) j: `+ H1 d; a* |3 i$ Y
2 R+ k+ c3 @# c' {6 ~; X- W4 M在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。
& n5 |# P; }' Q: e, t+ G在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。* r( O9 p. I' n
五、不同芯片方案的建设与运营成本对比, w1 G m: o/ f. o2 N- D/ v
5.1 NVIDIA 方案(H100/H200/B200/GB200)
2 e3 p' `: K, H% kCAPEX:
) r: C' F5 }/ o8 P; }$ C0 N" f( P5 X S2 y. u2 }* v: h, q2 [
H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。' w8 l2 n% A: I/ F
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。
. T2 f* L: d- GB200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。! I3 B$ m. z& L2 C4 ^4 n2 P; `) T) j6 ?
GB200 NVL72:
3 n3 W. d5 v6 X- H# S* ~) o每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。( V- m* J6 h9 m) t2 X+ x
冷却系统每 rack 额外 $50–56k[35]。2 {' x6 J& s+ M4 p8 K) w5 \: i4 G
在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。1 c2 e* A% y. n$ i; V( Y
OPEX & 能效:
9 h) _+ |, W# ?+ P, C M% v5 p) Z0 q! U% q; c5 @
单 GPU 功耗:
$ m) x9 e% F0 z+ k7 P UH100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。 V, Q5 ~( Q8 U/ r a3 ?
H200:功耗类似或稍高,但性能/W 提升[9][10]。
& ^) w# }0 l3 @8 T% `6 I9 L2 T! q0 |B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。0 }, t# O' @3 \2 [ h
Token 性能:
: [% X: }) y' a) z DB200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。5 e, c1 h3 K- Z- K& |6 w$ r
NVIDIA 的优势:
1 m- [$ z- a. ~1 a. M3 @0 y+ q6 Z: p0 R) H: m+ {
软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。9 c3 o! ~! W1 ^8 N
但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。
# s& K- i" W+ x/ ?3 B/ r5.2 Google TPU 方案6 ^6 n( V7 p0 K9 P ~
CAPEX:% w; Y2 g) k1 D
. h# N/ W5 _+ N1 f B单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
$ G) ?* M* O3 dGSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。
% J( Y- u4 V5 ]. v- V8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
; f$ s$ U) Z1 N, r4 z能效:
8 N4 X+ F4 B, F
- P( s* v. W7 y- `2 `# ITPU v5e vs H100:
1 @9 u( ^& N4 d3 X0 s9 ` Q2 C同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。1 g. g: T; O3 n L
测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。
( E, f" z! q! o/ ^新一代 Trillium/TPU v7:
# ^" g+ [5 {0 M能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。% o0 D! M5 C4 ?" P, o% E# d
Google 方案的特点:, D1 x2 F* N0 W
, i$ }$ s$ _9 E6 f
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;. R' S# h! T1 ]/ E+ ^" M9 X# b- K
对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
3 v0 J, [: F" d$ j5.3 华为昇腾 910B / 910C 方案
m X! c: j0 E3 S3 pCAPEX:
5 Z2 L# I, G7 w" X. m
# B' @" h& o& c; T7 D5 Z单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
( y- D( p' L& ~$ F4 _5 C/ j' ]与 A100 对比:1 x1 I. e; [: @, p
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。) l$ b1 C3 }% V
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
6 @: ?. l* H, L4 `使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。- a: K1 ]5 O( d/ w! w2 f
OPEX & 能效:
( q2 z v5 r/ N7 G8 b$ b
6 V6 W* t. K) [4 U910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。$ S- `$ q" t/ z
部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。% K3 e- O7 s W2 T0 [
在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。
/ ~, w: t7 } q5.4 平头哥真武 810E(PPU)方案+ c5 Z1 T! d- b8 l1 B" M1 l
CAPEX:
i' S9 P$ C" l9 a" ]1 h" `2 g) Y0 M) \6 K- k, p! e
技术参数:) i9 V9 z* q" y& d; h5 ]/ v( q
96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
% D$ B6 [3 f. x6 ~& j0 I性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。0 p% i% a& Z1 l: n: B
价格:) ~6 C0 g7 ?& m( x& x
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。
- L( ?9 h5 _0 E+ R2 O6 V7 ?结合国内报道:
- u. t% f! y% M% q+ }& o2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
0 u+ s/ b9 X( F* B* n2 R5 l数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。, A5 C3 K8 \' B' k) }! t5 m j
OPEX & 能效:
$ J( t; L8 \; v3 r4 [: \5 m& M, ]( C. _# |5 W. }
400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;0 V k1 K3 i, K# s
在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。$ H+ u7 _. s1 V5 e7 A
六、综合比较与策略建议: j/ Z/ n# _9 V( n1 \
6.1 区域维度:在哪里建 AI 数据中心?
. p8 d" B) j' o. r5 C纯经济性(TCO/tokens)排序(假设无政策/合规约束):
) `7 U l& b2 M- H9 o. ^) y3 o4 M1 ~
中国西部/北部(电价低、人力低、建设成本低)6 [9 L* w) h# t" W
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持), n& @- @% h# Z+ `. z
美国电价低但人工高;东海岸/加州电价上涨压力大
4 H1 l' ]3 E5 ]2 }欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求
/ r$ F1 }( G6 \3 I若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:. O3 c; X+ |7 J$ n) W2 m0 h
0 O# S3 c# t! ?6 z' Z- L5 f6 H纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
% q6 W9 T1 j. E对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;7 G1 y" I, Q! W9 `4 N
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
2 }, c+ ?4 C/ v3 w5 a# V6.2 技术栈维度:选哪家芯片/云栈?
" j7 @2 h) B( B8 m8 B若目标是全球最优 tokens/$ 且不受出口管制:
; z: X1 g9 y- v$ U' c9 Q; X x
5 V5 \& n. y, x6 AGoogle TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。2 V9 |4 h9 q8 w% m* {# E& a; i
若在美国/欧洲,能自由采购 NVIDIA:6 D* c1 t5 Z6 l% O
" G, C% E# n7 N& F7 A7 X短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:" t9 f3 }' J' @5 o8 l
成熟的软件栈与生态,极高的 tokens/s/GPU;+ Y+ ^9 }' ^5 U) |* J' G% I
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
, l8 j5 L8 j0 ~( m6 T但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。& M s; E! x2 w/ D# `
若在中国或存在出口管制约束:
# U1 F. [; e7 i8 R$ l+ ] [; i8 q1 m/ v A3 |$ g
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:% R# X/ H, M, \( C3 G- k$ K
性能上已能覆盖大部分 GPT‑4 类推理需求;
% [" |1 Z; t7 r$ r% Q单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
3 {+ q1 ?* f5 z软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
; \$ a, V3 X& G1 n3 W7 T M建议配合:
# x! l4 j. e% U高效液冷(PUE~1.1)、
5 b9 [* I7 n. v% k: K& I8 p( g大 batch、路由(浅层任务走小模型/低成本芯片)、
, Z! ?" U% j K& h6 z1 n) D强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。0 e2 a: U$ [3 Z) q, m2 p0 P
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:* l# b; `# p1 F" J
( C" w) q/ Q4 J3 E
数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];* q( m) l0 `: o% [
这意味着:
5 _( b, V m' _8 e$ L1 E8 B4 [3 v4 T+ V优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);- h8 O; b7 t k8 y% j
精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。9 o* n6 e( ~& N" c0 o
6.3 针对你关心的具体问题的简要回答
$ X; m7 o3 F/ [/ c3 o eAI 数据中心建设 vs 运营成本的大体比例?
* \" l0 Q: R' P; Q& L1 F( {7 y0 g: |) ?% Q0 a G, m' g
在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。4 x$ r2 z0 {8 {( T" ~% i/ u
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。/ V- t, A& @8 K
中国、美国、欧洲、中东的成本结构区别?
! m' d$ I4 T/ k( K; r( k
L2 L: S+ q% h建设期:
7 s/ E' r3 S" g s中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。
3 h& [, A8 N0 {运营期:( A! J# g9 f7 u5 B; ^ L" j' V. p
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲
. X' ~, T) V$ W4 R人工:中 国 ≪ 美 欧,中东居中。& J5 h' ?0 G' t& Y) X" b) E+ V
在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?
1 I4 I1 {9 x" c; M0 O
3 Z! _: h1 ]. l! c; d" J: R! y对于典型 1 J/token 推理负载:
4 A$ H- O! r# d+ O) j- M美国 $0.30/kWh:电费约 $0.083/M token3 z* h* W% W4 u% K( [9 z
中国 0.3 元/kWh:电费约 $0.012/M token
* P& r, N8 @4 n0 h; `对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。8 G2 Z9 P& Z6 C5 J
不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?
. d- U. G/ u5 c5 a; o) n+ z( y, A& W% s3 t
在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;* r2 `+ @0 a) T" _8 ]
全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
) W, I( e1 {( A& Z中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|