TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
9 b: Y1 c% C# O! B) }+ C4 [5 }( Q9 ?$ a3 ~% r# e+ V6 l
一、总体分析框架与核心结论 L/ m4 e# q O! e1 _7 Z+ s
1.1 分析框架概览
9 ?* T( d5 L* d2 L; R拆分维度
) v! y; k7 W H9 H- f, C% O' Y) b4 [( g. p) v5 {4 A
阶段:
/ B6 n2 k) S" K# ^建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施' g; j, @( k* {& Z0 I4 w
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等; l6 h" c9 \6 n- H+ j6 \
区域:; K1 S) w4 l8 z; Q2 l
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)" @, B' v" v8 C6 j0 w
技术方案:
# M9 f3 g% G* _( O8 f9 X; U5 z3 R( wNVIDIA(H100 / H200 / B200 / GB200 NVL72 等)" z. |$ D2 H/ }2 f
Google TPU(v5e/v5p/Trillium 等)7 ^1 Z6 l6 ?$ V: W
中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
# a+ x9 o7 }2 w0 _$ K5 c1 a9 O算例基准
. W% ~! |$ Y W( a1 v' ]. D) w! d) Y( Y; S
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
* u* {9 z6 i/ D( X: I其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW
+ g& @1 ]# @1 q1 fPUE 假设约 1.11(高效液冷场景)[1][29]2 E; t3 k r) a( K! a! Y
时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
+ H, Y/ v+ r) |7 @4 W# v, B关键指标
/ \) t6 ]" e" l9 D# U' `* _2 U; B5 V' y# R, Z+ C* W
$/MW 建设成本(含/不含 IT 硬件)
7 L# [! w! o" G& V! Z/ } d: Q1 [$/kWh 电力成本、L/kWh 水耗0 n5 w! J' R1 N4 p' j6 U
$/token 或 $/百万 token 的综合成本
- q3 N2 C0 w- D& R! i! x9 {Token-per-watt / Joule-per-token 作为能效基准[17][18][26], I1 s' S" J& [8 U
项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
8 [3 E: `2 w9 A$ q0 j1.2 高层结论(供决策快速参考)
& t3 y+ w( K; N9 o建设成本:AI 数据中心相对传统云数据中心成本翻倍5 l7 Z) i* }9 ^0 `
3 z) @* O7 K" }0 z; N+ i传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。
* L* x9 L" T+ zAI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。. D& L% _4 U# E0 ~+ k
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。1 }: i l( n: e5 B
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区/ }1 U7 [3 I% F" C' T( f
6 I) b: b( \/ C* [. R中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]
9 j+ d: E, n& t美国:$8–12M/MW,400 MW 约 $4.0B[1]
& F1 O% ? R( F3 E0 K4 E5 A* N欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
, b; e( A7 Q2 f+ U6 l4 C9 M; R中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]7 y J( \7 D. W5 H) [
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。
# B1 w8 d3 a( a. g+ W! n- TOPEX:电价与人工决定区域优势
) K# z, P) h2 o& X- D/ L1 C
$ D! ~6 `" I8 T3 h电价(2025–2026 工商业大致区间):
2 L- U: v) q/ H5 b# ?" G/ k5 Z中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]' S/ W' }3 Q% K% {2 ?7 h: f
美国:工业用电约 $0.085–0.09/kWh[44]7 h4 V, W9 D4 k2 V
欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]: b. W' Z+ U& X" G
中东/UAE:工业用户 $0.07–0.13/kWh[47]
8 C' D' x$ {5 B4 [人工:$ N+ p) c4 z3 V% X( |
中国数据中心运维:约 $22k/人/年; Q% B2 R/ k2 N% N2 U. M0 R" l2 u
美国数据中心运维:约 $120k/人/年[1]
w: W) V& P: c% ^结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
+ {7 I6 u' s% r% T- y, K能耗与每 token 能源成本:能效差异远大于电价差异/ ]+ _+ y" G: }- U) E( M4 }
6 o0 B/ Q' J# V9 o( Y1 U( |IEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
" \ O0 n Z d大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。
6 _5 T( K% u1 [6 ^! p将 token 能耗约化为统一口径:
, q+ Z5 c/ }1 J% T; y粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:# A- H7 _- e. V1 r. H
中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token
5 ~ {0 z" Z1 w. @6 j4 ]7 a! Q美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token5 w. w$ ]8 o; i- g% ~ k X3 A
对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。# F, z5 K d# l5 ~ T; X& n$ `# Z c
不同芯片方案的核心差异2 [- L% ]# {4 x( O( j
; L1 A. s$ m# Y" g: z
NVIDIA Blackwell/B200 & GB200 NVL72:5 d6 d+ }, q( w% Y8 F/ T0 @3 V
单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
/ l! n6 _7 G3 l, ~8 D0 qGB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。
7 U' m; f& W" Q) V; L- [Google TPU v5e/v5p/Trillium:
" f4 A" O$ P$ E3 n) _; yTPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。
3 z1 E" j. D. hGoogle 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。6 B9 b9 w9 D8 a# X2 O7 b# C7 }; T
华为昇腾 910B:+ |- E9 a _5 g4 I9 N; G; B6 \ f
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。
. J. c5 X4 J( I单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。
$ ^; o0 J- M' W3 E- i2 Q阿里平头哥真武 810E(Zhenwu PPU):
" j1 c% L0 N0 Z5 h96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。) r! j( a+ v( l
结论:: M8 u: `( p4 q1 o/ q3 L
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。
. g4 d/ Q' g7 H7 |0 P/ W6 n6 d5 j单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。2 d- U- B2 j7 \$ B; R
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。
# i7 T' _! O0 C" I, h9 A; n# ~- \自建 vs 云租的 TCO 与 token 成本$ Y1 L5 E) V6 j3 }$ N+ ^ F
/ _: d1 @9 {" ]
LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:, ?8 m; S9 N5 f
8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
9 Z% [7 T' L+ ^& y等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。1 z6 l% k. B7 y# m1 z# A H
8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
# d$ Z$ F {" ]; i6 k; lToken 成本对比示例(LenovoPress 场景)[28]:" j- { [. X3 K0 q- a: g, ^( Y8 P8 z- J0 Q
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token) G x' F& c9 \$ k. B
vs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。. H0 l' A2 u4 {2 B7 B0 T. _$ U/ w
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。* A- {: J' Q/ g$ Q/ C# j
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
* a! u5 ~, h3 d. P. z1 ^: M- K8 W& L结论:# Y* c5 q; {5 Z* d0 z
高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。
5 W6 N* ?( J/ Z0 i( y: v9 |Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。
0 l7 F/ O* E8 q0 y! b二、建设期成本分布:区域对比1 x+ p# G& I( Q* L- @3 v, }
以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。
! s' N; X, C- u# B" Y. c
5 ^$ e$ c2 P) o8 R2.1 全球/通用结构(以 1 MW 为单位)9 U6 ?5 {/ v7 L: I8 B2 ?. H
综合 JLL、ConstructElements 等[2][41][40]:
6 T, x# v+ b3 ?$ t0 ^2 x/ D4 Y, m+ F* D$ @) r- E) ~& e
壳体+机电(Shell & Core)+ R$ y# B9 C% \. X$ |, @5 i8 G
' J& M- M. Q) \* I$ U: ]6 F
全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]
* S2 w: \( B7 d! I. K, T# K2 P3 d6 t其中按成本构成[40]:1 i: ~( {9 V* Y2 \3 n* I H
电力系统(变电、配电、UPS、母线等):40–50%
! n- \* o6 S2 m; W" q3 n机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20% _3 V2 c7 C Q3 u r& @# {
建筑与土地、结构:约 15–20%
( d" f7 g. ~1 Z4 x& ]8 D其他(消防、安防、楼宇管理等):约 10–15%
/ k* H7 S1 K( K& ]" a6 U& r. PIT 内装与 AI 基础设施(不含芯片)
0 Y- ~) |4 l! A. i7 u7 i2 c0 {9 i' P# a& K8 ?: q' R5 O7 ~
高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
D5 e9 e- S; p% y- T" hGPU/加速卡硬件 CAPEX2 ^0 [3 f$ E$ E3 |2 w5 N
+ U8 Z3 W9 ?' D" H
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
: O. A) g2 y z# y& Q* L2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX" f8 g B( G3 d7 K
结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
& k3 P& K! P3 x7 }) x8 l& K3 A: R' \+ a- X6 k* K
区域 典型建设成本(壳体+机电,$M/MW) 备注
- {7 R" K" [2 [6 Q中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13] e2 K; j1 g- D S; U1 |9 c5 M
美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
8 B9 m: S+ A+ V# y+ N* R' v. J0 j9 {欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]
/ V7 N. q/ m; B/ ?$ E; W V# d中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]4 Y, E+ n* T, T. h9 d+ {( B
结论:1 P- ^/ N; c% F' a, w1 [: ^( n
: L0 M4 |$ d5 t% C( J! v2 f' }单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。
+ A7 ?: I$ z- B' e若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。7 g$ p$ l2 `; x, _- |- [: M4 i: b
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例) K! _8 Q- B5 `3 E2 b
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:- P5 N1 d7 @0 m+ @& y
9 O: x! Y$ g o% g3 F. F( c假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
8 j4 F3 N! g) k: }2 V0 v* jGPU 配置:+ Z% ?5 u% x* F- P* {! ]" D% M
有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);6 V) o; A8 ?. i% V* W( P
每 rack 成本 ≈ $3.0–3.35M[34][69];: H' Y3 w" I2 Q, O, Y: F
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。
+ T) w9 P# q$ @, m) D( m0 A与不同区域壳体+机电组合:3 W4 S8 ? ^) @* K8 r; p
% `1 |' h% @ Q. [以中值估算:/ A" t: m8 W/ m) @) m
7 ]! s* `; b% b. U2 q/ W
中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B& \9 s$ _0 d* Z: r0 X; y
美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B& _, v7 ^0 N7 z8 p' ~
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B% t+ C# C t' i* C
中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B
# X: f- L2 `# D; N可见:5 r4 Y9 j5 u- G! o! o
( J! c3 j- Z$ \) M& D
GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。% r0 d# _5 i8 @; V# i8 O/ W
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。7 j# n9 }) R( r) X) {6 c/ e8 N
三、运营期成本结构与区域对比$ z9 k, `0 N$ x ~* U7 x0 r
3.1 通用 OPEX 结构(高密 AI DC)
, c0 B% A/ ]% A$ r& i结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:9 E% V7 U2 N0 l9 p+ Q& `7 ^. q
. S& Y8 s: \$ ] x5 B
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。+ V. D+ x1 C. b% z# z
冷却与水资源:
0 g. H7 X. }+ S& I能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。5 K- [- ~) r) c) h! g' E
水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。" o. U4 ^: f% _. m' n
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
`+ y6 i* {. m% U! `5 i托管/物业与维护:
# R2 D# Y/ P* P/ }( U" N) K( F托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];+ q0 v( ~" W& i- ]1 \' u7 L! k4 h
硬件维护:LenovoPress 模型中按设备价 12%/年[28]。# ?+ f! T- J* i7 S1 o- o
3.2 区域差异(以 400MW / 3 年期为例)( b/ J+ `& V) U9 h( Z/ ^; C
使用 ChinaTalk 的电费与人工估算[1]:
' R5 A# A) Y G- E1 K; W/ t
+ D8 D) U B3 r电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
1 s1 P5 r1 ~' m" }$ D中国:约 $0.06/kWh → 3 年电费 ≈ $350M
; j/ v* ^& H; ?' k* a美国:约 $0.09/kWh → 3 年电费 ≈ $600M
% O/ r+ s' Z. C3 Z. r- |/ J中东:约 $0.07–0.10/kWh → $400–550M
4 H, v$ E+ `: `# j4 k" L# [欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
; q. W4 U# c6 { M" v* }6 Y# B水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
& E& J- [9 F* b( r美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
( K+ r# C9 `3 v# v6 [" s. x0 A三年水费级别:
& S8 q# A. }, Z$ |' C美国:$40k+
9 f4 w: r0 |5 ~/ H* }$ H中国:$20k+
$ x, P$ _: U p* w7 T结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
g- I$ o5 E$ ^3 L人员成本(3 年) – 假设 500 名全职运维:
5 T/ m# I5 J1 R9 v N美国:500 × $120k × 3 = $180M+
- h2 [0 C9 a: |4 S" y& [1 ^中国:500 × $22k × 3 = $33M+% _" O0 H1 f7 T/ m3 T/ ]6 y
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。, ]! S/ Z3 I( r. R5 j) K7 W
整体 OPEX 粗算(3 年) – 400MW 场景下:
% R5 e" R. C* ?: ?, q3 E5 C% a8 z( X1 V
项目 中国 美国
' n f& b6 W4 j$ s电费 $350M $600M2 X; C, _6 V( B. |, T! C4 T
水费 <$0.05M <$0.05M- v! r. }$ G, k* P% x0 _* O
人员 $33M $184M
" z O9 m, t/ d0 O其他维护/托管 同比例估算,地区差异主要体现在人工与地价
- ?. N1 D9 G- k g结论:
- z3 Z! v" h! V- z* j; f2 h5 X' W% m* H9 O$ }2 \* m4 b6 q8 q: P: n9 e5 s
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
7 _/ N3 `, r2 `9 {: K; @4 c对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。' G& `4 t- m) t! `3 \5 U2 R
四、基于 token 的成本与利润推演
" m& u* Z/ Q5 s2 z4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元) p6 \! o* H& |5 l5 l# b
统一假设:5 ]+ H+ B7 B7 o/ p' I) W
" x8 L. K. q) U _# ^- r
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])* |$ v1 P4 Q P2 n
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
: l$ y" J8 H+ F$ g5 i1 百万 token:278 Wh = 0.278 kWh6 `, W, Z( j, D! J6 ]
场景 A:美国电价 $0.30/kWh0 ?; Q' v9 T \, b
电费/百万 token = 0.278 kWh × $0.30/kWh
/ ^6 G, c3 a8 f" O; ?3 K9 C8 r7 Y≈ $0.0834 / 百万 token% Y" l! P! ^: p4 f3 h0 o5 ~
场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
2 M. R5 }! j1 D$ r0 b( l电费/百万 token = 0.278 kWh × $0.042
. U) c+ ]8 o/ |% i≈ $0.0117 / 百万 token+ t, U7 Q) J$ M1 c8 q& K1 l D7 x; \
对比当前 API 价格(OpenAI 2026Q1)[62]
E* p3 m3 ]9 [) @' r N以输出侧为主(成本最敏感):& @) N* P# J+ K! S9 p8 G% \
2 r3 i: c' U4 q/ W4 i% o# l! d
模型 输出价 ($/百万 token)
: f9 N1 q# u- ~2 n$ P& Y* iGPT‑5.2 $14
# B# }4 L/ J, g; q. j* B$ PGPT‑5.2 Pro $168
* }9 j. W' D0 i- P! |1 dGPT‑4.1 $8
2 A/ x: U" v3 r. \( FGPT‑4o $109 ]. x; x# T: m$ `: Z4 c) \
GPT‑4o mini $0.60" F- b! D: J: Q6 u/ x/ P) V5 o
则:
! b, o0 l. b2 u& E$ o
9 h$ S$ V) T2 x& V' n, J" N在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。3 w& s9 s7 r* }; M5 i. J
在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。
$ I4 ~# d: ^" c5 x相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。) ~, y) j; i0 _' ~; ^( {: X1 @" ~
结论:" D, x; s# [* j
即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。
( e! M% m% z2 J6 m
8 _# C# w$ P4 v T7 j" l! T4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)
* L3 a& H! y4 ]1 Q以 LenovoPress 的 8×H100 Config A 为例[28]:" R& z& A4 I, d1 @# O& D$ Z$ r
# i. ]$ G0 L% W( i8 ~: c5 年摊销下,8×H100 本地推理 70B 模型:4 S3 Q' R8 o- y: E3 u0 f, f. V5 _
小时综合成本(CapEx摊销+Opex):$12.08/h
* }$ ~: k! S0 s! `" F吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens
d {8 C, P: W& W- H成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token
; J, i$ x: P4 h1 q9 C3 [电费在其中的占比:+ w3 Q7 l: ?( r3 a; A
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]
# n; ? t l) |; z" x4 l电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token
; k8 j+ M* c( u+ p( C# ?电费占 总 token 成本 ~7% 左右。$ x% X8 d9 w: H
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
* ~% S5 N* u( _0 G若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。
/ Q) u( y$ s1 @: S. L/ Z1 v- S/ u+ q
因此:: b' \7 R8 d, ]; b9 G0 R
W$ j+ n7 O6 p9 `: X; o在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。3 ]* P5 ?; |6 m! A
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。8 O4 w) J& Q, P7 I, p! P
五、不同芯片方案的建设与运营成本对比2 V9 M) e m( Q. F5 |
5.1 NVIDIA 方案(H100/H200/B200/GB200) K+ h' h* o3 n |
CAPEX:
' Q/ R' `) ]) \; ]
) G3 S9 Q6 R3 N8 i2 U/ x) A! WH100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。! i [$ x, k8 w' ]7 C
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。$ Q4 h5 A& A0 g7 x* t! ~
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
7 }5 E2 Y0 v) l: Y; }' o" E1 @GB200 NVL72:" A& D9 i b- E+ S, U
每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。: i" ^$ ?7 k# w }5 I7 K
冷却系统每 rack 额外 $50–56k[35]。
6 N1 P: b, X3 `2 c. F3 o+ W在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。
3 v u8 I- N* U7 X. W" Z" lOPEX & 能效:: | i) m; f4 i+ ~/ V0 R
! v: q+ N. B0 N- I% i7 e3 ?' L; k单 GPU 功耗:
& K3 N6 l3 C* X5 x& VH100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
; W+ n ]. ?7 C$ ?; g2 ?7 HH200:功耗类似或稍高,但性能/W 提升[9][10]。+ r% y5 X+ N& v( Q1 d
B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
. ?5 t# G# {1 Q; u* PToken 性能:
9 N% a0 k2 W# z; s/ ^) i% u1 | `B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
* J) r- R4 {4 t" ~NVIDIA 的优势:
4 G$ j, {" D9 K* [6 i# a: e" [8 v" Z0 Y
软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
W# i" }1 c/ F* p( z' u: `$ ]7 T但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。8 ]2 ~% M3 I0 z) l: Z" V( p. `5 h
5.2 Google TPU 方案
9 ]7 a2 `+ X+ D/ b2 z, ICAPEX:6 F( w- [) R1 `7 A
; y- N2 J/ Y! ^) D1 |% x
单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
! A/ d) s$ C" |: @9 FGSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。
; Z5 z; ?; B- F) w5 k6 U8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。. e* t* U' s: Y: B
能效:
: \; o! b J4 R6 [+ Y7 r3 M: t
0 `7 S, x" K9 K, t2 {TPU v5e vs H100:
# p* ` Z" _# ~: \8 D2 |同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。+ S' J3 b& c# R# T: G
测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。
$ Z. i9 |0 O- g4 s. s8 ?$ A' Y7 d新一代 Trillium/TPU v7:
* z# ~% {, h9 o/ Y" f能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。0 q) ^ y$ q1 p1 t
Google 方案的特点:
5 Z) E2 W6 s# X% y1 W7 b! f
7 H$ t9 C; @& x9 T自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
1 N4 `) u9 j' F9 y- @9 O$ p* r对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
# R+ ^5 C5 f$ ~# ?3 i3 {5.3 华为昇腾 910B / 910C 方案2 l% ]- M) S/ S1 U3 s6 H
CAPEX:
* h! N/ }$ c0 ?; r9 s# U
4 V W- k3 a! x3 g! o单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。7 w8 G& G( A. N& ^& C, c
与 A100 对比:! Y: r9 v, }+ L/ I. w
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。
% i/ ]( A! e2 F市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。6 Y( F; m0 g7 e$ Z
使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。8 I& Q7 \- s9 M8 a: P
OPEX & 能效:
, G* L4 x: K$ w$ K* J+ p; }# ]- h1 {2 W! G2 p( T
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。# L7 e& _! p& j) I
部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
y u, c3 V/ e4 l在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。
0 p2 T5 R4 x$ ^. z6 Y5.4 平头哥真武 810E(PPU)方案
, P" K5 W$ E0 M: k3 L, XCAPEX:
: ~7 r: q5 y4 @, s+ T. | U0 F
3 s' v5 I* G9 Y ^2 r& S技术参数:
3 A) G1 U# H6 h9 w96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
6 I2 P+ a6 G. L3 g性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
$ ]; }0 N6 h1 J价格:
# C# ^, S9 C- I1 T$ X% y7 A2 u未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。& J% D" ^) [: I. ^' H
结合国内报道:
% B: Q q" q7 z% i. N8 u0 E- t2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
& D- a$ r9 @) `9 E数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
* W. i1 G8 I* g5 D4 SOPEX & 能效:
8 C6 b3 g' \ P6 p$ R8 D3 }! X+ U& u% R- q+ i% \- u
400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;4 I% T) k' o8 t i
在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。
7 H8 R) |$ K; b% n7 g* ^* m六、综合比较与策略建议
+ f6 O$ k, j: j3 a( a0 i4 W) f5 ]6.1 区域维度:在哪里建 AI 数据中心?
3 k1 z% n4 W4 \; F5 t5 o- m6 ?7 Z& O纯经济性(TCO/tokens)排序(假设无政策/合规约束):$ V. o* d, T6 r. h) ]! n
; R+ e, w! a! p
中国西部/北部(电价低、人力低、建设成本低)
% o" r- N0 r0 F" Q' g$ J0 L中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)
! a2 i( W6 _( ?" I/ T美国电价低但人工高;东海岸/加州电价上涨压力大+ P1 i0 o1 T8 i7 b9 \
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求# q0 t6 m1 t4 ]6 q: q* g' G
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:
8 n3 l. n8 |$ ]" `. R/ ^; s6 a+ y, {, A* {: z0 Y! U4 p, I$ R
纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;9 w3 w O% k$ Y& x
对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;
; x( R3 ^( i& I( P5 C1 D, N6 ^但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。' w, `' L+ _' [3 [9 e) l
6.2 技术栈维度:选哪家芯片/云栈?
. J$ I7 q( c" N: l1 C若目标是全球最优 tokens/$ 且不受出口管制:
: m# y7 k: m' _0 E
& L; z3 b, F- hGoogle TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。+ a+ [' ~; o4 A3 t& ]2 F+ T
若在美国/欧洲,能自由采购 NVIDIA:& @0 }9 y0 i. C8 w, t
9 z( P! C4 F$ G f; M
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:, z) k& q9 L9 q: r P! C
成熟的软件栈与生态,极高的 tokens/s/GPU;
j5 ]* ?( S+ u在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
9 U6 f& _, }# u! c' j# b# S: Z但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。
" ?) c4 z) y7 T若在中国或存在出口管制约束:' _7 V H/ W' _. S0 x$ q
& i2 A8 C. D0 a. @: r4 \, D7 m: u, W昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:$ v# E# Q2 I. `& o
性能上已能覆盖大部分 GPT‑4 类推理需求;. h( T1 [' S) E; A
单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;% L: K1 ]) G/ y/ T5 C- ]
软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
: U) [4 p: q$ u, `$ \ J( y, O建议配合:: r8 c* v, `! n/ [' j( H, \
高效液冷(PUE~1.1)、
- {4 E: L$ L6 X% f! ?. n/ x3 i$ w* l2 M大 batch、路由(浅层任务走小模型/低成本芯片)、
. U3 u* j7 P0 ^$ l" v9 x强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。
5 Z; H* n) C2 f: _8 ?7 B长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
4 O+ M0 V7 W2 S' I
7 @+ S+ j) |; x& \8 ?* @, W数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];
( X# x0 U/ G& o$ J$ r这意味着:
% `- g2 T$ I! e5 S: l4 L优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
/ Q7 d* R5 m1 W# q5 n4 G. l e. A( g6 b精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
% k# W# N/ |- C/ ~& s6 z6.3 针对你关心的具体问题的简要回答
; e2 a$ b1 d- r1 F# A1 `AI 数据中心建设 vs 运营成本的大体比例?
; @2 ^) R3 L" k1 M8 I0 `! G8 f S7 P( K% Z9 E t
在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。( e7 g- `; X9 h. H% e/ _
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。) s4 o( C% C! X0 i# B) I% {! y
中国、美国、欧洲、中东的成本结构区别?
) C, a0 L( O$ M( h# f" I, y8 A- o/ [" p8 g5 x8 x+ P2 h5 W* |4 i
建设期:2 K. J' F. ~% t8 [( f6 B7 c
中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。7 t7 i7 T( s4 J- P8 L
运营期:! G" z- O' V6 }1 F
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲
1 r* A/ n: {% J# l& v! E! [' B人工:中 国 ≪ 美 欧,中东居中。
1 o7 N& X- d& ?# F在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?
7 r& q* i5 i7 z$ T' T# p# @2 O ]3 x3 @3 X
对于典型 1 J/token 推理负载:, I6 S) _( K( U4 p8 j) Y
美国 $0.30/kWh:电费约 $0.083/M token* O. R ]# v. q# D C9 s
中国 0.3 元/kWh:电费约 $0.012/M token/ r: l: d; z: ^* B; Z
对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
4 V3 r: i) [3 R7 T0 N& i1 D5 q不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?
/ e: q6 T6 q8 V* u
! i9 g% ?/ [1 ?/ E! N在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
$ w' ^& f& h1 r3 [' a# i全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;) S+ s6 Q9 O6 R
中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|