TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:: V8 P. A: ]7 r1 y* J$ F
; p7 } g& r+ e6 @ b2 M
一、总体分析框架与核心结论
- H" I2 u7 l9 [1 {8 p% M+ M1.1 分析框架概览
/ P; n/ Q. s0 V& Z3 \- U. n拆分维度
& B! I) @; T: q7 i( m' {8 q6 u8 s8 u F5 F S& B1 S
阶段:
2 n- O2 w: y" d2 p d9 |建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施
+ D/ z7 ` x& P3 F e: _运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等
6 x, `) O$ g4 b7 \/ v区域:
5 n* a0 x+ Y& C+ q" y4 V0 Y中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
* d# Z3 s% G9 \" k技术方案:" J7 D0 R/ b( i
NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)0 |1 m5 h0 i8 F; {8 t8 w
Google TPU(v5e/v5p/Trillium 等)
, K# ~+ l2 W0 a/ w; `中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)$ a/ X& ~) V& K5 e: I
算例基准. q( X4 ?) N: n7 U6 U; B/ Q. {+ p
4 m) r) f* O. N3 w
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
) U; T) Z8 l' I& _其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW; L3 ?' K2 d+ i4 O" Z# G
PUE 假设约 1.11(高效液冷场景)[1][29]8 `4 _, g2 Q. A9 s+ |6 s
时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
1 _. ~6 y- u3 k1 A7 W# X& w关键指标
8 V `: d/ D% o0 i8 m% Q1 ^0 M- {0 m- ~. W
$/MW 建设成本(含/不含 IT 硬件)
6 c0 Q, P5 m0 y5 u& m$/kWh 电力成本、L/kWh 水耗$ q) [( ]9 b Z5 O% _0 Y& N% K; T
$/token 或 $/百万 token 的综合成本
$ Q: }& j- G" C+ R4 P+ J9 U0 _, \Token-per-watt / Joule-per-token 作为能效基准[17][18][26]
5 |5 |) L. | P& f9 w% ]3 t2 e" P项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)1 ?- G# r3 D& m. H' L
1.2 高层结论(供决策快速参考)* U6 `2 t9 R% [/ I7 H8 I9 V
建设成本:AI 数据中心相对传统云数据中心成本翻倍
. i' G2 e) c& [+ T) p
: A3 X2 m1 B+ `8 Z' j传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。' |# g+ X0 }7 ?9 t6 u. ]5 ?9 b, }
AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。5 i1 J! h/ O9 ?) `+ M
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。3 S0 l9 P8 ^+ f9 W% M0 M
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区6 K( k: U; A- J/ H* s% @& _* R5 h: Q
' b: Y9 E: h [: p* d
中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]
$ l) s) _: }7 Z% N G, X美国:$8–12M/MW,400 MW 约 $4.0B[1]" F" e2 x. @, W: N; h; w% p1 z/ e
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
7 q; u) l$ n+ _) U0 _中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]+ C' b- L4 x& V5 M
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。; u, {, C# g) d/ v7 G
OPEX:电价与人工决定区域优势. f( i! \, ?4 b" u/ {; y0 I8 Q8 L
7 d/ K: U, b8 @, C& V
电价(2025–2026 工商业大致区间):* o; h( o. ^, G; p) H- {
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]
. h& s/ W# a# @& e1 j. ]* }& T2 g美国:工业用电约 $0.085–0.09/kWh[44]' {: a) ]9 \" n9 r( m, G
欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]9 e ^! [ ^+ e. W7 R7 k
中东/UAE:工业用户 $0.07–0.13/kWh[47], L$ t. m t: k) c
人工:
5 ?/ f) k0 U$ j4 M! w! @中国数据中心运维:约 $22k/人/年: w- w( X% S5 d4 C) j# ^% }
美国数据中心运维:约 $120k/人/年[1]
2 s' {/ Q' v3 D1 x7 ^9 a结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
! f& x' \7 J# B. A能耗与每 token 能源成本:能效差异远大于电价差异
% x4 S' W5 i: s' j
4 t5 e. K$ w6 n$ ^IEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。4 G9 L2 U. o" R! A) z6 k# n
大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。* l! n* O4 ~' Y
将 token 能耗约化为统一口径:. C9 h' d/ H* ~, l5 i
粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:0 G; P8 q1 Y& J9 o3 Q. H- f$ A) K, B0 q
中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token
& {' @7 @# T+ U6 ~* {3 d美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
) O% L% g' i! ]* u# s对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。0 q+ l& @& G4 f' \5 _) L# Q+ s: g
不同芯片方案的核心差异' b' b% b: E; t! x4 T' Z
# H3 I4 |& n6 C% z8 q* U- H2 _NVIDIA Blackwell/B200 & GB200 NVL72:/ W4 B/ M9 [# [. Q
单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
2 |0 Y- |1 Z. |2 g3 iGB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。
/ K4 m5 D" d2 ~& ^. N& pGoogle TPU v5e/v5p/Trillium:& k P+ g. c# E1 ~
TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。
3 n; s/ o( D/ xGoogle 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。- D( w4 \$ U1 r* K; {
华为昇腾 910B:: I& z7 O, ^% @: K. u
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。+ H2 J& U5 I. n0 I6 \) c; {
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。8 e! F, ]5 Y9 W) I4 A' q
阿里平头哥真武 810E(Zhenwu PPU):
) k4 @3 J; i5 c4 o6 H- b7 Z96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。
7 P5 l9 ^2 G/ N结论:
! U8 x$ |+ b2 a4 ^能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。+ k; @& H6 S# n9 L5 X# H
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。
0 `0 g+ p+ S. T- X7 ~7 ]4 c; ^* c, @( f对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。5 T2 S3 X) X6 d) W0 x
自建 vs 云租的 TCO 与 token 成本
5 }" F6 \) y/ i6 G
" A. n# l) T& v$ KLenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
a: @& b* P$ D2 I: d1 p- S& S8×B300(Config D)自建 5 年 TCO ≈ $1.01M;) u" x E2 c1 a0 K
等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。% X; \& U5 Z& N1 C
8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。8 [' A* R, g( D6 }: R" b
Token 成本对比示例(LenovoPress 场景)[28]:3 y+ G6 a! E2 b3 ^) W1 M4 `/ s7 @
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token$ K3 S- H' U" o4 H. u
vs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。) H9 [! f v5 o( o& {+ ]$ E
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。( p8 @3 b) a* |9 ?1 ~/ ?, i4 P: J) l: ?
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。, M. j# x" k2 Y! _% U% z
结论:% {5 P& i f1 J, [ ?3 T; B' y
高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。2 N, }6 H; @$ R+ m/ c
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。
! P: b$ N+ I5 `! U! s$ m j二、建设期成本分布:区域对比+ F$ P! ?8 o' ~% a( S9 z2 q6 m
以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。
4 M+ c9 o; [7 |$ o ?9 Y
$ R/ g q% @0 i$ F9 {8 `2.1 全球/通用结构(以 1 MW 为单位)
- D) `- s9 y$ S& k* g0 V% O! B综合 JLL、ConstructElements 等[2][41][40]:! E3 s& h, t* e) l
/ r E6 n" n( K3 C壳体+机电(Shell & Core)* l5 ]* u% k9 B% J
* i6 M2 W6 Y; l0 v# u5 Z2 j全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]8 B9 B& K- o, c" S
其中按成本构成[40]:
; B# o) C( d @1 t0 Y电力系统(变电、配电、UPS、母线等):40–50%" k9 e1 w6 {2 U( y$ Y
机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%
. G0 _% f$ H- n6 O1 x4 Q( a建筑与土地、结构:约 15–20%7 t* l ?+ m/ L* A5 v( V) j
其他(消防、安防、楼宇管理等):约 10–15%5 M3 c8 F5 [: N* q7 ^! K* S
IT 内装与 AI 基础设施(不含芯片)
- t$ D) h/ t7 ^$ X9 c+ H; C; x% z3 B: s
高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
, _* r6 }3 N8 ~2 qGPU/加速卡硬件 CAPEX I7 ]& K6 V2 e7 q8 N- J' R# O# a+ c
2 m# I9 z/ C3 w) f多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
/ v+ m1 Q( k. m6 \* I0 d1 K$ a2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX
8 l$ n1 P+ Q3 ]/ e结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
! W: {: \! L) x* G* x/ l* c
/ i9 I8 T# T* K# g: T; Z* I8 S区域 典型建设成本(壳体+机电,$M/MW) 备注9 w% U7 ~$ z! q3 ^" u9 A8 o+ Z
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
; g6 Z+ S: p) w" J3 W/ H2 A美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
# f- r9 e& Z1 f4 W. v' |& J5 u) }欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]' \9 j3 ^( |8 }
中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]; k" c5 m6 ~# d" ~# E
结论:
$ ~9 B3 t5 \- E4 r, Z+ }) ]: K
0 t6 |1 y$ Y: A+ h单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。; g: p P Z' q- Q# l) J4 d
若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。
' w" {! A2 n: J7 e& C) Y2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)4 y1 T' T' z F: Y6 k& j# i# G
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:
O, Q% R: }# A) C ?1 Y0 X9 \: J/ {2 B8 D% a7 n/ g" {
假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;5 ~) `2 m& {& n, _$ S) M
GPU 配置:
3 F: @" W" D( m" m有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);
) F, G/ _$ l3 H4 Q& z5 o每 rack 成本 ≈ $3.0–3.35M[34][69];+ b j c, f3 H% w! ^1 p5 w2 C
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。
5 n3 C1 c) f8 o& y5 o' m与不同区域壳体+机电组合:" c+ f. b9 p# Y# T* U/ M5 p
, I: Y9 i" J7 `9 }8 G, {以中值估算:! I) t" f# n& s% C7 k/ E6 K# C. \
* M$ X: `5 ?/ D& k# A, F中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B+ A4 G) C% U' {/ L- h) J6 I/ R
美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B$ H1 J2 i* d; U0 t7 E
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
9 v# ^+ q1 Q) E中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B2 W" ]2 \' X. p: ]0 f2 L! s
可见:
. a" P4 R1 W+ g" d9 t J) o
7 |& S( A0 R3 H5 f" j7 D" K1 x* L- JGPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。# d2 ~4 t) I" }& V& |* C9 |
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。+ Z# F3 }2 @" ]
三、运营期成本结构与区域对比
4 U5 r! g6 z7 w3.1 通用 OPEX 结构(高密 AI DC)3 Y; P& k% s6 g, i$ \) ^- _" B
结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:, R9 i" }6 e* D' a
: J" W& {) {6 D/ L2 [% F& b& J电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。
0 g& w2 i) n5 K8 e1 D% _冷却与水资源:
# }9 d& Z$ V( Z" P能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
7 v' U: \9 b- E7 C4 f水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。+ ~# e7 k" [1 B
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。4 ^' J+ T: o( L* O- s6 s4 @
托管/物业与维护:
6 {8 G! F+ S' ~* }. |# ~4 @托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
0 `! e$ a+ t% ]" X: H! n硬件维护:LenovoPress 模型中按设备价 12%/年[28]。0 U6 f) L2 D# M: r/ Y
3.2 区域差异(以 400MW / 3 年期为例)( }# F3 r/ `9 W
使用 ChinaTalk 的电费与人工估算[1]:
7 k. c, i/ z( m% R6 d
, l# X6 V4 _8 B. y% r7 a电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:8 m5 l* v& m: x- q( Z( v
中国:约 $0.06/kWh → 3 年电费 ≈ $350M. y0 x9 W$ ~, n! B
美国:约 $0.09/kWh → 3 年电费 ≈ $600M* ?& k6 ], n+ z; C8 ]
中东:约 $0.07–0.10/kWh → $400–550M2 t( {3 N- C" D$ ]' J# L i" u9 \
欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
8 i7 a3 b) q9 C; r4 W% v水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:+ D# J) m: ?, ^5 q$ X6 A8 h
美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]$ M- B5 l2 F2 t4 R) W
三年水费级别:( a/ T& w/ R) y1 N
美国:$40k+& ]: F7 b% `( \7 M9 \( S7 j
中国:$20k+$ w, S6 f3 U* [; Z k9 F
结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。4 g. p: m. A! A I
人员成本(3 年) – 假设 500 名全职运维:& m) M, U, z( l* ^. [* j& k. J
美国:500 × $120k × 3 = $180M+" K! C5 i: W" Y/ t3 o( N
中国:500 × $22k × 3 = $33M+
4 k+ C( I4 F2 Y4 s) P& Y# }差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。/ S8 P) }0 ]+ s6 A; K1 p7 f6 i
整体 OPEX 粗算(3 年) – 400MW 场景下:: f$ `& {) h" v, ?' O0 a+ y
3 p3 S5 e; ]0 O+ @* w
项目 中国 美国; H( y2 W5 o0 @# `; U4 J" V
电费 $350M $600M+ [) \ g9 H; Y+ G2 f/ \- E7 S9 ^
水费 <$0.05M <$0.05M
; S/ q5 U: ^" ^+ d人员 $33M $184M
( ?: |% g. x: q$ P0 X, b6 T0 `其他维护/托管 同比例估算,地区差异主要体现在人工与地价 # f/ \& p7 Q, l' f% j4 x6 b, m8 g
结论:* _5 Y" ?( ]8 |1 N( r" f
$ S( X" Q, M: {% e
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。; h& N2 z# q+ D2 W, N% r1 o
对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。' v6 T" m' _* Q5 V1 P; \3 q9 I
四、基于 token 的成本与利润推演
6 {5 w" l: s: C7 g4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)% {+ Y9 h) D& W7 g3 i
统一假设:3 `, E7 ]1 C& l" E# F
/ B1 N0 Q0 n% p8 x4 ^) y4 q O
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])( V9 a* B; [' d1 i5 ]2 p/ i
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
0 C2 Q7 f& q0 ?8 D1 百万 token:278 Wh = 0.278 kWh, s2 H2 O$ w! y) d
场景 A:美国电价 $0.30/kWh# s+ M7 z" Z# z* A" ^1 F
电费/百万 token = 0.278 kWh × $0.30/kWh
& w5 u6 o ^! d' P! G≈ $0.0834 / 百万 token/ F# p8 \5 c$ N4 d( M1 `+ C
场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh0 i: ~0 [4 u$ D& k* D! U
电费/百万 token = 0.278 kWh × $0.042
! u) ]* z* D5 y0 x7 K≈ $0.0117 / 百万 token
1 G+ k4 n! y0 l. N, h& I5 c5 e对比当前 API 价格(OpenAI 2026Q1)[62]) x g4 m: G5 u/ S3 o3 W
以输出侧为主(成本最敏感):
% n8 r! C8 b0 {( N$ O
& a/ ^4 K# c1 c! w# F模型 输出价 ($/百万 token): c- T; O4 V8 [! }, b/ u
GPT‑5.2 $14
! Z% S- p5 A8 TGPT‑5.2 Pro $168# x5 u. M1 h/ \" F
GPT‑4.1 $8
J$ A" m0 u* j2 h* nGPT‑4o $10
: w; v$ y ]5 |% vGPT‑4o mini $0.60
4 }( r; `. S! L, }& H& g7 m则:$ ~1 B7 a0 |1 {* @3 p! i8 Q6 f! n/ S
. }$ P. g( L* t5 \, F+ c& z5 {& V
在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
H* Q7 R, R7 o6 A( [在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。' ]% ?9 j9 J! o9 i+ Y
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。+ u P6 y1 L6 W. q( B4 F4 r
结论:* W/ n# E( Z0 d5 x: T
即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。3 D) l6 D3 Y( o& x8 \1 m
* c B) x' L& n g6 Q0 u; z4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)
C6 z7 K7 @; \ r$ y, a# I; a( U以 LenovoPress 的 8×H100 Config A 为例[28]:
- S3 Z9 i [8 T! i2 @) t* E5 j9 ~3 u3 p' t! q/ C7 B5 B
5 年摊销下,8×H100 本地推理 70B 模型:
+ M! t" C+ o3 i; @$ D小时综合成本(CapEx摊销+Opex):$12.08/h! ^; {3 c( M8 }/ \
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens
& ^" c& k5 V3 x成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token
) |% v' i% e4 x* |0 p$ L4 ^; t, s电费在其中的占比:
0 h* G# o4 ~ o* c$ W1 s+ G! }/ FOpex 6.37$/h 中电力+冷却约 $0.87/h[28]
' U- c* U, u5 n电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token
8 C ]3 M7 X% J电费占 总 token 成本 ~7% 左右。( m& R9 L1 I" n
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。" Y0 g- l; Z" X" s; V
若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。( @7 l' z% o/ ~% S4 o, T; J
. }% X' r8 |- g: f$ E0 g因此:1 o) v, P# c8 e) u$ ?
6 ~0 H$ k$ ~; H/ A2 I在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。1 c q" Y) r1 |
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
{8 j$ k7 P& a8 N$ B" i五、不同芯片方案的建设与运营成本对比
4 w3 ?# [4 t1 U: i" B. ?5.1 NVIDIA 方案(H100/H200/B200/GB200)- {, i( X' C: k, R0 F* p
CAPEX:
* @! N3 r% s k) v; |% k* e$ @* X4 a! d5 F J: v% A2 H* T( M8 ^
H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。4 Z( O# S& s$ r1 |9 l4 I* Z' o
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。 C1 T, ~: u7 N% H9 w l
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
- E1 @2 }. I3 l" bGB200 NVL72:
4 }5 w4 L0 c& O每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。
5 G& I( W* q }0 G7 \4 ~冷却系统每 rack 额外 $50–56k[35]。" ]$ s. t5 \! R( X
在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。
) U+ ^' y/ S9 W+ wOPEX & 能效:
( O6 n7 s+ C/ |. ]
. f0 B3 d" u; c% c: ?单 GPU 功耗:- N6 O3 B. p! i* o3 H6 n" Y
H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。* j3 @+ H9 V! A8 g0 P: N5 g! {
H200:功耗类似或稍高,但性能/W 提升[9][10]。" a7 o/ O3 k4 M) k8 t, L( g0 j
B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
b8 r4 O* ?- n' o8 w" j/ t) x* xToken 性能:4 w$ n. A$ G. ~' l
B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。' n2 w, V ~" ^! n7 p* B
NVIDIA 的优势:
) Z5 F6 e. I d2 G6 Y! w0 s E6 w: G
, x& R2 D2 o: j0 ~4 Y" M+ ?8 q软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
, l, X- r2 o9 t2 [2 {+ @但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。+ k% ]( p6 F5 T
5.2 Google TPU 方案
7 ^# K1 z; z; n1 c1 LCAPEX:
) p. \# R' U. C1 Z7 Z& F
& ` ~/ P6 a) G1 e E单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。0 y5 b- K2 r: _; M
GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。( c" Z3 H; j% K: j- s
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。8 [: \* Q4 j5 @
能效:
# W; s/ [( r3 h2 ~8 K+ c
4 P+ n9 i, h4 c$ dTPU v5e vs H100:
" q% H( S( Y# U, s同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
8 c7 c) w9 V$ d测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。2 i- q F9 q1 A9 D- k
新一代 Trillium/TPU v7:
4 q ^' h! ^- n0 W; Z G9 C! |能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
* j* Y3 l$ d! c& jGoogle 方案的特点:
6 K* O( N" u; D0 w. B5 X0 @3 [' e
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;5 V" m' h2 ~9 @9 x6 M
对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。2 F/ {1 |- a6 D& m) p7 m3 u: l3 G% ^
5.3 华为昇腾 910B / 910C 方案
# S' e# x3 N# V5 wCAPEX:9 }& [0 Q' T, y( y' j) d! S( w9 t
4 o3 e8 h3 R/ j& O, P- `
单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。: w/ R; @- f6 m6 T. L3 y0 i% K
与 A100 对比:3 E9 t3 K6 m6 k+ |6 K! q E7 m, x
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。, L, D/ D+ \6 }" _
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
7 I8 Y! j$ y: F% O: ~* ]6 B使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。
! ]- n4 [+ W/ x& POPEX & 能效:
0 W6 l9 d' H) K) E% G' G" K6 j' S
& U6 E8 e+ Q9 G1 C: g- z' j2 Z0 N910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。
# Y5 U4 S6 G4 K1 o* W部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。1 Y9 L6 O, Z" `) L0 Z* \; g7 P; \
在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。
0 K; p3 h& V6 E8 [9 U/ D- r5.4 平头哥真武 810E(PPU)方案. S- N; M. J+ ]" N' y
CAPEX:5 Z4 E. ^1 u( [* ~
# Y. H( n0 d% @技术参数:1 Z B. h/ X$ A2 o$ Z
96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。: w( w9 n, c2 i4 Y: C7 ]; L* W
性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
6 \/ S/ r r2 k. J L* e9 x价格:5 _2 O" L7 D0 d. u z
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。0 m& H1 L1 g3 |2 R: k6 B
结合国内报道:
2 T" ?- V- w4 Q9 I* d2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
+ s3 g/ C; C( Q3 a7 F* [; i! N6 |数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。: e2 L# D, ~6 ]' T4 [' P, V
OPEX & 能效:+ X# E% Q& V! H4 z/ k& U
5 [* d* k; O& F6 Q) m5 P; H400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;
+ @4 s2 A0 q, b- L在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。9 c }* z; D5 K4 m' {
六、综合比较与策略建议
2 O! @8 v9 h- r& P% W6.1 区域维度:在哪里建 AI 数据中心?
2 V4 V" e6 W, m4 o纯经济性(TCO/tokens)排序(假设无政策/合规约束):
3 P0 Q; f) `9 c7 J
. D0 ^2 \( ~( h- S7 G7 V( l中国西部/北部(电价低、人力低、建设成本低)
/ e" o" a7 W% e+ A" M& p中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)
; t( ~: \" B7 L8 e, Q3 L8 O美国电价低但人工高;东海岸/加州电价上涨压力大
6 B$ p0 Q- G d" j0 Y" M: r欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求
7 i0 Q2 r: \- m% I若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:2 [1 A H* r" U
% G Y7 b, J6 s$ G5 W
纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;' N3 X5 O. r- |! l8 }0 F6 Y" o2 }
对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;3 Z9 ^0 {. \: z1 \* S
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
# y% l% H7 N) c% r; h6.2 技术栈维度:选哪家芯片/云栈?6 s/ E& ^% B/ X# H
若目标是全球最优 tokens/$ 且不受出口管制:+ i9 O. |5 ~3 x R& Q
: u7 I5 e3 `6 z) g; H! s
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。, c" y) d3 B. G
若在美国/欧洲,能自由采购 NVIDIA:8 Y) F. O4 Z* N* ^: i
4 h$ Q7 B9 Q" `; q/ U
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:/ n# B* u3 ]8 G e ?5 d/ W
成熟的软件栈与生态,极高的 tokens/s/GPU;( W5 h5 X# F$ N
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
1 B( k$ ^$ R4 J! v! }% z% U但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。
/ K* H0 Q' @: s3 v4 L) ?8 I若在中国或存在出口管制约束:% i' s' }/ o7 }) d; x3 m0 w
' D5 s+ {7 d+ k5 k! t' p
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:( S: i# g) F3 J
性能上已能覆盖大部分 GPT‑4 类推理需求;
) \2 ~* `# m) W8 }$ A# h+ T单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;" ]1 |0 u" N( P7 d+ D/ E1 h' C
软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
' P$ w- M# G7 @2 E6 f+ Q$ K建议配合:
9 X- n$ ]) G% o高效液冷(PUE~1.1)、& P8 t3 c4 ~; J' C1 G# S; U
大 batch、路由(浅层任务走小模型/低成本芯片)、9 ?0 U* z$ y8 v/ V
强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。
$ S& c1 x1 p: {% @4 I长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:7 W* d1 _# }; I7 \. ]4 S4 q
# C, i7 ? q. \数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];
* ^5 e" b; ` V这意味着:
8 |$ B' @+ I7 K/ E! \优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
) ]" P2 D- |. p! |! R4 j7 p精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。4 J- ]+ _$ i3 }" E. X
6.3 针对你关心的具体问题的简要回答
, b- _1 T4 H+ H8 ~- q( `2 aAI 数据中心建设 vs 运营成本的大体比例?
/ b# U7 k5 h4 q8 k
" |) C# Z2 Z8 d8 c3 i' S$ |, z在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。( [! S3 A/ @( Z0 f! W4 u
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。
6 _5 [. W$ ?8 V9 l4 w中国、美国、欧洲、中东的成本结构区别?
. Y7 Z- O0 c! h* m0 u
0 w3 S, L l, z建设期:
, M- j$ Y) Y4 g/ l中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。5 Z3 |/ w( a; l$ q
运营期:, D( S# l4 @# j- _4 z
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲( N% K/ a2 \# W) S) f6 a
人工:中 国 ≪ 美 欧,中东居中。* [4 [. |' N9 o: i6 M% A9 n
在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?* o8 e& T* Q. ~3 B: ^- z
$ i4 i* G0 \, v" u1 X* v6 A对于典型 1 J/token 推理负载:6 {" ^' X$ g- D$ s! Y5 d
美国 $0.30/kWh:电费约 $0.083/M token
+ j1 y u7 T- M& F' p中国 0.3 元/kWh:电费约 $0.012/M token1 D; W" |4 J: r- y6 R8 b
对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。) { _' m# R2 s; ^
不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?
; _! M/ @ G! c4 @) T0 C& A5 b: k4 ?# {& Q/ v/ F/ j# S
在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;3 ?% |0 r1 W0 ^2 `& Q* t- ]
全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
+ A! r M9 R+ `; d6 _3 D中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|