TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:& ?) f4 M6 Z4 |* X* v4 n* l. ]5 c
7 q) X( B' @6 I- j; d4 z! T一、总体分析框架与核心结论
# N( g. [7 ^3 D2 z8 [7 I1.1 分析框架概览
1 _- x. M) s/ y拆分维度
, p [8 B1 [, K- T1 s' m8 o8 c7 x4 {! e" H8 K
阶段:
% U. c' K0 R( G/ F& \建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施 \" ?. N( E! J! ]* [* |: M9 y3 E1 D
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等' L7 T3 B7 ~* S' t- g* I1 W- ?
区域:) x7 e5 Y% |: {6 q
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)/ b# n% c4 n" m' M3 p, n. E( L
技术方案:4 E5 I9 [9 A& z% E
NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)" O+ m4 ?& t0 Y- n9 s/ b
Google TPU(v5e/v5p/Trillium 等)2 ]" x4 l+ i' S, I
中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
! N$ y! s4 H6 t, F+ W1 H8 n算例基准+ ?- o U: W4 m% O; _6 ~
M3 E) x0 l- e/ Z0 \* F7 |
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:( R( R: `, {# K. H& V% [$ e
其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW0 @5 w. k% x, Y
PUE 假设约 1.11(高效液冷场景)[1][29]
+ }# i U f: Z% ^时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
9 N0 r, j# c) i4 K- L关键指标
$ l# Z) U) N+ Y+ z# J, F
; v0 o8 z0 W% I! C, I$/MW 建设成本(含/不含 IT 硬件)
6 p$ R3 F4 K: J5 t# f0 L! s7 a5 F$ H$/kWh 电力成本、L/kWh 水耗
1 a$ Q) y& i) M! l( [$/token 或 $/百万 token 的综合成本
9 [% j. c% w1 v% gToken-per-watt / Joule-per-token 作为能效基准[17][18][26]# Z4 O% A: b5 k1 X4 J, S
项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租); r4 v9 q: E% m9 J; [( @
1.2 高层结论(供决策快速参考)
0 X6 d$ i* H, o- ?% O建设成本:AI 数据中心相对传统云数据中心成本翻倍/ J: Z! r4 B/ N6 s* j! W# a
& k3 u4 Q- N2 a
传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。7 b) [# |' N5 z' C* x6 L
AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。2 z0 H3 j @( [1 W( v1 c+ G
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。
1 T/ S; L0 u0 Q8 J: g3 h$ \区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
: ^" ~( M g, L$ e3 }+ G9 y/ i" g6 B
% S$ d" q2 S: i$ {- m& M% g7 v中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]( h1 p+ q5 l" y( c M9 l
美国:$8–12M/MW,400 MW 约 $4.0B[1], I6 i0 g9 @, o$ C( i4 m
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]2 C3 \% U' R$ B, ?$ Y0 J3 X- t0 U
中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]+ f+ p3 s; S6 q7 @- S
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。
% R+ G" E6 n T g" `OPEX:电价与人工决定区域优势
. V0 ?( W1 w0 _- V- M' F, d
8 W2 u4 a3 l6 ~5 S5 s7 I电价(2025–2026 工商业大致区间):
/ U% F. ]+ H) F* d$ X5 d中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]
2 T* S$ g. I+ z0 [9 h; l' z6 W美国:工业用电约 $0.085–0.09/kWh[44]3 n1 A& _1 _! M, Y! s) Y. a
欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]9 S6 [! e$ ?4 k* b5 O
中东/UAE:工业用户 $0.07–0.13/kWh[47]/ M% s5 K8 B) L+ b/ e0 n# [, d
人工:! U# S* r& b8 l! P# ^+ {
中国数据中心运维:约 $22k/人/年2 J* v+ ]2 z! h4 c7 y
美国数据中心运维:约 $120k/人/年[1]' Q7 ?; i7 m5 N% T; I# l, u' K
结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。( g# g& V/ h# j* K
能耗与每 token 能源成本:能效差异远大于电价差异. W: e2 E, F9 b6 B" v
& V- y" |# p7 C$ E, H# j
IEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。8 {$ G/ n2 ` L2 j
大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。3 o; c; p' h& L$ r, {; e8 J8 u5 |# Y
将 token 能耗约化为统一口径:' w( g& |, f" H2 {6 X% l) ~ @0 N; z
粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:( _* ?( w1 j$ a1 J" O. m
中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token
5 Q1 P; j5 l/ S8 {美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token- Q2 \8 K% C4 R) m- M/ x
对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。7 q0 O1 U! H, y/ `
不同芯片方案的核心差异
x/ v4 P6 h4 G& `
- u; v4 G" O# Z9 U9 fNVIDIA Blackwell/B200 & GB200 NVL72:
/ J1 w/ w3 J4 G3 X; R( s单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。9 O; S4 Q/ ~4 }1 M' I; F
GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。
7 V6 _7 O" F8 s: e# l0 `Google TPU v5e/v5p/Trillium:
3 Q R" m S" k3 ^% L% {3 ~TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。
/ C' @) Z% W6 |, ` A. @7 ZGoogle 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。
6 \" `) q& X, e% j& D' R华为昇腾 910B:1 }0 U5 O, F3 G, d* N: L/ q! h7 C
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。
% ?- t. z2 F! e2 U4 X+ c8 s单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。2 O+ S" F9 i, _; a% i8 e# u+ ]
阿里平头哥真武 810E(Zhenwu PPU):
4 ~ ^) l9 t: P, E7 [1 Y96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。' c& r. I' q$ B, o
结论:- d. J1 k) u* K# u
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。
6 c) k/ U- S: q5 F9 S9 c M! W单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。
7 `* |( p7 f$ ~- s$ W对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。5 k5 Q: V0 r! T+ l# Q6 b
自建 vs 云租的 TCO 与 token 成本& s5 R8 @: W+ N7 j8 E$ d8 W
* p. N( A8 t% M+ B* RLenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:6 G5 Z1 Q6 c: ]. }
8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
5 M& t! C! n G; l! \5 t等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
& C C4 R" j! f% D8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
( J+ q {, G* j1 n1 T6 eToken 成本对比示例(LenovoPress 场景)[28]:/ b7 Y r2 \6 w
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token
) S! ^' g8 q# [: ]2 u# n8 Nvs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。
( C/ s" H( h: z3 N1 @4 L$ F同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。; n+ [: S% t' q$ z( |- _
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。+ Q& `0 j* d+ k; {
结论:0 R+ G* C4 m5 [: n1 E' U9 R
高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。: ^$ T/ B8 E6 ]$ c0 Z: x
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。
' z& @1 S# }3 Y$ g+ |5 D2 j二、建设期成本分布:区域对比
* j( h5 `6 F# v4 d( K2 q8 S" e以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。( h# U9 j/ p* {
: k7 B A9 v8 o' ^3 U2.1 全球/通用结构(以 1 MW 为单位)+ w( b! |, j( v, }" D8 V
综合 JLL、ConstructElements 等[2][41][40]:
3 m7 l) O! I! o$ N/ H' O6 f( G+ W$ ?' i1 [% a$ O
壳体+机电(Shell & Core)# Y+ b; V b" O2 p& V- ~( T3 h
2 e) U/ L) s4 x. V( D全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]
- p% m" V4 o/ @其中按成本构成[40]:
?: `1 T S. M6 s2 C" H电力系统(变电、配电、UPS、母线等):40–50%
7 B6 n( N( {5 c8 G$ C( A/ _机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%
0 i5 k( b A: u2 i( x建筑与土地、结构:约 15–20%
; L0 c! S# _$ H2 r' b其他(消防、安防、楼宇管理等):约 10–15%
+ B. y1 q' J5 g; U+ A3 {8 h2 aIT 内装与 AI 基础设施(不含芯片)
" h- l2 j- n0 m
" I' c& M* A6 z. `) x" m9 ~: K高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
1 I4 l+ k1 M# l8 i& v9 I8 f IGPU/加速卡硬件 CAPEX- f8 d4 Y2 V3 b" B- p+ N
2 A/ L: s; [) V8 s% s2 j: B
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。; R5 y% r" r8 G1 `! o; w
2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX
3 h* I) T5 [+ C结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
% M; R! a) X4 X8 s+ S# w+ H& Z3 Q, ~# p& X. L/ @# N/ y3 K) _
区域 典型建设成本(壳体+机电,$M/MW) 备注
; [+ R+ R0 {! d m: q" r中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
3 e" p8 v% l$ \美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]) t I Q5 m5 ]2 o# N
欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]+ p' a8 Q; A9 ^8 x2 ?
中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
& s H/ T5 |# h结论:
) i {% o0 V6 R; d6 f
/ M- L- Q2 d/ f单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。
" h1 z( l9 O+ Z8 e3 e ~6 k若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。' k, @) W* |( {: g1 c, {
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)$ F3 r5 I. D, G0 y# ^) s7 K
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:' G* j" t' H) z
7 T/ K/ b3 F$ M, O% `) G$ v' E" l
假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;0 h4 c! a4 m7 M9 _% m
GPU 配置:$ f+ p1 K* M" }6 G( f3 b' ^
有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);7 K3 F* K( f) S% [
每 rack 成本 ≈ $3.0–3.35M[34][69];
) ]# s% A% z8 y% u/ g' _6 UGPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。' A/ h# a7 w% h9 u7 ~5 ^' p3 Y* L
与不同区域壳体+机电组合:
* v7 b; M, z' o; s* A
$ j7 U. ^1 X: q8 r以中值估算:3 e$ S% g6 ?/ X) O8 ? p9 Y& Z
) q! m. W6 a) U m6 g$ o
中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B+ D9 _! n2 ]. q7 ]2 N
美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B
: X- A+ n7 J/ X0 c& v6 p* ~欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
, u* J& j5 z1 X1 o5 E* X- D6 J1 F' v中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B- K; C! V3 {7 E1 H* U2 e, U
可见:
0 f- q, d" U' ~7 g" T
. z6 X; O/ G4 {6 K6 cGPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。
: X# f5 g% p. h" B# r- p相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。
9 `; Y7 @) P" S L' A5 d) m i三、运营期成本结构与区域对比% A+ b* K/ g0 u0 f+ `
3.1 通用 OPEX 结构(高密 AI DC)& c+ V; N' A6 \3 r
结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:* n' Y# V2 E+ h% F% g0 p
* F/ k+ g# m% I, o v电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。1 m( {" Z- ~ ^) g7 C
冷却与水资源:6 x' U! S' S* ^& J( C$ \
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
' _: z7 y2 V. w, o8 ]水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。. m5 G- O" R, k: I0 f
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。% x7 X( \, [4 l5 o/ E, s! R. S, |
托管/物业与维护:3 C- R1 S% E' g8 x/ U
托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];# Z y, H1 a3 M" w2 T
硬件维护:LenovoPress 模型中按设备价 12%/年[28]。$ j' a* M5 Q8 h4 J
3.2 区域差异(以 400MW / 3 年期为例)
: M8 ~8 f4 L5 Y4 e, K使用 ChinaTalk 的电费与人工估算[1]:# c. B: k6 x c# G3 v7 h
* m; d7 u) P& r& K8 ~9 A( n1 n
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:' J+ B6 G+ v3 Z( @! @4 n& u4 |
中国:约 $0.06/kWh → 3 年电费 ≈ $350M
8 Z! _$ H% P1 O) j* @美国:约 $0.09/kWh → 3 年电费 ≈ $600M
& |. z7 W. R3 \中东:约 $0.07–0.10/kWh → $400–550M- \1 b# h% f% J. I
欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)! u, L) k4 Q1 {3 y
水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
% I2 v1 p) r1 `; Z美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
# w- a9 U0 U! P# O三年水费级别:0 c5 v5 J% E4 u: a m& @3 l5 I
美国:$40k+2 F, I# M8 @5 `" W6 N
中国:$20k+
' q* z U3 |+ M0 r5 Y: M结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
; V, H5 O1 N3 c- m. |% }人员成本(3 年) – 假设 500 名全职运维:8 L9 u7 P6 H+ |' e' P
美国:500 × $120k × 3 = $180M+9 l% D3 S5 ]' I2 L
中国:500 × $22k × 3 = $33M+
7 ]8 f/ ~% n' x4 ]2 W W' k差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。
/ X" |; X% \% O/ a& C. w+ g0 G, {* J' R/ H8 V整体 OPEX 粗算(3 年) – 400MW 场景下:
- W( C7 V. a0 f% I; J5 |) o9 c9 c. Y p8 z, I$ j+ d. `
项目 中国 美国
4 z5 Y6 L; Q" ~& X电费 $350M $600M
% Y% j/ j; v" {) ] W水费 <$0.05M <$0.05M
& N$ G3 N* F1 c. m1 u人员 $33M $184M7 L8 R& L" W# d5 ]# h- r
其他维护/托管 同比例估算,地区差异主要体现在人工与地价
. l0 m, Q# }" Y( P/ W% x0 u# R结论:3 j1 l& b" y' M8 h: v
4 i" r, F' Z9 _$ _5 w- t
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
; B' l6 Q1 x6 [* d/ j% O对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。
1 `0 G: S4 e4 n四、基于 token 的成本与利润推演9 P X& b# `# d5 ?: B/ q
4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元) D/ a4 m) r- f/ j4 a
统一假设:
+ B! z' R3 y: }! P
: K8 r: o! X2 Y: {+ P1 l典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])
$ H/ ?$ M6 n) H9 _: \- Z% ]1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
2 F3 d$ k6 h" ^9 c- V* C) m1 百万 token:278 Wh = 0.278 kWh
$ `& P$ }% `. U Q9 c' S场景 A:美国电价 $0.30/kWh; q6 e% @# Y; x0 [9 ~
电费/百万 token = 0.278 kWh × $0.30/kWh
& o4 v2 Z! w4 g5 Z* F≈ $0.0834 / 百万 token
1 Y% a4 j# G$ [4 d场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
' |0 V+ w8 w; c' H5 c电费/百万 token = 0.278 kWh × $0.042
& M0 G/ [' e6 R% A& O! D' p≈ $0.0117 / 百万 token
j+ C; M4 H. m6 A4 x对比当前 API 价格(OpenAI 2026Q1)[62]6 Y) O8 U7 h. C$ R( {
以输出侧为主(成本最敏感):$ |; l6 ^" n) F( {
4 b% W# \9 s8 K6 t' t模型 输出价 ($/百万 token)
8 U: l2 ~3 H/ H: P, J! n3 FGPT‑5.2 $146 c! N5 _: X' j) c3 b( S6 ~ O
GPT‑5.2 Pro $1689 |. `# [- p% D0 X0 w
GPT‑4.1 $80 q$ Y) x- a' K/ \2 k5 i
GPT‑4o $10+ F" @; ?- }$ K* Q- w+ e3 r5 q0 g
GPT‑4o mini $0.60
I6 ^! a& k, ~2 N; C- ?% ?则:
* g, i' ]* W; [: y. b
1 H. n" E( S6 g4 E; e8 F+ y3 q在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
! K- v$ H( w' L" v* ?在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。3 g+ M( m% Y8 u# i1 U% ?
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。
9 b% S+ X f* t8 e结论:& b9 Z4 W' c* m! d+ c* G- n
即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。
% `7 P& ^( o; @5 ?+ w
0 g E7 {) }6 I4 \4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)
2 Z$ R5 `+ T' u2 P* y" p以 LenovoPress 的 8×H100 Config A 为例[28]:2 t( c+ q0 E x5 \4 b9 o. [4 w
7 m; J1 K7 a# u
5 年摊销下,8×H100 本地推理 70B 模型:
. R* `9 G) F- s# w, }$ ^小时综合成本(CapEx摊销+Opex):$12.08/h+ y; i! a: N8 P& z E
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens- p: P6 p3 c0 G
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token6 g) Z J. b- m2 X2 ? W
电费在其中的占比:
7 ~. }, f& A7 C. S' D; ]! E6 MOpex 6.37$/h 中电力+冷却约 $0.87/h[28]# ?) o0 \) u1 [; [$ `2 ]( G
电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token1 X4 x1 Z; T' E5 x
电费占 总 token 成本 ~7% 左右。4 ~, x& d4 e! C1 E _4 |
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
|3 F0 V/ R& |2 e若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。3 M, e1 @2 T& F7 t8 Z' H
% V" c* w" U) v# R9 J
因此:
# s9 T) d. ?6 e' y0 u# R* n1 U
, x( I. }4 b: N9 `; v) M在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。* b" W; N- l9 v$ t6 O' w8 {3 q2 Y! V
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
2 D! g3 j) z9 _0 B& h! h* T$ i五、不同芯片方案的建设与运营成本对比
. J; P8 F$ y) I& s5.1 NVIDIA 方案(H100/H200/B200/GB200)
/ q; F& ]7 ?+ Z5 M; kCAPEX:
, |4 X: _6 Y0 Q
' F/ Y! b& Y# BH100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。9 F. t4 C j, {6 N& y9 j
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。
( E0 B) b; A3 W9 A$ l- w) u4 ?B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
' y/ C7 P1 s- s1 v& QGB200 NVL72:
1 R4 c8 s7 s% P1 {每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。
6 J# X3 p% W/ T' U5 q冷却系统每 rack 额外 $50–56k[35]。
: l3 g+ I# v$ i在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。1 E2 k1 _5 x) `0 L
OPEX & 能效:: V) u7 b6 S, [- E7 A4 C- X3 x
6 \$ K! v' Q r9 P5 Z) w单 GPU 功耗:5 v/ i$ J/ G# \9 u ^9 W) ?
H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
! [) m9 q8 L* kH200:功耗类似或稍高,但性能/W 提升[9][10]。# A. x8 U( }( H( p8 [3 ^1 c
B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
$ S' [' ?+ Q* {+ y' \6 l6 M) |4 yToken 性能:
: W* a# _9 }9 H1 ]$ h. G. [B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
/ h# s I. g2 fNVIDIA 的优势:
3 y5 t3 F+ v5 e: ?
% Y: N4 \/ M. Z+ t2 e1 s j软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。' D; P1 n5 T1 X: e' k4 _: z0 c4 K
但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。- n; i; ?5 i) ]
5.2 Google TPU 方案
3 H( z7 k7 |0 B8 K, i, P/ PCAPEX:
! ?( f2 X( @5 x2 L8 N4 i. s/ {
/ F9 r/ X5 R: H0 r单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
2 B/ l/ ^ l% I, k1 e( XGSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。' R1 x$ `+ g2 J4 f* [+ k% A4 L
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
0 w2 [ S' N1 E1 T能效:) f3 Z* i k6 f0 v0 j) i4 `. p; v& Q
9 w1 |0 R0 |9 `, PTPU v5e vs H100:
- x3 R+ P) }/ m1 \# T同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。& @. u, e6 |. w# v0 S- S: v9 v
测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。
6 j2 b/ N% l& V; K# w0 d1 K' w新一代 Trillium/TPU v7:
+ A! u! q x: a" h+ B9 ^+ j6 D能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
+ ~. |6 l |9 `; ^Google 方案的特点:
$ \1 w6 A0 G! z+ B! ~0 E x% [
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;2 c3 S) Q2 B6 m' o4 Q0 \+ |
对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
% p! S6 ]3 s* P1 q' J+ F7 l5.3 华为昇腾 910B / 910C 方案
1 k( D9 k3 K# M: |CAPEX:
! N% }9 u2 N, |* D2 \: y
! N# c: b! H# @0 [* d' T7 Q2 P单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。( K' | N' s& ~
与 A100 对比:
2 d8 X0 H+ E! k7 Y/ ^FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。
9 d+ U* |& G# q2 T" H! D: C. v8 @市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。: ^/ \, N+ h/ u% ^* @/ P9 m
使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。
0 N: W# Z* f" I0 C4 H# r# }OPEX & 能效:
5 w3 _" {# d5 B
1 i: g' ]- P( F0 n0 }910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。 x" ]% T7 y' L+ O
部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
7 m7 V! H' {: Y5 x在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。) O& u( r: v9 N, t+ ?( x% H
5.4 平头哥真武 810E(PPU)方案
# |2 l3 V, e( i$ _8 yCAPEX:7 {2 Q% Z! R8 i/ g% `6 Y
" Q; l y( d4 m8 w8 X3 [5 J" g
技术参数:
! l1 w$ o9 a6 k5 C( i96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
" Q m* P6 v3 \2 z; {性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
6 I9 D2 \4 c7 ]0 F4 u* [" L价格: S% T7 e" w) W/ [; ` F/ ]; @
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。
" V4 ~( ]: x& [$ @" ]结合国内报道:
! [' w' H& V" U; Q! \6 R2 m2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
+ R m9 `6 S. d6 A6 N5 ^( ^1 }数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。7 m1 C9 v1 g/ x2 n- s
OPEX & 能效:# n) s/ x$ @) C' @
( O" _( J T. L2 h2 N8 I* s+ e9 Y400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;
- ~; x3 `# G1 B9 u3 `- s在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。! g1 @2 G# j' m- o0 x7 |, l
六、综合比较与策略建议1 }& e6 f' B; C) R) A9 N
6.1 区域维度:在哪里建 AI 数据中心?
5 h4 k" C8 M) p9 k% l1 U+ {纯经济性(TCO/tokens)排序(假设无政策/合规约束):
7 g4 i* [ p+ N4 N8 s
& W; D9 j% Q' ?3 G& @中国西部/北部(电价低、人力低、建设成本低)3 K; K# X, z+ v h
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)9 [. `* M* G: h! R" u" x/ |6 a+ i
美国电价低但人工高;东海岸/加州电价上涨压力大6 B' h7 c1 Q0 a* n, X& V
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求
$ v: X. q9 D8 L4 b) c! Q& f若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:; f6 N# Y/ c) F7 ~" v0 c
7 P9 _: c* \* N% h! n) z
纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
: \8 D( n2 K& `. ^对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;' _) F2 r" d. D
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
. X% A; N2 q, G) L6 D, Q2 E; I8 l& V% U6.2 技术栈维度:选哪家芯片/云栈?+ I0 R9 X# s T' P' ]; X* B3 @
若目标是全球最优 tokens/$ 且不受出口管制:0 o) r, C- Z! e4 D1 I
3 N; ? J4 j' V" D/ v
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。( W z) \6 q# N4 I$ c
若在美国/欧洲,能自由采购 NVIDIA:6 w* ^( n2 a. } ], D+ H7 `
" r/ ^( b" O5 \0 Z& E. f
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:
, h% h$ D4 |8 [: y' [成熟的软件栈与生态,极高的 tokens/s/GPU;
, s* P. {# ^5 V4 G0 z' u2 A: [% t. ]4 T在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
" j( f) N5 ?/ g/ Y但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。
; U: B, l( I8 }; W" U若在中国或存在出口管制约束:
) w, @5 l; e j" s8 d, v
6 V( v1 b `. K3 m& Q; V昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:' ]6 {3 f9 e/ s' Q' W( ?& C
性能上已能覆盖大部分 GPT‑4 类推理需求;
- n7 t- E9 Z: D6 U* [, E单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
2 E' l: k0 u2 H% r8 Y软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
% s" a" w/ v u; \ o9 p% M& d建议配合:/ ^3 }2 k" v1 Z& i
高效液冷(PUE~1.1)、
" U1 r/ x8 {7 E8 \4 t& W8 S$ N. K( ~大 batch、路由(浅层任务走小模型/低成本芯片)、
H! k1 t' Z( i" f0 H7 M强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。) J* Q! ]" n* n7 N; @+ L
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:! N; Q7 N8 C5 ^0 @7 j) y1 f
$ r0 D2 i0 ?' h" g6 M$ L& \7 S& I
数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];# G0 U: W! Z* k( G- V0 Z1 \8 n
这意味着:8 E8 B3 e& ] ?2 [# k6 W& Q
优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
$ m& m; I8 ]8 D9 f精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
# j7 s6 T3 f! e- m6.3 针对你关心的具体问题的简要回答
" u: U: p3 s/ m+ l0 AAI 数据中心建设 vs 运营成本的大体比例?
$ a- |: f1 I! Z* m; i
5 b5 C6 ^( o/ U: H在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。
7 G& z" `. Q7 P4 q( j其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。
6 p6 U2 D+ w0 W, w) e中国、美国、欧洲、中东的成本结构区别?
& t7 b" o+ l* ]
" J3 |' N0 E# ?" E" M& U9 t建设期:
, d A/ O& D+ S3 c1 m# C, M中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。
$ w& r) I; X6 p" c3 E运营期:5 N* [8 s) G9 t% g% d! v) \* y- Y
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲) |: ^4 b! m0 U5 r( V( y
人工:中 国 ≪ 美 欧,中东居中。- F. S4 d+ L. t" n' I/ V3 i% Y
在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?" X( x, @* n8 P) m* R8 U6 y$ {
/ n- l: D. C- O; a; q$ G+ t8 J对于典型 1 J/token 推理负载:
6 P4 v4 s" g% b美国 $0.30/kWh:电费约 $0.083/M token; f! u- r# D. t- U
中国 0.3 元/kWh:电费约 $0.012/M token# ^/ e: j8 t$ n" s4 }& ]
对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
9 ~4 ? _4 _' G3 T0 B8 e不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?2 z8 y: ^( n4 B8 g4 h
1 Q; b( S; d' q% a' O/ F) M在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;7 w- u% U8 |6 a7 P* z( T
全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;5 b& K+ {* N; s' K) e
中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|