TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
( a' y, b: A& h, _7 |5 _8 V! d; b, O; U
一、总体分析框架与核心结论* U8 l7 r9 P; F" Y* Y8 g5 t# D( t
1.1 分析框架概览3 G! W4 ~1 R/ j+ {4 M
拆分维度
5 Y. E8 ]# y0 Y% k3 |' i4 P2 z+ J. Y2 E; q# b5 E; B& A
阶段:
) s8 `/ x+ j# J. `+ R D3 o5 E. ?建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施! t& g* A( B2 p8 p
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等* p* Z, }9 i; X) W
区域:
' G8 k! m8 p8 x0 j7 s中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
( Z2 A) e( D0 H4 S技术方案:
7 m. C$ }2 r$ e6 [NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)+ h4 I0 G3 H4 m) U
Google TPU(v5e/v5p/Trillium 等)7 s' U9 X3 R. A; s% ]# r
中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)/ x/ U% G# i) R- D
算例基准/ q/ J- }0 M2 R
% z- O# x7 n' D: m( [' [! l6 r: l以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
# }6 h4 A2 ?8 L9 g! f6 n3 B其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW
( m' V2 H+ D/ ~8 ^PUE 假设约 1.11(高效液冷场景)[1][29]8 u' q" W3 k2 u% Y: A# M' w
时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]+ A) w! S; n. ^: X0 G I; x
关键指标
3 o+ U% w1 C5 ~# e0 u: c6 U4 Y
$/MW 建设成本(含/不含 IT 硬件)) ?; Z9 D) ^& U e7 m+ H
$/kWh 电力成本、L/kWh 水耗. C2 e3 q2 `0 Z& P5 ^; s
$/token 或 $/百万 token 的综合成本
' f6 i" N+ `, LToken-per-watt / Joule-per-token 作为能效基准[17][18][26]2 Y) g3 M- G6 v$ ]( K6 c5 n
项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)) M6 }; m4 Y5 H" C3 B8 p
1.2 高层结论(供决策快速参考)3 S: {" n& r# F$ Z- Z
建设成本:AI 数据中心相对传统云数据中心成本翻倍8 f0 j! c1 N9 f2 r3 S1 K: W
' P! ^2 Q; |8 n7 `传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。
* t' G8 X) ~3 jAI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。! r/ O1 K2 o/ h
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。
6 n+ l; _0 ]1 P2 A区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区6 b; S- |0 \( v* F' t. X* g" }
( s- u- y+ {# g* }5 H7 z3 m: L9 B( T
中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]
' c9 p: V8 M* i# l美国:$8–12M/MW,400 MW 约 $4.0B[1]
+ X+ |( }0 e# m4 _1 ]欧洲:接近全球平均 $10.7–11.3M/MW[2][41]) k: m9 V. K1 d, D
中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]! M4 f2 w ^* r' x% h% @1 t; }7 L
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。
, A2 e9 g) h6 S+ A; ?: S D2 MOPEX:电价与人工决定区域优势
/ R2 Y6 E i0 Z i5 B$ `
5 ^4 w: D. g( N, n电价(2025–2026 工商业大致区间): j( F4 Y& ]* }6 K% } j
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]4 }9 V1 s" _. P1 Q4 M# o/ o
美国:工业用电约 $0.085–0.09/kWh[44]
) a {: p, j+ U$ j6 P3 ` s欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
# w* Q" D; U# Y% Z中东/UAE:工业用户 $0.07–0.13/kWh[47]
4 v/ W9 a9 [1 G( i) Q人工:1 J) Y' \7 v- y1 B3 K. }. ^
中国数据中心运维:约 $22k/人/年, l+ b, o. Q8 d
美国数据中心运维:约 $120k/人/年[1]
% Y6 q8 j- S- J) t, e- y' P b$ p0 s; ]结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。7 W b0 V" @4 h
能耗与每 token 能源成本:能效差异远大于电价差异! h# b6 y; I8 O7 E& O
3 X+ n3 O/ @! kIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
7 {, t. `$ q+ y3 k+ X8 h- W大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。 r! _9 s. \# o# n
将 token 能耗约化为统一口径:
! |' [7 M7 K( I% x' N粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
3 O8 t+ |: H6 ~& Y中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token, ?7 Z$ }% O5 j1 P N& g
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
* w# B9 @8 {! `- }' m* e* v) ^对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。
# `, b$ y- d) \% D不同芯片方案的核心差异
6 p0 u# M! f) W2 G7 y9 d9 p! D7 P/ R0 t
NVIDIA Blackwell/B200 & GB200 NVL72:7 K2 a. e$ [2 F i" a9 E% K- Y
单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。& X* S( Y8 x3 F
GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。% r& z, S* i, z6 k
Google TPU v5e/v5p/Trillium:. v) N) f* q. u. k+ \9 }1 J
TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。9 D( b. v9 p* A' l
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。
9 c* w5 G2 L1 V+ R) g华为昇腾 910B:* g& ^& r# l% o, Q x6 W t; a
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。4 N Y) Y( i( O/ H! p5 S! L
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。. e& l2 f9 k% _# H+ _9 b
阿里平头哥真武 810E(Zhenwu PPU):
" A/ B$ s0 p- _ I! L96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。
( S) ?9 r4 c& N# L( N0 }结论:
0 c- B: M8 p2 G9 e9 C3 b7 F能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。
) L5 H3 T; X" z, {- d单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。7 ]3 _ L) M, [
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。# \& C1 {; \( o! B( j# f
自建 vs 云租的 TCO 与 token 成本
; K% }! A2 {* ?5 I* v7 L
! i4 u7 v! C- K9 e, Y# r. ~LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:2 a* c) ~2 \6 a9 s3 S
8×B300(Config D)自建 5 年 TCO ≈ $1.01M;) o: f c# K0 C: d0 |5 f
等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
" M# `- i/ [3 M" e3 T$ H/ T8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。; N$ @4 d6 O# W( g; Z
Token 成本对比示例(LenovoPress 场景)[28]:9 q( t; H( B. e5 [+ d1 T2 t% \
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token. B/ d+ M, O' n) F
vs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。 K, f) a0 c0 }
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。 a7 p0 i" E+ X) L0 R8 l8 d" |8 ]
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。2 J7 s7 v# ^2 X, V: v# D; ^
结论:0 a( L P0 X' x1 y3 H
高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。5 v. y' m( s4 W, ~$ ?$ k
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。
$ F- D' B" Z. B) H$ {二、建设期成本分布:区域对比4 ^" |& h, ]$ l. A- L3 |1 C5 j
以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。
1 }! k/ R- C; D+ c+ z" u( S m% v
2 U7 x2 W/ @# {3 w$ s: o2.1 全球/通用结构(以 1 MW 为单位)
1 X- }. u; ?* g5 o! X综合 JLL、ConstructElements 等[2][41][40]:
/ W) I* S" [/ V g' T6 L
5 m! t# f2 A: u" m壳体+机电(Shell & Core)
8 L$ F2 P; Z" G& Z6 p
% }. P: _8 E$ e# Y- ^- M B全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]6 h" E1 ~# h& H" `% w
其中按成本构成[40]:
+ w% e/ }& p) N ?- t电力系统(变电、配电、UPS、母线等):40–50%
! ~3 o4 Y+ |. S j/ O9 R机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%1 U% D, v3 D* \) P
建筑与土地、结构:约 15–20%/ P& F3 b Y6 W+ f+ J6 h
其他(消防、安防、楼宇管理等):约 10–15%
5 B" m) |' G# ]3 yIT 内装与 AI 基础设施(不含芯片)
, c4 [$ }$ O3 H
/ g& c. [3 ?' _5 R4 z z+ P5 t& g高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
( \* R* x4 C% G0 e4 H) yGPU/加速卡硬件 CAPEX3 W( e. C& H0 H( x: t7 \/ W
" s) p2 M8 J8 e N5 b多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
: S" g' Y( `# p* v0 _$ r2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX+ l- `) _: y% }( R
结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):, c9 ?4 l7 F) Q3 G" X5 g& e/ x8 B- Q
2 Z9 E/ a& A2 s+ ~: a3 G区域 典型建设成本(壳体+机电,$M/MW) 备注
' c. X3 M! p& O$ N中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
6 g" J5 Q) L2 u8 J: U- t @美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]2 a& V- D; v: \1 e6 y
欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]' H0 Y! @& C# w1 W3 ?
中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
6 l9 X4 Q7 J8 C! K) R1 x# ?5 [结论:' n% H9 z+ \ m' h0 E* J# A
0 ^3 u( b# Z% V
单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。
, b, q; p) g6 F: M若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。& d; u! s; T4 q1 u; f6 p
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)4 |" u6 E% Z1 [$ `9 V" w
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:0 R* p$ W$ k% {- g3 m: j/ C& }6 M
( U# r' _: Z. q1 o! Z1 D
假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;9 `0 ?$ C3 N! @7 y
GPU 配置:' L- I/ d) w' p' i$ g
有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);
" i. l) g0 A8 R# |1 e每 rack 成本 ≈ $3.0–3.35M[34][69];
: J' g0 s5 ?/ D9 s6 @GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。7 g: S l) e3 q2 Z
与不同区域壳体+机电组合:' N0 C# Z4 d2 J# `0 R) d' h
7 l- G7 y* @; f, ^7 Q以中值估算:
' Z- W2 _0 U. ]5 q! b" V/ {) j# G
. T/ D, P& {4 H8 |中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
& J& v' r" Q" v, b5 b美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B
7 G% x* |% s- Z5 }+ B欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B/ ]' O' G" ~' T- Z; I" U! e* n! s
中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B
; H1 ~% F9 g( i3 q: e: n" U# L可见:# p, U- j1 \3 p3 B4 H
! `8 B0 M, B3 ^( @3 _: y' kGPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。/ ^. a8 d5 E- e& i9 `& z6 L' F& q
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。' k# R% g- a6 [2 C8 R. H1 M0 [- I! J
三、运营期成本结构与区域对比
/ j$ m. z" p9 K4 Z1 I$ `7 L3.1 通用 OPEX 结构(高密 AI DC)
" X; g- f: u( t. t1 X* ]结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:
Z( F6 U# Q5 t6 ^: v4 L. Y5 h% m; \$ m. J) g( C* R; R
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。0 A) ?# |" O& P! r4 D6 ]
冷却与水资源:# D; |+ n3 o1 f8 L1 i4 E
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。2 F! E, x' q( R
水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。
- `: e, r( R. p( x# p/ s0 S人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。! ]5 Y3 U/ L0 V# D2 t( D
托管/物业与维护:: ^( C% T3 s) B1 S
托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
; v6 U, U+ k% M9 K* u硬件维护:LenovoPress 模型中按设备价 12%/年[28]。5 Q) C" M' W8 s4 y: V1 T; e
3.2 区域差异(以 400MW / 3 年期为例)
; f4 k. e! k y" q使用 ChinaTalk 的电费与人工估算[1]:: c& N- ^ E4 s. k$ G; e4 |
4 {9 Z! ]/ o6 r6 {2 c# e3 T# y电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
& X/ w5 H0 l" P中国:约 $0.06/kWh → 3 年电费 ≈ $350M
" P& v' V/ r$ p* r+ c4 M3 m$ C- ?美国:约 $0.09/kWh → 3 年电费 ≈ $600M
Q: d5 l' x; T" R! q中东:约 $0.07–0.10/kWh → $400–550M( \/ ~! A$ }8 P- B f
欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)3 b* p$ d0 B! ^
水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
, b, R/ k8 c) S3 l" d( \美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]' y$ N3 i. T- |3 K v8 ^
三年水费级别:, S& D6 I9 E' P& d
美国:$40k+. C+ F z$ W! |+ M' |
中国:$20k+( ?& n/ x! e6 ?
结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
; T: k& e1 Q. _! M9 N人员成本(3 年) – 假设 500 名全职运维:
4 }% L- Q3 s- Z! d5 o. X, T美国:500 × $120k × 3 = $180M+, k9 J. t6 U6 x' A
中国:500 × $22k × 3 = $33M+7 t* h. t3 b. m& x
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。8 j. o3 F6 H. o+ O, \) o8 P
整体 OPEX 粗算(3 年) – 400MW 场景下:
* E% p2 H( w* s, V
5 M5 s% H* I. a; l: G6 Y项目 中国 美国8 x/ F5 @6 ^) `0 _/ K
电费 $350M $600M
. Q5 _! F* d% _# @+ O. ~4 _+ B水费 <$0.05M <$0.05M
$ e, E& c* Q H2 a" O人员 $33M $184M* b+ U% T0 m9 I
其他维护/托管 同比例估算,地区差异主要体现在人工与地价 9 b9 J9 ~& m- p; |" o
结论:
6 R! ]3 G9 c6 g8 B$ Y8 x5 c6 V; \! f( _: {. ^$ \% y/ [4 v
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。4 X* W+ T' u0 ]2 n; ^$ Q) L/ v
对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。, l D$ w0 Y! s, Y
四、基于 token 的成本与利润推演5 u: C, @9 v+ Z! W1 L& q- ]
4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)
% L% Y/ J( t& E8 w% h1 n c% O统一假设:
' q! n( ^7 f/ C! f
5 ^9 Q! X# T# q+ x3 e, y8 y; }" `典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])" j4 c5 i9 V/ S6 M5 f2 p% }
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh, Y; z2 v! B+ p9 N4 T- w5 S
1 百万 token:278 Wh = 0.278 kWh
% o' K: b: J- y( e3 z场景 A:美国电价 $0.30/kWh
2 Q0 G5 h% [4 e9 H5 d电费/百万 token = 0.278 kWh × $0.30/kWh6 t, T8 F/ @( l- r- L: x& F8 c
≈ $0.0834 / 百万 token
+ K @* O+ Q$ t* C1 v场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh5 O$ j8 ~5 K' o5 j0 f4 s
电费/百万 token = 0.278 kWh × $0.042" b6 }" B3 R8 o6 w4 R, J7 y2 r
≈ $0.0117 / 百万 token7 b0 M! c+ R r
对比当前 API 价格(OpenAI 2026Q1)[62]% s9 A3 c. f4 S2 ?
以输出侧为主(成本最敏感):( s8 _2 i8 [) d6 F6 T: ]3 i, U
/ ~. t4 u; a- Q2 p1 z6 C
模型 输出价 ($/百万 token)) X9 n9 H- x n+ }/ N
GPT‑5.2 $14' _ [) p5 l) u F
GPT‑5.2 Pro $168' _# H8 D& W2 O( b
GPT‑4.1 $8
6 w8 w' w5 K$ T+ |/ iGPT‑4o $100 j& y* n" T3 A; `% H h h
GPT‑4o mini $0.60
$ d" e9 Z+ F' S0 C( ]$ u% a( e则:
/ V7 A/ x( K# Y( @; w# P" Q. \( m" z6 D, I
在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。3 G9 i% w7 g& H! E# S. d E
在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。
. V x* \- n: \ R" o相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。
) d% i2 K% j z( v! X结论:
3 _% F7 \- P) V2 y" I& F即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。" l$ D& E y- [% S
& d5 {6 E% L7 U3 T& h+ {; F) N4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO) t: x: v- K, W4 R2 t) R, ^
以 LenovoPress 的 8×H100 Config A 为例[28]:
9 x* z% W4 i) A* M
9 p; k" p2 j5 |9 L, g/ q5 年摊销下,8×H100 本地推理 70B 模型:/ s, G) b9 c/ F7 `0 i7 o2 o4 b
小时综合成本(CapEx摊销+Opex):$12.08/h
7 f- M0 q8 G7 C吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens9 h6 L0 D& T- X, T5 o6 {
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token* ^ b7 ? F# ~
电费在其中的占比:
) k5 p! T" x7 fOpex 6.37$/h 中电力+冷却约 $0.87/h[28]" D$ q8 ~0 R! E! w9 H7 N) S" `) G
电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token. _, p; J4 u6 g5 M4 m8 T
电费占 总 token 成本 ~7% 左右。0 [: F+ r" q+ h
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。+ ]0 S9 Q6 Z5 b+ v. w Z
若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。1 Q I$ a3 Y; [7 a
3 H$ ?* [3 C" x* B% t* \因此:4 y( A" A% T- h W- P/ N
/ U; w, G* ?6 l2 v$ X9 j% y% ]7 l: G
在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。
- X& I# i6 I5 S+ J4 Q% k" _在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。7 k# T! y p- i8 x
五、不同芯片方案的建设与运营成本对比
! h" h2 F; r/ y* z% y; k$ @* E* L5.1 NVIDIA 方案(H100/H200/B200/GB200)' E/ R _; F; _- y
CAPEX:/ }) c: G, x8 u9 _: t% Q Y
1 q: v( C9 c6 t. g/ J; H; t' @H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。3 P- R/ l* g9 f8 t
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。
5 ~3 e3 ^% ^' g, Z: iB200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
, o4 H: B; A% L/ H; a( S& oGB200 NVL72:" I: I8 ~$ h; E6 \
每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。
, Q a8 r! e: o5 k- I$ ^6 K冷却系统每 rack 额外 $50–56k[35]。7 x! _( O& `& P" \2 U
在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。 s. ?0 V5 t% t% h$ z
OPEX & 能效:
+ h2 c+ U) s" H7 l$ V7 x& g2 M
7 ~7 k+ t* d, H: x单 GPU 功耗:
! [; ]4 [; `8 x1 ~. _4 _H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。' [1 A* ^. q3 `
H200:功耗类似或稍高,但性能/W 提升[9][10]。# i% k4 ^- T7 c6 d) b
B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
) i& q; }+ e% ]# m' d2 i2 SToken 性能:
2 z- v- L; j0 K4 p% H4 U) W0 V+ IB200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。$ g: g: I. R. |/ W: W/ H
NVIDIA 的优势:' U' O4 v* K% `
, O6 K! b" ?9 |. o
软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
0 [! h( ^3 ^# H但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。
4 A6 u& T5 R+ b+ M, M- r5.2 Google TPU 方案& x) N; b* L/ j% M
CAPEX:' ?5 l( y( |) s9 a, U0 l
- g6 |% y" |6 O7 H+ m. N单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
( s9 R: \9 }: w# |, Z* E4 B J. K5 W/ UGSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。' S. t3 X5 W2 S; s. F2 f+ q3 u9 R
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。( C( p c# t% w F6 b
能效:
, \$ N$ a$ f0 M+ Y) f' ] b8 I* C3 g9 [' B* C' x' C6 K' o* v
TPU v5e vs H100:
, ]8 N1 y+ i0 ]! l: A0 T同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
8 J) }0 Q- j2 J7 W$ o& H- F* i测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。0 k4 x/ G8 r6 F4 I
新一代 Trillium/TPU v7:
! I# k7 I' V: n能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。( M$ Q. g/ F1 z
Google 方案的特点:9 q1 Q) I9 G0 p" k9 n( X7 l
% K# D, o% z- D3 B9 {# p
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
4 P' j8 O0 q. p, v9 a- o对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
4 ?4 u6 W* z) ~' \( a! j1 _" N& X$ t5.3 华为昇腾 910B / 910C 方案/ m! _2 ~4 l, j; y( l) K3 b
CAPEX: g# l1 g! w* O
" Z# B0 L) B' T# b单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。" i- z6 _2 C7 }
与 A100 对比:
/ n# ^/ Y+ E) ^FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。% g* }# n; p5 b% i o- b
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
0 l6 ], E5 q0 a* p使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。5 R. h5 e; x6 I- Z$ T* H
OPEX & 能效:
+ H! W% K/ b5 H7 W* ?, j, Z- m, {
8 [+ }6 m! ]4 O- w- t7 m3 |910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。+ `7 K1 B- ^1 }- U/ S
部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
: W! ^& R- H- ~- P! s在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。: @ h: h& x# V& g! |
5.4 平头哥真武 810E(PPU)方案
; @" L' i6 T( p: WCAPEX:9 k$ c: H1 V3 N/ s
& y0 k+ G1 \( M9 y* [8 s技术参数:
. `5 s+ V) U H/ Y96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。( F1 [' s9 s1 X5 ^) o2 f, a
性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
* Y0 _: r& P+ y1 {9 u7 ^4 e7 b价格:& g4 |. @" ` s/ g
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。! [) w: b8 T' w/ v" N/ P; R
结合国内报道:! W1 J+ T+ `7 f# n; e% v
2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
0 {$ Z" q2 d( P% H4 m数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
) _/ O# R3 c y$ pOPEX & 能效:. P. n: p D# A
9 P: ]9 C* `: a/ k% g400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;8 i' ?8 H A+ O- ~
在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。$ K3 X: l2 H( ^! R3 y
六、综合比较与策略建议
9 \7 G% t6 i# ^1 ?2 K6.1 区域维度:在哪里建 AI 数据中心?
! H( d8 ~0 z. Q) x) D纯经济性(TCO/tokens)排序(假设无政策/合规约束):9 P% o2 ]. I- o7 [
% K( {, b) ^. d* l: A中国西部/北部(电价低、人力低、建设成本低): i/ ~- c" a2 l7 B4 k
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)
. I5 }6 V4 a, A/ A3 N美国电价低但人工高;东海岸/加州电价上涨压力大
- M: N% f. J+ }$ S$ @- s5 l0 y欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求
( S8 Q) B9 }0 N2 T# I若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:
; n/ F z6 R2 J4 P1 H5 [7 l, W
( v' L1 y& g7 x' ^! m纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
" Q; h/ ]0 K( x3 `对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;/ u) u% V+ Y) X$ p, k8 a, i% S
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。0 V, R/ b% t: K0 l, @& w1 ]" `& Z9 ^
6.2 技术栈维度:选哪家芯片/云栈?
H5 p D! O2 N% Y5 r若目标是全球最优 tokens/$ 且不受出口管制:
" [1 u/ Q3 K2 `0 S2 R
2 |* T2 A6 J1 I8 DGoogle TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。
% R% `, Z& a5 K( O) x若在美国/欧洲,能自由采购 NVIDIA:3 [! f( f+ j6 P4 L4 A- r' x
- D+ y5 g: i! m短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:0 Z# m( Q; l) o1 Y5 M
成熟的软件栈与生态,极高的 tokens/s/GPU;
/ Q9 O8 C; g0 j. c, j在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
1 M3 i4 }# X" ]& x o/ q但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。* @' y, S9 F) Q. R
若在中国或存在出口管制约束:
- D9 S3 [% }( w, `! N( O# O2 j- J) P2 |
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:* h3 S# F2 E' \+ n/ _# Y* n% X4 D
性能上已能覆盖大部分 GPT‑4 类推理需求;3 m- c7 \7 {/ H" u
单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
F( _ H3 G: x# q软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;+ ~1 E; H% m9 J9 w# v! ]
建议配合:
! S$ [8 _7 [# A) X8 I+ {, f9 d0 k7 ~高效液冷(PUE~1.1)、
- c: {# ]: _5 O0 X; r0 [1 N大 batch、路由(浅层任务走小模型/低成本芯片)、
! L: R& Q9 @/ L- m9 C+ u强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。
* _# Z2 `% [& C# o2 N长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
$ [$ I9 u# a6 v5 D2 u; q9 J7 b6 @3 h# F/ U
数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];
9 ?8 e7 e- | {( P" p L: R这意味着:6 n: }2 J; p& C, h) e6 Z; M! s% p
优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片); O' n) D/ z' J* z9 O2 [+ Q: [
精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。; z5 x' u* R/ t, p: `7 c) q
6.3 针对你关心的具体问题的简要回答
1 O; L8 V' f( GAI 数据中心建设 vs 运营成本的大体比例?/ R# r, s. F* V2 d& x; R) ?/ {
$ v# Y% } j4 u( D
在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。6 m( F* s4 ]- k2 n, }9 A9 Q7 X
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。: @ W" d1 `8 N
中国、美国、欧洲、中东的成本结构区别?
$ o: b/ ]) \0 l$ ]; a9 j) x
+ W% E8 Q% b+ b8 U5 u/ E; K建设期:
, Y5 N/ m H* S中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。
5 H u% G; J* _运营期:
3 u2 \, O6 y* w7 F3 y+ u( {电价:中东 ≈ 中国西部 < 美国平均 < 欧洲8 t* D1 S( V0 O$ L7 D5 \
人工:中 国 ≪ 美 欧,中东居中。
l# |4 @* S' V9 x3 D在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?
B5 ^: l% c S' X( D: {( G2 c# B8 e5 J' Q; R" m
对于典型 1 J/token 推理负载:
2 v! H( e: ^1 Z/ j美国 $0.30/kWh:电费约 $0.083/M token
' r, c4 G/ \& h1 l& P, W中国 0.3 元/kWh:电费约 $0.012/M token
; D0 \' ^4 @% |对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
" Q- t5 Q1 D8 R$ W- v不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?9 {" Q; ?. {! e2 \! S, D
: \# M% h2 T1 C: d& ?( N在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
/ G2 j/ h: n2 q5 j全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
2 r' j5 p; W: J7 {8 Q3 \9 \中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|