爱吱声

标题: 华为"韬(τ)定律"——先进半导体设计的系统方法论 [打印本页]

作者: 大黑蚊子    时间: 昨天 16:37
标题: 华为"韬(τ)定律"——先进半导体设计的系统方法论
本帖最后由 大黑蚊子 于 2026-5-29 00:07 编辑 % W) c$ b# d8 y- ?

: W, L, [1 j2 |4 V' k4 M. `7 [第一章  韬(τ)定律的提出背景与理论框架
/ Y6 |6 W% Z% h" M- \3 b# C; H2 p, G% W1 x# _
- E# B! l  J% S# O5 c# [2 u
1.1  摩尔定律放缓与"几何缩微"的困局
7 {& u: y4 d2 c2 V' x# [& [3 P
& K( i  h% j; H1 @- {. v半导体工业的发展史本质上是"几何缩微"(Geometric Scaling)的历史。在摩尔定律(Moore's Law)和登纳德缩放定律(Dennard Scaling)的引导下,芯片性能通过晶体管尺寸的不断缩减、单位面积集成度的指数增长而持续提升,时间长达半个多世纪。
. B: o9 }& C" G0 b& k9 W) D" J然而,这一范式在7nm以下节点遭遇了根本性困难:
; x/ R; a9 z8 B) y$ s6 E! {- v5 d) ^0 Y6 M
何庭波在ISCAS 2026的主题演讲中直接指出:"传统演进提供的微缩增长,已经无法满足越来越多的性能、功耗、集成度的需求。因此在移动终端领域,我们必须在摩尔演进之外探索新的技术路径。"
, Y8 @0 i$ _$ B4 u
; w4 b2 r8 @* N7 {1 v; ?1.2  从"几何缩微"到"时间缩微"2 k! q+ f4 S; A, @
: e5 Y) d/ i8 ?' e! ~4 [8 R& y
韬(τ)定律的核心思想是范式转移:将芯片性能优化的核心目标,从"把晶体管做小"(几何缩微)转为"把信号路径做短"(时间缩微)。这一思想并非凭空而来——在学术界和工业界,从Elmore延迟模型到STCO(系统工艺联合设计),"以延迟为优化目标"的认知早已有之。但华为的区别在于,它首次将这一思想系统化为一套跨越12个数量级(皮秒到秒)的统一设计方法论。# X; v. |' g5 r# O: ^! g/ V1 X
2026年5月26日,华为在IEEE ISCAS 2026首日发表了由副董事长何庭波署名的论文"A Time Scaling Theory for Multi-Layer Electronic Systems",正式提出τ定律。在次日会议中,海思麒麟与巴龙首席架构师黄勇(Huang Yong)等几位IEEE Fellow详细分享了LogicFolding(逻辑折叠)的技术细节。
; [6 P% M7 X1 k
2 m5 c# T. A9 D# b) L, v/ y. |! F9 w6 l+ s
5 k: S- U7 x/ j" n$ l

; N9 o2 u5 z* k* ]' b/ I' M0 D1.3  τ 定律的数学定义
$ _/ M2 Q3 _3 v) X2 u. {
+ M+ o/ U! i- R) l论文中将τ定律定义为跨层KPI框架,而非Dennard量级的比例定律。其数学表达为:! Z( c! X6 ]" k/ M% S5 }( r; O
    τ = f(τ_transistor, τ_circuit, τ_chip, τ_system)6 u- ?3 @0 i& R( |8 p5 i
    τ_{n+1} = τ_n / α5 ~0 o! o$ Q; l" \8 {# s: J
其中:
- `) c3 Z  _2 ]- W; t" B% }
8 A- p8 A8 C+ Zα 的经验区间:移动约1.3×/年,自动驾驶约1.5×/年,AI工作负载最高可达10×/年。τ并非新器件物理的发现,而是一个可操作的延迟/时延KPI——它的价值在于统一了工艺、电路、架构、系统四层的对话语言,使得所有层级的设计决策都可以围绕"时间"来算账。
& V! S* M: e) M( H6 ?8 w" z7 l7 u7 I2 ~# m# I, H. F6 x
1.4  跨层次时间常数的统一框架8 B1 R: e" e7 q- E8 |7 K8 X" k
* o2 B) h9 C* H0 M' T
τ定律最重要的洞察在于:当工艺微缩红利消退,系统性能的提升空间主要存在于各层次之间的"接口损耗"中。传统Fabless模式下,IP供应商、芯片设计公司、EDA工具商、封测厂各管一段,层级之间通过标准接口交互——这种分工虽然高效,但每个接口都意味着时间损耗。τ定律的做法是将这些散落在不同层次、不同公司、不同供应商的优化目标重新拧成一条线,以全局时间最优为目标进行联合优化。3 A$ }& a1 w1 c3 ^

! x% {. B8 d4 w3 L* l! s- v第二章  LogicFolding(逻辑折叠):τ定律的工程实现
- n; K) y$ i- {
  w7 j. k8 b5 s  I1 J如果τ定律是理论框架,LogicFolding就是它在芯片设计领域的工程落地。黄勇在ISCAS第二天的演讲中明确表示:"今天分享的是过去几年在移动终端SoC芯片设计领域的一些工作——基于逻辑折叠的移动终端SoC设计实践。"$ P/ F+ A& _2 z' i7 |

8 H& ~) R3 c- u% a0 F3 N" ]  H0 S& [2.1  逻辑叠逻辑:与传统3D封装的本质区别
' t& R* {0 C# r- I# r; e6 a2 ^; M$ U/ b. @7 u6 c# S' h
产业界已有多种成熟的3D技术方案:HBM通过存储堆叠提升带宽密度,CIS堆叠实现像素阵列和逻辑的分层优化,3D V-Cache通过缓存堆叠提升特定场景性能和能效。但黄勇指出:"这些方案大多属于相对固定的结构,以及粗颗粒度的堆叠方式,它们的互联密度、设计自由度和逻辑拆分能力仍然有限。"
3 t. i; J6 M# y传统3D封装与LogicFolding的核心区别在于设计颗粒度:  j# j& }5 q/ K  a0 G4 G  a+ j3 r
) u5 ]; P8 w( Y2 O  B6 A0 F
黄勇阐述折叠后的SoC架构:"折叠以后,上层Die和下层Die不再有独立的模块子系统,而是上下层通过海量互联形成模块子系统。上下层Die不再是独立的单芯片,而是一个单芯片不可分割的一部分,还能方便地实现上下层Die资源的均衡分配。"- u: m6 ]4 }  l" H; C! h

) l2 y/ i3 S, l  ~; N- f+ R7 Q/ w2 W/ e2 I% j/ J! K( D' z. d+ A$ r

, Y- b- R" Q4 u0 H0 g
4 L0 D; d: `, X( U5 o5 P2.2  W2W Face-to-Face Hybrid Bonding7 e/ K$ c/ g9 b9 A

( d' \. K$ ?  a) m  [LogicFolding依赖于两项核心工艺:# \4 `6 n: R# X: r- a- m$ l
/ `, p+ }) U8 }4 @
相比于D2W(Die-to-Wafer)方案,W2W的优势在于支持远超D2W的互连密度——这是logic-on-logic的前提条件。代价则是无Die级配片、无系统级冗余——无法像D2W那样挑KGD(Known Good Die),良率对键合工艺更加敏感。: i& i2 S2 Q9 u) N: L5 ]

, {( w5 C% _, |! C: V2 q
5 o, [( x, x5 e# @: K2 [7 j$ U4 d$ E7 f4 y" V( s: h* ~0 `
& ]3 r2 F6 R: Q1 ^+ C1 q3 l

! R" E* V0 Y- g& {  h; }5 P7 _/ m% y# S6 k3 a( c
- [+ d0 W9 e6 ^4 y* F  |+ b
2.3  细粒度逻辑分区(Fine-Grained Logic Partitioning): k4 z% U' y" e9 v# b
6 T. P1 @5 g9 e! [: @1 I, `
这是LogicFolding设计理念中最核心的概念,也是工作量最大的部分。传统3D设计中,一个IP模块被打包在单个Die上("模块钉死在某一Die")。而LogicFolding要求在IP设计之初就以3D布局为出发点,同一模块内的标准单元可跨TOP/BOT分布——利用上下两层的结构,寻求逻辑链路的最短路径。$ |9 Y6 o- G- j) F
三个关键技术要点:
7 x4 L* @' n( h$ [. A. h1 X( e5 W3 c5 \! U
: w# C/ M2 i+ F; F. s: h

% I' A3 u- Y0 C7 X0 d& n( b3 Q3 Y( [: X( q3 b9 Y5 D0 y! v: |5 R9 e

: P7 E2 v. v1 F) e8 G2.4  SkyClock:跨Die时钟方案, q4 V2 h$ o8 s6 t

0 j# G% d  A* n) l5 f8 G8 I$ T跨Die时钟分布被多位分析者评价为"全场技术含金量最高的一页"。LogicFolding设计带来两个根本性时钟问题:+ K) [( b5 u3 M- q) Y1 f1 U/ C8 M; a. @  d
% G, H$ s8 q$ g: P
SkyClock的解决方案:Clock Mesh主体放在上层Die,通过高密度HB直接下插到底层Die的Local Mini Clock Tree,下层Clock Tree极简化。成果:最大Clock Skew从135 ps降至101 ps(-25%),核心时钟最大深度-42%。$ y: J3 {4 u* a3 `* T5 a2 \
8 \6 l9 {% x& z1 G# E9 h
7 y; j( V. Q% z3 L
2 \; D7 D8 g. n

- s* A* i& o1 W+ i2.5  散热与供电管理. e& p, H2 T0 a/ P5 }

/ h' I: [6 W- T4 N  b: o% S: V$ j0 LLogicFolding引入了全新的物理设计挑战:: s( m% X5 _; ]$ \
$ Z, d% V; `6 z4 N6 o. O3 Y7 D  j
% N5 m. J3 a5 e1 h' n1 \& }
4 r4 L: f' t: K+ K

9 Q$ S1 D$ x" t" p  H' A
2 l% E8 M& \9 V9 |6 J* F
; u$ h- K9 E7 l% K  F! F( P9 y& I3 k

! l* u' Y% Z* v2 _2.6  DSP案例的PPA数据* v- r1 H* F0 x  X1 y, E6 _: _
: C' o2 c; b+ y" B, R8 i
黄勇以一个基带DSP模块为例,展示了LogicFolding相对传统2D设计的收益(这份数据被多位分析者评价为"只能用震撼形容"):, v2 _/ e* t7 u& d/ |) w

6 ]9 U) c+ T' v7 Q; x+ a
指标相对2D的变化
Die面积-40%
主频+37%
总功耗-24%
Buffer数量-56%
线长-25%
线电容-34%
时钟树面积-19%
时钟线长-28%
时钟电容-56%
核心时钟最大深度-42%
最大Clock Skew135 ps → 101 ps(-25%)
0 x, b! k9 a, W  w/ s5 h
关键物理路径缩短数据:SRAM访问黄色路径从676 μm降至307 μm,红色路径从570 μm降至约10 μm以内;逻辑到逻辑最长的关键路径从680 μm降至451 μm。
( z9 K. i1 M/ I0 [& F* [, Q, z; v0 N一个DSP IP的纯路径优化就这么多收益——"芯片设计发展了这么多年,逼近摩尔极限又喊了这么多年,突然天降一个升维设计方案,能降低这么多信号路径。"
5 w9 c2 O1 o0 M2 `) ^3 W1 G
0 T# `5 E1 o+ S2.7  芯片级性能收益与路线图
0 B6 g% X4 `; L1 D) ^& K( Q2 u6 }1 a8 e
基于麒麟2025年产品(未指明具体型号)为基线(=1),公布的全芯片级收益数据:
' `- A( i9 c! `2 D+ p( i+ c
. b6 w( w. Q- u$ U+ T5 V$ }  b7 c2 B
指标2026年2027年
晶体管密度(Chip Level)+60%+70%(2028年+80%)
CPU单核性能+15%+44%
CPU多核性能+24%+56%
GPU性能+38%+87%
NPU性能+140%+213%(绝对性能3.1倍)
CPU能效+12%+34%
GPU能效+40%+78%
NPU能效+81%+118%
: g& b) Z1 m9 s% U! K( J/ v
密度路线图:LogicFolding(2025年基线=1)2026年1.6×、2029年1.8×。对比Leading Foundry(2020年基线=1):1.5×(匹配节点)→ 1.8×(1.4nm节点)。华为给出的对比结论是——用逻辑折叠做到了与先进制程演进同等的密度收益。; `  N' |* E% n( ^; [# V7 |
+ F9 z5 ~/ C1 [& z3 h+ Q  L5 Z
1 m7 e  J- o" a5 \; l: Q

: T! x; K' a3 ?. O- G
: q7 K) J. l; D1 p: V3 ?1 b第三章  IP-EDA-工艺全栈重构, E0 N( O5 H# e: c. \& ]% K
, H/ F* Q2 l( E+ V6 c$ e
LogicFolding从概念走向真实芯片产品,面临的根本挑战不在于某一环节的优化,而在于"整个工具链和设计方法学都需要从零重构"。黄勇在演讲中坦陈:"应该需要很多年才会有完善好用的工具链,现在的工作必须在工具很不成熟的条件下完成。"% i8 I" L& o  ?/ t4 r
" Q( v/ E* o# W+ j6 z  T
3.1  3D原生IP设计:从黑盒到协同
+ s2 H! R" y8 n. ]6 b# w/ ]8 {
( Y2 r7 B3 C7 O) h2 W传统的Fabless芯片设计是以平面IP为核心进行的。Arm IP拿过来,不管怎么封装,它都是一个区块一个IP。在2D设计的成熟链条中,各方交付的是一个黑盒:接口固定、时序固定、修复机制固定——"我交付了,你别碰我内部"。1 `' I+ [  b1 G" a  N$ X! F# j
LogicFolding彻底打破了这一模式。同一个IP不再仅存于2D平面,而是在上下两层Die上协同工作——这相当于给芯片设计升维了。一个SRAM IP在折叠设计中,某些Bit-Line/Word-Line因3D折叠变短,访问频率可以提高;某些Bank因为热环境不同需要更细粒度的监控;跨层路径因为Bonding Variation需要额外Margin。传统的黑盒交付模式无法满足这些需求——你需要SRAM为了你的3D可靠性和全局时间目标去改内部逻辑、改错误恢复、改冗余结构、改上报语义。% t0 `8 M" j; [' U: `) o5 _
这就是τ定律被称为"只有海思能做"的原因——海思被迫在过去几年把软件栈、指令集、关键IP、SoC集成、互联协议、先进封装、3D集成、系统Fabric全部做到自主可控,从而拥有了"命令各个层次的架构师为了全局τ目标而改动内部设计"的权力。这是全栈自研在商业逻辑上的自然延伸。' I3 y2 z! |* @& b+ n, T

6 {# p+ g7 C( z+ L$ t  i1 R
3 f/ M( ~  A+ L5 K. Q
- w6 @) i9 v6 o5 D- n( }8 y/ ^% G0 |9 f+ u
3.2  EDA工具链:从"假3D"到"真3D"
1 y, b4 c+ z1 S5 j7 ?; {  ^' m& v4 p& ~2 @* `
"设计流程和方法学是逻辑折叠遇到的最大挑战。从平面转向立体空间,不再有成熟的工具链支持。"黄勇在演讲中直接点出了EDA的核心问题。8 u) b! ^1 c6 d3 O3 x& ]/ n( o8 v
当前国际主流EDA工具对3D设计的支持停留在"伪3D"阶段——将3D设计打平成2D后在每个Die上各跑2D工具,优化目标仍然是单Die内的时序、功耗和布线拥塞。而"真3D"(True-3D)要求:
: M/ V9 l6 e8 F" V# Y: e
. C  G# w6 z- K1 K+ U学术界已有重要进展:北京大学团队的早期真3D流程结果显示,相对"伪3D"方案,线长减少约30%,WNS改善6%,TNS改善12%,峰值温度仅上升不到3%(近乎无损线长)。华为目前的Enhanced EDA+Multi-Die Co-Opt Loop(含良率联合优化)正是在这一方向上推进。考虑到何庭波明确写的麒麟2026和2027已经在Silicon阶段,说明华为已经在不成熟的工具条件下完成了流片——投入之巨大可见一斑。
7 \2 {2 F$ \' [2 K
" g8 ?' h6 p; b8 s, C! y, _8 ?3.3  跨Die静态时序分析(Cross-Die STA)
( E$ T6 x4 k9 i( u( h
* R5 s" M  u* Q  v跨Die STA是3D签核的核心痛点。传统的时序分析基于PVT Corner组合,但在LogicFolding中,Top Die和Bottom Die可能处于完全不同的工艺/电压/温度角——导致Corner组合数量级上升。华为公布的解决路径包括:SkyClock方案压Skew;Cross-Die Clock Skew Minimization Techniques;以及多Die统一的时序建模方法。
3 Y% g0 U: G  O) `$ x$ E3 c黄勇在演讲中还提到时序收敛(Timing Closure)——LogicFolding不仅增加了Corner数量,还因为跨Die路径的物理延时差异增大而使时序窗口变窄,对设计和Signoff都提出了更高要求。8 `% `6 z* P9 H7 y8 Y

( J7 L1 y# R3 V3 h+ Y3 o" R  R: N3.4  良率模型与成本分析
) d, Q; w% ]6 R# T0 b. P7 L" }% z) F3 \: n' {
折叠良率的公式为:Y_Folding = Y_Top × Y_Bottom × Y_Bonding。三个因素相乘,直觉上良率应当远低于单片2D方案。但华为指出了几个关键的反直觉因素:
( I3 P/ c4 g6 g1 z/ k4 p* G( B3 l$ Q6 j. T0 t# t$ W
但良率模型的限制同样明确:在手机2层小Die上可行,不等于推到大面积AI Die上同样成立。华为在Cost & Yield一页只给公式、不给任何具体数字——这恰好是"华为自己也还没填上的那一格"。) D7 ^, X% h: p

% M$ u4 i  x- X; N7 P " R8 t9 L8 Q. N; F5 X

3 j# h+ H8 y9 [) A0 F% r  ^, f+ ?& q* H9 B! P( c3 M
第四章  实践验证:麒麟2026/2027流片
9 p. L) }7 l- |. J" h, m& z6 U8 x( [% u6 s5 ?

7 J5 z: e, I4 M+ G1 C4.1  手机线LogicFolding已经进入Silicon阶段
8 Z' U. P4 F! E1 y: u% G( Y9 K* A) Y" `* N
何庭波在ISCAS 2026的发布会上明确写道:"麒麟2026和2027已经在Silicon阶段。"黄勇次日演讲的性质是"分享过去几年在移动终端SoC芯片设计领域的工作"——用现在完成的语态描述已完成的工程实践。可知LogicFolding不是PPT方案,而是已经完成了至少两代产品(2026/2027)的设计和流片,其中2026款已进入工程测试阶段。7 H8 Q: x0 N4 l- y4 F  p, W
公布的2026年芯片级关键指标:P-Core能效+41%、最高频率+13%、主频达3.1 GHz。这些是Silicon Measured数据而非Simulation——验证了LogicFolding从设计到制造的整条路径已被打通。8 l: g8 a* j  I' G- i
"如果它还没落地,我会说这东西要实现,必须IP从零开始,要把IP-EDA-工艺全通了才行,实在太难。但是他在发布的时候,麒麟2026和2027已经Silicon了,所以我无可反驳。"——分析者评价
7 _; H3 ~4 u9 g! p$ G
9 `$ {$ _$ x1 Q5 y6 v% O1 M4.2  制程现状的重新评估:N+2/N+3的良率证据
" c8 j* `, I+ h) u
' x% ^- T& t2 I% [1 j7 F通过华为目前在售手机的芯片配置,可以反推各制程节点的实际良率状态:
9 s0 ^# W( o) R4 T
! d, `2 i( W+ m6 Y# d) |% y5 i关键证据:8000A作为残血版放在更低价的畅享90中,这是典型的Binning策略——Binning的前提是绝大多数Die是好的,只把分布尾部的边缘片做小阉割。如果N+2真是传闻中的灾难良率,它根本塞不进一台还要走量盈利的千元机。: E2 _& L  \+ B8 @7 _

9 u4 B# T* g* b3 P0 W6 K: c* \4 E, A$ w0 V. P
第五章  数据中心线:鲲鹏CPU与昇腾SuperPod3 z; O, N. f; b. t
1 O& ^2 j1 G- N
τ定律的叙事分两条线:手机线(Kirin LogicFolding)解决"在受限制程下如何持续提升能效";数据中心线(鲲鹏CPU+昇腾NPU)解决"在AI大算力场景下如何打破互联瓶颈"。
+ F3 \  U$ E+ b$ K$ K! V+ W) }1 X5 S) B$ v# n
5.1  Circuit Folding与Chip Folding! D% q( J6 `: t7 M4 ^
" G% l) ^3 L9 d6 F
在鲲鹏CPU上,华为使用了两层折叠策略:
: Q8 e9 `: W0 Z; ]) s: J' r0 v8 Q

1 w0 U2 s# i* ?9 [8 B: X
指标Kunpeng 950Kunpeng 960(目标)
核心频率~3.2 GHz4.0 GHz(+54%)
核心数96待定
金属层28层(Skybridge)42层
堆叠方式2 Die W2W HB3 Die
HTL密度>200/mm²
主要瓶颈Gear Ratio需≤3
" `* x. ^/ i/ q5 ]
Kunpeng 960的目标是4.0 GHz——华为明确表示"4GHz不是口号,路径存在",取决于工艺迭代和Gear Ratio的改善。; e8 f0 Y3 u9 A
; g& }7 }* ?: B. E5 V
5.2  Unified Bus:用系统架构换时间% t* l0 S" @8 D, ?
" ?4 h8 [% H7 h( R  ~2 }1 W! [! _0 g
Unified Bus(统一总线,UB)是τ定律在互连层的核心实践。李博杰(前华为研究员)通过OpenURMA开源项目对UB做了全链路实现与评测,揭示了UB是"靠架构不靠工艺"换取性能的典型范例。
% O  ~4 D5 a$ X传统RDMA网卡挂在PCIe后端,一次远端访问的关键路径上要走五趟PCIe(Doorbell→DMA取WQE→远端读→本地写→CQE写),光这五趟就约1650 ns。UB将控制器直接放上片上总线,CPU的一条Load/Store指令本身就是Verb——那五趟PCIe直接消失,只剩约30 ns的片上总线穿越。端到端延迟对比:UB Load/Store ~500 ns vs RoCEv2 ~2236 ns——快约4.47倍,没有任何工艺变动。
1 o( X0 R: |1 A+ I更关键的是连接状态的扩展性:传统RDMA每张网卡维护的连接状态是O(N×M),UB拆分为O(N+M)。在1024×1024规模下,UB仅需110 KB SRAM,RoCE需要537 MB——省了约4855倍的状态量。吞吐方面,UB提供分级Ordering语义,WR吞吐高2.80倍。: W" n0 i5 R( F3 d
"4倍延迟、4855倍状态、2.8倍吞吐——没有一项依赖新工艺,全是架构重构的结果。这才是'时间缩微'最该被看见的形态。"——李博杰+ t$ \) J+ A+ m& R  w6 V

/ z/ Q8 l" Q" m8 q' n% Q+ G# A# }5.3  Hi-ONE光互联与SuperPod演进4 e  T  g& Z3 V* b' L; y+ c
: x) v" t3 d- N" P- r
在昇腾SuperPod的Scale-Up互连上,华为引入了Hi-ONE光互联方案:8 Tb/s每芯片每方向、224G×36 Lane、电SerDes距离从100 cm缩短至5 cm、机柜级100 m级光学Reach。UB实现的远端访问从数十μs降至100 ns——约500倍的延迟缩减。" k' q: N. Q1 t

, I# \& y4 _+ Y2 Y# c8 c
代际NPU数量聚合带宽关键特性
Ascend 910C (2024)384301 TB/s电互联
Ascend 950 (2026)8,19216.3 PB/sUB + Hi-ONE
Ascend 960 (2028)~16,384>16 PB/s光学规模
Ascend 990 (~2030)待定待定LogicFolding进AI大Die

! P! T) c; O* O% m, P+ Z
+ x& s/ Q* ], a' m! J6 }5.4  Ascend 990:LogicFolding进军AI大Die- P5 X  P2 i/ E. F. w5 n/ K. n9 }8 M5 X

; v/ T' S5 Y1 Y0 I' c这是τ定律叙事中远期最大的"赌注":将手机2层小Die的LogicFolding技术推广到约700 mm²的AI加速器大Die、进化到3-4层堆叠。在手机端,小Die的缺陷良率回收(面积减半→单Die良率≈√Y₀)是代数上可行的。但在700 mm²大Die上,大面积本身就是缺陷良率的灾难区,Y₁×Y₂×Y₃×Y₄的复合将面临巨大风险。所有技术细节都很详细,唯独良率一页只给公式不给数字——这恰好是华为自己也还没填上的那一格。手机端,他们很有信心;AI端,那场仗才刚开始。
. o+ V$ \/ x; ?5 L5 g, p8 [& y3 A( a4 _2 t" l7 V
第六章  全栈联合调优:τ定律的独占性优势8 y) X0 v) S" t4 G. q5 [0 m
. v3 S0 S" P2 k1 _' @3 f

  o; S, d, B: t5 _5 K6.1  为什么只有海思能做?
0 E3 X) @. ?5 v0 m; R  {, m! ^0 N: \/ a9 H
τ定律和LogicFolding,表面上是定义了一个全局时间的优化目标。但这种"全局最优"的实现,需要的不仅仅是技术上的可行性,更是一个其他人难以复制的组织条件:全栈可控。
; Q% x8 _% O+ |3 R% X/ P: w3 ~: `# A在大多数芯片公司里,芯片设计是一场漫长的拼图游戏。CPU Core是一个IP,NPU是另一个IP,DDR Controller、PCIe、SerDes、NoC、安全岛各是一个IP——每个IP都有自己的交付合同、验证边界和可靠性假设。你可以把这些模块摆得近一点、连得密一点,但你很难要求它们为了一个全局τ目标,把自己的内部逻辑、状态机、容错策略一起重写。这不是技术问题,是商业协作、验证责任、交付节奏上的不可行。
- Q& A; A  I0 f0 \华为海思在过去几年被迫走了一条特殊的路:软件栈自己做、指令集自己定义、关键IP自己掌控、SoC集成自己扛、互联协议自己推、先进封装和3D集成自己打通。这条路当然很苦,但苦到最后会形成一种很特殊的技能点——"从指令集到散热膏"的全栈联合调优能力。" l$ b& V3 K* [8 B; T

/ J7 O6 c  a6 }6.2  IP黑盒问题的突破
6 j! a, b9 W. l* l% [1 `+ e  N6 `/ i. K) d  Q0 g
举一个具体的例子来说明τ定律独占性的来源。假设一家创业公司也想搞3DIC,它从一个传统IP供应商外购SRAM IP。正常情况下,这个SRAM交付的是黑盒:接口固定、时序固定、修复机制固定、能跑多少频率就是多少频率。但在LogicFolding设计中,这个SRAM需要:因为3D折叠变短而调高访问频率、因为热环境不同而增加Bank级监控、因为Bonding Variation而添加额外Margin、因为某些故障需要从Fatal降级为可通过Redundancy+Firmware修复。
7 p; K5 D$ @) t9 E* @) [6 w" Z要SRAM为你的3D可靠性和全局τ目标改内部逻辑,等于让它把黑盒打开重新参与你的系统架构——这对传统IP供应商来说,技术上可行,但商业上不现实。海思能够做到,是因为它控制了全链条——NoC、内存系统、固件、驱动、调度器都在手上。发现某条跨层Link不稳定,硬件可以标记,NoC可以绕路,固件可以记录拓扑,驱动可以报告给Runtime,调度器可以避免关键任务——系统把它当成"性能降级但仍可用"的资源,而不是"坏了就死"的故障点。
6 z5 n: P3 l3 a" n' z3 A$ V" G2 s7 Q$ t! I+ _, o3 M! G/ e
6.3  芯片设计与软件的垂直打通3 i1 P6 i: `$ _4 d! q
8 F" M; ?/ f( T- [: P
"τ定律不只是制造的事"——李博杰在分析中指出,τ定律的真正价值不在于"等效1.4nm"的制造口径,而在于它终于给"用系统级的时间优化换性能"这件事正了名。过去十几年算力的大头增长,很多来自于架构创新(GPU/NPU/专用加速器)、片上互连演进和系统软件优化——不是来自新工艺。Unified Bus的500 ns vs 2236 ns就是一个"架构>工艺"的干净证明。
! n" z! w. q) J/ D, H: v! {0 E这种从制造延伸到架构和软件的视角,要求从业人员必须跨越传统的专业壁垒。华为当前的组织架构——从指令集(灵犀)到芯片(Kirin/Kunpeng/Ascend)到互联(UB/Hi-ONE)到系统软件(openEuler/MindSpore)——天然适配这一需求。8 u$ C; _" y' {$ s

: |  x% m" X- E" c- e0 Z第七章  对后续半导体领域的演化推演与预测. ?$ y+ K% d6 c% o/ d: Y

$ S2 p. [. c- z3 [基于上述技术分析和华为公布的实践数据,以下对后续先进半导体领域在IP、EDA、工艺三个层面的演化进行合乎逻辑的推演。* G1 t. ~3 e. e5 q7 z7 w5 {' F

- U% f2 B: {2 w: P2 r5 N) X7.1  IP层面:从平面IP到3D原生IP的范式迁移: j6 R/ G# w% G& |& O
& X1 C* H6 Y: G2 a5 Y' a
推演1:3D原生IP将成为一个独立的设计品类( `  f/ H2 J6 H( E5 ^& N2 a% S
未来5-7年,"2D平面IP"和"3D原生IP"将分化为两个独立的设计品类。3D原生IP不是简单地在两个平面IP之间加TSV——它要求IP内部的逻辑链路、物理布局、时钟单元和供电网络都围绕跨Die最短路径重新设计。这意味着IP供应商需要从"交付黑盒"模式转向"交付可配置白盒"模式——至少在3D设计的关键路径IP上。这一转变将首先在存储相关IP(SRAM、Cache)和高速接口IP(SerDes、DDR PHY)上发生,因为这些IP对RC延迟和热环境最敏感。7 w" }, ]: o  F3 Z8 F! q* z
推演2:IP授权模式将从"买IP"转向"买IP+3D协同设计服务"
  v  k+ O1 N7 J8 Y2 J对于外购IP的Fabless公司,黑盒IP在3D设计中将成为瓶颈。未来的IP授权可能包含两层:基础层是标准2D交付,高级层是支持3D协同设计的"开放接口IP"——允许客户在NDA框架下获得IP内部的关键时序和物理参数,以用于跨Die联合优化。这一模式虽然增加了IP供应商的开放风险,但在3D设计成为主流的趋势下将不可避免。
( h% x1 S/ H8 Y4 ^% \# G  c
- o, A& `1 N7 g$ \" }7.2  EDA层面:真3D工具链的加速成熟' c  R( d3 [3 w! Q

6 ~  l! F$ k, b( w- I! n9 D' W2 G推演3:Cell-Level真3D EDA工具将在3-5年内形成初步商用能力
; b& |, q$ [; {0 b' P  b: w* ]当前的"伪3D"EDA方案(打平3D为2D后独立优化)只能作为过渡方案。随着LogicFolding的麒麟2026/2027已经流片,说明了在不成熟工具条件下已经可以完成设计——但成本和周期一定远高于成熟工具。这一现实需求将驱动EDA行业加速"真3D"工具的开发。关键技术节点包括:
+ R6 n) L3 I  l6 N0 _7 c1 _+ Y" k7 X8 K8 H7 _
北大团队早期真3D EDA原型的线长-30%结果已经验证了方向的正确性——从学术原型到商用工具的工程化将是未来3-5年的主题。国内EDA企业如华大九天、概伦电子等在这一方向上将有先发优势——因为他们可以直接与海思的3D设计需求对接迭代。# J3 j; r+ R0 j/ h. M7 E2 T
推演4:AI驱动的EDA优化将成为3D设计的使能技术
6 w* U( R2 o# k/ H( h3D设计的搜索空间是2D设计的指数级扩大——Partitioning×Placement×Routing×Clock×Thermal×PDN的联合优化复杂度远超现有工具的处理能力。AI/ML驱动的优化(如强化学习Placement、GNN辅助时序预测)在3D场景中从"锦上添花"变为"必要条件"——没有智能搜索策略,人工调参不可能覆盖如此高维的设计空间。; O  r+ W7 D/ j( o8 w
7 r' g/ m5 S7 s& D+ A# _7 B
7.3  工艺层面:国产与全球化路线的分叉
7 i" V# e. l% m  n8 {: v
! b( a+ A+ c3 h# q! w- ^推演5:全球半导体工艺路线将正式分叉
+ J8 E! k3 w9 g7 q' d: Z! HLogicFolding的提出和工程验证,标志着半导体工艺演进不再只有"把晶体管做小"这一条路。在DUV多重曝光接近尽头后,"逻辑堆叠"+Dual Wafer架构形成了与"继续推动EUV/High-NA EUV"平行的技术路径。, u2 N* L; M0 b) }5 S
全球路线分叉的具体内涵:
, j- H3 m& m$ I
7 _4 C+ C, ^+ X% s3 H# }6 t! d"之前一套流程能给全球所有设计厂商用的时代不存在了。至于分叉之后,结果是什么?五年后,我们来看看吧。"——分析者评价1 h- L4 C5 Q6 Q" J! a+ `
推演6:先进封装和键合精度将成为新的制程竞赛焦点2 C1 V2 [' q) X* e% d
当几何微缩受阻,竞争的焦点将部分转移到封装和键合领域。W2W Hybrid Bonding的对准精度(当前~1.5 μm HB Pitch)、晶圆平整度(Z轴一致性)、减薄工艺(应力控制)、TSV深宽比的持续优化,将扮演和光刻精度类似的"制程指标"角色。在这些参数上的进步,将直接决定LogicFolding能堆多少层、能推多大的Die。
; S* M+ a+ `9 f; P0 B) K! \
/ l$ S0 v/ ]0 D! p- v( f5 p5 V7.4  产业链格局:从分工到整合
9 f" O' H0 u" D8 d% U- l8 d  m; ]& d( |! r2 r% ~
推演7:垂直整合模式将在先进半导体领域获得竞争优势5 S% L  o$ R! N: R* @
过去三十年的Fabless+Foundry分工模式,建立在"标准平面工艺可以被所有设计公司共享"这一前提上。当IP、EDA、工艺需要为3D设计而重新耦合时,高度分工模式的内在矛盾会被放大——需要一个"中央集权"式的技术主导来全局优化。这意味着:3 I  X- x* d) w9 w! }* t% b1 a# j
% H0 w+ o9 K6 b' `# _
推演8:国产产业链的内循环迭代将加速
: W) O/ m  l/ g2 p' N) d& K8 A华为已经展示了"在受限工艺上的创新设计可以追赶甚至超越先进工艺的收益"这一路径。这一路径的成功验证将产生两个连锁反应:一是更多国产芯片公司跟随LogicFolding路径,驱动国产IP和EDA生态加速成熟;二是设备/材料/封装的国产供应链因为市场需求端的拉动而加速技术迭代——形成"设计创新→工艺需求→设备研发→良率提升→设计再创新"的正循环。
( E0 Z3 v: w" H: q: x& s, x- P7 G
7 q, P4 ^. t+ w7.5  时间线预测
/ ?0 o# B) i1 g+ v; N! H
3 s5 f# i/ l. P
( m9 A+ V  B4 ?  s. g/ ?
时间关键事件预测
2026 下半年Kirin 2026流片公布Dieshot,验证是否双层Logic结构、HB Pitch ~1.5 μm
2027Kirin 2027量产搭载Mate 90,2层LogicFolding在小Die上形成量产曲线
2028Kunpeng 960实现4.0 GHz,Circuit Folding+3 Die堆叠走向成熟
2028-2029首款商用真3D EDA工具链出现(国内企业占先机);3D原生IP开始商业化交付
2029-2030LogicFolding+3-4层堆叠在AI大Die(Ascend 990)上验证——τ定律叙事最关键的一步
2030-2031全球3D逻辑堆叠成为主流设计方法之一;国产路线与全球化路线差距显著缩小
2031+5nm以下制程+3D堆叠的混合方案成为现实,等效密度超越1.4nm
1 K9 U$ h" K& H
. Y" X4 Y! c5 h! h
第八章  结  论
" x! R; B: P& H5 K
8 y1 V2 R/ @$ ]$ t3 D韬(τ)定律的提出,是半导体工业在"几何缩微"路径减速后,第一次有企业提出了一个完整、可操作、经过硅验证的替代性系统设计方法论。它不是新物理定律的发现,也不是新器件的发明,而是"优化范式的迁移"——将性能提升的动力从"把晶体管做得更小"转向"把信号路径做得更短"。
% o& c8 _* V5 l0 I. M! p这一迁移的工程载体——LogicFolding(逻辑折叠)——已经通过麒麟2026/2027的流片证明了可行性。芯片级晶体管密度+60%~80%、DSP模块面积-40%+频率+37%+功耗-24%的实测数据、以及从手机到数据中心的完整产品路线图(Kirin→Kunpeng→Ascend SuperPod),共同构成了τ定律的实证支撑。
! s# z4 p1 q/ r- [7 \- pτ定律的独占性不在于某一项技术的原创性——Hybrid Bonding、TSV、3D-IC、STCO都不是新概念——而在于华为海思被迫走上全栈自研道路后,获得了"命令所有层次围绕全局时间优化而改动设计"的权力和能力。这种能力不是任何一家Fabless公司可以通过购买IP或授权工具来获取的。& j7 e, b2 ]- x4 A
对后续半导体领域而言,τ定律的意义在于:它为中国在受限工艺条件下的半导体发展提供了一条可行的、可持续的、经过实证的技术路径。这条路径不仅包括芯片设计的范式升级(从2D到3D原生),还将驱动EDA工具链、IP商业模式、封装工艺、甚至产业链组织结构的系统性变革。
2 C$ S6 K; i, X6 k  _0 ]麒麟2026/2027的流片验证了2层小Die的可行性——这是最重要的第一步。接下来最大的考验在于:将LogicFolding推广到700mm²级AI大Die的3-4层堆叠。手机端的成功回答了"能不能做";AI大Die考验的是"能不能做到大"。8 a( O! h8 U! a
后者的难度是指数级上升的——良率、散热、供电、互连密度、信号完整性——每一项在大面积多层级上都会变得截然不同。
% g. D" n7 a8 t, A"过去几十年芯片全球化的发展,虽然是工业皇冠上的明珠,但一代下来积累的屎山不算少,而且Fabless模式的细致分工,虽然减少了各环节的投入成本,但是职责分化也让各环节的壁垒加深。当摩尔定律走到极限时,不管是国产路线还是全球化路线,都要开始寻求IP层面的突破,3D设计是大势所趋,这个级别的革新双方的起点是相同的,都要重新开始。"9 q9 W. w5 {% T, k2 Z
2 t1 n: i$ l. A: F( X- K
参考来源% s- @0 B  Y; V

: B" T; B/ D) b& b/ m1. 何庭波 (2026). "A Time Scaling Theory for Multi-Layer Electronic Systems." IEEE ISCAS 2026, Keynote Session.
1 \/ R$ b+ {) z2. 黄勇 (2026). "基于逻辑折叠的移动终端SoC设计实践." IEEE ISCAS 2026, Technical Session.(B站IEEE中国全程回放)
8 F0 u6 R2 d$ v( S1 X) D3. 华为官方PPT:LogicFolding for Mobile Terminal SoC, ISCAS 2026 Day 2.2 `7 B* W$ F9 S  e% j4 P. ~8 k
4. 咸鱼小山 (2026). 知乎回答:华为在ISCAS 2026介绍逻辑折叠LogicFolding工程思路细节.
; [" }& a. a1 Z7 g5 @5. Bill (2026). 知乎回答:华为在ISCAS 2026介绍逻辑折叠LogicFolding工程思路细节(技术分析).
* n8 i: ^% ^6 z$ ~5 f6. 栖于永夜 (2026). 知乎回答:W2W良率分析与SkyClock跨Die时钟方案.
2 m$ h! Z1 y  U0 w$ S2 T& v/ f7. 李奇 (2026). 知乎回答:EDA/工艺分叉讨论,3D Partitioning分析.
3 S, c# a0 o6 @4 L4 H5 Q( i" P8. i0nium (2026). 知乎回答:Thermal-Aware Partitioning和封装散热分析.2 _2 A2 A, I. t$ w- w
9. 李博杰 (2026). 知乎回答:Unified Bus系统架构角度分析. OpenURMA开源项目: github.com/bojieli/OpenURMA
& J8 S* u8 ?) s, Y! @! p0 K10. 乱序摸鱼 (2026). 知乎回答:全栈联合调优能力分析.+ h* X  f" b( b6 k  D. `$ y  ]
11. 华为此前公开技术规范:Unified Bus Protocol Specification (2025).
9 V! V- n3 E* y; h/ ]! U4 u) x; \( C12. 北京大学团队真3D EDA研究:线长、WNS、TNS、热仿真对比.! F, c' x8 Y4 t4 W% C5 l
13. 华为官方新闻稿及多家媒体报道(光明网、搜狐、凤凰网、CCTV等).
作者: 大黑蚊子    时间: 昨天 17:47
这是搜集了资料之后让agent重新组合形成的分析文章,修改格式,上传文字和图片也是agent做的
1 N3 G6 O9 r, J9 U/ V
" W  k7 m, }5 f* B9 J* t试了下好像感觉还可以
作者: 方恨少    时间: 昨天 23:30
提问,请教蚊行,或者蚊行的牛马:- I8 T, r4 Y% {4 v+ I

9 T2 q1 z  P5 S
Face-to-Face Hybrid Bonding(正面对正面混合键合):两片晶圆(Wafer)正面对正面,通过阵列式的铜柱(Cu Pillar)实现超高密度键合。

8 g! k1 g4 J; i* d+ G3 E2 i1 K% x5 I6 ?: U: c. |! y
如何实现?是先分别在两片晶圆上制造电路,然后通过铜柱连接在一起,还是先在一片晶圆上制造下层电路,然后布设铜柱,再制造上层电路,最后把第二片晶圆扣在最上面?第一种方式对精度要求是巨大挑战,第二种方式个人感觉目前不可行。
% ^. G! n5 X+ _% U7 h4 [" M4 J' L! C! d6 M3 }
读后感:这种方式对散热,时钟,电磁效应是巨大挑战,也就是对设计的巨大挑战,在AI之前是不可能的,现在借助AI才成为可能。最后对良率也是巨大的挑战,估计开始阶段的良率会低的可怕,如文中所述,只能分散到不同产品线,也就是华为借助中国消费者对华为的支持,才能cover住成本。- a% j( i9 o$ c0 P/ P/ _8 @* g" w

) P0 V8 q2 r. ]也如文中所述,这和传统的芯片设计制造就是两个路径,这相当于芯片设计制造的微观世界里的全国一盘棋的计划经济模式。估计早就有人想到,但恐怕真的只有面对生存危机,受到全国全产业链支持的华为才能走通。而这一旦让华为走通并且发扬光大,那未来芯片业就要变天了,很多小IP设计公司要么被华为收编,要么就可以关门了。如果美国不能及时跟进的话(其他国家绝无可能),那台积电都不算筹码了,估计如果十年后大陆登陆某小岛,直接就通知美国,赶快来几艘船把这些破烂拉走,别占我们地方。; J* g! \) ]4 f4 t5 n  j) m$ C. p

8 f# W$ k8 r6 ?: e3 w
作者: 晨枫    时间: 昨天 23:48
大黑蚊子 发表于 2026-5-28 03:471 a  U2 Y! L5 J( M* }3 V) Q
这是搜集了资料之后让agent重新组合形成的分析文章,修改格式,上传文字和图片也是agent做的
; D- z- h( U% v2 q3 O: [$ u( p, Q- ~# {$ ]9 [2 v0 W, Y
试了下好像感 ...
: E% ?2 i0 C( l. b( W
哇,Agent那么厉害了啊!佩服!
; y# h8 T, E4 q更佩服能指挥Agent的蚊行。帅才!
作者: 大黑蚊子    时间: 5 小时前
方恨少 发表于 2026-5-28 23:30
! _3 j% ]% }7 ?# P% Z( F提问,请教蚊行,或者蚊行的牛马:

: Z, C* d) n8 M6 @0 `9 b应该是第一种方法,具体怎么对齐封装咱就不知道了! Z. I# X( C) M2 R& C7 J; z' X2 J: ?
因为华为后来说可以有效利用不同工艺生产的组件进行拼接,那就应该是可以考虑用不同制程工艺生成不同的部件再组合起来,想想都觉得头大,甚至感觉只是在放卫星吹牛逼
9 B/ U8 v. n5 g- q, s  B  s; L  b, e/ A0 M- d
但是华为自己说麒麟2026/2027(应该是)已经完成了流片,2026进入了工程测试阶段,9月就要正式发布,这就有点儿惊悚了
. x# p! E* S8 I! W( s7 a( \& L% E  {7 u人家不是在画PPT,人家已经做出来了,而且良率和成本看上去还都不错
作者: moletronic    时间: 4 小时前
你们对华为这个吹得有点过了。。。作为Process Engineer, 俺没看出华为出了啥突破性的东西,Hybrid Bonding是已经在用的东西了。华为就是有提高,感觉也比不上YMTC前面搞出来的XStacking意义大。本来以为华为在设计那边搞了突破,但看可梦之的评价好像也不高。% ^3 m& l, {# w7 }: ^' W4 M
感觉就是把各项技术综合整合来跳过EUV壁垒,这如果做成当然也是很厉害的,看看下半年9050的表现就可以打分了。
作者: moletronic    时间: 4 小时前
大黑蚊子 发表于 2026-5-28 08:10
# h  }3 \3 k; |5 q3 K9 h( x应该是第一种方法,具体怎么对齐封装咱就不知道了
5 ?$ N, j1 g) o因为华为后来说可以有效利用不同工艺生产的组件进行拼 ...

  ~7 E# t* f- d* n+ BD2W (Die to Wafer) bonding,不是W2W (wafer to wafer) bonding. 拼接不同工艺生产的部件不是问题。
作者: WiFi    时间: 3 小时前
moletronic 发表于 2026-5-29 01:16# l& d& C! P1 |- B# @) a* O* |# n
你们对华为这个吹得有点过了。。。作为Process Engineer, 俺没看出华为出了啥突破性的东西,Hybrid Bonding ...

! e4 k  }2 N. S; K& Q% B7 c: q6 _
% _3 _+ H: U" ?. S很尊重你和可梦老弟一直以来提供的业内第一手技术解读,学了很多。这里给两位提供一个其它视角。2 n' E6 r, S& E: a$ {& v4 b

* D! T9 v) P2 ^+ w; M# A% Z+ j我们习惯美国公司内部和公司之间工作方式的“业内”人,一般按单人、单公司能力估算菊厂工程能力、产品能力。我刚开始就陷在这个坑里,认为微软:菊厂工程师1:5以上的能力对比,菊厂开发、产品能力有限。# t( {2 B8 {  e) E

* P0 [& W! _! v3 Z  [3 p6 w) M/ E% a" v% r但是,实际工程、产品实践结果是比微软200%,500%的快速工程,产品结果。甚至是技术突破。
, @" d, y3 n" x6 w3 o9 M0 B) y
为什么?. O, U: X  a) _& x9 r1 U- _6 a0 O6 p8 i
/ r' _0 _+ K1 s! ^4 g/ M
只要各个节点有1,2个真正的技术带头人,再加上一个能把所有能力一般的个人、协助公司,合作伙伴公司有序管理起来的强有力的工程管理组织流程是关键。7 I% I4 d2 T2 m
1 k  V! a: d& h% h9 v. w
就像蚊行文章说的,不能看单点先进性,要看把整个产业链统一起来以后的整体先进性和革命性。9 J; C% H* I* ]) h8 A" r- o5 N

* O, h. }' T" n. b福特汽车生产线如果让之前的汽车厂家的工程师看,肯定说这有啥技术突破。但是,这个对于工业生产来说就是革命性的。
2 A7 Q( j; ~% I0 w" s- n
作者: moletronic    时间: 3 小时前
本帖最后由 moletronic 于 2026-5-28 10:39 编辑
4 N1 N) S& M0 W0 U. S' U$ D5 S% p* o3 u4 O; A# \# z# y
俺一向是很尊重华为的,而且俺认为松山湖人均水平要强过硅谷平均水平的。不过俺个人对于“革命性”‘突破性’之类的评价要求比较高。9050的评测数据出来前俺觉得就说革命性还早了点。
作者: WiFi    时间: 3 小时前
moletronic 发表于 2026-5-29 02:37$ F# L+ j& v3 l+ M6 N( y
俺一向是很尊重华为的,而且俺认为松山湖人均水平要强过硅谷平均水平的。不过俺个人对于“革命性”‘突破性 ...
5 v6 z3 K' @3 E; |0 V$ Y
同意同意。菊厂牛皮吹破也不是一次两次了。




欢迎光临 爱吱声 (http://www.aswetalk.net/bbs/) Powered by Discuz! X3.2