设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 128|回复: 7
打印 上一主题 下一主题

[科技前沿] 再谈华为的逻辑折叠

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 11 小时前 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2026-5-31 10:23 编辑
    1 y2 P6 T" h2 V
    & I" J8 t( g, h# l- ^' q* F逻辑折叠制造商采用的w2w+hybrid bonding。先单独生产两个die,做好铜柱,然后打磨平整,face2face的键合。需要低温键合,不能超过300度,否则容易损坏芯片。同时在背面做TSV把管脚等引出来。! x: \$ q) \1 _7 f2 Y; \
    - T3 R, X; U4 b) Z
    hw厉害的地方在于把HB/TSV的密度都大大提高了。HB最小间距降低到了1.5um,TSV是6um。这样,两个die之间可以做到5000万级别的互联线。这使得更低层次的逻辑互联成为可能。否则HB互联只有几万几十万的情况下,只能做到logic到sram这种block级别的划分和互联。: d6 F1 V0 u8 [7 B" E8 _0 d! G

    / `1 U8 _$ r2 ]0 g9 ]; ?# ]当然这是有代价的,一个就是5000M互联线的良率问题,hw给的答案是冗余。但是clock/power这种可以做mesh的网络好做,signal连线怎么做冗余,总不能每个都占用两个hb做冗余吧。
    2 H; S: _3 {2 h- D, [; x; z7 M# W
    6 f9 a: q) A& G* w# ^) `9 Y还有一个问题是散热。hw给的答案是做逻辑拆分和PR的时候就要考虑热,不要把两个发热高的放在一起。但是这又与逻辑折叠相悖,本就是要把相关的逻辑放在一起,这些大概率会同时发热。我看图片可能大部分还是logic和sram堆叠,控制发热。另外一个是提高封装散热。没有说细节,我怀疑做那么多TSV可能主要是为了散热,利用TSV的铜柱把热量从背面散出去。因为管脚不需要这么多TSV。
    ' g' f) D; ?, X% {  P! ^* X# f  M
    8 L# H1 b0 L+ Z, b软件方面,hw承认现有EDA支持度还很低(包括国外EDA),主要靠人工,效率不高。EDA是比制造更大的瓶颈。hw的方案是在synthesis之前加入了partition这一层,划分模块和上下die,然后整个flow做迭代。这方面hw还是很nb的,虽然我猜做的是相对简单的,logic folding的潜力还有很多没有挖出来。
    ' b9 z7 _0 A' [# k& D
    ; M9 U+ x3 V/ p: Y5 A& R' a. K3D EDA学术研究一直有,最近也有北大的论文被炒的火热。但是学术界论文要落地还有很多问题。我们看没有哪家EDA厂商蹭这个热点,也说明的确没有突破,否则早大力宣传了。受影响最大的还是PR工具,前端工具相对影响不大。国内做PR的有鸿芯微纳、立芯等,2D的都问题多多。华大、概论等也开始做PR了,但是目前进度还不如前两家。hw自己也有搞,Macro-placement据说搞的不错,但是整体的PR是没有的,否则也不会扶持某家EDA公司。这里面placement相对容易些,学术论文比较多,routing更难,学术论文相对都少不少。# P% |/ @( Q/ ?1 K
    $ ^6 i* \% n- T: h
    对STA影响相比要小些,RC抽参工具将HB抽象之后,STA核心算法不用变,除非垂直的HB的电感效应太大不能忽略(大概率不会发生)。主要影响是MMMC和OCV。如hw所说,corner数量大大增加,同一个pipeline,一个ff是SS,另外一个ff是FF的情况之前也不会发生。OCV方面,没有具体数据。但是提到HB的overlay accuracy是0.5um。要知道HB pitch已经降低到1.5um,铜柱直径不会超过1.0um,那么对齐最大差0.5um的情况下,这个偏差已经非常显著了。当然HB的铜柱比较粗,电阻也比较小,寄生电容不太大的情况下,还是可控的。更好的一点是,对齐错位应该是整个die一起的,所有的HB都偏差0.5um,之间的variation也不用很大。- J$ G1 `6 \) q" y5 {( D# C* e

    3 S4 D, P0 D0 }0 c逻辑折叠也是有物理上限的。f2f的方案只能做两层堆叠。多层肯定要用tsv,鲲鹏给的3层方案就是上面两层core用f2f,下面的uncore用tsv连接。用tsv的话,连接数是个瓶颈。但另一方面,多层的logic拆分,肯定会造成die-to-die之间的连接数陡增。TSV要做密的话,wafer可能要进一步减薄,但是现在已经从几百微米减薄到10微米之内,如果进一步减薄,良率怎么保证。
    3 F- q( @( [# H8 E' Q$ d6 W& g
    5 q) A" S7 v; V还有一个大瓶颈是散热。手机芯片几w几十w的堆叠在一起问题还不太大。大芯片上百w,AI芯片可能几千w甚至更多,堆叠起来散热如何解决?黄说NV不用是有技术原因的,一方面NV卡现在散热都是头疼问题,进一步堆叠挑战过大。另一方面,现在AI芯片显存问题更严重,与其logic堆叠,不如多搞几层HBM,把显存提上去。! E6 |7 u6 D+ ^; K- N% R# Y

    ; A% G7 @0 @5 V8 Q6 W4 Z( W总之,hw是很牛逼的,在处处受限的情况下闯出一条路来,有可能是一条康庄大道。生物进化史上类似事情无数次发生。但是现在就断定这条路一定比原来的路更好,为时尚早。芯片行业集中了全世界的聪明人才,即便海外也有很多华人,并不存在一个想法只有你能想到,别人想不到,区别在于具体的实现细节。赢学大家都爱,但是不符合科学/科技发展规律。! ]- L8 f. x7 Z( L
    , K* b( r( l: k# C/ T
    / S* g! M/ V  ~3 ?3 o. ~
    & [) \0 o( B; ?% F# c" L9 {

    1 y% X7 d* a- E

    评分

    参与人数 4爱元 +55 学识 +2 收起 理由
    老票 + 16 + 2 给力
    方恨少 + 12
    johnsonjian + 12
    mezhan + 15 谢谢!有你,爱坛更精彩

    查看全部评分

  • TA的每日心情
    擦汗
    2026-3-17 22:01
  • 签到天数: 1133 天

    [LV.10]大乘

    沙发
    发表于 8 小时前 | 只看该作者
    HB最小间距降低到了1.5um,TSV是6um。这样,两个die之间可以做到5000万级别的互联线。

    1 {: n1 A6 F# _6 ]  v/ r" X* v; R  Z# J$ n- v1 X0 Y. ]
    我在知乎上看到夏晶(华为鲲鹏/昇腾的首席架构师)在某个答案的评论里吐槽过,说这个指标太保守了
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2026-3-17 22:01
  • 签到天数: 1133 天

    [LV.10]大乘

    板凳
    发表于 8 小时前 | 只看该作者
    3D EDA学术研究一直有,最近也有北大的论文被炒的火热。但是学术界论文要落地还有很多问题。我们看没有哪家EDA厂商蹭这个热点,也说明的确没有突破,否则早大力宣传了。受影响最大的还是PR工具,前端工具相对影响不大。国内做PR的有鸿芯微纳、立芯等,2D的都问题多多。华大、概论等也开始做PR了,但是目前进度还不如前两家。hw自己也有搞,Macro-placement据说搞的不错,但是整体的PR是没有的,否则也不会扶持某家EDA公司。这里面placement相对容易些,学术论文比较多,routing更难,学术论文相对都少不少。

    , B3 Q+ d( r) v8 w' s
    ! `3 [3 h4 F+ n, P  O据说EDA这方面是两家,立芯和行芯,都有华为哈勃的投资
    6 t! X$ g/ p2 V3 z& r还有小道消息说这两家的能力比华为自己的EDA团队强
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    地板
     楼主| 发表于 8 小时前 | 只看该作者
    大黑蚊子 发表于 2026-5-31 13:37: Y) x! V0 p* W5 N! c$ ^% m2 L
    我在知乎上看到夏晶(华为鲲鹏/昇腾的首席架构师)在某个答案的评论里吐槽过,说这个指标太保守了 ...

    ; Q8 I3 H! }- Y& p* H. v4 k. K鲲鹏/昇腾芯片更大需要更多的互联线,所以密度还要进一步增加。所以现在鲲鹏只是做chip folding,一个die是逻辑的core,一个die是其他的uncore。明年才会做三层,用上logic folding。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    5#
     楼主| 发表于 8 小时前 | 只看该作者
    大黑蚊子 发表于 2026-5-31 13:42
    5 m6 g. }6 d% }; I据说EDA这方面是两家,立芯和行芯,都有华为哈勃的投资
    6 ~1 c# \- ^5 h9 y; g( M; N还有小道消息说这两家的能力比华为自己的EDA团队 ...

    ! b4 _9 o# m. q8 s1 G6 n9 q立芯有哈勃投资,行芯应该没有。但行芯的RC工具的确进入了hw。+ f6 ?8 T; B; S4 ~8 ]( R7 I  z
    后一句认可。华为搞EDA研发不是舒适区,还是做大甲方滋润。/ T, [$ b( l) z% w( e/ y
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2026-3-17 22:01
  • 签到天数: 1133 天

    [LV.10]大乘

    6#
    发表于 7 小时前 | 只看该作者
    可梦之 发表于 2026-5-31 13:58$ V$ l4 v, V5 S8 x3 l% H8 z9 n/ g
    鲲鹏/昇腾芯片更大需要更多的互联线,所以密度还要进一步增加。所以现在鲲鹏只是做chip folding,一个die ...
    0 j1 F( K9 k4 O& [3 z
    我看那个路线图做不到三层吧,应该要到28年以后
    : n# o- ]2 g9 y" G) U8 r* Q! P0 m) ]
    * E6 _2 P( C2 y- l9 d关于夏晶的发言,还有这么一段,我当初看到的时候给记下来了,后来再找发现这哥们应该是给删了,我贴在这里,反正爱坛小众,不太应该会有人追杀到这里2 }5 D8 l, }+ H; V8 q* r1 f" u+ L  O# |
    ; [! g5 q% ~/ U- O
    作者:Dio-晶
    % O% C4 Y9 M1 m+ b$ M8 D" C$ i给韬一点自信
    ( s+ {7 Y9 F6 b黑子蛮多,评价所谓韬不就是堆叠、3D集成、先进封装什么的,并引用台积电、AMD的材料为参照,是业界通用能力,叠加EUV还能更强 :)
    ; W) G$ y* W% V那为啥不做呢? 你想过没有?
    9 n, h8 W7 m) }$ P8 }" S/ K# M为何世人知其路,而罕至其深处?
    + d$ P8 W0 j4 j( |' q+ H# M5 M  S诚然AMD也有MIXXX系列的3D结构,BroadCom也有相应3.5D什么的路标。; m' ]) `% ~* o
    学术界论文更是汗牛充栋,工业届为啥没有再进几步,更深入折叠一下?
    4 P# _9 ^$ W) ?! r3 C) |其实这真的是一个岔路口!!!!!6 O9 p5 Q# ^# L( {0 Z4 ~: z2 W
    讲几个简单的逻辑,原本我是准备在会上回答的,奈何没人问,sign。1 _! ^" ]; h/ e) n/ t4 y
    1、TSV,也就是所谓打孔(其实还包括一些其他3D特征的对象和rule),它们其实是一种Device,在加工上和一个FET管子是同等级别的特征的。但是,功能上的管子,例如NAND2,是工艺原生之子,而TSV是工艺后生之客。7 w2 Z' l! G& b, \1 t5 v( f% m
    啥意思呢? 就是你定义一个2nm的工艺的时候,在第一天是不会考虑TSV这种器件的,因为它只会让你的刀变慢 :)
    1 r+ n3 c+ f) F' k几乎所有的TSV设计,都是在工艺成熟之后再叠加的。也就是工艺研发需要二次入场,这种研发的复杂度比原生第一次的研发要麻烦很多很多。9 y( e, H( B4 ]7 J/ T
    既熟则安,既利则惰,Fab能在先进工艺赚钱,就没人愿意二次开发新器件。0 D9 W# ~& C3 y: D8 Z$ {
    而且越先进的工艺,原生Cell,就是NAND2越脆弱,越经历不起万针扎身的淬炼。你看AMD的Bottom就还只到6nm,很难前进的。. m+ G+ a' t- s$ {6 {

    % N7 Y9 |+ l$ i' g+ I) p0 g( S2、其实折叠互联这事,天生与工艺精度是反方向的。你再想想那个Gear Ratio,也就是何总那张图,要令上下 Die 之中,标准单元直连相通,便需要Bonding Pitch 逼近 Cell 尺寸,而Cell 愈小、工艺愈进,Pitch 便要愈小。
    % ?. N# d5 x: d你且算算,2nm的工艺如果要上下NAND2直接连上(也就是细粒度的逻辑折叠),需要Bonding Pitch压缩到多少nm? 能做得到吗? 细折易言,直通难行
    ' g6 Q3 j; J2 t/ f) s7 ^) N% F$ m2 w: r2 J+ ?1 V' f- g/ f
    3、工艺微缩之后,需要的金属层数也越来越多,例如Nvidia BlackWell,他的金属层数到22层了(手机多少我不知道),因为晶体管足够密,你必须要足够的金属层才能把它们互联起来。但是,这事又背道而驰了。金属层愈多,堆叠之后垂直路径愈长、愈复杂。还有一个一般人忽视的事情,金属层多了,再磨薄,这个wafer的bow值就会很大(懂得自然懂),对Bonding的精度、难度要求都变高无数。先写这几点吧  :) 需要再补充5 q7 V9 z2 Q3 o" a: E5 g% V7 w) k( k- O2 @
    ' i/ i* F# G: I
    所以,有些事,做一做,感受不一样。, j( w' u! |3 L
    事非经过不知难,成如容易却艰辛。" E/ f- v# h/ P" M* L, S- n) ]
    事在人为,道在躬行。
    : T4 O$ k, R* V& Z: n1 ?3 `) J- W不妨自信一点 :)+ J3 S$ Q  P. R2 _' b3 ^. R! Y

    点评

    油墨: 5.0 油菜: 5.0
    给力: 5.0 涨姿势: 5.0
    油墨: 5 油菜: 5 给力: 5 涨姿势: 5
      发表于 6 小时前

    评分

    参与人数 1爱元 +12 收起 理由
    方恨少 + 12

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    7#
     楼主| 发表于 6 小时前 | 只看该作者
    大黑蚊子 发表于 2026-5-31 15:13
    ) X+ H! t. k. z# {我看那个路线图做不到三层吧,应该要到28年以后% C) S, b2 |  ]3 Z  I5 e. Y
    % J; z+ |+ v) R6 j
    关于夏晶的发言,还有这么一段,我当初看到的时候给记下 ...

    - I) d2 o( \8 i# F8 A! H9 A7 ]/ \/ h我看过这个。诚然,工艺越先进,密度越高,需要TSV/HB的密度也越高,肯定越难。但是先进封装/logic folding与先进工艺是解耦的,7nm能做logic folding,2nm自然也能做(自然需要更先进的封装)。hw没有EUV能搞出这个来是很nb,但没必要争竞别人搞不出来。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-5-31 22:15 , Processed in 0.061714 second(s), 19 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表