北森瓦版 - Northwood Blog (Author : 北森八雲. Since July 10, 2006.)
Does an AMD Chiplet Have a Core Count Limit?(AnandTech)
"Zen 3" Chiplet Uses a Ringbus, AMD May Need to Transition to Mesh for Core-Count Growth(techPowerUp!)

AMDがAnandTechに語ったところによると、“Zen 3”の8-core CCXは双方向のリングで構成されているという。そのため、AMDが今後CCXを8-core超とする場合は労力が必要になる。CPU chiplet die (CCD) あたりのCCXを増やせば、コア数の倍増は用意であるが、CCXそのもののコア数をいじる場合はリングを変える必要がある。

AnandTechで行ったAMDのCore ComplexはAll-to-All connectionにはなっていないが、想定されるリングのレイテンシとはまた異なっている。bisected ringと推定されるが、提供されたスライドには詳細は省かれている。
 
“Zen 3”の内部バスの話題である。外部バスであるInfinity Fabricについては比較的話題に上るが、CCX内部がどのように接続されているかはこれまで語られることは少なかった。

AnandTechがAMDから得た情報によると、双方向のリングバスを用いている。ただし、単純なリング構造ではなく“bisected ring”と推定されている。“bisected ring”の図はAnandTechに掲載されている。単純なリングに加え、1~2本の接続が追加されたような形となっている。例えるならギリシア文字の「θ」や漢字の「目」のような形状である。またI/O dieにおいてもやや変則的なリングバスが用いられている模様である。

しかし、今後AMDがCCXあたりのコア数を増やそうとした場合、リングバスでは限界が出てくるとAnandTechは指摘している。コア数が多くなるほどリングバスではレイテンシが増加が顕著になるためである。次の“Zen 4”世代のEPYC―“Genoa”では8-core×12 CCDとすることでコア数を増加させるが、CCDを増やすのも上限があり、どこかの段階でCCXあたりのコア数増加を考える必要が出てくる。

“Broadwell-EP/-EX”から“Skylake-SP”の時にIntelがリングバスからメッシュ構造に変更したような変化を、今後AMDも要求されるが、AnandTechは今後のAMDの方向として3次元積層を使用する―V-cache, Core Chiplet (8-16-core), Mesh Interposerの3層構造を推定している。Mesh InterposerにいくつかのCore chiplet (+V-cache) を乗せる。そしてそれが1つのユニットを形成し、EPYCのような多コア製品では複数ユニットを使用して製品とするのだろう(多分)。

ちなみに4-coreまでだった“Zen 2”以前は全てのコアがpoint-to-pointで接続されていたようである。四角形に対角線を引いたものを想像するとわかりやすい。



コメント
この記事へのコメント
183671 
CPUよりも圧倒的にユニット数の多いGPUの開発技術も有している会社ですから、きっとうまくやれるでしょう
2021/09/11(Sat) 22:02 | URL | LGA774 #-[ 編集]
183674 
ああ、そこで3D技術が出て来ると…推測に過ぎないとしても確かに可能性はありそうな
2021/09/12(Sun) 00:13 | URL | LGA774 #-[ 編集]
183679 
GPUがコア数増やせる理由がコア同士でキャッシュを同期しない(そうしなくていい処理に限定)、よってバスが不要というのがあるから、GPUの知見は役に立たないと思う。
2021/09/12(Sun) 10:29 | URL | LGA774 #-[ 編集]
183681 
3次元積層にしても全コアfully connectでは指数関数的な消費電力の増大は不可避
meshもあんまり良い印象は無いんだけどなぁ
2021/09/12(Sun) 11:29 | URL | LGA774 #-[ 編集]
183683 
> CCDを増やすのも上限があり
別にCCDを増やさんでも、Zen2みたく1CCD・2CCX構成にすればいいのでは。
今でさえコア数の最小単位(CCX)が8コアなので4コアのバリエーションを作るのに無駄が大きいのに、12コア・16コアのCCXを作るのは厳しいでしょう。
Intelほど体力はないから同一世代でコア数の異なる複数CCXの設計はしたくないだろうし。
2021/09/12(Sun) 16:59 | URL | LGA774 #-[ 編集]
183688 
8coreCCXはチャレンジし過ぎで歩留まりも落ちて値段が高止まりしている状態だし当面それ以上は考えてないでしょう
2021/09/12(Sun) 23:44 | URL | LGA774 #-[ 編集]
183693 
○CCDが増やせなくなったときの対応方法

1.素直にCPUソケットを分けて最小構成を2ソケットにする。

2.CPUの基板を巨大にしてI/Oダイを2個積む。1ソケットに2ソケット分の配線を引き込む。(PentiumD方式)

半分冗談だけど2.のプランをやってくれると面白そう。時間的余裕はあるから、まともな設計変更で対応してくれるだろうけど。
2021/09/13(Mon) 16:26 | URL | LGA774 #-[ 編集]
183695 
Ring bus にしても、かつての Radeon HD 2900XT などで採用した実績もあるわけで、まだまだ沢山改良して何とかするんじゃないかと思ってみたり。
2021/09/13(Mon) 21:52 | URL | LGA774 #-[ 編集]
183696 
Crossbar switch で行けたのは 4-core までで、それ以上になるとやっぱり色々難しいみたいですね
2021/09/14(Tue) 00:50 | URL | LGA774 #-[ 編集]
183698 
当面CCX8コア以上は考えてなさそう。big-littleの方が先かな。
2021/09/14(Tue) 02:43 | URL | LGA774 #-[ 編集]
183705 
熱の問題もあるしマルチCPUになってもいいのよ?
2021/09/14(Tue) 11:41 | URL | LGA774 #-[ 編集]
183712 
3dメッシュが可能ならまだ増やせるだろうけど、やっぱ排熱的に厳しいかな。
2021/09/14(Tue) 16:28 | URL | LGA774 #-[ 編集]
183728 
みんな何故かインテル的上から目線で語ってるけど
いま周回遅れなのはインテルの方なんだよね
そしてそれはバスの出来不出来にも左右される話

リンク先にも書いてるけどメッシュはリングを単純に縦横編み込んだもの
消費電力が増えただけでリング特有の問題が解消されたわけでもなく
むしろ早急にバスを何とかしなければいけないのはインテルの方だと思うけど
そういうの得意な人は既に追い出しちゃった後なんだっけ?
2021/09/15(Wed) 18:54 | URL | LGA774 #-[ 編集]
183733 
>183728
on-dieのバスで最大のものはIntelのSPでCCX内に8 coreしかないZenの変則ringとは規模が全然比較にならない
CCXのコア数を増やすならこれまでシンプルさで優位性のあったZenでもIntelのジレンマを踏襲することになる
2021/09/16(Thu) 12:16 | URL | LGA774 #-[ 編集]
183736 
チップレットはコストで有利だから顧客に受けた。
でもパフォーマンスで不利だからCCXサイズを増やしたんだろう。
1ダイ2桁コアをインテルは選んだけど迷ってる、AMDは未踏。
1ダイ8コアが最適という結論でもない限り、どちらが進んでいるは無いのでは。
2021/09/16(Thu) 14:11 | URL | LGA774 #-[ 編集]
183742 
Zen 2みたいにCCDあたりのCCXを2個にするのが一番リーズナブルな気がする。
8スレッド以上の処理でコア間のバスがクリティカルな用途ってあんまり無さそうだし
EPYCでもCCD間はMCMでもっと低速なInfinity Fabric使ってるくらいなのだから。
2021/09/16(Thu) 20:48 | URL | LGA774 #-[ 編集]
183755 
>183733 
それを言ったら
CPUとは規模が全然比較にならない GPUでリングの製品化をやった AMDの方が上手
ってならない?
2021/09/17(Fri) 07:32 | URL | LGA774 #-[ 編集]
183759 
「CCXあたりのコアを増やすのが難しいならCCXを増やせばいいじゃん」というのは的外れ。
「コアを16個接続してCCXにするのが難しい」という問題を「CCXを16個接続してCPUにするのが難しい」という問題にすり替えるだけなので。

Zen2世代のように1CCDあたり2CCXにしたとしても、回路的な結線の単位はCCXなので、見た目のダイ数が変わるだけでバスの困難さは解決しない。

> 183755
GPUとCPUではキャッシュコヒーレンシの要件が異次元に異なるので混同してはいけない。
x86やArmである以上、同期のための複雑な仕組みが必須になる。
2021/09/17(Fri) 11:48 | URL | LGA774 #-[ 編集]
183797 
>GPUとCPUではキャッシュコヒーレンシの要件が異次元に異なるので混同してはいけない。

例えば x86の GPUや VLIWの CPUならキャッシュコヒーレンシの要件は緩いのか?
緩くないからkonozana食らったんだよ

「CCXに収まらない場合はどう捌こうか」という所まで含めて AMDのバスは洗練されてる
だから「数に物言わせる」勝負だと Xeonは EPYCに勝てない
そしてIntelはAMD GPUのジレンマを踏襲し続ける
2021/09/18(Sat) 18:55 | URL | LGA774 #-[ 編集]
コメントを投稿する(投稿されたコメントは承認後表示されます)