北森瓦版 - Northwood Blog (Author : 北森八雲. Since July 10, 2006.)
Hot Chips 2023: Intel Details More on Granite Rapids and Sierra Forest Xeons(AnandTech)
Intel Unveils Future-Generation Xeon with Robust Performance and Efficiency Architectures(TechPowerUp)
Intel Unveils Next-Gen Xeon Lineup with Innovative Platform Architecture(Guru3D)
Intel Details 144-Core Sierra Forest, Granite Rapids Architecture, and Xeon Roadmap(Tom's Hardware)
Intel on Changing its Xeon CPU Architecture at Hot Chips 2023(ServeTheHome)
見えてきた次々世代Xeon。チップレット進化でAMD/Armに対抗(Impress PC Watch)

Hot Chips 2023でIntelは次々世代のXeon Scalable Processorとなる“Granite Rapids”と“Sierra Forest”の概要について講演した。
Xeon processorにおいて重要でない世代というのはないが、特に“Granite Rapids”と“Sierra Forest”の世代はXeon Scalable Processorの中では最大級に重要なアップデートとなる世代である。この世代では従来のPerformance Coreをベースとする製品に加え、Efficiency Coreをベースとする製品が加わる。前者が“Granite Rapids”であり後者が“Sierra Forest”である。どちらもEUVを使用するIntel 3プロセスで製造され、“Sierra Forest”は2024年上半期、“Granite Rapids”は“Sierra Forest”登場後の近い時期に予定されている。
P-coreがベースの“Granite Rapids”は主に演算能力が重視される用途はAI向けに、E-coreを使用する“Sierra Forest”は高密度向けでスケールアウトが重視される用途向けとなる。
 
“Granite Rapids”と“Sierra Forest”はChipletベースの設計をとる。つまりCPUコアを搭載するCompute chipletとI/Oを担うI/O chipletに分かれる。そしてこれらがEMIBによって接続される。Compute chipletは前述の通りIntel 3で製造されるが、I/O chipletはIntel 7で製造される。そして“Granite Rapids”と“Sierra Forest”でI/O chipletは共通となる。

“An Architecture Desined for Flexibility”と題されたスライドに“Granite Rapids”と“Sierra Forest”の構造が記されている。
以前のリークにもあったとおり、“Granite Rapids”と“Sierra Forest”はCPUコアを搭載するCompute chipletとI/Oを担うI/O chipletから構成される。I/O chipletは“Granite Rapids”と“Sierra Forest”で共通で、Compute chipletの上下を挟むように2ダイが搭載される。Compute chipletはSKUによって数が異なり、1ダイ、2ダイ、3ダイの構成が示されている。興味深いのはメモリコントローラはI/O chipletではなくCompute chipletに搭載されていることだ。この構造の場合、Compute chipletの数によってメモリコントローラの数が異なってくることになる。スライドでも4ch分のメモリコントローラが搭載されたCompute chipletが複数搭載されている模式図があり、2ダイの場合で8ch、3ダイの場合で12chとなっている。また8chのメモリコントローラを搭載したCompute chipletが1ダイの構成も示されている。この構成の場合、メモリコントローラを余分に積んで無効化するなどの措置を執らない限り、AMDのようにCompute chipletを増減させることで多数のSKUを柔軟に作り出すことは出来ないが、Intelの場合、Compute chipletの種類を極力少なくしなければならないという制約はそれほどないため、例えば“Grenite Rapids”のCompute chipletを規模に応じて2~3種類用意することは可能なのだろう。これまでのXeon Scalable Processorで見られた“Low Core Count”、“Middle Core Count”、“High Core Count”、“Extreme Core Count”というダイバリエーションは多少形は変わるが“Granite Rapids”でも見られるかもしれない。
複数のchipletの接続に使われるのはもちろんEMIBで、広帯域・低レイテンシでの接続を実現する。このあたりは“Sapphire Rapids”や“Emerald Rapids”の経験が生きそうだ。

“An Architecture Desined for Flexibility”のスライドにはプラットフォームの詳細も記されている。
“Granite Rapids”は1~8 socket、“Sierra Forest”は1~2 socketの対応となる。メモリチャネル数は最大で12-channelである。I/Oとしては最大136本のPCI-Express 5.0/CXL 2.0と最大6本のUPIリンクを搭載する。

“Sierra Forest”はE-coreをベースとする最初のXeonだ。Intelによると“Sierra Forest”はデータセンター向けのワークロードに向けたチューニングが施されたものとなる。
ベースとなるのは“Crestmont”で、6-wide instruction decodeと8-wide retirement backendを備える。
また“Gracemont”からの変更点として“Crestmont”ではL1 instruction cacheが64KBに増量される。またクラスタの構成が4-coreだけでなく2-coreの構成を取れるようになる。L2 cacheはクラスタ内で4MBを共有する。


“Efficiency-Core Overview”というスライドの内容である。
効率に最適化したマイクロアーキテクチャとして次の項目が記されている。

  • 64KB L1 instruction cache
  • 6-wide decode
  • 5-wide allocate
  • 8-waide retire
  • 2 or 4-core share 4MB L2
  • 64 outstanding misses


命令セットの追加も行われているようで、BF16のサポートや、AVX-IFMA, AVX-DOT-PROD-INT8の追加が行われている。一方でP-coreに搭載されているAMX matrix engineやAVX-512のサポートは記載がない。

スライドに直接的な記載はないが“Sierra Forest”のベースとなるコアは“Meteor Lake”で使用される“Crestmont”の改良型である。

“Granite Rapids”はP-coreを使用するXeonでベースとなるのは“Redwood Cove”である。“Granite Rapids”は従来のXeon Scalable Processorの延長線上にあり、“Sierra Forest”程の大きな変更はないが、いくつかの改良がある。
マイクロアーキテクチャ面では“Crestmont”同様L1 instruction cacheが64KBに増量される。また浮動小数点乗算のレイテンシが4~5 cycleから3 cycleに低減される。分岐予測の向上と予測ミス発生時のリカバリ機能の改良が行われる。


主に“Performance-Core Overview”というスライドのの内容である。こちらは従来のXeon Scalable Processorで使われてきたコアの延長線上にあり、E-coreがもたらされた“Sierra Forest”程の激変ではない。マイクロアーキテクチャの改良も比較的順当なもので、その他AI/ML向けにAMXのFP16の対応、メモリ暗号化周りの改良がある。

“Granite Rapids”と“Sierra Forest”の予定だが、まず“Sierra Forest”が2024年上半期、“Granite Rapids”が“Sierra Forest”の登場後すぐの時期となっている。
関連記事



○Amazon売れ筋ランキング CPU メモリ グラフィックカード マザーボード SSD 電源

コメント
この記事へのコメント
196993 
Granite Rapids と Granite Ridge
Sierra Forest と Siena

お互い似すぎじゃない?
2023/08/30(Wed) 02:26 | URL | LGA774 #-[ 編集]
196994 
Intel 4と同じく製造ラインが最小限のIntel 3でダイの種類を増やして大丈夫なのか?Arrow LakeもIntel 3でなんて噂が出てきてるし
2023/08/30(Wed) 07:31 | URL | LGA774 #-[ 編集]
196996 
(スループットでなく)レイテンシが下がることでIPCが引き上げって言い方(Tom's・PCWatch)ちょっと違和感があるな。
分岐ミスのペナルティーが減って結果的にはIPCは上がるんだろうけど。
2023/08/30(Wed) 12:03 | URL | LGA774 #-[ 編集]
196999 
Raptor Coveから分岐予測が良くなるのか
以前の試作品?Meteor Lakeの解析とはちがうけどもサーバー用とL1$までデザインを変えるとは思えないからMeteor LakeのI$量はおそらくこれで確定かな

Crestmont(の改良版)が2コアクラスターを作れるのはSoCタイルのEコアの情報と一致しているな

性能に関する言及が少なかったから、コアあたりの性能自体はそんなに上がっていなさそうか?
2023/08/30(Wed) 17:00 | URL | LGA774 #-[ 編集]
197001 
キャッシュを犠牲にコア密度を上げたEPYCと性能を犠牲にコア密度を上げたXeonどっちが支持されるんだろう

そういえばIntelの見学会の記事が上がっていたけども、各社Meteor Lakeには憶測交じりにQ4出荷だとか歩留まり率こうだとこうだとか書いていて情報絞られてるなあ
それにFoveros工場足りてない感じで初期Ice Lakeレベルの出荷数疑惑が
Emerald Rapidsでダイ数削減してFoveros工程の負担を減らす意味合いとかあるのかな
2023/08/30(Wed) 20:51 | URL | LGA774 #-[ 編集]
197005 
>196996
両方読んでみたんだが、そういう記述が見つけられなかった。どこにある?
2023/08/31(Thu) 13:58 | URL | LGA774 #-[ 編集]
197014 
>197001
値段とか供給量とか他にも要因あるからなぁ。
Pコア・キャッシュ減・メモコンはIODのEPYCの方がメモリ周りはきつそうなのが気になる。
2023/09/01(Fri) 11:27 | URL | LGA774 #-[ 編集]
197025 
>197005
ああ、ええと、そう書いてあるわけじゃないけど、
4~5サイクルの「浮動小数点演算の乗算」(PCwatch)や「FP operations」(Tom's)が3サイクルになるのでIPCが上がるように書かれてて、
その4~5→3という数字は他のソースを見るに浮動小数点乗算のレイテンシを指しているのだと解釈している。
2023/09/02(Sat) 06:41 | URL | LGA774 #-[ 編集]
197043 
>197025
演算の所要クロック数が下がれば当然にIPCは上がるでしょ。
100クロックに何個詰められるか考えれば良い。
2023/09/02(Sat) 23:22 | URL | LGA774 #-[ 編集]
197070 
>197025
了解です。私も197043みたいな考え方してたから、違和感なかった。
この機能、パイプライン化(結果が来るのは3サイクル後だけど、毎サイクル命令発行できる)されてないよな…?
2023/09/04(Mon) 14:33 | URL | LGA774 #-[ 編集]
197099 
>197043
>197070
最近の高性能CPUは頻出する基本的な加・減・乗算はレイテンシが複数クロックでもスループット(の逆数)は1クロック以下になっているのが普通です。(演算器を複数積むと1未満になる)
このサイトがわかりやすいです。AVX系とX87あたりにチェック入れて「mul」で検索するとよいです。
https://uops.info/table.html
2023/09/06(Wed) 13:01 | URL | LGA774 #-[ 編集]
コメントを投稿する(投稿されたコメントは承認後表示されます)