北森瓦版 - Northwood Blog (Author : 北森八雲. Since July 10, 2006.)
Intel 4th Gen Xeon Scalable Sapphire Rapids Performance Review(HotHardware)

HotHardwareで先日発表された“Sapphire Rapids-SP”―60-coreのXeon Platinum 8490H、56-coreのXeon Platinum 8480+、32-coreのXeon Platinum 8462Yを用いたレビューが掲載されている。

比較対称として“Genoa”こと第4世代EPYC―96-coreのEPYC 9654、64-coreのEPYC 9554、32-coreのEPYC 9374Fが用いられている。

両者の最新世代のサーバー向けProcessorの比較であり興味深い内容となっている。
 
全体としてみると、“Genoa”が優勢で、“Sapphire Rapids-SP”はやや苦しい戦いを強いられている印象を受ける。しかしながらセキュリティ処理を行う“SMHasher 1.1.0”、機械学習で“Image Classification”(画像を抽出し分類する・・・みたいなものでいいのだろうか?)を行う“TensorFlow 2.0.0”については“Sapphire Rapids-SP”が優位という結果となっている。
またOneDNN 3.0.0も“Sapphire Rapids-SP”が優位である。Intelに最適化されているオープンソースのNeural network library・・・とあるので、これが“Sapphire Rapids-SP”優位になるのは理解できるが、スコアがコア数と比例しておらず、むしろ32-coreの方が“Sapphire Rapids-SP”も“Genoa”も良いスコアを出すのが不思議である。RNNの推論だの学習だのは素人目に見るとコア数が多ければ有利そうな印象を受けるが、どうもそう単純でもなさそうだ。

・・・となんか書いてみてはいるものの、内容は当然のことながらサーバーやワークステーション、データセンターに用いられるものが多いので、門外漢の私はあまり理解できていない(それこそ「すごーい」位の認識)。興味のある方は是非HotHardwareの記事を参照して欲しい。

計52製品を発表したSapphire Rapidsの内部構造に新情報 インテル CPUロードマップ(ASCII.jp)

もう少し“Sapphire Rapids-SP”のお話を。
大原氏がASCII.jpで連載しているコラムで“Sapphire Rapids-SP”の内部構造が解説された。

まずXCCだが15-coreのダイが4つ用いられ、4つのダイがEMIBを用いて接続されるのは既報通りである。だが、4つのダイの接続はQPIではなくコア内で用いられているリングバスを引っ張っているようである。XCC 1ダイのリングバスはメッシュ状で、横方向に5系統、縦方向に2系統(双方向なのでそれぞれ10本と4本になるのだろうか)が巡らされている。ダイ上下方向の接続はEMIBを2基で1系統ずつを接続、ダイの左右方向は2つのEMIBは2系統、残りの1つは1系統を接続する。

・・・ダイの内部のバスを外に持っていってEMIBで接続しているわけで、かなりの力業の印象を受けてしまうが、ひょっとするとこのあたりが“Sapphire Rapids-SP”の遅延の原因だったりするのだろうかと邪推してしまう。

MCCについてはモノリシックであることは既報通り。ブロック数が7行×7列の49個で、CPUコア数が34-coreとなっているのも“Sapphire Rapids-SP”の発表時に示されたとおりである。
しかし、メッシュ構造になってからのXeonの各ダイをみていくと横方向の“行”が奇数行であるものは見かけるものの、縦方向の“列”が奇数列になっているものは記憶にある限りでは“Sapphire Rapids-SP”のMCCが初めてである。そのためか、縦方向のバスの引き方もやや変則的である。MCC―Middle Core Countとは名乗っているが、大原氏が推定するMCCのダイサイズは750mm2、過去の情報でも720mm2という推定値が出ていたので、700mm2を越える巨大ダイであることは間違いなさそうである。

・・・素人目に見るとMCCはわざわざこれまでにない奇数列の構成にしてまでコア数を増やし、大分無理をしているように見えてしまう。これまでのように偶数列にしてしまえば(I/O周りのブロックの移動が一部必要となるが)7行6列で26-coreとそれなりのコア数のダイで若干ではあるがダイサイズを縮小できる。この場合、出荷される製品は24-coreが最大となるだろうか。

26-coreダイで24-coreの製品・・・はなかなか勝手が良さそうに見える。だがここで止まらず、さらなるダイサイズの肥大というリスクを背負い、加えて前例のない奇数列の7列構成の34-coreにしたのかは、興味深い点である。

XCCのダイで8-core×4とするよりも、モノリシックな大型ダイで32-coreとする方がメリットがある・・・と判断されたのだろうか。“Sapphire Rapids-SP”のラインナップを見ると32-coreがXCCとMCCが混在しており、それより上は確実にXCC、それより下は原則MCCとなっている(UPIの本数が必要になるXeon Pltinum 8450Hと8444Hはそれぞれ28-coreと16-coreであるが例外的にXCCのダイが用いられている)。

32-coreは“Sapphire Rapids-SP”のラインナップでは比較的多くが用意されている。Intelとしてはここを全てXCCで供給するような状態にしたくなかった・・・ のだろうか?


パソコン工房のお得なキャンペーン



コメント
この記事へのコメント
193185 
EPYCの場合はAOCLを使ってXeonの場合はoneMKLを使う、みたいなことはしてるんですかね
2023/01/17(Tue) 06:34 | URL | LGA774 #-[ 編集]
193186 
素人の勝手な思い込みかもしれないが、機械学習・ニューラルネットワークあたりはGPU使った方が遥かに速い気がする
2023/01/17(Tue) 07:19 | URL | LGA774 #-[ 編集]
193188 
Sapphire Rapids-SP、コスト高になりそうな構成だ…。収支トントンの可能性もあるらしい
2023/01/17(Tue) 09:54 | URL | LGA774 #5ZRGXFpk[ 編集]
193189 
EPYCが遅いとこはメモリな気がする
複雑なMixed Precisionで数字をだばーっと吸ってちょっとだけ計算して吐いてるのでしょ
調停とかアライメントとかそれ用の仕組みの有無で待ち時間ありそう
2023/01/17(Tue) 11:00 | URL | LGA774 #-[ 編集]
193190 
EMIBが失敗した時の保険として、QPIでつなぐ従来手法をMCCに担わせていたと邪推。
2023/01/17(Tue) 11:13 | URL | LGA774 #-[ 編集]
193207 
大原氏の記事は、製造工程、製造能力、製造原価などは無茶苦茶な記述が多いから、今回の記事でも2ページ目終わりあたりから出てくる記述はかなり割り引かないと何とも言えない。過去のやらかし例は

「PCテクノロジートレンド 2022 - CPU編」
Intel編は文章量の半分以上が間違った内容というトンデモレベルの記事。
・Intel7のクロック上限は14nm++と大差ない
 →Raptorでさらに1割上がる
・AlderのH0(6コア)ダイはIntel7だとキャパが無理なのでTSMCのN5
 →Intel7(常識的に考えてこっち)
・Raptorは性能・コスト・キャパからTSMCのN3
 →Intel7改善版(常識的に考えて)

「PCテクノロジートレンド 2023 - CPU編」
・Dragon RangeはTSMC N4かN4P
 →直後のCESでN5だと発表(常識的に)

「3D V-Cache搭載Ryzen 7000や、モバイル版のZen 4とRDNA 3も - AMDがCES 2023で新製品を大量発表」
・7950X3Dは2つのCCDに各32MBずつvcacheが乗っている
 →当日中に片方のCCDに64MB乗っていると報じられる(ゲーム時のCCXまたぎの問題を考えたら当たり前)
2023/01/18(Wed) 20:32 | URL | LGA774 #-[ 編集]
193209 
「32-coreの方が」という部分、少なくともXeonは32コアが1枚板で60コアのほうは4枚板なので、通信の最適化の問題があると思われる。

あと機械学習系はAVX-512の影響が大きく、Raptor vs RaphaelだとRaphaelのほうが機械学習系は強いので、Xeonだとそれが逆転するって感じの話の気もする。

いずれにしても、最適化不足でなんとも言えない比較結果という感じではある。
2023/01/18(Wed) 20:50 | URL | LGA774 #-[ 編集]
193211 
AI処理はそのハードに合ったアルゴリズムを使うので、特別な理由が無い限りはわざわざ遅いアルゴリズムを使うことは無いでしょうね。
むしろBF16やINT8に精度落としてでも高速化したいぐらいだと思います。
2023/01/18(Wed) 22:20 | URL | LGA774 #mQop/nM.[ 編集]
193212 
どうせintelお得意の新命令使ったベンチだけ速いってやつでしょ
2023/01/18(Wed) 22:55 | URL | LGA774 #-[ 編集]
193218 
image classificationは、景色を入力して、樹木は青で塗って、道路は黄色、空は白.. みたいに分類していく作業です。その後で、樹木は暗くして、空は違う天気の日に入れ替える みたいな作業を行うこともあります。
2023/01/19(Thu) 09:21 | URL | LGA774 #-[ 編集]
193226 
MCCは本来Emerald Rapidsとして出す予定だったもの説ありそう
以前噂されていた24コアMCC(7行6列?)は結局影も形もなかったし、少し前にMCCのイールドが悪い噂があったから、結局解決しなくてキャンセルされたと考えると辻褄が合う
2023/01/19(Thu) 14:52 | URL | LGA774 #-[ 編集]
193237 
>>193218
それはimage segmentationでは?
classificationは画像に対してこの画像は猫、こっちは犬、みたいなやつだと思っている。
2023/01/20(Fri) 11:40 | URL | LGA774 #-[ 編集]
193242 
自信ないけど私の認識だと
image classification: 一枚の画像全体で何が写っているかを識別
object detection: 一枚の画像のこの(四角形の)部分になに、ここにはこれを識別
segment(boundary) detection: 193218の言うような曲線で囲まれた領域でここは何を識別

たぶんここでは全部ごっちゃまぜで言ってると思うけどね。
2023/01/20(Fri) 16:12 | URL | LGA774 #-[ 編集]
193279 
https://www.tyan.com/JP_Motherboards_S8050_S8050GM4NE-2T

TYANのサイトに1S AMD EPYC Genoa CPU
のマザボのご近影がのっておりますね。
やはりでかいなあ・・
2023/01/21(Sat) 21:05 | URL | LGA774 #-[ 編集]
193354 
asrock rackからdeep mini-ITX出ないかな、Genoad4ID-2Tとか
SODIMMじゃないと12スロット並ばないけど
2023/01/27(Fri) 13:13 | URL | 名無しです #-[ 編集]
コメントを投稿する(投稿されたコメントは承認後表示されます)