北森瓦版 - Northwood Blog (Author : 北森八雲. Since July 10, 2006.)
AMD Radeon Instinct MI100 to feature 120 Compute Units, expected in December(VideoCardz)
AMD's CDNA Radeon Instinct MI100 GPU Offer Better than Ampere Performance in Key Workloads - Leak Suggests(OC3D)
AMD Radeon Instinct MI100 ‘CDNA GPU’ Alleged Performance Numbers Show Its Faster Than NVIDIA’s A100 in FP32 Compute, Impressive Perf/Value(WCCF Tech)

AdoredTVによると、CDNAアーキテクチャをベースとした新しいComputer acceleratorはEPYCベースのシステム向けに今年末にローンチされる模様だ。
 
CDNAを採用するとされるRadeon Instinct MI100のスペックは不明であるが、2月にリーク情報があり、一部が明らかになっている。BIOSファイルによるとRadeon Instinct MI100は32GBのHBM2を搭載する。そして今回のAdoredTVの情報もこの情報を支持している。
さらにAdoredTVはRadeon Instinct MI100のCompute Unitを120基であると述べている。CDNAもCompute Unitあたり64基のProcessorを搭載すると想定した場合、128 CUであれば7680-coreとなる。ただし、CDNAアーキテクチャの像がまだおぼろげであるため、Compute Unitあたり64-coreという想定が正しいかどうかはわからない。また今までのGPUのようにStream processorと呼んでよいものなのかどうかもアーキテクチャがわからないためわからない。


演算能力はFP32で42TFlopsであると述べている。この数字はNVIDIAのAmpere A100の19.5TFlopsの2倍以上である。この数字を達成する場合、7680-coreで2.75GHz駆動とするか、15360-coreで1.35GHz駆動とする必要がある。後者の場合、Compute Unitあたりのコア数は64ではなく128となる。

このあたりはAdoredTVのRadeon Instinct MI100 Specsというスライドにまとまっている。

  • 120 Compute Unit
  • 32GB HBM2 with ECC, 1.2TB/sec bandwidth
  • FP64 9.5TFlops, FP32 42TFlops, FP16 150TFlops
  • 消費電力300W
  • 6系統のリンクで8 GPU構成が可能。PCI-Express 4.0に対応し、600GB/secの帯域を有する
  • 2020年下半期予定。OEMからのシステムは出回るのは2021年第1四半期。2020年末にEPYCベースのシステムが予定されている


EPYCベースのシステムとあるが、“Rome”でも“Milan”でも対応できる模様である。またXeonシステムであってもGPU間のリンクは機能する。そしてGPUの数を増やすことによりほぼ完全なスケーリングを目指すとある。1つのクラスタには4または8のGPUが搭載できるとある。

また最も興味深いのはこの一文である。

演算に焦点を当て、グラフィックスパイプラインは持たない

便宜上GPUとは呼んでいるが、Graphics機能は全くなく、演算に全振りしたアーキテクチャとなる模様である。Graphics Core Nextは一般演算とGraphicsを両立させようとしていたが、CDNAの場合は演算に特化し、Graphicsは完全にRDNAに任せることになる。そしてその用途であるが最近のトレンドでもあるHPC, AI, 機械学習があげられている。

“Built for the Broad HPC Market”というスライドにはTesla V100やAmpere A100との比較がなされている。比較はDelivered SGEMMとSGMEE per $で行われており、絶対性能でRadeon Instinct MI100がAmpere A100を上回り、かつコストパフォーマンスはRadeon Instinct MI100がAmpere A100よりも25%程度良好であると描かれている。

EPYCとのシステム構成であるがEPYC 2-way構成で、1つのEPYCに4つのRadeon Instinct MI100がぶら下がっている様子が描かれている。そして4つのRadeon Instinct MI100同士で互いにリンクを形成している。Radeon Instinct MI100同士のリンクはInfiniBandを用い、CPUとGPUの接続はPCI-Express 4.0となる(最終的にはCPUとGPUもInfinity Fabricベースの接続とするところまで目指すだろうが、この世代ではまずGPU・GPU間がInfinity Fabricベースで接続する段階に進む)。


コメント
この記事へのコメント
173862 
やはりエンタープライズはヤバいな…
ただ、これが300Wに収まるならRDNA2も8192基かそれ以上のシェーダを載せるのは容易ということか
2020/07/31(Fri) 00:11 | URL | LGA774 #-[ 編集]
173865 
MI100とROCmで、憎き革ジャン野郎をギャフンと言わせられちゃう?
2020/07/31(Fri) 01:36 | URL | LGA774 #-[ 編集]
173866 
俺のGPUが光って唸る!状態になるのでは……
2020/07/31(Fri) 01:47 | URL | LGA774 #-[ 編集]
173867 
2.75GHz駆動は無理だと思うから15360-coreでCU辺り128コアだろうね。
ROPだのテクスチャユニットだのグラ関係全部外せば倍増は難しくないだろうし。
2020/07/31(Fri) 02:15 | URL | LGA774 #-[ 編集]
173871 
もうCPUだな
2020/07/31(Fri) 03:56 | URL | LGA774 #-[ 編集]
173873 
N7のRadeon Instinct MI125(4096SP)のダイサイズは486平方mmだから
次世代CDNAがN7+と仮定してもワンショットで切り出せるギリギリだし
これで消費電力300Wは眉唾モノですわ
2020/07/31(Fri) 06:27 | URL | LGA774 #-[ 編集]
173876 
このFP32で42Tって言うの、NVIDIAのsparseなんちゃらと同じ誤魔化しなのでは?
FP64だと9.5Tしかないから、演算器自体の性能がその倍だとすると19Tで、
そうすると7680coreで1.25GHzあれば達成出来る。

でないとメモリもバンドが足らないと思うし。
2020/07/31(Fri) 07:08 | URL | LGA774 #-[ 編集]
173877 
15360-coreで1.35GHz駆が有力かな。
もしくは7680core×2の2チップレット構成でInfinity Fabric接続でしょうか。
リークしたスライドによるとスケーリングがほぼ倍々の効率の良さだしね。
ダイサイズも圧倒的に小さくできて低消費電力で高コスパ。
将来的に4チップレット+カード間メッシュ接続もアリかと。
まさにIntelのXe-DG2を先取りしちゃった感じ?
2020/07/31(Fri) 08:01 | URL | LGA774 #Y85ZE23.[ 編集]
173880 
今後、モバイル向けはAIアクセラレーター必要になると思うけど、将来のAPUはCDNAとRDNAの混載だろうか。胸熱
2020/07/31(Fri) 09:46 | URL | LGA774 #-[ 編集]
173881 
これをマルチCPUのソケットへぶち込めれば...
2020/07/31(Fri) 10:17 | URL | LGA774 #-[ 編集]
173883 
MI100はFP32、A100はFP64とAIで圧倒する感じか
用途需要の違いだろうけどこの違いが面白い
2020/07/31(Fri) 12:15 | URL | LGA774 #-[ 編集]
173892 
AMDもピンは凄いんだよなー
ゲーミングのミドルぐらいまで頼むわ
2020/07/31(Fri) 17:54 | URL | LGA774 #-[ 編集]
173893 
ERYCって誰よ
2020/07/31(Fri) 18:07 | URL | LGA774 #-[ 編集]
173915 
fp64が必要な方面はしばらくradeon pro viiでという事なんだろうか。
まあアメリカのexa frops機には間に合わせるんだろうけど。
2020/08/02(Sun) 05:27 | URL | LGA774 #mQop/nM.[ 編集]
173947 
スライドによるとGPU-GPU間は"Infinity fabric"ではなく"InfiniBand"ですね。
歴史も出自も全く別物。
2020/08/03(Mon) 22:44 | URL | LGA774 #-[ 編集]
173955 
EPYCとのシステム構成であるがEPYC 2-way構成で、1つのEPYCに4つのRadeon Instinct MI100がぶら下がっている様子が描かれている…

EPYC1個あたりMI100が2個載ってる1UのものはCPU-GPU間がInfinity Fabric。
(Each EPYC CPU will be connected to two Radeon Instinct MI100 accelerators ... )

EPYC1個あたりMI100が4個の3Uのものは“Targeting ML Training with Scale-out PCIe based Server”という別のスライドで、GPU-GPU間はxGMI。
(Each group of four Instinct MI 100's will be connected together ...)

I/O Fabric:InfiniBandはノード間という意味だと思うんだけどな。
Power:~3kWとか間違いなくノードのことだし。
2020/08/04(Tue) 03:38 | URL | LGA774 #-[ 編集]
コメントを投稿する(投稿されたコメントは承認後表示されます)