北森瓦版 - Northwood Blog (Author : 北森八雲. Since July 10, 2006.)
AMD Announces CDNA Architecture. Radeon MI100 is the World's Fastest HPC Accelerator(techPowerUp!)
AMD Announces Worlds Fastest MI100 HPC Accelerator for Scientific Research(Guru3D)
AMD announces MI100 with 120 Compute Units, 32GB HBM2 memory(VideoCardz)
AMD Instinct MI100 32GB CDNA GPU Launched(ServerTheHome)
AMD、CDNAの第1世代を実装したRadeon Instinct MI100を発表 (マイナビニュース)
AMD Announces World’s Fastest HPC Accelerator for Scientific Research(AMD)

AMDは11月16日、AMD Instinct MI100 acceleratorを発表した。Instinct MI100は最速のHPC GPUであるとともに、倍精度浮動小数点演算性能で初めて10TFlopsの壁を越えるx86サーバー向けGPUとなる。Instinct MI100をサポートする演算プラットフォームはDell, Gigabyte, HPEそしてSuperMicroから用意され、EPYCとRocm 4.0 open software platformを組み合わせで、Excascaleへの扉を開く新しいソリューションとなる。

プレスリリースには主な特徴が以下のように箇条書きにされている。
 
  • 新しいAMD CDNA architecture
    AMD GPUをExcascaleのエリアに到達させるために開発されたMI100 acceleratorの心臓部である。AMD CDNA architectureは比類なき性能と電力効率を提供する。
  • HPC Workloadにおける最先端のFP64, FP32性能
    FP64演算性能は11.5TFlops、FP32演算性能は23.1TFlopsに達する。
  • HPCおよびAI向けの新しいMatrix Core technology
    FP32, FP16, bFloat16, Int8, Int4のようなSingle and mixed pricision matrix operationを最大の範囲においてさらに強力とした性能を得られるようにした。HPCやAIでの性能向上状を狙う
  • 第2世代AMD Infinity Fabric technology
    peer-to-peer (P2P) の最大帯域は340GB/sに達する広帯域である。そしてInstinct MI100は1枚のカードあたり3本のInfinity Fabric linkを搭載し、4 GPUのクラスタを2つまで最大速度で接続できる。この場合、高速データ共有で最大552GB/sのP2P I/P帯域を提供する。
  • 高速なHBM2メモリの採用
    32GBのHBM2メモリを搭載。動作周波数は1.2GHzで、帯域は1.23TB/sに達する。
  • 最新のPCI-Epxress 4.0への対応


上の訳は大分怪しい箇所がありそうだが、ServerTheHomeにInsitnct MI100のスペックを記したスライドが多数掲載されている。それによるとInstinct MI100のスペックは以下のようになっている。

◇Instinct MI100
  ・Compute Unit;120
  ・FMA64 & FP64 Peak;11.5TFlops
  ・FMA32 & FP32 Peak:23.1TFlops
  ・FP32 Matrix Peak:46.1TFlops
  ・FP16 Matrix Peak;184.6TFlops
  ・BFloat Peak;92.3TFlops
  ・Memory:HBM2 32GB, 1.23TB/s
  ・PCI-Express 4.0
  ・Infinity Fabric Links (x16):276GB/s
  ・Max power:up to 300W

ブロックダイアグラムを見ると、Compute Unitは8つのShader Engineに分けられて配置されている。そしてL2 cacheを共有しているが、RDNA 2に見られたようなInfinity Cacheは備えていないように見える。

またカードの外観であるが、完全に演算用のアクセラレータとなっており、画像出力の類いは備えていない。AMDのGPUもGraphics向けと演算向けに分かすることがロードマップで示されていたが、今回その分化した2つのGPUがそろったことになる。


コメント
この記事へのコメント
177128 
大原氏の解説では、Wavefrontの粒度が10wayになった、ということが掛かれているが、ドキュメントを見る限り、そんな記述はないように思うのだが・・・。むしろ、GCNを基礎に、AI向けの行列系演算を新たに強化した、という感じに見えるので、論理ベクタ長は64wayのままじゃなかろうか。
2020/11/17(Tue) 21:58 | URL | LGA774 #9zOzYU0I[ 編集]
177129 
蝋燭レビュー楽しみにしてます
2020/11/17(Tue) 21:59 | URL | LGA774 #-[ 編集]
177133 
CDNAはVegaの発展形なんだろうか?
厳密にはまだ明かされてないような
2020/11/18(Wed) 00:22 | URL | LGA774 #-[ 編集]
177135 
radeon proみたいな、instinctよりお安いのも出してほしい…
2020/11/18(Wed) 03:58 | URL | LGA774 #mQop/nM.[ 編集]
177136 
GPU、なのか。それ。
2020/11/18(Wed) 07:36 | URL | LGA774 #a2H6GHBU[ 編集]
177142 
CDNAってCUDAと見間違えそうになりますね
もしかして狙ってる?
2020/11/18(Wed) 11:46 | URL | LGA774 #-[ 編集]
177150 
>大原氏の解説では、Wavefrontの粒度が10wayになった、ということが掛かれているが、ドキュメントを見る限り、そんな記述はないように思うのだが・・・。

ホワイトペーパーからのコピペと思われるPhoto09にはそう書かれていますが
そりゃあグラフィックスと分化しないと無理だわ
2020/11/18(Wed) 20:42 | URL | LGA774 #-[ 編集]
177168 
>ホワイトペーパーからのコピペと思われるPhoto09にはそう書かれていますが

10 Wave cntrs ってやつですかね。私はこれはwaveが10wayということではなく、演算ユニットの前の待機用バッファのことを指しているのだと思います。そこに同時に保持できるwavefrontの数が10個だということではないかと。
2020/11/19(Thu) 05:56 | URL | LGA774 #-[ 編集]
177184 
なんか色々とRADEON Ⅶの2倍…
ということは…実質RADEON XIV?w
2020/11/19(Thu) 10:11 | URL | LGA774 #-[ 編集]
177232 
比較対象のA100の仕様を改めて見てて思ったんですが、FabがTSMCにしろSamsungにしろ、NVIDIAの現行世代は無効化されているユニット数が多すぎるような気がする。
それに対して、AMDのGPUが比較的最小限の無効化で済んでいるのは、何か設計(クリティカルパスの潰し方)の違いなのか、それとも純粋にダイサイズの違いに起因するものなのか、TSMCの7nmへの理解度の違いなのか・・・
2020/11/20(Fri) 13:12 | URL | LGA774 #-[ 編集]
コメントを投稿する(投稿されたコメントは承認後表示されます)