北森瓦版 - Northwood Blog (Author : 北森八雲. Since July 10, 2006.)
AMD "Zen 4" Microarchitecture to Support AVX-512(techPowerUp!)
AMD Zen4 core in EPYC “Genoa” may support AVX3-512 instructions(VideoCardz)
AMD EPYC Genoa Zen 4 CPUs Rumored To Feature AVX3-512 & BFLOAT16 Instruction Sets, Firing Back at Intel Xeons(WCCF Tech)
[CPU] [rumor] A picture of Zen4 Genoa I saw in Post Bar, avx512? (Chiphell Forum)

AMDの次のCPUアーキテクチャとなる“Zen 4”は、第4世代EPYCである“Genoa”等に用いられるが、この“Zen 4”アーキテクチャでは新たにAVX3-512命令やBFloat16命令をサポートする。512-bitのAVX命令のサポートはAMDのCPU microarchitectureとしては初めてのものとなる。ただし、AVX-512命令群のうちどこまでの特別な命令群がサポートするかは今後確認する必要がある。また“Zen 4”で実装されるAVX-512命令群が“Zen 4”アーキテクチャを採用する全てのProcessor―エンタープライズ向けのEPYCからクライアント向けのRyzenまで同じように有効化されるのか、あるいはIntelと似た方向性でクライアント向けは一部の命令群にとどまるかも今後見ていかなくてはいけない。

情報の出所はChiphellのForumである。
 
AMD Zen 4 AVX-512 (2021年3月1日)

スライドの一部を切り取ったような画像が掲載されており、その中に今回の内容が含まれている。画像の内容は“Zen 4”の特徴を示したもので、以下の通りである。

  ・1 socketあたり64-coreを超えるコア数。
  ・コアあたりのスレッド数は2-thread
  ・2-socketまでの構成をサポート
  ・57-bit仮想アドレス、52-bit物理アドレス
  ・AVX3-512, BFloat 16、その他の命令セットの実装
  ・設計と製造の改良による性能およびPerformance per wattの向上

AVX-512はIntelの場合、Xeonでは“Skylake-SP”から、コンシューマ向けはMobile向けが“Ice Lake-U”から、デスクトップ向けが“Rocket Lake-S”から実装されている(Mobile向けは厳密に言うとCore i3 8121Uだけが出回った“Cannon Lake-U”からとなる)

AMDはこれまでAVX-512命令の実装を見送っていたが、次の“Zen 4”でいよいよAVX-512命令を実装することになる。一口にAVX-512命令と言っても内容は多岐にわたるので、どこまでの範囲かは今後の情報で確認する必要がある。またAVX-512命令に対応すべくハードウェア側も浮動小数点演算ユニットに何かしらの変更が加わっている可能性が高い。


コメント
この記事へのコメント
179788 
お星様になった8121Uも対応してたのですね…
Ryzenも対応するとなるとベンチマークによってはかなり変わりそうです。
2021/03/01(Mon) 23:42 | URL | LGA774 #-[ 編集]
179791 
AVXなんてシリーズ丸ごと削ってコストと発熱落としつつ闇に葬ってくれた方が良いよ
ああいうのはGPUにやらせるべき
2021/03/02(Tue) 00:56 | URL | LGA774 #-[ 編集]
179793 
個人用途でAVX512はx265ですら同周波数で1割伸びるかどうかだからなあ……
H.266やAV1なら別なのかもしれんがソフトウェアエンコードを現実的な速度で出来るのか怪しいという
2021/03/02(Tue) 01:15 | URL | LGA774 #-[ 編集]
179794 
早くAM5が確実なのか知りたい。
もし6000番台がAM4だったら買う。
2021/03/02(Tue) 01:39 | URL | y #-[ 編集]
179795 
今まで48bit仮想アドレス/52bit物理アドレスだったのを57bit論理アドレス/52bit物理アドレスに拡張する、ということですね。
論理アドレスは64bitまで拡張できますが、物理アドレスは52bitが上限なので、どこにメリットがあるのかは気になるところですが、52bitの仮想アドレスがあれば物理アドレスを全部割り当てできるのでアプリケーションのパフォーマンス上は最大限になりそうです。
2021/03/02(Tue) 02:04 | URL | LGA774 #-[ 編集]
179796 
メインストリームデスクトップ用でも1クロックで512bit SIMDを処理するんなら、個人的には素晴らしいので期待してしまう。さすがにHPC向だけの気がするけど。
2021/03/02(Tue) 04:41 | URL | LGA774 #mQop/nM.[ 編集]
179797 
APGAS(Asynchronous Partitioned Global Address Space)
で使えんのかな。

avx512はマスクレジスタ使えてソート早くなってたような。

問題はどんだけクロックが落ちるかだ。
2021/03/02(Tue) 05:05 | URL | _ #-[ 編集]
179798 
昨年、Intel、AMD、Red Hat、SUSEがx86-64-v2/-v3/-v4を策定しており
AVX-512の一部はx86-64-v4に含まれるのでZen4でのサポートは既定路線
どこまでサポートされるかは不明だが、-v4の要件であるSkylake-SPと同水準までは
サポートされると推定
https://www.phoronix.com/scan.php?page=news_item&px=GCC-11-x86-64-Feature-Levels
2021/03/02(Tue) 06:58 | URL | LGA774 #-[ 編集]
179799 
AVX-512はボロクソ叩かれてるけどIntel唯一の拠り所だったわけで
それが無くなったらIntelは何で勝負するのだろう
TSMC委託でAMDに並ぶだろうか
2021/03/02(Tue) 07:11 | URL | LGA774 #-[ 編集]
179801 
EPYCでXeonと殴り合うには必須でしょう。アドレス拡張も然り。
2021/03/02(Tue) 09:05 | URL | LGA774 #-[ 編集]
179806 
AVXなんぞに回路を割くのはやめて頂きたい
256bit以上は流石に害悪でしかない
intelだけにやらせとけばいいんだよ
もう一回VLIWでも作ってろ
2021/03/02(Tue) 18:55 | URL | LGA774 #-[ 編集]
179811 
>一口にAVX-512命令と言っても内容は多岐にわたるので、どこまでの範囲かは今後の情報で確認する必要がある。
おそらく市場の要求はXeon用に作ったアプリが無調整で動く"お漏らししない"サーバCPUだろうから、命令はフル実装じゃないかな

>個人用途でAVX512はx265ですら同周波数で1割伸びるかどうかだからなあ……
6ch以上のメモリ帯域が無ければデータ供給が間に合わなくてAVX512が本気出さない。と x265の作者が発狂してたような…
そして下手に本気出したら今度は熱密度であぼーん()する
結局ギークの肥やしにしかならないのが

Zen4は得意の"256bitを2回まわして512"と予想してみるテスト
競合他社は熱密度でコア数増やせない問題を解決出来ていないし
コアあたりのスループットが半分でも、数で殴って性能稼げたら結果オーライ

コンシューマー向け製品のAVX512性能はお通夜かもね
だがそれがいい
正直ゲームで多用されるSSEが速くなった方がよっぽど嬉しい
2021/03/02(Tue) 22:03 | URL | LGA774 #-[ 編集]
179815 
>Zen4は得意の"256bitを2回まわして512"と予想してみる
自分もそう思う。というか、AMDにとって重要なサーバー・データセンターを想定した場合、コアをデカくするより、コア数に振った方が有利だと思う。コア数が増えればカバーは出来る。HPC向けには、GPUという手もある。それに、SOA・AI対応というだけでもメリットはあるので、512bitを物理的にサポートまで行く必要はない。やるとしても、次のZen5か、3nm世代の方が得策。
2021/03/03(Wed) 05:35 | URL | LGA774 #9zOzYU0I[ 編集]
179816 
これまでAVX2やAVX-512はクロック制限があって厳しかった

Ice Lake-SPでそれが緩和されるのでかなり性能が上がると思う
2021/03/03(Wed) 05:50 | URL | LGA774 #-[ 編集]
179820 
>>179798
XSAVE命令非対応でx86-64-v3非対応になったExcavatorコアが不憫過ぎる
X86-64-v2だとNehalem相当だからSIMD周りのスループット半減で
Nehalem i5 2.66GHz>Excavator 3.8GHzになってしまう
2021/03/03(Wed) 12:49 | URL | LGA774 #-[ 編集]
179831 
AVX-512はシャッフルがある関係でリードポートが512-bitに
アクセスできる必要があり、「256-bitを2回まわす」ができない
…と後藤氏が言ってた
ttps://pc.watch.impress.co.jp/docs/column/kaigai/1167662.html

Zen2でAVXを物理256-bit化したのに
AVX-512対応としなかったのは同じ理由と思う
2021/03/04(Thu) 02:49 | URL | LGA774 #-[ 編集]
179838 
XSAVECとXSAVESとの勘違いだった
Skylake Zen以降の拡張でx86-64-v3の要件ではない
Haswell Broadwell Excavatorで対応可能なはず
XSAVEの方はSandyBridge Bulldozer 以降の対応だけどHaswell 以前が割りを食う形だね
2021/03/04(Thu) 09:33 | URL | LGA774 #-[ 編集]
179840 
コメントでAVX512がある分intelはベンチスコアが有利てのを見るけど、本当なの?
だとすると、微細化で増えるトランジスタの使い道として、IPCよりAVX512の方が手っ取り早く(見かけの)性能上がるとか。
2021/03/04(Thu) 11:38 | URL | LGA774 #-[ 編集]
179862 
>>179840
ベンチマークスコアの出し方によって違う
AVX命令を多用しているソフトウェアのベンチなら有利になるけど
命令を使っていないなら無意味

とゆうかIPC自体がSIMD的な命令の並列化で上げてたはず
(細かい改良でも上がるみたいではあるけど並列化が多分一番大きい要素)
2021/03/05(Fri) 16:31 | URL | LGA774 #-[ 編集]
179872 
>179831
確かに512シャッフルだけは512bit長のレジスタが必要だけど
だからといって後藤氏は「256-bitを2回まわす」ができない。とは言ってないと思うのだが…

512シャッフルを掛けるデータって、FP32やFP64を集めて512bit長にパックしたものでしょ?
これって必ずしもシャッフルしないと実行できないの?
(他所ではシャッフルはデータを下処理する補助命令と言ってる模様)

AVX512実行ユニットが独立してるインテルCPUなら、シャッフルするのがいいんだろうけど
FPとAVXが兼用ユニットなAMD CPUなら、おそらくFPをそのまま放り込んだ方が速いかと
シャッフルも1発で終わるものではないみたいだし、シャッフルのために何サイクルも実行ユニットのレジスタ占有してると他の処理が詰まるのでは

満場一致でいらない子宣言されたリアル512Bit実行ユニットを実装するかどうかはAMD次第です
2021/03/06(Sat) 10:06 | URL | LGA774 #-[ 編集]
179921 
>179872
>後藤氏は「256-bitを2回まわす」ができない。とは言ってないと思うのだが…
179831とは別の者ですが、別の個人ブログながら専門職と思しき方が、同様に「物理的に端折った実装は想定されていない」と書き込みをされていました。

私も物理的に端折った実装が出来ると思っていたクチなので、この点は想定外でした。なお、既出の通りAVX-512は単なる512bit拡張ではなく、GPU型のいわゆる「SIMT」処理に対応するため、パックド⇒SIMT変換のためのシャッフルユニットがキモになっているみたいです。なので考えられるパターンとしては

・そもそもシャッフルはフルに512bitアクセスできないと出来ない
・別に2サイクルでも可能だがその場合性能のデメリットが半端ないので無意味

のどちらかだと思います。
2021/03/07(Sun) 21:47 | URL | LGA774 #9zOzYU0I[ 編集]
コメントを投稿する(投稿されたコメントは承認後表示されます)