北森瓦版 - Northwood Blog (Author : 北森四葉. Since July 10, 2006.)
Rumor: AMD Epyc2 processors could get 64 cores over 8+1 dies(Guru3D)
Processor rumors: AMD Epyc 2 "Rome" is reportedly a 9-die chip(CompterBase.de)

AMDの第2世代EPYCとなる“Rome”に関する噂がここ2~3ヶ月の間流れており、その1つに“Rome”はCCXの規模を拡大したものではなく、よりMulti-chip moduleのアプローチを推し進めたものになるというものがある。この噂通りであれば、1つのCPUダイにより多くのコアを搭載する必要はないが、Fabricの働きがよりいっそう重要となる。
 
現在のEPYC及びRyzenは8-coreの213mm2のダイが基本で、1つのダイには4-coreのCCXが2つ搭載されている。EPYCでは4つのダイを用い、32-coreを実現する。

より小型のチップを用いる手法はAMD自身が1年前に示唆していた。その背景として7nmプロセスが高コストであることが挙げられている。大型のダイはそれだけ価格も上がり、一方でイールドは下がる。より小型のチップであれば価格を下げることができる。

AMDが示唆していたという資料として“Moore's Low Slows While Cost Contie To Increase”というスライドが掲載されている。250mm2のダイにおけるイールドあたりのコストを折れ線グラフで示したもので45nmを1とした場合の相対値となっている。45nmから14nmまでは緩やかに上昇し、14nmは45nmの2倍程度のコストとなっているが、7nmではその上昇幅が加速し、45nmの4倍、14nmの2倍となっている。

そしてSemiAccurateが10月29日付けで、AMDが“Rome”世代のEPYCで“8 + 1”のアプローチをとるという記事を掲載している。この記事によると、“Rome”ではInfinity Fabricの改良と強化が行われるとともに、新たにSystem Controller chipが導入される。System Controller chipはパッケージに収められている全てのCCXの管理を行う重要な働きを担う。




Twitterでこの構成が図示されている。

まず“Rome”のパッケージの模式図であるが、“System Controller (14nm, 289mm2)”と記された大型のダイを中心に8つのCPU (7nm, 64mm2)のダイが取り囲むように配置されている。8つのCPUダイと1つのSystem Controller chipのダイで“8 + 1”の構成というわけである。

1つのCPUダイは8-core/16-threadで32MBのL3 cacheを搭載している。そして中心のSystem Controller chipとCPUのダイはCore Complex Interface (これもCCXと略されている)で接続されている。メモリコントローラやPCI-ExpressコントローラなどのI/Oは全てSystem Controller chipに集約されており、最大8chのDDR4対応コントローラ(16 DIMM, 2TBまで対応)や、PCI-Expresss 4.0とInfinity Fabric Inter-socket link (IFIS)を兼ねる高速I/Oが配置されている。

もう少し詳しく中を見ると、CPUダイとPCIe/IFIS、メモリコントローラはSystem Controller chipの中のInfinity Fabric Scalable Data Favbric Planeと呼ばれる領域に接続されている(それぞれを接続するインターフェースとして、CCM (Cache Coherent Master), CAKE (Coherent AMD Socket Expander), UMC (Unified Memory Controller (x72 ECC)))が描かれている。

一方、SATAやUSB等の従来のサウスブリッジの機能はIO complexと呼ばれる部位が担っており、Infinity Fabric Scalable Data Fabric PlaneとはIOMS (I/O Master-Slave) がその間を結んでいる。またPCIe/IFISとIO complexは、Infinity Fabric Scalable Data Fabric PlaneのCAKEに接続する線と分岐する形で、PCIeで接続されている模様である。

今回の話の通りであれば、CPUコアとメモリコントローラやPCI-Expressコントローラは別のダイに再び分離され、異なるCPUダイ間の接続やCPUとメモリコントローラは全てSystem Controller chipを介することになる。レイテンシの問題が当然出てくることになり、これらを接続するInfinity Fabricがさらに重要視されるというのはまさにその通りである。

これの16-core / 2ch DDR4メモリコントローラ版も描かれており、2つのCPUダイがSystem Controller chipに接続され、やや規模が縮小されたSystem Controller chipからは2ch分のDDR4メモリコントローラが出ている。おそらくはAM4の仕様を意識して描かれたものであろう。
CPUダイの数を4ダイとし、メモリコントローラを4chに増加、PCI-Expressレーンの本数も増やせばRyzen Threadripperが出来上がりそうである。


コメント
この記事へのコメント
161675 
歩留まりやSKUを増やすのには役立ちそうですけどレイテンシがさらに大問題になってくるのでは・・・
2018/10/31(Wed) 23:52 | URL | LGA774 #EBUSheBA[ 編集]
161677 
スパコンみたい。
コメ1と同感。レイテンシが増えそう。
遂にAMDもコンシューマーとサーバーで
ダイの作り分けとか?
2018/11/01(Thu) 00:19 | URL | LGA774 #-[ 編集]
161678 
メモリコントローラまでオフチップにするとなると、先祖返りとしかいいようがない
2018/11/01(Thu) 01:14 | URL | LGA774 #-[ 編集]
161679 
7nmで64C128Tを実現できるように色々と工夫を凝らしているということかな。EPICの事だけどうまくいくことを祈っています。
2018/11/01(Thu) 01:25 | URL | LGA774 #-[ 編集]
161680 
Romeのサーバー用CPUはそれで問題ないかもしれないけどRyzenとThreadripperでそれするとゲーム性能とか落ちそう。そうなってくると買いにくいなあ。
2018/11/01(Thu) 02:38 | URL | dlan #-[ 編集]
161681 
早い話NorthBridgeの復活やな、マルチCPU構成だけど。
LGA775時代の構成よ。
2018/11/01(Thu) 02:54 | URL | LGA774 #-[ 編集]
161682 
やっぱCellみたいにマネージドコアを入れてくる方向か
こうなってくると段々1チップスパコンみたいなもんになるな

メモリ参照先がマネージドコア一本に絞られるから複数のコアに対して同時にメモリ参照の問い合わせを行わなくて済む
今の形態よりレイテンシーは抑えさられそう
2018/11/01(Thu) 05:54 | URL | LGA774 #-[ 編集]
161684 
AMDにはレイテンシを大幅に改善する秘策でもあるのかな?
実物が楽しみになってくるわ
2018/11/01(Thu) 07:13 | URL | LGA774 #-[ 編集]
161685 
North Bridgeだね
コアのダイは共通化したままイールドを維持しつつ
新チップのMCMでプラットフォームの柔軟性を持たせるのかな
System ControllerとCCXの通信は大変だな
2018/11/01(Thu) 07:54 | URL | LGA774 #-[ 編集]
161687 
ついに64コア128スレッドが来る?
画像ではかなり余裕があるのが末恐ろしい、見た目では16+2ダイも乗りそうだから128コア256スレッドも見えてきそう

7nm Ryzenは64mm2と考えると小さすぎて排熱が十分に出来るのか不安になるけど、7nmは14nmの2倍程度のコストでも30-40%くらい低価格にしてIntelをファブレスに追い詰める事が出来たらTSMCの勝利。そうなると半導体が高騰する恐れが…
2018/11/01(Thu) 08:06 | URL | LGA774 #-[ 編集]
161688 
NUMAの遅延よりコントローラの遅延を少なくできるならマルチスレッド性能は上がるかもね
2018/11/01(Thu) 09:43 | URL | LGA774 #-[ 編集]
161689 
コストが低下する7nm+までの繋ぎアーキテクチャっぽいですね
そしてメモリ2chのRyzenで16C/32T
メモリ帯域の問題も出てきますね
本命はZEN3かなぁ
2018/11/01(Thu) 13:24 | URL | LGA774 #-[ 編集]
161690 
各8コアダイごとにL3が32MBですか.
Zenが1コアあたり2MBだったことを思うと劇的な増量ですね.
この大幅増量がメモリレイテンシ隠蔽に必要になってきているのかな?
2018/11/01(Thu) 13:42 | URL | Terre #-[ 編集]
161691 
メモコンを集約することでinfinityfablicを高速化しレイテンシの問題を解決するのかな?
いままでだとダイ直でないメモリアクセスはレイテンシの増大が問題だったけど
この方法であればダイ直よりは遅くなるけどダイまたぎのような大きなレイテンシはなくなって平均すると早くなるって感じか
遅くなるといっても非同期のintelリングバスくらいはいけるんじゃない?
2018/11/01(Thu) 14:39 | URL | LGA774 #-[ 編集]
161693 
コア数に応じて計算速度が上昇するような設計になることを望む。Ryzen 2600xですら3コア使用時と6コア使用時の各コア計算速度を比較すると2/3に落ちる。この条件で1/2に落ちると多コアの意味が全くなくなるから結構深刻。Cinebenchだけ速くても意味ないんだよな。
2018/11/01(Thu) 19:14 | URL | LGA774 #-[ 編集]
161694 
この構成にするなら4コアccxはリーズナブルじゃないと思う
3次キャッシュをinfinity fablic周りと合わせて2ccx共通にするなら別だけど
その上で上物がはみ出ても良い構造のシリコンインターポーザとしてシステムコントローラチップを使えるならメリットしか無いが
2018/11/01(Thu) 21:10 | URL | LGA774 #-[ 編集]
161696 
流石CELL.B.Eの開発に参加したリサスー。
そんな発想はなかったがレイテンシ増えないかな?というか勝手に9ダイのCPUを想像してるのだが、気持ち悪いことになりそうな気がするのは私だけではないはず。
2018/11/01(Thu) 21:53 | URL | LGA774 #-[ 編集]
161697 
多コアになるとメモリアクセスが競合するからある程度しょうがないよね.
2018/11/01(Thu) 22:02 | URL | LGA774 #-[ 編集]
161698 
もうメニーコア・システムの使い方次第なのかな。
全コアで同期処理するようなフルスレッドアプリケーションならともかく、24コアあって4コアしか使わないようなアプリケーションで遅延の問題というのも、目的が違う訳でしょ。
EPYC系でゲームする訳でもないだろうし。
2018/11/01(Thu) 23:01 | URL | LGA774 #-[ 編集]
161701 
ネタとしては面白いね
歩留まりという点では14nmのRyzen(200mm2)でもほぼ8コアで動くという話だから、7nmでも200mm2までなら全く問題ないだろうな
2018/11/02(Fri) 00:32 | URL | LGA774 #-[ 編集]
161703 
マルチダイを前提とし小ダイの恩恵を追求しするなら、ありだと思う。
CCXからメモコン外してダイ面積を減らし、ダイまたぎアクセスによる不安定なレイテンシも解消する。
サーバ向けならGPUとかHBMとかNVRAMキャッシュとか構成に柔軟性ができそうだし。
ただこういう理屈上おいしいってのは失敗しやすい気がする(ネトバとかネトバとか)
2018/11/02(Fri) 02:21 | URL | LGA774 #-[ 編集]
161704 
普通にCinebench以外も早いが
2018/11/02(Fri) 05:33 | URL | LGA774 #-[ 編集]
161705 
イメージ的にはCELL.B.EとRyzenのいいとこ取りって感じだね。荒業とも言える手法だけど、価格と性能が向上するならそれでいい。レイテンシもさほど変わらないのならもう文句無しでintel超えたかもな。
2018/11/02(Fri) 06:03 | URL | LGA774 #-[ 編集]
161706 
やりたいことはわかるが、上手く行くかは未知数という
いつもながらのAMD設計なのは理解した
2018/11/02(Fri) 09:13 | URL | LGA774 #-[ 編集]
161707 
予想の1つなんだろうが面白い
ダイはいろんなコントローラを省いてL3キャッシュはキャシュを共通化したりして32MBに一気に広大化
SystemControllerには512MBのL4キャシュとか夢があるね
ただ、1ダイのRyzenはどうするのという疑問が残る
2018/11/02(Fri) 14:27 | URL | LGA774 #JalddpaA[ 編集]
161710 
※161693
それは単純に並列処理のコードの書き方が悪いか
処理速度の値を実は処理時間で見ちゃったとかじゃないのか?

使ってるのはRyzen5 1600なんだがPythonでクッソ乱暴に書いた並列処理を6スレッドから12スレッド使う様に変えたら大体演算時間は2/3ぐらい短くなったぞ?
2018/11/02(Fri) 19:16 | URL | LGA774 #-[ 編集]
161712 
夢がありすぎてこの先買うタイミングが読み辛いが、先ずはwin10!
まともに動くOSになってくれ!!!!
By Ivy+win7オジサン
(win10は職場で痛い目にあった組)
2018/11/02(Fri) 20:43 | URL | LGA774 #-[ 編集]
161713 
>161693
それはどちらかというとソフトの問題
2018/11/02(Fri) 20:50 | URL | LGA774 #sSHoJftA[ 編集]
161721 
>161710
>161713

処理内容のB/Fによって並列効率が変わるのはしょうがないよね.
2018/11/03(Sat) 09:14 | URL | LGA774 #-[ 編集]
161722 
7nmの高コスト・歩留まり悪化に対しての戦略があるのが良いね。今のryzenもメモリーコントローラはinfinity fabric経由だけど、オンダイからオフダイになってどれぐらいレイテンシが増加するんでしょうね。
2018/11/03(Sat) 10:09 | URL | LGA774 #-[ 編集]
161723 
>161710
>161713
Rというソフトを3つ起動して各々シミュレーションを走らせた場合の計算時間終了までの時間。これを6つ起動して走らせた場合の計算終了までの時間。これらを比較しての話。並列対応していないソフトとコードでの話。
2018/11/03(Sat) 10:17 | URL | LGA774 #-[ 編集]
161726 
ソフトの問題というよりRyzenの構造上の問題
仕様だね
2018/11/03(Sat) 20:57 | URL | LGA774 #-[ 編集]
161729 
>161726
SkylakeでもRyzenでもRを動かしてるけどそんなの聞いた事無いな。
I/Oの重複で帯域不足とかしょうもない話じゃないのかい?
2018/11/04(Sun) 00:30 | URL | LGA774 #-[ 編集]
161737 
>161723
メモリ帯域で決まるような処理って落ちでは
Ryzenだからという部分ではないかと思うが
GPU負荷高いゲーム複数起動して1個の時よりフレームレート下がってるって騒いでるのと同じでしょ
2018/11/04(Sun) 11:20 | URL | LGA774 #sSHoJftA[ 編集]
161738 
※161723
Rかー…

言わんとしてることは何となく理解した

おそらくプログラム自体は軽くてプログラムがロードして処理させてるのは結構大きいデータかな?

もしそうであれば同じメモリ領域やストレージ領域を複数同じタスクが何度も参照してるからIO帯域が逼迫して遅いだけだな

解決策は使ってるマシンの上で6台の仮想マシン建ててそれぞれにデータと処理を置いて処理を走らせれば
アクセス先のメモリ領域とストレージ領域はキッチリ分割され、利用するIO帯域も整理された分多少減るし転送効率も良くなるからある程度解決する

もし、それぞれの処理結果を統合して参照したいのであれば自分で並列処理を設計して処理書くしかないね

※161726
このやり方だとインテルCPUでもRyzenと同じ事が起きるぞ
リングバス採用してた時代のインテルCPUだと余計に酷い速度かもしれん
2018/11/04(Sun) 16:53 | URL | 161710 #-[ 編集]
161741 
>161723
CPUのメモリの待ち時間はWindowsでもLinuxでも
いわゆるCPU時間として計上されるので
メモリアクセスを待ってるだけの場合は
CPUが100%に張り付いてるのに実際の
スループットが低いように見えるかも。

一部のパラメータをちょっと弄った計算を並列して
回す場合にはIOがほぼ同時になるのでありがちな話。
2018/11/04(Sun) 18:24 | URL | LGA774 #-[ 編集]
161746 
「遅くなった」と言い張る人の条件が
Ryzenの脆弱性を発見したと言い張った
某イスラエルの企業の言い分と被るのはどうして…
2018/11/05(Mon) 20:46 | URL | LGA774 #-[ 編集]
161753 
Cascade Lake-APは48コアなのでAMDがEPYCのハイエンドを32コアでとどめるとは思えない。コア数が1.5倍では競合になれない。あるいは新ソケ?
2018/11/07(Wed) 00:27 | URL | LGA774 #-[ 編集]
コメントを投稿する(投稿されたコメントは承認後表示されます)
URL:
Comment:
Pass:
秘密: 管理者にだけ表示を許可する
 
トラックバック
この記事のトラックバックURL
https://northwood.blog.fc2.com/tb.php/9571-2c7b2998
この記事にトラックバックする(FC2ブログユーザー)
この記事へのトラックバック