北森瓦版 - Northwood Blog (Author : 北森八雲. Since July 10, 2006.)
Intel Skylake Microarchitecture Detailed(techPowerUp!)
Intel Skylake Architecture Preview Quick Take From IDF 2015(Hot Hardware)
Intel Skylake Processor Architecture Overview - Scaling from tablets to servers(PC Perspective)

IDF 2015で開催されたJulius Mandelblat氏 (Senior Principal Engineer at Intel) のセッションで“Skylake”のCPUコアにおける変更点が語られた。コアの変更とともに内部接続とメモリインターフェース、電力・温度管理機能についても改良が施されていることが明らかにされ、結果プラットフォームレベルでの改良となっているという。一方、性能については詳しくは語られなかった。

いくつかのスライドが掲載されていますので順番に見て行きたいと思います。
 


◇“Intel's Skylake Microarchitecture”
4-coreの“Skylake”のダイアグラムとなるでしょうか。4つのCPUコアに加えiGPUとしてGT2, GT3, GT4のいずれか、システムエージェントとしてDual-channelに対応するメモリコントローラ、16レーンのPCI-Express 3.0レーン、Display出力、ISP、DMI/OPIが配置されています。内部バスがリングバスである点は従来通りです。主な改良点として以下が挙げられています。

  • LLC及びリングバスのスループットの改善
  • コアにおけるIPCの向上、電力効率の向上
  • より高い解像度への対応
  • chipset I/O, Tablet I/O及びAudio DSP Upgrade, Sensor HUBのスループットの向上
  • Camer ISPの内蔵
  • オーバークロック機能の向上
  • より高速なDDRメモリへの対応
  • GT3+eDRAM, GT4+eDRAM、APIとしてOpenCL 2.0, DirectX 12, OpenGL 4.4へ対応



◇“SKL Core Microarchitecture at a Glance (1 of 2)”
これはもう少しCPUコアの内部に踏み込んだ内容となります。まず、それぞれのSegmentにおいて最適化が図られたとあります。そして改良点としてフロントエンドの改良、Out-of-Order bufferの深化、Execution unitの改良の3点が大まかに挙げあられています。
フロントエンドの改良としては、容量の増加と分岐予測の向上、プリフェッチの高速化、より深化したバッファによる命令供給の広帯域かが挙げられています。
2番目のOut-of-Order bufferの深化については“Extract more instruction parallelism”とだけ記されています(命令の並列性をより効率的に抜き出せるようにする、ということ?)。
最後のExecution Unitの改良については、レイテンシの削減、ユニットそのものの増加、使用されていない場合の電力シャットダウン機能、そしてAES-GCM及びAES-CBCの高速化(前者が17%、後者が33%)が記されています。



◇“SKL Core Microarchitecture at a Glance (2 of 2)”
個々で挙げられているのはLoad/Store bandwidthの拡大と、HyperThreading technologyの改良の2点です。
前者にはプリフェッチャの改良、Store buffer, fill buffer, write-back bufferの深化、ページミス制御の改良、L2 cachje miss bandwidthの改良、そしてより良いキャッシュ管理を実現する新命令が挙げられています。



◇“Instrucion Window Keeps Increasing”
ここでは命令に関わるWindowが“Haswell”と比較して“Skylake”では増加していることが示されています。以下にまとめます。

HaswellSkylake
Out-of-order Window192224
In-flight Loads7272
In-flight Stores4256
Scehdular Entries6097
Integer Register File168180
FP Register File168168
Allocation Queue5664/thread


次はキャッシュについてですが、その構造そのものは“Haswell”世代とそれ程変わっていません。しかし、複数のエリアにおいてスループットの向上がなされています。例えばLLC mishadingとfabric throughputは2倍となっています。またeDRAMはメモリサイドキャッシュとしても使用が可能です。eDRAMは完全にcoherncyを保てるものとなっており、コアやI/O, display engineで使用できるものとなっています。

他にはImaging Solutionに関する話題がありますが、これはカメラなどの話になってくるので自作PCの世界においては縁遠い話でしょう。



Intelの次世代マイクロアーキテクチャ「Skylake(Impress PC Watch / 後藤弘茂のWeekly海外ニュース)
Skylakeの“SpeedShift”でPステートの消費電力削減を実現(Impress PC Watch / 笠原一輝のユビキタス情報局)

日本語の解説記事が掲載されています。

“Skylake”のGPUについてGPU computingに向いたアーキテクチャに進化したと述べられており、具体的には共有仮想メモリとキャッシュコヒーレンシ、ファイングレインのタスクスイッチングが揃っていると記述されています。HSA(Heterogeneous System Architecture)相当のGPU computingが可能であるとも述べられています。

自作PCではともすればdGPUを挿されて使われることのなかったIntel CPUのiGPUですが、今後グラフィック以外の形で有効活用できれば喜ばしいことではないでしょうか。


コメント
この記事へのコメント
149564 
> “Extract more instruction parallelism”
Out-of-Order bufferの深化によって、より広い範囲の命令間の依存性をチェックできるようになった結果、前の命令の結果を待たずに実行できる命令が増える→命令レベル並列性が改善したってなことかと。
2015/08/20(Thu) 08:49 | URL | LGA774 #-[ 編集]
149579 
正直なところ内蔵GPUなんてどこの会社も玩具みたいなもので、そんなので汎用コンピューティングしてる人なんていないと思うんだよなあ。
2015/08/21(Fri) 01:44 | URL | LGA774 #-[ 編集]
149588 
iGPUを無効化して、
TBの最高周波数を上げたものを
出して欲しいな
2015/08/21(Fri) 08:28 | URL | LGA774 #-[ 編集]
149593 
見た感じ、今までと違ってRSが、演算OPとメモリOPに分かれたようだな。
だからスケジューラーが97エントリーに増えたといっても実質的には微増といったところだろう。

リタイアメントが増えたのはこれらを同時にリタイアメントする為だろうか。
2015/08/21(Fri) 14:26 | URL | LGA774 #-[ 編集]
149606 
内蔵GPUはMMUを共用できるという利点があるので
PS2のVU1みたいなコプロセッサになっていくのでしょう。
2015/08/21(Fri) 21:59 | URL | LGA774 #Dosiar0g[ 編集]
149619 
実行ユニット数に関しては、ベクター整数加算が2→3、ベクター整数乗算1→2、ベクターFP加算が1→2、ベクターFP論理が1→3に増えているようだね。それとFMAは乗算加算等の、FPユニットのレイテンシーが4で統一されたようだ。
2015/08/22(Sat) 13:23 | URL | LGA774 #-[ 編集]
コメントを投稿する(投稿されたコメントは承認後表示されます)
トラックバック
この記事のトラックバックURL
https://northwood.blog.fc2.com/tb.php/8230-bb4ee50f
この記事にトラックバックする(FC2ブログユーザー)
この記事へのトラックバック