北森瓦版 - Northwood Blog (Author : 北森八雲. Since July 10, 2006.)
AMD Trinity APU Preview: Evolution or Devolution?(VR-Zone)
AMD Trinity and Piledriver detailed(NordicHardware)

5月15日にAMDは現行A series APU(“Llano”)の後継となる“Trinity”をローンチする。この“Trinity”は製造プロセスこそ“Llano”と同じ32nm SOIであるが、CPUコアには新型の“Piledriver”コアが用いられる。今回、VR-Zoneでは“Trinity”のアーキテクチャについて眺めてみることにした。

まず“Trinity”の拡張点をまとめてみよう。
CPU部分は“Piledriver”モジュールを最大2モジュールまで搭載する。“Piledriver”は第2世代の“Bulldozer”とも言うべきもので、1モジュールには2基の整数演算ユニットと1基の浮動小数点演算ユニットを備えている。
メモリコントローラはデスクトップ向けがDDR3-1866までに対応、ノートPC向けがDDR3-1600までに対応する他、より低電圧な1.25V駆動のDDR3にも対応できるものとなる。そしてGPUは最大384基のRadeon Coreを備えるものとなる。製造プロセスはGlobalFoundriesの32nm SOIプロセスとなる。
 
次にTDPであるがデスクトップ版は100Wまたは65Wで現行の“Llano”と変わらない。一方ノートPC向けは35Wに加えて、25Wと17Wが新たに登場する。
周波数はCPUが2.00~3.80GHz、GPUが424~800MHzである。
命令セットとしては新たにFMA 3命令セットが搭載される。このFMA 3はIntelの“Haswell”でも搭載予定のものであり、初代“Bulldozer”のFMA 4とは異なるものである。この他、スケジューリングや分岐予測、ブリフェッチャなどCPUコアには改良が施されており、初代“Bulldozer”からIPCを高めたものとなっている。


Turbo Coreも“Trinity”で新しくなり、Version 3.0となっている。そしてCPUとGPUのバランスをTDP内で調整し、アプリケーションのワークロードに応じて周波数を動的に変えられるものとなっている。ただし、これがハードウェアで制御されるのかあるいはソフトウェアドライバで制御されるものかはまだ明らかにされていない。

GPUはRadeon HD 6900系で使われたVILW 4系のものが“Trinity”で採用された。現行のRadeon HD 7000系の“Graphics Core Next”から見るとGPUアーキテクチャは1世代前のものである。ただし、UVDに関してはRadeon HD 7000系に採用されたものが使われている。先週リークしたベンチマークではNVIDIAのGeForce GT 550を下回るものであり、HD画質でのゲームはエントリーレベルがいいところであろう。

VR-ZoneにはAMDのものと思われる7枚のスライドが掲載されており、それに“Trinity”の改良点が記載されています。

1枚目は“Trinity”の特徴を簡潔にまとめたもので、おおむね上記で触れたとおりです。
2枚目は「"Trinity" TECH SPECS」と題されています。ここにはダイサイズが246mm2であること、トランジスタ数が13億300万であることが記されています。
これに3、4、7枚目のスライドを足すと“Trinity”のスペックが見えてきます。

Trinity
製造プロセスGlobalFoundries 32nm SOI
CPUアーキテクチャPiledriver
最大コア数4-core/2-module
周波数2.00~3.80GHz
キャッシュ構成L2=2MB / module
拡張命令AVX, AVX 1.1, FMA 3, AES, F16C 他
GPUアーキテクチャVLIW 4
StreamProcessorMax 384 sp(64 sp / SIMD, Max 6 SIMD)
周波数424~800MHz
Texture unitMax 24(4 / SIMD)
ROPZ/stencil ROP:32
color ROP:8
APIDirectX 11/Shader model 5.0, OpenCL 1.1, DirectCompute 11
動画再生支援UVD
HD動画再生対応
エンコーダAMD Accelerated Video Converter
(ハードウェアベースのエンコーダ)
画面出力HDMI, DVI, DisplayPort 1.2
4基の独立したディスプレイコントローラを搭載、3画面出力が可能
Eyefinity technology搭載
メモリコントローラDual-channel DDR3-1866
(Mobile向けはDDR3-1600まで)
1.25Vの低電圧版DDR3に対応
PCI-Express24レーン
その他Turbo Core 3.0
IOMMU v2


CPUコアの改良については4枚目と5枚目に主に書かれています。特に5枚目で具体的な改良点についての記載があり、基本的な構成は“Bulldozer”を踏襲(Moduleでフロントエンドと浮動小数点ユニット、L2キャッシュを共有する一方、整数演算ユニットは独立したものを2基備える)しながらも、多岐にわたる細かな改良が施されています。列挙するにはなかなか多いため、これに関しては実際にVR-Zoneに掲載されているスライドを見ていただくのがいいでしょう。フロントエンドから演算ユニット、キャッシュに至るまでのあらゆる点に改良がなされている様子が分かります。