Xeon Phi

Xeon Phi（ジーオンファイ）は、インテルが販売しているLarrabee（社内コード）より派生したMICアーキテクチャ (Many Integrated Core)ベースのHPC向けコプロセッサ（後にプロセッサバージョンも追加）のブランド名である。

概要

Xeon Phiファミリーはx86互換のメニーコア・コプロセッサを搭載した、並列コンピューティング用の演算ボードである。第一製品群のターゲットはHPC分野であるが、将来的には企業のデータセンター、ワークステーションなどにも対応する。Xeon Phiコプロセッサは従来のIA-32/Intel 64アーキテクチャ向けアプリケーションをそのまま使うことができることが最大の売りである。そのほかにもホストOSから独立したLinuxベースのOSを動作させることができる。製品はPCI Expressで接続される。

世代

第1世代

Knights Corner

第1世代 Xeon Phi。2012年11月13日発表。製造プロセスは22nm Tri-Gateトランジスタを採用している（Ivy Bridgeと同一の製造プロセス）。インテルXeonプロセッサーE5ファミリーと組み合わせることで、カードあたり倍精度浮動小数点演算で1TFLOPS以上の理論性能がある。本製品はPCI Express形式の拡張カードで供給され、純粋に演算用であって、ラスタライザやビデオ再生エンジン、ディスプレイ出力は存在しない。

本製品の競合相手はNVIDIAのHPC向けGPUであるNVIDIA Tesla、およびAMDのHPC向けGPUであるAMD FirePro (FirePro Sシリーズ、旧称AMD FireStream) となる。Xeon Phiの強みはコアがx86であるために、x86 CPU向けに記述されたプログラムをほぼそのまま利用できる点である。またPCI Expressで接続されているが、本製品の内部にはスタンドアロン型のLinuxが常駐しており、SSHを使ってホストからログインすることができる。これは独立したOSを動作させられないGPGPUでは不可能である。勿論GPGPUと同様、オフロード計算をさせる動作も可能である。

SIMD命令は512ビットであり、倍精度浮動小数点数を8つ同時に扱うことができ、また FMA をサポートしているため、16 FLOPS/cycle である。なお同時期に発売されたHaswellのIntel AVX2は256ビットであり、同時に扱うことができる倍精度浮動小数点数は4つだが、FMAを2つ同時に計算できるため、同じく 16 FLOPS/cycle である。

PCI Express は Gen2.0 x16（片方向あたり8GB/s）。

2012年6月当時、44社のメーカーがロードマップへの組み込みを表明していた。

2017年1月にEnd of Lifeとなった。Intel Math Kernel Library のサポートも 2017 Update 4で終了した。

以下のプロセッサーオプションがある。
- -X: PCI Express接続
- -P: PCI Express接続、ヒートシンク付き
- -A: PCI Express接続、アクティブファン内蔵
- -D: SFF接続

Xeon Phi 5110P: 2012年11月13日発表、2013年1月28日発売。Tri-Gateトランジスタを採用し22nmで製造された製品である。60コア、動作クロックは1.053GHz。倍精度浮動小数点演算の理論性能値は1.011TFLOPS。搭載されるメモリーはGDDR5の8GBで帯域幅は320GB/sである。TDPは225W。5110Pが導入されるシステムにおいてはラック単位での冷却がなされることが想定されているため、カード本体には冷却用の回転ファン機構は存在していない。ホストバスはPCIe2.0であるが、転送レートが高速化されているのでPCIe3.0による接続と性能にあまり変わりはない。コアあたりのL2キャッシュは512KBで、チップ全体でのL2キャッシュの総量は30MBである。メモリーインターフェイスは32bit幅で動作しており、合計で512bit幅である。補助電源コネクタは8ピン 6ピン構成。
Xeon Phi 5120D, 3120P, 3120A, 7120P, 7120X: 2013年6月18日発売開始。
Xeon Phi 31S1P: 2013年第2四半期に発売。中国のスーパーコンピュータシステム「天河2」に用いられた。

第2世代

Knights Landing

第2世代 Xeon Phi。2016年6月20日発表。単精度で 6 TFLOPS 以上、倍精度で 3 TFLOPS 以上になった。プロセスルールは14nm。Atom の Silvermont ベースになった。

型番の末尾にFがつくものはインターコネクトの Intel Omni-Path Fabric を搭載。

ソケットは LGA3647 だが、通常の Xeon との互換性はなく、Xeon Phi 専用のマザーボードでなければ動作しない（物理的にソケットにはまらない）。

オンチップメモリは L3 キャッシュとしても利用できるし、アドレスを割り振り通常のメモリとしても利用可能。7.2 GT/s のもので実測で 490 GB/s になる。

1コアあたり、4スレッド実行可能で、2つのベクターALU（512ビット）、2つのスカラーALU、1つのレガシーx87 ALUを搭載している。よって72コア、1.5 GHzで、単精度は 512 bit / 32 bit * 2 ALU * 2 op * 72 core * 1.5 GHz = 6912 GFLOPS になる。

Knights Landing で採用される512ビット SIMD命令はAVX-512として定義されたものになるが、これはそれまでのKnights Cornerが用いていた「512ビットSIMD演算」とは機械語命令形式が異なり互換では無い。

PCI Express は Gen3.0 x16 (片方向あたり16GB/s)。

対応ソケット: LGA3647

Knights Mill

2017年12月18日発表。Knights Landing をディープラーニング向けに改良。Intel AVX-512のサポートを拡張し、AVX512_4FMAPS、AVX512_4VNNI、AVX512_VPOPCNTDQをサポートした。FP32やINT16の演算を高速化している。x200 よりも FP32 の行列積での演算が2倍高速になった。

なお、Knights Millの後継としてKnights Hillが予定されていたが、キャンセルされた。

対応ソケット: LGA3647

脚注

参考資料

英語

Rezaur Rahman: "Intel Xeon Phi Coprocessor Architecture and Tools", Apress, ISBN 978-1-4302-5926-8 (2013/09/02).
Jim Jefferes, James Reinders: "Intel Xeon Phi Coprocessor High-Performance Programming", Morgan Kaufmann, ISBN 978-0-12-410414-3 (2013/03/01).
Andrey Vladimirov, Vadim Karpusenko: "Parallel Programming and Optimization with Intel Xeon Phi Coprocessors", Colfax International, ISBN 978-0-9885234-1-8 (2013).
Endong Wang, Qing Zhang: "High-Performance Computing on the Intel Xeon Phi:How to Fully Exploit MIC Architectures", Springer, ISBN 978-3319064857 (2014/07/11).
James Reinders, Jim Jeffers: "High Performance Parallelism Pearls: Multicore and Many-core Programming Approaches", Morgan Kaufmann, ISBN 978-0128021187 (2014/11/17).