Intel、60基のx86コアを搭載する「Xeon Phi」を発表

Intel、60基のx86コアを搭載する「Xeon Phi」を発表 39

ストーリー by hylom 2012年11月15日 8時00分
夢が広がる部門より

あるAnonymous Coward 曰く、

Intelが60基のx86コアを搭載する「Xeon Phi」を発表した。Xeonという名前が付いているがCPUではなく、PCI Express接続の補助演算ユニットという、いわゆる「アクセラレータボード」である（4Gamer、PC Watch）。
Intelはかつて開発コード「Larrabee」と呼ばれる、GPUとしても利用できるアクセラレータ向けプロセッサを開発していた。今回発表されたXeon Phi（（コードネーム「Knights Corner」）はこれの後継となるものという。Xeon Phiは5110Pと3100シリーズというラインアップが用意されており、5110Pの場合搭載コア数は60個でコアの動作クロックは1.053GHz、メモリは8GB（GDDR5）、30MBのキャッシュを持つ。メモリ帯域幅は最大320GB/秒。
また、既存のソースコードを簡単な修正のみでXeon Phiに対応させられるのも特徴だという。Xeon Phiは「60コアを持つx86プロセッサ」として扱えるので、プログラミングが容易ということがアピールされている。
なお、Xeon Phiはまず5510Pが2013年1月28日より販売され、続いて2013年前半に3100シリーズが販売されるとのこと。1,000個ロット時の想定価格は5110Pが2,649ドル、3100シリーズは2,000ドル以下だそうだ。

また、別のAnonymous Coward 曰く、

Xeon Phiは、60個のコアをワンチップに集積、チップ当たりの理論最高性能は1TFLOPSになるという野心的で先進的なHPC向けのチップであるが、後藤弘茂氏の分析によると、IntelはこれをGPUとして使うことを諦めていないようだ。
Intelの正式なコメントでは「ハードウェアはLarrabeeだが、ソフトウェア層をHPC向けにしたのがKnights Ferryだ。グラフィックス向けの機能はダイに載っているが使っていない」となっている。　後藤氏のダイの写真からの分析によると、Xeon Phiには8個の正体不明のユニットが残っているという。位置的にはCPUコア間通信用のリングバスに接続されていると見られ、テクスチャユニットではないかと予想されている。
Intelは元々Larrabee2として設計された物を流用していると説明しており、盲腸的に残っている説明もできるが、最近のIntelのプロセッサーはリングバスによって必要のないモジュールを外して設計することが容易になっており、全く必要ないと考えているならば残っているのは不自然とも言える。
IBMおよびソニーのCell、IntelのLarrabeeなど、汎用性の高いコアをGPU的に使うのは専用GPUとして設計されたものと比べてトランジスタ当たりの性能が悪く不利である、ということを十分知ってるはずのIntelであるが、やはりGPU化の夢を捨て切れないのだろうか。
本業機械屋でどう表現しても素人のタレコミ子としては、最近のPS3の高性能描画エンジンではCell内のSPEでジオメトリプロセスを演算することで高い性能を発揮しているものがあることを考えると、ユニファイドシェーダーの流れを無視してジオメトリプロセスだけXeon Phiのコアに行わせて、ピクセルシェーダーはGPU専用に開発したものを使う、という方法なら生きる道はあるのではないかと考えます。
その他、Xeon Phi自体へのコメントもどうぞ宜しくお願いします

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索39コメント Log In/Create an Account

意外とたいしたことない？ (スコア:2)

by shinshimashima (9763) on 2012年11月15日 10時10分 (#2272733) 日記

ピーク性能で1.011TFLOPSって昨今のGPUと比べたら意外とたいしたことがないという印象。
極論するとPS3以下。
もちろん、x86でこの性能ってのがすごいわけだけど。今のCPUだと25GFLOPS/coreくらいだし。
- Re:意外とたいしたことない？ (スコア:1)
  
  by deleted user (18918) on 2012年11月15日 10時44分 (#2272753) 日記
  
  ｘ86コアが増える用途で喜ばれるとしたら、FLOPSよりMIPSの方が重要じゃないかな。
  
  シェア
  
  親コメント
  - Re:意外とたいしたことない？ (スコア:1)
    
    by shinshimashima (9763) on 2012年11月15日 11時32分 (#2272778) 日記
    
    単純計算で5TIPSくらい？
    そういわれるとスゲーって感じがするね。
    
    シェア
    
    親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  倍精度演算で1TFLOPSなんで、ちょうどNvidiaのTesla K20とかRadeonのHD7970 GHz Edとかと同じくらいのはずです。
  PS3なんてこれ以下じゃなかったっけ?
  - Re:意外とたいしたことない？ (スコア:1)
    
    by shinshimashima (9763) on 2012年11月15日 11時28分 (#2272775) 日記
    
    PS3のGPUは公称1.8TFLOPSです。この時代だと単精度だとは思いますけど。
    ＃1.5GFLOPSの壁（スパコンか否か）があるので、ちょっとは気にするのよね。
    
    シェア
    
    親コメント
    - Re:意外とたいしたことない？ (スコア:2)
      
      by epgrec (43527) on 2012年11月15日 11時41分 (#2272786)
      
      単精度ですし、さらにPS3のGPUはNVIDIA G70がベースで固定ハードウェア込みの
      演算性能を表示していたはずです。ゲーム機のカタログスペックだからそれで
      良いのですけど、プログラマブルではない部分の演算能力はスパコンと比較するつもりであれば
      それほど意味が無い、というか条件付きになりますね。
      PS3は「7年前」に出た「ゲーム機」ですからね、昨今のGPUやXeon Phiと比較するのは余りに
      酷すぎると思いますが？
      
      シェア
      
      親コメント
    - 単精度がどーこーとかいう話じゃないです (スコア:0)
      
      by Anonymous Coward
      
      当時のハイエンドである7800GTX(24ps/256bit/550/～1700MHz)が300～500GFlopsなのにRSX（24PS/128bit/450?/1400?MHz)が
      1.8TFlopsなんて数字が比較対象になるわけねっす。
      実態としては単精度250GFlops前後じゃないっすかね＞RSX
あまりにも処理が早すぎて (スコア:1)

by iwakuralain (33086) on 2012年11月15日 9時01分 (#2272683)

マウスカーソルを見失ってしまった・・・・
# まぁ昔の遠い思い出です・・・・
- Re:あまりにも処理が早すぎて (スコア:1)
  
  by masahikoi (1183) on 2012年11月15日 16時26分 (#2272940)
  
  ログの流れるのが早くなりすぎてCtrl+Sで止められなくなる話を思い出しましたｗ
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  マウスカーソルの処理は瞬時（遅延時間を人間が体感不能）じゃないの？
  マウスカーソルを見失うのは、マウスの移動量とマウスカーソルの移動量との比率の設定が不適切なだけで。
  あるいは、マウスカーソルのデザインが悪くて見失いやすいとか。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    まじれす！？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    マウスデバイスを動かしてから、PCに信号が到達するまでの時間次第。
TDP225W (スコア:0)

by Anonymous Coward on 2012年11月15日 8時13分 (#2272663)

60コアの5110PのTDPが225W、ということは1コアあたりのTDPは225W/60=3.75W
ちょっと信じられない値だな
土下座して頼むから組込用のシングル・コアTDP3.75WのIntelプロセッサを売ってくれ！
- Re:TDP225W (スコア:2, おもしろおかしい)
  
  by Anonymous Coward on 2012年11月15日 8時29分 (#2272668)
  
  デュアルコアで TDP3.5W の Atom N2600 [intel.com] はいかが？
  
  シェア
  
  親コメント
- Re:TDP225W (スコア:1)
  
  by Anonymous Coward on 2012年11月15日 8時42分 (#2272676)
  
  Atom Z2760（CloverTrail）とかも最近発表されたじゃん。
  2コア（4スレッド）、最高1.8GHzでTDPが1.7W。
  チップセットもVGAも動画系のエンコーダ/デコーダものってて便利だし。
  もうちょっと前だとSodavilleなんかも1.5Wぐらいだったような。
  必要なら買って使えば？
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  煽ったつもりがすごい恥さらしだな
  責任持ってCloverTrailを60個ほど買いなさいよ
- Re: (スコア:0)
  
  by Anonymous Coward
  
  後藤氏の記事を読むと、動作周波数が1GHzちょい。
  外部メモリI/Fが60セットあるわけでない。
  この辺りがカギかな。
  # Xeonを名乗っているけど、x86のバイナリは動くの？
  # 後藤氏の記事でも全然触れられていないし。
  - Re:TDP225W (スコア:1)
    
    by ken-1 (4041) on 2012年11月15日 12時17分 (#2272804)
    
    Webサーバ用にAtomをいっぱいならべたサーバとかをたまに見かけますが、
    そういう用途には流用できないということでしょうか。
    そもそもI/Oを自前で制御できないという問題のほうが
    大きいのかもしれませんが。
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      プロセッサー間のキャッシュメモリーのコヒーレンシーをサポートしていないので、巨大なSMPマシンとしては使えないものの、ネットワーク接続されたクラスタとしては使えるようです。
      独自インターフェースではなく、MPIライブラリーから利用できるなら、HPC向けにシステムがスケールできて面白いだろう。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    x86のインストラクションは持っている [www.isus.jp]ようだけど、バイナリレベルで互換性があるかは謎。
    もっとも、バイナリレベルで互換があってもWin32のアプリケーションがそのまま動く、なんとことはないので意味がないでしょうな。
    1コアあたりだと、ATOMと比べてもずっとシンプルなコア [impress.co.jp]のようです。
    - Re:TDP225W (スコア:4, 興味深い)
      
      by epgrec (43527) on 2012年11月15日 11時30分 (#2272776)
      
      原則的には動くようですが、すべてのx86命令をサポートしているわけでは無い
      ……MMX、SSE、AVXはサポートされない……があるようで、すべてのバイナリが動作する
      わけでもないようです。
      http://software.intel.com/en-us/blogs/2012/06/05/knights-corner-open-s... [intel.com]
      Xeon PhiのLinuxカーネルをビルドするためにgccの多少の改造が必要だったらしいことが
      書かれてます。現状、gccでは512bit VFPはサポートされていません。
      カーネルのソースの方は512bit VFPサポートのための細かい多数の変更等が行われているとありますね。。
      基本的にはP6の命令セットとほぼ互換性を持つようです。
      Kernel MLの方には今のところMSRとperfmonの関連のコードしか投げられていないように見えますけど？
      （当然）カーネルのソースも公開するとのことだったので、いずれMLに投げられると思いますyo。
      
      シェア
      
      親コメント
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        > This combination of Linux, 64-bits, and new vector capabilities with an Intel® Pentium® processor-derived core, means that Knights Corner is not completely binary compatible with any previous Intel processor.
        > Because of its unique nature, you’ll see statements like this in our code: “Disclaimer: The codes contained in these modules may be specific to the Intel® Software Development Platform codenamed: Knights Ferry, and the Intel® product codenamed: Knights Corner, and are not backward compat
要するにこれって (スコア:0)

by Anonymous Coward on 2012年11月15日 9時24分 (#2272700)

60個のエロゲを時分割せずに同時に動かせる代物って事ですか？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  Windowsはメニーコアに対応してないから動かないんじゃ
  Linuxは動くらしいけど
make -j (60 + CPU数) (スコア:0)

by Anonymous Coward on 2012年11月15日 9時34分 (#2272711)

パネェ・・・・
うちの3770Tでさえ小一時間かかっているLibreOfficeのビルドもわずか数分で終わりそうな勢い（笑）
むしろリソースの方がついてけないんじゃないのかな
9並列でビルドした状態でさえ2～3GBもメモリ食ってる、これが60並列とかやった日には・・・・
現状最速のSSDでさえ、2台でRAID-0しててもIOPSがMAXに貼り付きそうだ
特定用途でしか使えないGPGPUと違い、通常のx86として使えるのは大きな強みだね
＃とはいえ拡張命令やら何やら違うからdistcc扱いになって-march=native使えないだろうから微妙だな
＃ x86とか書いてないからx86_64はクロス扱いになってたりすると、逆に個々が遅すぎて足ひっぱるってレベルじゃないかもしれないな
- Re: (スコア:0)
  
  by Anonymous Coward
  
  いくらPhiのコアが内部的に普通のx86とはいえ，OSから見たらCPUとは全く別のデバイスですからね．コア1個毎に別プロセス割り当てられるとはとても思いませんが．
  distccが「別ホストへ丸投げして結果待ち」ではなくて「コプロセッサへ処理を投げて結果の回収まですべて管理」できるようになれば多少は可能性もありえましょうが．
  どっちにしろコンパイルファームとして使うにも結局PCIeとストレージ系の2箇所が盛大なボトルネック候補で，この用途には無用の長物感でしょう．
  コンパイルファームに使うなら適当に多コアなCPUを複数積んでPCIeSSD使うのが一番手っ取り早そう．
お約束 (スコア:0)

by Anonymous Coward on 2012年11月15日 9時47分 (#2272718)

パフォーマンス・メータを並べてみたい :-)
- Re: (スコア:0)
  
  by Anonymous Coward
  
  linux の起動画面はどうなるの？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    最近のディストリビューションはペンギンさんが出なくなってしまいましたね。
    設定かえると出ますので、私の管理サーバはぜんぶペンギンさんが出ます。
一気に増えすぎ (スコア:0)

by Anonymous Coward on 2012年11月15日 12時47分 (#2272818)

そろそろCPUコア数やメモリは無限だと仮定してソフトを作る時代が来るのかな
下手にアルゴリズムで処理させるより全てブン回しの力押しでやったほうが効果出る処理多そう
- Re: (スコア:0)
  
  by Anonymous Coward
  
  今の環境でも既に気にするべきは、CPUよりもI/Oだと思ってたのですが……
  いずれにせよアルゴリズムが大事なのは変わりませんよ。
  勉強を怠らないでくださいね。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  むしろ60個とか半端な増え方が困るんだよ…
  8個ぐらいならCPU別に作業領域を用意しても大したことないから、処理をそのまま8分割して投入すりゃ良い。同期とらない。
  GPUみたいにスレッドは数千から数万にしてくださいねと言われれば、あきらめて同期をとったりリダクションする。
  60とか…。個別に用意するには大きいが、あふれかえるスレッドでメモリのレイテンシを隠蔽するには少なすぎる。
  どーすりゃいいのこんな半端なので。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ちなみに4wayのマルチスレッドです
    64wayくらいのSMPなんて大昔からふつーにあります
無限ループは (スコア:0)

by Anonymous Coward on 2012年11月15日 14時51分 (#2272902)

速くなると無限ループは何秒ぐらいで抜けられるようになるんですかね。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  同時に60個の無限ループを実行できるんだから凄いですよね。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    最近CPUが速くなりすぎて、従来は無限ループだったのが、無限じゃなくなることが多々あるような。
    まぁ３２ビットInteger限定の話とは思いますが。
AGEIAのPhysXプロセッサ思い出した (スコア:0)

by Anonymous Coward on 2012年11月15日 15時10分 (#2272911)

http://pc.watch.impress.co.jp/docs/2006/0530/tawada77.htm [impress.co.jp]
「そのPhysX P1のボードは、まるでビデオカードのような外観となっている」
同じ同じｗ
CERNの研究者の見解 (スコア:0)

by Anonymous Coward on 2012年11月15日 21時22分 (#2273166)

以下コピペ。
　昨年、CERNの研究者と会った時に、彼らはMICでは多くのプロセッサを
容易にプログラムできると評価してくれていた。CERNと言えば、この4～5年は
GPUプログラミングの“ガンホー”だった(笑)。
彼らは、プログラミングモデルを維持できるなら、MICに非常に多数のコアがあっても、
Xeonからの迅速なソフトウェアマイグレーションが可能となり、
そこそこの労力のパフォーマンスチューニングによって、
最高の潜在パフォーマンスを引き出すことができるだろうと言っていた。
彼らにとっては、MICの方が、より簡単なパスであることが分かったという。
http://pc.watch.impress.co.jp/docs/column/kaigai/20121018_566618.html [impress.co.jp]
- Re: (スコア:0)
  
  by Anonymous Coward
  
  Keplerなどもなかなか大したものだが、あっちはヘテロな構成のプログラムは動かないからね
  PCIeにぶらさがっているのが惜しい

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

意外とたいしたことない？ (スコア:2)

Re:意外とたいしたことない？ (スコア:1)

Re:意外とたいしたことない？ (スコア:1)

Re: (スコア:0)

Re:意外とたいしたことない？ (スコア:1)

Re:意外とたいしたことない？ (スコア:2)

単精度がどーこーとかいう話じゃないです (スコア:0)

あまりにも処理が早すぎて (スコア:1)

Re:あまりにも処理が早すぎて (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

TDP225W (スコア:0)

Re:TDP225W (スコア:2, おもしろおかしい)

Re:TDP225W (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re:TDP225W (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re:TDP225W (スコア:4, 興味深い)

Re: (スコア:0)

要するにこれって (スコア:0)

Re: (スコア:0)

make -j (60 + CPU数) (スコア:0)

Re: (スコア:0)

お約束 (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

一気に増えすぎ (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

無限ループは (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

AGEIAのPhysXプロセッサ思い出した (スコア:0)

CERNの研究者の見解 (スコア:0)

Re: (スコア:0)