IBM、Power8を発表

IBM、Power8を発表 57

ストーリー by hylom 2013年08月29日 14時06分
new-power 部門より

あるAnonymous Coward 曰く、

IBMがPower系CPUの最新版「Power8」を米スタンフォード大学で開催されている「Hot Chips 25」で発表した（PC Watch）。
発表によると、POWER8は1コアあたり12スレッドを実行できるコアを12コア搭載、オンチップのキャッシュは6＋96MB、オフチップのキャッシュも128MB搭載。メモリ帯域幅は230GB/秒と、POWER7系から大幅に性能が向上している。製造プロセスは22nm。ダイサイズは650平方mmと、かなりの大物になる模様。また、I/OにPCE Express Gen3を採用している点も新しい。
そのほかの仕様についてはPC Watchの記事をみていただきたいが、とりあえず現在の技術でできる物を詰め込んで見ました、という雰囲気だ。これを搭載した製品の発売がいつごろになるかについては触れられていない。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索57コメント Log In/Create an Account

1コアあたり12ではなく8スレッド (スコア:1)

by Anonymous Coward on 2013年08月29日 14時14分 (#2450317)

後藤さんの記事では、
>CPUコアは12コアだが、各コアが8-wayのSMT(Simultaneous Multithreading)をサポートしている。
>そのため、CPU全体で96スレッドを同時に走らせることができる。
とありますよ。
- Re:1コアあたり12ではなく8スレッド (スコア:2)
  
  by kurema (42872) on 2013年08月29日 14時26分 (#2450334) 日記
  
  8-wayのSMTって事は、パイプライン段数が8でパイプラインハザードが発生しない、とかなんでしょうか。
  8段って少ない気がしますけど。後、オフに出来るなら設計上対応はしなくちゃいけないんでしょうかね。
  ついでに誤字訂正をすると、PCE Express→PCI Expressですね。
  
  シェア
  
  親コメント
  - Re:1コアあたり12ではなく8スレッド (スコア:1)
    
    by Anonymous Coward on 2013年08月29日 14時37分 (#2450349)
    
    SMTとパイプラインの段数は関係ありません
    
    シェア
    
    親コメント
SMT (スコア:1)

by Anonymous Coward on 2013年08月29日 14時19分 (#2450325)

> POWER8は1コアあたり12スレッドを実行できるコアを12コア搭載
8 SMTだから、「1コアあたり8スレッド」ですね。
SMT (Simultaneous Multithreading) はIntelのハイパースレッディング
テクノロジー（Hyper-Threading Technology、HT）みたいなもので、
HPC用途ではたいていoffにするんだけどね。
１ノードには何チップまでNUMAで載せることができるのかな。
- Re:SMT (スコア:1)
  
  by Anonymous Coward on 2013年08月29日 14時46分 (#2450359)
  
  >SMT (Simultaneous Multithreading) はIntelのハイパースレッディング
  >テクノロジー（Hyper-Threading Technology、HT）みたいなもので、
  >HPC用途ではたいていoffにするんだけどね。
  気休めの Intel HT と同類と括られたら、さすがに可哀想では。
  後藤さんの記事には、
  >>各CPUコアは8ディスパッチ、10イシュー、16実行ユニット
  とあるので、SPARC T1系のようなバレルプロセッサ（ハードウェアマルチスレッド）に近い、
  同時実行性能を期待してしまうのだが、どうなのだろう？
  
  シェア
  
  親コメント
  - Re:SMT (スコア:1)
    
    by Anonymous Coward on 2013年08月29日 15時34分 (#2450414)
    
    POWER8のSMTとインテルHTは物量が違うだけで仕組みは同じ
    SMTは異なるスレッドから同時に命令を発行できるがT1はできないので別物
    http://en.wikipedia.org/wiki/Simultaneous_multithreading [wikipedia.org]
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      >POWER8のSMTとインテルHTは物量が違うだけで仕組みは同じ
      仕組みが一緒かどうかどうか、そういう話じゃないよ。
      そんな話は資料で SMT と名乗っている時点で判ってるわけ。
      まして、「バレルに『近い』性能を期待したい」なんて書かないよ。
      物量による実効性能がどうなのか、というのが大事だという話。
      Intel の HT は 2スレッドながら、最大20%も良くなれば御の字のレベル。
      POWER8 は 8スレッドといいつつ、SMT OFF に比べて、20～30%マシだったら、ズッコケでしょ。
      実行ユニットの数からいっても。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        > Intel の HT は 2スレッドながら、最大20%も良くなれば御の字のレベル。
        これはモデルによります。自作の 2D ソフトウェアレンダラ―で、Core i シリーズの HT の効果は 20 % 程度でしたが、Atom は 50% 程度でした。Pentium 4 は試してません。
        数字で揚げ足取りみたいなことしてしまいましたが、確かに POWER8 の SMT がどの程度の性能なのか、わたし気になります！
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        IntelのSMTは、そもそも投入しているトランジスタの数もそれなりだったわけで、
        20%程度という性能向上も、トランジスタの投入量に比べると悪くないレベルだったはず。
        ただし、HPC系アプリだと性能がむしろ低下することも多くて、これは別にIntelのSMTの
        ロジック設計に問題があるというわけではなく、単にHPC系アプリはメモリバンド幅がボトルネック
        となることが多く、メモリバンド幅増やさずにSMT有効にしても性能向上はしないし、むしろメモリ
        アクセスが競合する分だけちょっと損するって話。
        今回のPOWER8は、メモリバンド幅が以上に広いので、結構性能が出そうな気がする。
        ちなみにビジネスアプリだと、メモリのバンド幅じゃなくて、レイテンシの方がボトルネックになることが
        多くて、そういうアプリなら、Intel CPU程度のメモリバンド幅でもちゃんとSMTで性能向上します。
        
        Re:SMT (スコア:2)
        
        by ogino (1668) on 2013年08月29日 21時49分 (#2450647) 日記
        
        SMT はどちらかというとメモリのレイテンシ問題のフォローでしょう。
        普通に処理をしていれば、どうしてもレジスタやキャッシュにないデータが必要になってきます。必要なデータがメインメモリからすぐにくれば良いんですが、近年では CPU の速度とメインメモリとの速度の乖離が大きすぎるため、キャッシュを埋めるまでの時間、CPU が暇をしてしまいます。
        この空いた資源を SMT として別スレッドに使用させれば、どれかのスレッドはレジスタや CPU に近いキャッシュのデータで済む可能性が高いのでメモリレイテンシの悪影響を隠蔽できトータルのスループットが向上する可能性がある、と。
        昔、シングルタスク OS に比べ、余計な処理を必要とするマルチタスク OS の方がスループットが高いのはなぜかという説明に、IO 待ちの間に他の処理ができるから、というものがありましたが、本質的には一緒だと考えています。
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        Intel の場合、データアクセスの局所化に際して HT 有効時で推奨されるデータサイズがキャッシュサイズの 1/4 ～ 1/2 になる旨が最適化マニュアルに記載されています。過去に実装したプログラムで並列化の際に、まさに HT 環境でこの数字に思いっきり足を引っ張られて、ループブロッキングのサイズ調整をしていたことを思い出しました。結局、スレッド間でキャッシュを食い合って速度が低下しちゃうんですよね。
        POWER8 でこのような縛りを気にしないで良いとなれば、SMT の効果も期待できそうです。32 チャネルの DDR で 230GB/sec。実効速度が想像できないですがワクワクする数字ですね。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        ちょっと前に実験したけど、4SMTのPOWER7で倍ぐらい性能向上した事あります。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        マルチスレッドはリソースが空になるのを別のスレッドで埋めるだけのことです
        メモリに限ったことではありません
        SMTの元祖的なM-MachineではスカスカなVLIWのマルチスレッドでした
        バレルやSMTといった方式の違いはあっても、それ以上でもそれ以下でもありません
        どうして半可通は自分の好みにこじつけたんがるんですかね
        
        Re:SMT (スコア:2)
        
        by ogino (1668) on 2013年08月29日 22時52分 (#2450680) 日記
        
        SMT が何かという話ではなく、なぜ SMT が採用され、SMT のスレッド数が増えていくのかという話なんですが、なにか勘違いをされていませんか。（そもそも私の好みってなんだろう…）半可通というのはその通りでしょうけど。
        CPU のシリコン面積をどういった機能に割り当てるかは費用対効果を中心に選択されるから、CPU・メモリ間のボトルネックに手当するのが主流になって来るわけで、バンド幅拡大を活かす SIMD とならんで、レイテンシ対策の SMT が主流になっている、という話をしたつもりです。
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        MTはリソースの利用率を上げるためのものであってそれ以上でもそれ以下でもありません
        リソースが空く理由としては演算器やメモリアクセスのレイテンシもありますが演算器が多数あることも大きな要因です
        メモリアクセスのレイテンシの隠蔽だけであればOoOである程度カバーできますしSMTではないCoarce-grained MTでも構いません
        しかし山ほどある演算器がガラ空きになるのは複数のスレッドから同時に命令を供給するSMTでなければ対応できません
        演算器が山ほどあるのはシングルスレッド性能を高めるためです
        
        Re:SMT (スコア:2)
        
        by ogino (1668) on 2013年08月30日 0時27分 (#2450721) 日記
        
        話がかみ合っていないと思うのでそろそろ諦めますが、演算器の空きを埋めるための SMT という点では特に異論はありません。で、4GHz というクロックで動く CPU において「山ほどある演算器がガラ空きになる」理由では何だとお考えですか。シングルスレッドの性能向上を目指すときにボトルネックになっているのはどこですか。
        # もしかして: Coarse-grained MT
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        演算器が山ほどあるのはシングルスレッド性能のためだと書きました
        シングルスレッド性能が頭打ちになるのはキャッシュミスと分岐予測ミスですね
        分岐予測ミスは避けようがありませんが、
        キャッシュミス下で可能な限り次のメモリアクセスを発行しレイテンシを隠蔽するためのOoOですしPOWER8でも整数ユニットに比べてロードストアユニットがリッチだと思います
        たんにメモリアクセスレイテンシの隠蔽のためならItanium2のような実装でもいいわけです
        wikipediaをはりましたが、SMTというのは複数スレッドから同時に命令を発行できるのが特徴です
        メモリのレイテンシは1サイクルで演算器が1000個あるようなケースを考えればSMTの利点がわかりやすいと思います
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        Power5からのリプレースサイジングをIBMに依頼すると、SMT4対応のAIXにアップデートするか否かの2パターンで、出てくる必要CPUスペックが倍くらい違うね。
        もちろんSMT以外の機能も影響した上での計算だろうけど。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        >メモリアクセスのレイテンシの隠蔽だけであればOoOである程度カバーできますしSMTではないCoarce-grained MTでも構いません
        OoO程度では全然足りませんってば。
        キャッシュミスすると、下手をすると数百クロック待たされる。
        10数クロックのパイプラインのやり直しレベルじゃないよ。
        >http://pc.watch.impress.co.jp/docs/2002/0624/kaigai01.htm
        >
        >例えば、Intelのパトリック・ゲルシンガーCTO兼副社長(Patrick Gelsinger,
        > Vice President & Chief Technology Officer)は「(CPUの性能向上にとって)
        >メモリレイテンシはクリティカルだ。L1とL2キャッシュをミス
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        リソースの利用率が低下する要因として
        1.リソースがもとから多目
        2.演算器やメモリアクセスのレイテンシの増大
        と挙げました
        simultaneousでないMTは主に2に、SMTは1に対しても効果的だと述べました
        しかしどういうわけか1を無視する人が多いのでそこに噛みついているわけです
        (そもそも出自も違います)
        現実にはメモリアクセスはポート数が頭打ちになります
        あまりセールストークを真に受けなさんな
        OoOの効果についてはかなり直感に反するものですので新し目の教科書でも読んでくださいな
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        >1を無視する人が多い
        ちがうでしょ。
        SMT に 2に効果が殆ど無いor薄い、と言い張っているんでしょ？
        >現実にはメモリアクセスはポート数が頭打ちになります
        それは、キャッシュのヒット率とメモリのデータ転送速度次第でしょ。
        キャッシュミス自体の頻度は多くないが、一旦引っかかると数百クロック待たされる、
        といった世界だと充分に性能向上になると思いますが。
        だからこそ、
        >>Intel の場合、データアクセスの局所化に際して HT 有効時で推奨されるデータ
        >>サイズがキャッシュサイズの 1/4 ～ 1/2 になる旨が最適化マニュアルに記載されています。
        という話も出てくるわけで
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        > SMT に 2に効果が殆ど無いor薄い、と言い張っているんでしょ？
        私がそう言っていると主張するなら引用してください
        > キャッシュミス自体の頻度は多くないが、一旦引っかかると数百クロック待たされる、
        > といった世界だと充分に性能向上になると思いますが。
        そのためだけならItanium2のようにCoarse-grained MTでもいいわけです
        > その後、徐々に、先に上げた後藤さんの記事にあるような、レイテンシ隠蔽が本丸だった、
        > という話になってきたわけで。
        SMTが演算器やメモリユニットを埋めるのとその結果としてレイテンシが隠蔽されるのは不可分なのです
        原因と結果を並べてどちらが本丸と言うことはできません
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        別の言い方をしますと、メモリアクセスのレイテンシが隠蔽された状態というのは、そのメモリアクセスとは依存性のない命令で演算器などが満たされた状態を言います
        これはいいですよね？
        ですから、どうにかして演算器などの利用率を上げることが(メモリアクセス下なら)すなわちレイテンシの隠蔽になるのです
        これが不可分の理由です
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        キャッシュミスのペナルティはOoOの命令発行キューに収まる時間じゃすまないことも多いと思いますよ。
        ハズウェルだとそのつもりで実装すればL1ミスまでは許せるかもしれませんが(たぶんそのつもりの実装はしてない)、すくなくともOoOそのものはキャッシュミス隠ぺいを目的として作られたものではありません。
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        OoOもSMTと一義的には同様に演算器などをを埋めるためのものですが、ストールしたメモリアクセスを追い越して後続の命令を発行します
        追い越して発行される命令はまた別のアドレス計算やメモリアクセスだったりしますので、プリフェッチのような効果があわれます
        つまりシングルスレッドビューでは先のメモリアクセスのレイテンシが(ある程度)隠蔽されるだけでなく、後続のメモリアクセスのレイテンシが「削減されたように見えます」
        後半がOoOの大きな特徴です
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        この人、議論できる人じゃないね。
        自己の主張を押しまくるだけで、本質的な論点に全く答えてない。
        数百クロックのペナルティになると、OoO レベルじゃ隠ぺいできない、というテーマが繰り返し出ているのに、全く答えてない。
        OoO って、数百命令を入れ変えてくれるのかい？
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        >そのためだけならItanium2のようにCoarse-grained MTでもいいわけです
        Aを実現するには、BだけではなくCやDでも可能。
        だから、Bを採用した理由はAではない、って論理を展開したいのかい？
        頭悪すぎでは。
        他人を「半可通は自分の好みにこじつけたんがる(ﾏﾏ)」とか、過激な言葉で
        disってるけどさ、貴方自身が半可通でなく、ゲルシンガーや後藤さんの内容が
        セールストークと言い切るなら、そろそろ「定量的な測定データ」を提示しなよ。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        > まして、「バレルに『近い』性能を期待したい」なんて書かないよ。
        わかっている人ならバレルはシングルスレッドのスループットは低いことくらいは知っているはずですが
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        >わかっている人ならバレルは
        ここでの議論は、トータルのスループットと、スレッド数増加で性能がどこまで向上しそうかという話だよ。
        なぜ突然シングルスレッド性能が出てくるのかな？話のコンテキストが分かってない。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  インテルのHTはシングルスレッドでもピークに近い性能が出せるように設計されてるからキャッシュやDRAMの競合の影響が出やすいのではないだろうか。
  投機的なメモリアクセスを多用すると大規模なマルチプロセッサでは影響が無視できなさそうだけど。
  こういう場合のSMTはレイテンシの隠ぺいが主な目的で、キャッシュのWay数やDRAMコントローラの規模を強化することで持続的にフルに
  演算能力を発揮し続られる構成になっているのでは？
PCE Express Gen3ちゃあなんだ？ (スコア:0)

by Anonymous Coward on 2013年08月29日 14時24分 (#2450330)

何の略？
- Re:PCE Express Gen3ちゃあなんだ？ (スコア:1)
  
  by Anonymous Coward on 2013年08月29日 14時32分 (#2450344)
  
  第三世代PCエンジン
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    CD-ROM^3みたいな？
    大容量540MB
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      立方体...
- Re: (スコア:0)
  
  by Anonymous Coward
  
  すぐにPCI Express Gen3の誤字だと気付くはず。
- 想像してみる (スコア:0)
  
  by Anonymous Coward
  
  Express と入力する気持ちが先行して、IじゃなくてE を押したパターン？
  文章をつぎはぎしたりすると妙なミスしますしね。
  頭の中では本人は正しく入力した気になっているので意外に気がつかない。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    さすがにこれだけ多いと、明確に意識して意図的に間違いを挿入しているのでしょう。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      いやこれ、タレコミからして間違ってるわけだが
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        誤記くらい直してやれよっていつも思うんですよね
        リジェクトするとか
でもこれ (スコア:0)

by Anonymous Coward on 2013年08月29日 16時54分 (#2450489)

採用するコンピュータは皆無なんでしょう？
- Re:でもこれ (スコア:1)
  
  by SteppingWind (2654) on 2013年08月29日 18時27分 (#2450544)
  
  10進演算をサポートしているところから見ると, メインフレームと組み合わせて [ibm.com]使用することも.
  # zBXのことはあまり知らないんですけど
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    組み合わせてっていうか、そのまま使うんじゃないの
    - Re:でもこれ (スコア:1)
      
      by SteppingWind (2654) on 2013年08月30日 10時25分 (#2450856)
      
      やっぱりそうですかね. 最近のSystem zは知らなかったのですが, z10あたりからPOWERといろいろ共通化しているみたいですね.
      
      シェア
      
      親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      引用先を見ると、システム統括用として使うような書き方がされてるけど。
      サービスは1つ当たり3バージョンくらい同時に動いてるものだし、
      それぞれのバージョンに似たような構成機器をぶらさげるとかありそう。
      #二十年前の、しかも就職初年度しか触らなかったメインフレームの知識
      程度の話なので、勘違いがあるかも。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  Power7/7+だってPower 7*0とか出てたりSR16000があったりするんだから、同じようにPower 8*0として売られたりスパコン作ったりすんじゃねぇの？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  IBM Power system用でしょ。↓こんなの。
  http://www-06.ibm.com/systems/jp/power/hardware/780/ [ibm.com]
- Re: (スコア:0)
  
  by Anonymous Coward
  
  aix安定しててよいよ。高いけどな！
  商売としてLinuxに業務移行してるけど重要システムはaixそのままがよいと思うんだけどなあ
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    DB2 LUWつかうなら、AIXが鉄板ですね。
    最悪OSごと直してくれるし。
    - Re:でもこれ (スコア:1)
      
      by fukapon (4131) on 2013年08月29日 22時25分 (#2450672)
      
      Windows上で使って、二度とないわーとか思ってた。
      やっぱりAIX上で使わないとダメなのか...
      
      シェア
      
      親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  スパコンのランキングでもピンピンしてるし、他ベンダに提供しなくても
  元が取れてしまうのではなかろうか。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

IBM、Power8を発表 More ログイン

1コアあたり12ではなく8スレッド (スコア:1)

Re:1コアあたり12ではなく8スレッド (スコア:2)

Re:1コアあたり12ではなく8スレッド (スコア:1)

SMT (スコア:1)

Re:SMT (スコア:1)

Re:SMT (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:SMT (スコア:2)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:SMT (スコア:2)

Re: (スコア:0)

Re:SMT (スコア:2)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

PCE Express Gen3ちゃあなんだ？ (スコア:0)

Re:PCE Express Gen3ちゃあなんだ？ (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

想像してみる (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

でもこれ (スコア:0)

Re:でもこれ (スコア:1)

Re: (スコア:0)

Re:でもこれ (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:でもこれ (スコア:1)

Re: (スコア:0)