パスワードを忘れた? アカウント作成
896063 story
スパコン

Tegra、スパコンに採用される 31

ストーリー by hylom
コストと性能も気になる 部門より
あるAnonymous Coward 曰く、

NVIDIAのARMアーキテクチャプロセッサTegraが、スパコンに採用されるという(NVIDIAの発表)。

スパコンを開発するのはBarcelona Supercomputing Centerで、TegraとNVIDIAのCUDA対応GPUを組み合わせたハイブリッド型スパコンになるという。Tegraを採用することにより、エネルギー効率を大幅に引き上げられるそうだ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • こういうことが繰り返し繰り返し行われて効率化していけば
    そのうち手の平サイズの10PFLOPSの処理能力を持つ携帯もそのうち出てくるんだろうな。

    • そこまでいくとむしろ人間が使いこなせるか疑問。
      --
      ちきゅうにやさしい あきじかんのさいりよう
      親コメント
      • 逆じゃない?
        今は人間がコンピュータにあわせてあげてる。
        十分な性能があればコンピュータが人間にあわせてくれる。

        にしても、物理的に限界超えて無理じゃないのかな?>手の平サイズの10PFLOPS

        親コメント
      • by Anonymous Coward on 2011年11月17日 11時20分 (#2051785)

        そこまでいくとむしろ人間が使いこなせるか疑問。

        大丈夫、大丈夫。
        今までのそういう「そんなの使い切れないよ」的な発言は、みんな予想を裏切られてきた。
        かのビル・ゲイツの「640KBで十分」だって(まぁ、発言の裏にはマーケティング的な要素があったのかもしれないが)、最早CPUのキャッシュメモリにすら足りないレベルになっちゃった。
        「そんなに何に使うんだ?」と言われ続けるギガバイト、テラバイト、それ以上のストレージだって埋めちゃうヤツは埋めちゃう。

        だから、手のひらサイズの10PFLOPSだって、きっと、何か使い途を見つけるヤツが出てくるって。

        端から見たら、最初は「バカじゃないの?」と思えるような使い途かもしれない。
        もしかしたら、最後まで「バカじゃないの?」と言われ続けるような使い途かもしれない。
        でも、それが世界を、人間を変えるかもしれない。
        エジソンの電球が、ベルの電話が、パソコンやインターネットが生活様式を変え、人間社会を変え、そこで生きる人間達を変えてきたように。
        それが良いことなのか、悪いことなのかはさておいて、ね。

        # あれば使う。使えれば使う。
        # たとえそれが天に唾する行為だろうと、地球の寿命を≒人間世界の寿命を大幅に縮めるような壮大なリソースの無駄遣いだろうと、便利なら使う。
        # やめられない、とまらない。それが人間って生き物なんだろうって思う。
        # カルビーはその真理にいち早く気付いていたんだね(違)。

        親コメント
        • by Anonymous Coward

          > だから、手のひらサイズの10PFLOPSだって、きっと、何か使い途を見つけるヤツが出てくるって。

          スパコンを使うような用途なら「せめてあと1000倍の能力が欲しい,欲を言えば10^9倍」という世界ですよ.
          能力はあるだけ欲しい.

          京なのどスパコンの能力を使いきるような計算がほとんど行われないのは,能力が2倍とか4倍程度では意味がないからです.

        • by Anonymous Coward

          >> かのビル・ゲイツの「640KBで十分」だって(まぁ、発言の裏にはマーケティング的な要素があったのかもしれないが)、最早CPUのキャッシュメモリにすら足りないレベルになっちゃった。

          そうそう.だから「2つで十分」とか言い張るジジイの戯言なんて相手にしちゃいかんよね.やっぱり最低でも4つは必要でしょ.

      • by Anonymous Coward on 2011年11月17日 11時42分 (#2051811)

        3Dディスプレイが現実味を帯びてきたから、必要とされる出力解像度も一気に跳ね上がると思う。
        任意の空間に5万点のドットを表示可能な3D表示技術 #DigInfo [youtube.com]
        今は5万点だけど数年後には何千万点とリアルタイムに描画することになるんだろうな。
        #省エネとか何それって感じの表示原理ではあるけど

        親コメント
        • CEATECで日立が3Dディスプレイを出展してましたが、
          そのとき担当者に聞いた話では、スマートフォンやタブレット端末といったコンシューマデバイスに搭載するには、
          展示されていたデモ画像のレベルでも現状の50倍程度のCPU性能が必要だとか。

          PFlopsまでは行かないにせよ、TFlops単位の演算性能が組み込み用CPUに求められるような時代がそのうち来るのでしょうか。

          親コメント
    • by Anonymous Coward

      情報エントロピーからエネルギー消費量って
      理論的に求められるのではなかったかな。
      その下限と、エネルギー効率から物理サイズの下限も規定される。
      量子コンピュータとかのそれこそ'量子跳躍"もそのうちあるのかもしれないが。

      腕時計サイズ、電源は太陽電池/体温電池、音声入力可能、能力は超(google+siri+α)
      なんてのが貧弱な想像からの推定ですが。
      いや、眼鏡にHMD+全てが埋め込まれて・・・・

      • by Anonymous Coward

        電脳コイルの世界へようこそ

    • by Anonymous Coward

      SC11のキーノートのスライドによれば

      2019年の目標はこんな感じ
      ・teraflopsを5wattで(ハンドヘルド)
      ・10teraflopsを100wattで(ゲーム機)
      ・100teraflopsを1000wattで(ワークステーション)

  • by shoji12 (14093) on 2011年11月17日 15時23分 (#2051975)

    この場合の定義は知らないが、おそらくシステムが消費する単位エネルギー当たりの何らかの演算回数の総数だろう。演算素子の単位時間当たりの消費電力は、おおよそ、電源電圧x(ターンオン時間+ターンオフ時間)x各ゲート毎のスイッチング回数の総和、に比例する。記事では大幅に良くなるとのことなので、GPU は CPU に比べて、一演算に要する、各ゲート毎のスイッチング回数の総和が大幅に少なくてすむ、ということだろうか? もしかして、GPU は、必要十分なゲートのみオン/オフしているのか? 最近、グラフィックボードが故障して GPU が使えなくなりどうしようかと思案中の者より。GPU の記事には興味津津なので。

    • エネルギー効率は、Flops/W、1Wあたりの演算回数で定義されてますね。

      GPUのエネルギー効率が高い理由ですけど、一言で言えば、「演算処理に関わるゲート数(無駄)が少ない」ってことですね。
      GPUは、低機能なコアを数多く積んでいます。最新のGeForceは、512コアを積んでるいものもあったりして、せいぜい8コア程度な普通のCPUとは桁が違います。
      個々のコアの機能は少ないが、その分回路規模が小さいです。

      x86 CPUなんかは、コア自体が高機能なので、どんなプログラムでもそこそこな速さで動きますが、
      GPUはその性能を引き出すのが難しいです。同じ処理でもプログラム次第で2~3桁ぐらい処理時間が変わって来たりします。そのあたりをプログラム開発側に転嫁することで実行時のコストを下げているって感じですね。

      例えば、CPUでは、チップ内蔵のメモリは「キャッシュ」として、プログラム側からは意識することなく、外部メモリだけを意識して使えばいいわけですが、

      GPUでは、「外部メモリから必要なデータを内蔵メモリに読み込み、内蔵メモリ上で演算処理し、結果を外部メモリに書き戻す」のが基本です。
      数百のコアが小さいサイズの内蔵メモリを共有しているので、
      「少ないデータ量に、いかに数多くの演算処理を詰め込むか」がキモになります。それが出来ないと、「外部メモリアクセスのためにコアがずっと待っている」とか「処理すべき演算がないのでコアの大多数が何もしていない」といったことになってしまいます。

      でも、例えば、 [top500.org](SPARCベース)は 10.51PFlops/12.66MW なので、830MFlops/W
      Jaguar [top500.org](Opteronベース)は1.759PFlops/6.950MWなので、253MFlops/W
      TSUBAME 2.0 [top500.org](GPUベース)は1.192PFlops/1.399MWなので、852MFlops/W

      OpteronとGeforceで比べると、GPUの方が3倍以上エネルギー効率が良いですが、京エネルギー効率はGPUベースなTSUBAMEなどと効率は同レベルです。
      これは京の方がバケモノじみてるというより、x86アーキテクチャが効率悪すぎるすぎると言うべきなんでしょうね。TSUBAMEでも、GPUコントローラとしてCPUは多数使ってますし。

      x86は効率が悪いと考える方向から、GPU主体なシステムで、CPUをただのコントローラと割り切って省電力なTegraにする、というのはある意味納得できる気ががします。

      親コメント
      • by Anonymous Coward on 2011年11月17日 19時43分 (#2052092)

        BlueGene/Q(POWER系)
                  17位 677104 / 340.5 = 1988.56
                  64位 172494 / 85.12 = 2026.48
        # 圧倒的。一人別次元。さすが、スパコンのためだけに開発されたプロセッサ。

        POWER7(POWER系)
                  55位 185100 / 501.47 = 369.11
                221位 73350 / 129.6 = 565.97
        # BlueGene/Qと同じPOWER系ながらガクッと落ちる。
        # 命令セットがエネルギー効率の決定的な要因ではないことがわかる。

        PowerXCell 8i(POWER系+独自)
                  10位 1042000 / 2345 = 444.35
                  89位 126500 / 276 = 458.33
        # 65nmプロセス製ながら、40/45nmプロセスとも勝負できる数値。
        # 出た当時にはBlueGene/Pをも圧倒しただけのことはある。
        # しかし、この後継プロセッサをIBMが開発しない(開発中止した)ことから
        # 「『LINPACKスコアを消費電力で割った数値』だけ良ければ良いスパコン」
        # ではないことが透けて見える。

        Xeon E5(x86系 Sandy Bridge)
                  15位 773700 / 924.16 = 837.19
                  61位 176700 / 198.72 = 889.19
        # 他より進んだ32nmを採用するとはいえ
        # 使用者からすれば同一製造プロセスで比較するよりその時に使えるかどうかが重要ともいえる。
        # PC用途向けだけでなく、スパコン向けとしても高性能なプロセッサを開発できる
        # Intelのイスラエルチームは大変素晴らしい。

        Xeon X56x0(x86系 Nehalem)
                    9位 1050000 / 4590 = 228.76
                140位 89670 / 212.62 = 421.74
        # 他より進んだ32nmを採用してこのありさま。
        # アメリカメーカなどがノートPCで軒並みNehalemを避けていたがスパコンでも振るわない。
        # 根本的にエネルギー効率が悪いのだろう。

        Opteron 61xx(x86系 Hound)
                    3位 1759000 / 6950 = 253.09
                    8位 1054000 / 2910 = 362.2
                  46位 230600 / 540.4 = 426.72
        # 3位Jaguarの悪い数値はCPUだけをアップグレードしたからか?
        # その他の数値を見る限り、POWER7やNehalemとなら勝負になる範囲。

        Opteron 62xx(x86系 Bulldozer)
                  20位 565700 / 972 = 582
        # 32nmを採用し、さすがにOpteron 61xxを超え、Nehalemも超えている。
        # しかし、Sandy Bridgeは強すぎた。

        Tesla 20x0(GPU Fermi)
                    2位 2566000 / 4040 = 635.15
                    5位 1192000 / 1398.61 = 852.27
                  21位 496500 / 540 = 919.44
                114位 103200 / 81.5 = 1266.26
        # 規模により大きく数値が変動する。GPU間の遠さとGPUメモリの少なさが原因か?
        # 現世代はSandy Bridgeに追いつかれたので、次世代GPUではまた引き離さないと
        # プログラミングが特殊であるため厳しいかもしれない。

        Radeon(GPU)
                  33位 299300 / 416.78 = 718.12
        前回430位 42830 / 31.13 = 1375.84
        # 採用数が少ないが、数値的にはそんなに悪くない。
        # 前回430位の長崎大学のDEGIMAが今回のバージョンでは消費電力が載っていないのが残念。

        ShenWei(Alpha?)
                  14位 795900 / 1074 = 741.06
        # 例の中国独自プロセッサ機。かなりいい数値。
        # 65nmプロセス製らしく、それが本当ならばこの後継はBlueGeneの強敵となっていくかも。

        親コメント
        • by Anonymous Coward

          > Xeon X56x0(x86系 Nehalem)
          > 9位 1050000 / 4590 = 228.76
          > 140位 89670 / 212.62 = 421.74

          同一CPUで倍近くも違うことに何の疑問も持たない上、Sandy BridgeにはAVXがあることも無視とはね。
          バカじゃないの?

          • by Anonymous Coward

            9位はXeon X7560ですね、すみません。
            Nehalem-EXの存在をすっかり忘れてた。採用数少ないし。(と言い訳)
            というとでXeon X56x0の上段は
                                  66位 168800 / 510 = 330.98

            「同一CPUで倍近くも違うことに何の疑問も持たない」については
            129位のようなものがたくさんあるので、スルーしてしました。(と言い訳)
                                129位 96697 / 546.26 = 177.02 (Xeon X5670)

            ちなみに「# 他より進んだ32nmを採用してこの

            • 元コメの者です。

              親コメントが「8位よりも効率の悪い3位のデータと2位よりも順位の低い5位」を比べている違和感

              特に深い意味はありません。
              元々、国産同士の比較の方がなじみがあってわかりやすいだろうと、京とTSUBAMEの数字を出してみたら、電力効率がほとんど同じだったものだから、しかたなくTOP500を眺めてx86なスパコンの数字も出してみた、って流れです。
              (最初はTOP500も見ずに個別のスペック情報で書いてました。それよりはTOP500のリンクの方が統一的なフォーマットでわかりやすいだろうと後から修正。)

              親コメント
      • by Anonymous Coward

        >x86は効率が悪い
        いや、もう、いまどきのチップはx86インストラクションを実行するインタープリタを内蔵しているようなもんですよ。
        クルーソー(だっけ?)辺りが出てきたときにプロセッサ開発の流れが変わるかと思いましたが、あっさり潰れてしまいました。
        ソースコードからリコンパイルすれば、x86系よりも筋の良い石って沢山あると思うんです。
        古くはMIPSやAlphaなんかがありましたが、intel陣営の物量作戦にこれも負けてしまいました。
        最近はARMがx86系の傍流になろうとしていますが、携帯からデスクトップに食い込めるか。

        SPARCもARMも、開発形態は割りと似ていて(ARMはIPラ

  • by Anonymous Coward on 2011年11月17日 8時21分 (#2051683)

    TENGAじゃないからかな。

  • by Anonymous Coward on 2011年11月17日 9時29分 (#2051712)

    エネルギー効率を大幅に引き上げられるそうだ

    IA32 よりは効率が良いのは分かるが、それじゃぁ数値計算用として使ったとき、POWER や SPARC と比べてどれくらい効率よいの?

    • NVIDIAによると、大規模データ並列のGPUは今の時点でも演算あたりのエネルギー消費が
      汎用CPUの1/10くらいだそうなので、汎用CPUの消費電力を削り、かつ役割を低下させることで
      エネルギー効率を上げよう作戦ではないかなと。

      時期的には先に発表された64ビットアーキテクチャのARMv8を採用するんでしょうが、演算の
      大部分はGPUにやらせるのでしょう。ARMはデータをセットアップして、GPUにコード食わして実行、
      どうしてもGPUじゃできないところだけちょこっと、みたいな。
      なんかピーク性能は高いが思うように性能が出ないとか得意不得意が激しい計算機になりそうな
      気もしますが。

      親コメント
  • by Anonymous Coward on 2011年11月17日 9時46分 (#2051722)

    http://www.eesi-project.eu/media/BarcelonaConference/Day2/13-Mont-Blan... [eesi-project.eu] ですね。

    目標は2014年に50PFLOPSで7MW、2017年に200PFLOPSで10MW。

  • by Anonymous Coward on 2011年11月18日 6時04分 (#2052367)

    ARMと云えば、こんな記事が。

    物理的仮想化を採用:クラウド時代の最適サーバ技術が登場
    http://wired.jp/2011/11/09/%E7%89%A9%E7%90%86%E7%9A%84%E4%BB%AE%E6%83%... [wired.jp]

    # タネンバウムせんせーのAmoebaとか思い出したぞ。

typodupeerror

UNIXはシンプルである。必要なのはそのシンプルさを理解する素質だけである -- Dennis Ritchie

読み込み中...