パスワードを忘れた? アカウント作成
9562565 story
ストレージ

JR九州で発生した輸送障害、原因は「SSDの動作仕様の認識不足」 83

ストーリー by hylom
完全互換じゃないのよ 部門より
あるAnonymous Coward 曰く、

JR九州で7月18日にシステム障害が発生した。「自動列車進路制御装置(PRC)」の不具合が原因だったのだが、調査の結果、不具合は「HDDをSSDに置き換えた」ことに起因することが判明した(日経Tech-On朝日新聞デジタル)。

従来、PRCではストレージにHDDを使っていたのだが、2010年7月の定期交換時にHDDからSSDへの置き換えが行われたという。通常の動作においては問題は発生しなかったが、「リセット処理」の実行時の挙動がHDDとSSDで異なり、その結果障害が発生したという。具体的には、プログラム上はリセット処理が0.2秒以内に完了しない場合にエラーとするように実装されていたのだが、このSSDのリセット処理には0.3秒が要していたそうだ。

JR九州もシステムを納入した日立製作所もこの仕様について気付いておらず、そのためにシステム障害が発生したようだ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • オフトピ (スコア:5, おもしろおかしい)

    ここまで 「拝承」なし
    --
    死して屍、拾う者なし。
  • わけわかんない (スコア:3, 参考になる)

    by Anonymous Coward on 2013年07月24日 20時27分 (#2427748)

    タレコミ文にもある朝日新聞の記事 [asahi.com]を見れば、

    JR九州は、SSDをリセット(情報を消す作業)しない限りシステムに問題はないとしている。

    と書いてあって、リセットは情報を削除することであるように書いている。

    毎日新聞の記事 [mainichi.jp]を見れば、

     JR九州の在来線運行管理システムが故障し、列車運休などで11万人に影響が出た18日のトラブルで、故障原因の一つが、システムの通信基板交換の際に、交換が必要な機器の種類を間違えた作業ミスだった可能性があることが、関係者の話で分かった。
     関係者によると、18日早朝、前日不具合が生じていた「自動列車進路制御装置」の基板(15センチ×40センチ)交換作業を実施。その際、基板部分の交換マニュアルに不備があり、機器を間違えてシステムが停止した可能性があるという。

    基板交換作業に問題があるようなことが書いてある。関係者さんの妄想?

    本当のところはどうなんだろうとJR九州のページ [jrkyushu.co.jp]を見たら、

    ○原 因
    平成22年の定期部品の交換時に、メーカーの確認不足により、仕様に合わないディスク装置を採用していたため。

    としか書いてない。

    #それだけなのでAC

  • http://www.nikkei.com/article/DGXNASJC2202V_S3A720C1ACY000/ [nikkei.com]

    こっちの記事によると、リセットというか、再起動のようですね。
    0.2秒決めうちで記憶装置さわりにいったらまだ準備中でこけたとか、そんな感じ?
    まあ、たしかに、SSDそのもの起動時間って気にしたことないなぁ……

    #異常系のテストもちゃんとやろうね。 という教訓として受け取っておこう。

    • by Anonymous Coward on 2013年07月24日 17時23分 (#2427586)
      > #異常系のテストもちゃんとやろうね。 という教訓として受け取っておこう。

      過剰なエラーチェックと、エラー検出時の過剰な対応処理も問題点のひとつなんだろうな。仕様変更ほどでない単なる機能追加、OSバージョンアップやハードの交換に弱くなる。テストが通っていたとしても、ギリギリスレスレのタイミングでパスしただけかもしれん。

      親コメント
    • 一般に外部記憶装置の立ちあげ時ディレイって, 最悪ケースでは数秒単位で起こる可能性があるので, かなり大きな値を起動時の待ち時間とすることがあります. 例えばSCSI機器などでは起動待ち時間をデフォルトで10秒として, チューニングで実際の機器に合わせて短くするとか.

      最近ではUSBメモリを起動ディスクとして使用した場合に, 起動したカーネルが周辺機器をリセットし, その後ルートファイルシステムとしてUSBメモリをマウントしようとして初期化が間に合わず落ちるという現象も起きています.

      # 起動時パラメータの設定で回避できるんだけどね

      親コメント
    • by Anonymous Coward on 2013年07月24日 17時26分 (#2427591)

      異常系ってわけでもないですね。
      HDD交換時には毎回リセットしてたはずです。
      同等(以上)品だと聞いてたのでテストせずに単純交換したら、SSDの方が遅い機能があるとは思わなかったと。

      同等品だから大丈夫といった日立も日立ですが、
      私でも「スペックが同等以上のSSD」に交換するだけなら大丈夫と思わなかったかというと、自信ないですね。

      親コメント
      • by nmaeda (5111) on 2013年07月25日 9時09分 (#2428019)

        0.2secと0.3secなら、同等だろう。同等とは同じ程度といった意であって、同一とは異なるのだから、詳細な仕様がチェックは必要だ。

        そもそも、起動時のエラー検出が0.2secに決め打ちという設計がオカシイ。鉄道設備のような長期に渡る運用が前提の製品の場合、まったく同じストレージしか使用できないのではメンテナンス性が悪すぎる。起動時/リセット時に限れば10secリトライしても何の問題もない。

        親コメント
      • 機械としての互換品と、システムとしての適応条件、双方をチェックする事を考えて無かったのかも。
        大抵の現場では機会としての互換品ってだけで事足りるので、意識が楽な方に流れた、と。

        親コメント
      • by Anonymous Coward

        書込制限とかは問題にならないでしょうかね。
        今時のSSDはそんな心配要らないのか。

        別のメーカーの信号系だとファイルシステムにCF使ってて、システムドライブは書き換えしないようにとか気を遣ってましたけど。

    • 特定のハードウェアのスペックに合わせたぎりぎりの実装をしていると、新しい別のモデルのハードディスクへの交換でも同じ問題が発生する可能性があったんじゃないのかな?サイズはデカくなっているし、内臓のキャッシュも大きくかつ処理も複雑になっている。
      親コメント
    • by Anonymous Coward on 2013年07月24日 19時29分 (#2427709)

      仕様の認識不足はまぁ仕方ない部分があるかと思いますが、この程度のことを事前にテストせずに実運用に持っていっちゃう運用体制のほうが怖いです。

      親コメント
      • by Anonymous Coward

        この程度のことねー
        第三者だからわかりやすいけど、当事者だったらどうなんだろうね

    • by Anonymous Coward

      何度もやるとリセットさんが出てきて怒られるんだよ。

  • チキンは私はギリギリの値を設定するのはよほどの事が無い限り出来ない

    # HDDからSSDとかになって、そのうちそれすらもまとめてクラウドで管理とかになる日がくるんだろうか

    • 0.2秒での起動が必要だからそうしたのではなく、当初設計の時に使ったSSDが早かったから漫然と0.2秒という現物合わせの値にしてみただけで、じつは1秒くらい待っても困らないシステムだったに一票。
      親コメント
    • by Anonymous Coward

      0.2秒と0.3秒なんて、1.5倍も違うんだからぜんぜんギリギリじゃないでしょ、、

      0.2秒もあったら改札なんてどれほどの処理をしていることか、、

      • by Anonymous Coward

        定常的な連続処理ではなくて、(おそらく稀な)リセット処理の話だよ?

    • by Anonymous Coward

      >「SSDの動作仕様の認識不足」

      動作仕様があるというのなら、ギリギリでもなんでもなく、単に見落としじゃない?
      仕様が守られていることの確認はすべきだけど、仕様に対して余裕を設定するのは、使う側じゃなくて
      製作する側でしょ。

  • 「HDDのリセット処理に0.2杪かかる」とあるが、そのリセット処理は何をやっていたのかが不思議…

    雰囲気的には HDDのリセット処理はもっと長くかかる気がするんだが…。

    SSDが遅いというより HDD が「やるべきことをやっておらず早すぎる」気がする。

    --
    fjの教祖様
    • 他のコメントにもだいたいありますけど、IDEのディスクをリセットするだけなら、古いHDDの場合はスピンアップ完了までホストを待たせたりはせずに、モーター電源を切ってMPUをリセットしてROMの初めから実行し直すだけとかなんじゃないでしょうか。今時のSoCはかっこいいブートローダをROMで持ってたりフラッシュメモリのコントローラを統合してたり、SSD買ってきたらDDR3が128MB載ってたりとか、リプレース元のシステムにあるもの一式が「SSD装置」として扱われてるようなもので、それが起動してないと反応なんかできない構造なら、時間が何倍もかかってもおかしくないはず。古いシステムでタイミング全部決め打ちってのもよくあることですし。

      親コメント
    • SSDが遅いというより HDD が「やるべきことをやっておらず早すぎる」気がする。

      自分もこれに一票。

      たとえば従前のHDDでは
      「一部分だけ初期化したら、残りの領域もリセットしたとみなす。
      っていうか起動時は不定値でふつうだし。」
      で良かったのが、

      今回のSSDでは
      「きちんと初期化処理するよ。
      っていうか不定値だと誤動作するから初期化しないとダメ」
      ってな実装になってるとかありそう。

      親コメント
      • by Anonymous Coward

        SSDのほうが(現実的にできてしまうだけに)隅々までチェックする分時間がかかるというのはあるのかも

    • by Anonymous Coward

      なんとなくファームのリブートだけ?。メカ系の制御をする前にホストに応答を返すのでは。SSDはリブート直後からNANDを制御できるだけに、もっと複雑なことしてそう

  • > SSDは、運行システム全体と一部で適合しない部品だった

    仕様を理解していなかっただけなのに、SSDが悪者のような書き方をしているのには違和感を感じます。

    • by Anonymous Coward

      違和感は感じているんだから覚えろ。

    • by Anonymous Coward

      世間じゃSSDとは「なんかしらんけどHDDより早い(そして高価な)やつ」って認識だから、
      SSDが遅い?何で?という話でしょう。
      実際はケースバイケースなんですけど。

  • by Anonymous Coward on 2013年07月24日 19時51分 (#2427727)

    ではその処理をもう一度見てみよう

  • by Anonymous Coward on 2013年07月24日 17時23分 (#2427585)

    これひっかかるシステム多そう
    まさかSSDがHDDより遅い項目があると思わず

    • by Anonymous Coward on 2013年07月24日 18時01分 (#2427612)

      シビアな設定でエラーにしてたわけだから、
      SSDじゃなくてHDDでも、機種によって速度が微妙に違ってエラーになるケースとかありそうです。
      SSDだから、ではなく、
      単にそのシビアな設定で新しいユニットが動作するかどうかの、日立のチェック漏れでしょう。

      親コメント
    • by Anonymous Coward

      平均性能を上げる機能のせいで、最悪時の性能が下がるのは珍しくないので、
      「SSDの平均性能が高いから最悪時についてもHDDより良いはずだ」
      とは普通は思わないと思う。

  • by Anonymous Coward on 2013年07月24日 17時24分 (#2427588)

    0.3秒が要していたって何だ。

    0.3秒を要していたんだろう。

    • by Anonymous Coward

      てにをはは外国人には難しいよね。
      hylom氏を日本人かどうかは知りませんが。

      • by Anonymous Coward

        まるで日本人ならみんなまともな文章を書けると言いたげだな。

        (大学を卒業したはずの)仕事先の社員が
        毎度のように主語や目的語を欠落した意味不明な文章で連絡してきて困ったことがあったぜ。

        最低限の文章もかけない日本人なんて山ほどいるぜ……
        悲しい事実だが。

      • by Anonymous Coward

        …氏「を」日本人かどうかは…
        の「を」はツッコミを期待してるのかな?

  • by Anonymous Coward on 2013年07月24日 17時57分 (#2427608)

    RAID化されてて、RAIDコントローラのファームウェアがマージン少なくてカツカツだったとかかなー

    「HDDをSSDに置き換えた」 → HDD抜いて、SSD差して、リビルド とか

  • たぶんなんかトラブルあるないに関わらずHDD電気通ってますよ〜みたいな信号を返すだけの話だと思うけど。
    実際処理関係でSSDよりHDD有利なことってあるのかな。

  • by Anonymous Coward on 2013年07月24日 18時36分 (#2427641)

    昔はHDDも自社製だったからスペックが悪くなったとかも把握できていたからぎりぎりの値で設定してた。
    それが社内でストレージを作らなくなってから外部購入しかしなくなったら、社内から調達していたときには気にしていた値が得られなくなってカタログスペックだけで検討するようになったんでは?

    • by Anonymous Coward

      製作所の人間の能力が昔からずっと同じレベルにあるという前提からして。

typodupeerror

「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常

読み込み中...