■ このスレッドは過去ログ倉庫に格納されています
【航空】ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン
- 1 :海江田三郎 ★:2016/03/31(木) 13:50:05.63 ID:CAP_USER.net
- http://itpro.nikkeibp.co.jp/atcl/news/16/033000936/
全日本空輸(ANA)は2016年3月30日、3月22日に発生した国内線システムの不具合について、原因や再発防止策などを公表した。国内線システムの4台のデータベー
ス(DB)サーバーをつなぐ米シスコシステムズ製イーサネットスイッチの故障が原因だった。
4時間40分かけて4台が次々停止
ANAによれば、3月22日午前3時44分にDBサーバーの1台が停止した。その後2台が停止し、約4時間40分後の午前8時22分に最後の1台も停止。
DBサーバーが停止した理由は「正常に機能が働いた」(ANA広報)ため。4台のDBサーバーはデータを同期しており、同期処理が異常終了した場合に自動停止する機能を備えていた。
同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにもかからず、故障を知らせる
「故障シグナル」を発信しなかった。国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。
スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。
ANA広報によると、スイッチは米シスコシステムズ製「Catalyst 4948E」という。「2010年6月の発売開始以降、世界で4万3000台、
うち日本で8700台を販売しているが、今回の不具合は初めての事象と聞いている」(ANA広報)。なぜ「故障シグナル」が発信できなかったかは分かっていない。
1台での縮退運転を決断
4台の完全停止から37分後、ANAは1台のDBサーバーを再起動。だが「2台起動すると2台とも停止する」(同)といった不安定な状況が続いた。
DBサーバーは1台構成でもシステムで全機能を使えるという。ANAは午前9時27分に1台での運用を決めた。ただし既に空港などでの混乱は始まっており、
詳細な原因も定かではなかったため、「お客様対応を最優先するために搭乗手続きの機能だけを稼働させた」(同)。予約や販売などの機能は稼働させず、縮退運転とした格好だ。
午前11時30分、全ての空港で搭乗手続きの機能を使えるようになった。自動チェックイン機や係員が使う端末が少ない空港での機能回復は早かったが、
羽田空港など大規模空港では端末の再起動を順次進めたため時間がかかったという。
予約やWebサービスを復旧させつつ、ANAは障害原因を探った。DBサーバー、アプリケーションサーバーを順次調べ、異常がないと判断。スイッチの不具合を疑った。
「本番環境と同等の作りにしてあるテスト環境にスイッチを持ち込んでテストしたところ、不具合が再現した」(ANA広報)。
ANAはすぐにシスコに不具合を連絡して代替機を取り寄せた。代替機に交換したのが翌23日午前1時14分。午前3時5分にはDBサーバーを4台構成に戻し、午前4時14分には全サービスを復旧した
トップの報酬減額
ANAは再発防止策も公表。まず同様の不具合でもシステムが正常稼働するようにトラブル発生2日後の3月24日にシステム改修を終えた。
スイッチが「故障シグナル」を出さなくても、DBサーバーからスイッチの故障を検知できるようにした。
(中略)
国内線システムはアプリケーションとシステム基盤を含め、日本ユニシスが構築を担当。
同社広報は「システム障害でご迷惑をお掛けした皆様へお詫びするとともに、システム開発会社として責任を認識している。
お客様(ANA)と改善策を検討していきたい」と話す。シスコシステムズ日本法人の広報は「今回の不具合はこれまで世界で報告が上がっていなかったもの。全力で原因究明と再発防止に取り組む」とした。
「止まらないシステム」構築の難しさ浮き彫りに
ANAでは2013年2月に国内線旅客システムをメインフレームからオープンシステムに再構築して以来、初めての大きなトラブルとなる。
実は旧システム時代の2007年5月に発生した大規模なシステム障害時もシスコのスイッチ不具合が原因だった(関連記事:【会見詳報】ANA障害の原因判明、「世界4例のスイッチ故障がきっかけ、対応も遅れた」)。
社会インフラを支える大規模システムになればなるほど、構成要素が増え、アプリケーションは複雑になる。関わる人も大量だ。
信頼性を高める努力を続ける一方で、システムは必ず止まるという前提で事業継続性をどうデザインするかが新たな課題になりそうだ。
- 2 :名刺は切らしておりまして:2016/03/31(木) 13:51:27.69 ID:bpZof6co.net
- 鳥山明サイテーだな
- 3 :名刺は切らしておりまして:2016/03/31(木) 13:52:27.83 ID:j7zv2zxX.net
- ダイハード2みたいな落ちを期待したのに普通
- 4 :名刺は切らしておりまして:2016/03/31(木) 13:55:12.18 ID:87uor3JS.net
- 損害賠償請求しろよ
アメリカならそうしてる
- 5 :名刺は切らしておりまして:2016/03/31(木) 13:55:24.72 ID:LI189sie.net
- バッファローの俺高みの見物。
- 6 :名刺は切らしておりまして:2016/03/31(木) 13:56:08.35 ID:YSvTD3Az.net
- だからエレコムにしておけとあれほど
- 7 :名刺は切らしておりまして:2016/03/31(木) 13:57:14.27 ID:LMMp+w/n.net
- ファームにチャイナのバックドア?
- 8 :名刺は切らしておりまして:2016/03/31(木) 13:57:21.94 ID:Pu9kCa+x.net
- スイッチってこれか
http://www.cisco.com/web/JP/product/hs/switches/index.html
- 9 :名刺は切らしておりまして:2016/03/31(木) 13:58:27.52 ID:Zv6/PzPQ.net
- ANAの穴
- 10 :名刺は切らしておりまして:2016/03/31(木) 13:58:44.23 ID:MLwbE8XP.net
- まあちょっとぐらいイーサネットスイッチの故障ぐらいはって安易名乗りが
太陽とシスコムーンの崩壊へと
- 11 :名刺は切らしておりまして:2016/03/31(木) 13:59:54.88 ID:Zv6/PzPQ.net
- 先輩帰っていいすか?
- 12 :名刺は切らしておりまして:2016/03/31(木) 14:00:51.12 ID:37DlUMbp.net
- 友愛された by ネトサポww
- 13 :名刺は切らしておりまして:2016/03/31(木) 14:01:12.19 ID:b75LN2DI.net
- 太陽とシスコムーン
- 14 :名刺は切らしておりまして:2016/03/31(木) 14:02:14.69 ID:LlRz5Klz.net
- 思ったより原因の特定早かったなー
>>1
>「故障シグナル」を発信しなかった。
つまり、SNMP Trapが上がらなかったとか?
- 15 :名刺は切らしておりまして:2016/03/31(木) 14:02:22.98 ID:35vsQAyS.net
- ギネス認定
- 16 :名刺は切らしておりまして:2016/03/31(木) 14:02:31.71 ID:wdHQh3V5.net
- これは巨額賠償していい話だね
- 17 :名刺は切らしておりまして:2016/03/31(木) 14:05:34.42 ID:Zv6/PzPQ.net
- ガタメキラ
- 18 :名刺は切らしておりまして:2016/03/31(木) 14:05:46.55 ID:j2wtvk7d.net
- >>16
ANAの1日分の営業止めたからな
ウン十億行くんじゃね?
- 19 :名刺は切らしておりまして:2016/03/31(木) 14:06:57.88 ID:LfvqOFJG.net
- 韓国製コンデンサでも使ってたんじゃね?
ウチのLED蛍光灯についてるのは買って三月で火を噴いたぞw
- 20 :名刺は切らしておりまして:2016/03/31(木) 14:07:29.58 ID:mDjC5qfq.net
- >>16
as is でしょ
- 21 :名刺は切らしておりまして:2016/03/31(木) 14:07:42.03 ID:2SVzGD4/.net
- 世界中のアーキテクトが頭抱えそうな原因だな
4900って低機能(ゆえにOSが余計なことしない)だけど安定してるから使うってスイッチなのに
- 22 :名刺は切らしておりまして:2016/03/31(木) 14:08:24.53 ID:GkJXfxIc.net
- 原因特定と復旧時間の早さを考えたら、逆にサーバー保守チームや出向者や技術者にボーナス加算してあげるべき事案w
冗長化したって無駄な時は無駄。完璧なんか世の中にない。事故はえ起こるもんだで対策しないとダメだw
- 23 :名刺は切らしておりまして:2016/03/31(木) 14:08:32.81 ID:aMHuB3HZ.net
- だからバッファローにしとけとあれほど
- 24 :名刺は切らしておりまして:2016/03/31(木) 14:09:19.03 ID:+FycosfX.net
- >>14
SNMP Trapを監視システムがロストして捕まえなかったんだろう。
だからSNMPは双方向のシステムに出せと言っていたのに。
- 25 :名刺は切らしておりまして:2016/03/31(木) 14:10:34.16 ID:F19lSaSF.net
- 牛乳かけて食べる物なのに
それをスイッチに使えば壊れるのは当たり前
- 26 :名刺は切らしておりまして:2016/03/31(木) 14:12:53.01 ID:BTh8rhs5.net
- ANAは以前もネットワーク系のトラブル起こしてる。
ノンストップシステムは、サブシステムが想定外で動かなくなるのが前提。
金が余りまくって、必要ないデータベースの同期でこのザマとかSIの無能ぶりが異常。
- 27 :名刺は切らしておりまして:2016/03/31(木) 14:15:59.69 ID:BTh8rhs5.net
- >>22
この10年間で、同様のトラブルはこれでANAは二回目だが、JAL他は0。
期間を20年にしても、範囲を広げてもANAのシステムは問題が多すぎる。
情報部門にボーナスとか、この状況では盗人に追い銭。
- 28 :名刺は切らしておりまして:2016/03/31(木) 14:16:07.26 ID:NKoQI/Fc.net
- スイッチのコールドスタンバイぐらいしそうなもんだけどな
- 29 :名刺は切らしておりまして:2016/03/31(木) 14:20:02.77 ID:NCT/xNT2.net
- スイッチ一個壊れてサーバダウンするとか脆弱過ぎるだろw
- 30 :名刺は切らしておりまして:2016/03/31(木) 14:22:46.76 ID:Wlsj4+SH.net
- 壊れたのを感知するのを壊れたとかいみないじゃん
- 31 :名刺は切らしておりまして:2016/03/31(木) 14:23:36.89 ID:w/l/wag1.net
- システムのネットワーク異常は、スイッチだと決め付けて、ちがうモデルの一世代前のやつを準備しておかなかったのよ。
処理速度は遅くても、それだけエラーがフィックスされているから、一時しのぎにはなるのに。
柔軟性のないネットワークエンジニアだな。
24時間運用のシステムじゃ、そう言った考えも大切だ。
.
- 32 :名刺は切らしておりまして:2016/03/31(木) 14:26:00.23 ID:zP37hi69.net
- とうもろこし製のシリアルスイッチはだめということか?
- 33 :名刺は切らしておりまして:2016/03/31(木) 14:27:11.61 ID:LlRz5Klz.net
- >>28
故障を検知したら切り替える設計だったとしても、
故障の検知に失敗してたらどうしようもないという
- 34 :名刺は切らしておりまして:2016/03/31(木) 14:27:39.91 ID:YVP2Dizd.net
- 機械が故障したのに故障したという信号が送れなくて
本体側は正常とみなして、予備に切り替えられなかった。
まあ、予備を準備していたのに切り替えが出来ないという
割とありきたりの問題だったね。
- 35 :名刺は切らしておりまして:2016/03/31(木) 14:27:54.66 ID:1wlEZZ+v.net
- え?ちょっとまって?
予備系にフェイルオーバーできなかったんじゃなく、そもそも単機だったってこと?
ルーターとスイッチを冗長化してハートビートで監視し合って乙ったら系切替で済む話じゃ
- 36 :名刺は切らしておりまして:2016/03/31(木) 14:28:07.79 ID:gZB56BtD.net
- シスコはロックシティ
- 37 :名刺は切らしておりまして:2016/03/31(木) 14:29:07.62 ID:LMpCC2+1.net
- アンガマン・バスにしとけと言ったのに
- 38 :名刺は切らしておりまして:2016/03/31(木) 14:29:15.55 ID:RuoLVH+4.net
- >>25
朝っぱらからあんなもん食えるか
日本人は玉子かけ飯に決まっとる
- 39 :名刺は切らしておりまして:2016/03/31(木) 14:29:17.69 ID:+5TiIw1H.net
- >>35
なんか2重化の設計おかしいよな
- 40 :名刺は切らしておりまして:2016/03/31(木) 14:30:33.90 ID:M8EStu0q.net
- こんなのよく原因突き止めたね。
ここにたどり着くまで相当苦労したと思う。
- 41 :名刺は切らしておりまして:2016/03/31(木) 14:31:01.17 ID:ea3aati3.net
- >>27
ANAの前回は国際線予約を欧州系アマデウスに移管して逝った。
今回は国内線予約がシスコのルーターで逝ったようだ。
となると,次は運行系か?
- 42 :名刺は切らしておりまして:2016/03/31(木) 14:31:36.89 ID:9LTWjXiK.net
- スイッチだけは中国製?
- 43 :名刺は切らしておりまして:2016/03/31(木) 14:31:59.63 ID:EbammLDO.net
- だからあれほど吉本断続器工業のスイッチにしておけと言ったのに
- 44 :名刺は切らしておりまして:2016/03/31(木) 14:33:55.84 ID:N8Fm00n9.net
- 次は、故障を検知する機械の故障を検知する機械を作って、
その次は故障を検知する機械の故障を検知する機械の故障を検知する機械を作って・・・
- 45 :名刺は切らしておりまして:2016/03/31(木) 14:34:03.49 ID:Y+mpilIm.net
- なんでボックス型のカタリストなんて買ったんだよ
シャーシ型のスイッチにしろよ
- 46 :名刺は切らしておりまして:2016/03/31(木) 14:35:38.32 ID:xZl65fVH.net
- >>28
滅茶苦茶重要かつ高いものじゃないのだから、二重化と半自動切替ぐらい、やっていて当然だと思いますよねぇ
やっていたけど、何らかの原因で機能しなかった
やってないのなら、システム設計ミスで、ソフトのバグとは次元の違う重篤な瑕疵かと
- 47 :名刺は切らしておりまして:2016/03/31(木) 14:36:09.32 ID:xN73Gxww.net
- よく調べたな
この点は褒めたい
- 48 :名刺は切らしておりまして:2016/03/31(木) 14:38:24.95 ID:/pQrB7yE.net
- SDN SDN SDN
- 49 :名刺は切らしておりまして:2016/03/31(木) 14:39:54.86 ID:0ad+9Kg/.net
- >>27
システムトラブルがなくても今までにエンジントラブルで延焼したり墜落してるからね
- 50 :名刺は切らしておりまして:2016/03/31(木) 14:42:30.22 ID:rAkMNHcC.net
- マジかよエースコイン最低だな。
- 51 :名刺は切らしておりまして:2016/03/31(木) 14:42:46.39 ID:glZC8V3q.net
- スカイマークは予約システムを統合しなくて正解w
- 52 :名刺は切らしておりまして:2016/03/31(木) 14:44:20.20 ID:UISGEYqM.net
- nexus9000だね。
バッファローのハブの方が良かったね。
- 53 :名刺は切らしておりまして:2016/03/31(木) 14:44:27.18 ID:r69FWJK4.net
- 日経は世界初のバグだと言ってるが他はハードの障害とかどっちなんだよ
- 54 :名刺は切らしておりまして:2016/03/31(木) 14:45:08.88 ID:SDgQU592.net
- >>46
故障検知をシスコスイッチ自身の診断機能に任せてたんだろ
故障がシステムに認識されなきゃ、切り替えは起こらない
- 55 :名刺は切らしておりまして:2016/03/31(木) 14:45:36.73 ID:mDjC5qfq.net
- >>53
ハードウェア内部のバグだよ
- 56 :名刺は切らしておりまして:2016/03/31(木) 14:47:46.40 ID:r69FWJK4.net
- ファームウエアのバグか
- 57 :名刺は切らしておりまして:2016/03/31(木) 14:47:55.04 ID:+5FC4/S3.net
- ここで偉そうに講釈たれてる奴がシステム設計しても、何時不測のトラブルが発生するかわからないというのに
匿名だと強気なものだ
- 58 :名刺は切らしておりまして:2016/03/31(木) 14:49:41.84 ID:pHB8EbQr.net
- この手の商品って
納品検収完了してたら 買った側は損害請求できない契約だっけな
- 59 :名刺は切らしておりまして:2016/03/31(木) 14:52:19.64 ID:glZC8V3q.net
- >>58
でも余りにも対応が悪ければ、あんた所とは今後一切取り引きせえへん
って事になるやろね。
- 60 :名刺は切らしておりまして:2016/03/31(木) 14:53:01.72 ID:aQuc41Q5.net
- 100人のIT土方たちが「俺のバグが原因だったら死ぬしか」って
不安からハゲたんじゃなかろうか。
シスコは賠償しろ。
- 61 :名刺は切らしておりまして:2016/03/31(木) 14:54:52.64 ID:jNrohQxS.net
- シスコも最近はこな感じか。
昔は絶大な信頼があったけどな。
- 62 :名刺は切らしておりまして:2016/03/31(木) 14:56:40.94 ID:a+SQbOdc.net
- アメリカならそのメーカーに多大な損害賠償請求するぞ?
- 63 :名刺は切らしておりまして:2016/03/31(木) 14:56:50.47 ID:N1J+vDpL.net
- 現場のエンジニアがかわいそうだわこれは
- 64 :名刺は切らしておりまして:2016/03/31(木) 14:56:52.52 ID:l888Y2xt.net
- シスコに損害賠償を請求しろ!
- 65 :名刺は切らしておりまして:2016/03/31(木) 14:57:35.14 ID:FmcOprMb.net
- スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」
↑こういう状態が原因究明で一番やっかいだよな。
- 66 :名刺は切らしておりまして:2016/03/31(木) 14:59:00.30 ID:pHB8EbQr.net
- >>60
この業界は バク作った側の責任にならない 西洋流欧米流の責任回避術が大変発達してる
問題元凶作った側が 大変堂々としてるのが特徴 対策盛込んだ
新商品ドーゾ お使い商品全交換する必要がございます
見積り×××万円 値引きは一切できません
てな感じ 外資系の場合だけど
- 67 :名刺は切らしておりまして:2016/03/31(木) 14:59:57.83 ID:xZl65fVH.net
- >>54
それは、システムダウンした原因で、障害が長時間化した原因ではない
>ANAはすぐにシスコに不具合を連絡して代替機を取り寄せた
とあるから、1つは2重化していなかった可能性が僅かだかある
もう1つは、2重化していたか、交換用の予備製品があったが、同製品だったため、
シスコから、暫定パッチ対策を施した同製品か、違う製品を代替機として取り寄せたのだと思われる
- 68 :名刺は切らしておりまして:2016/03/31(木) 15:00:55.59 ID:bcSQHNig.net
- Ciscoは沢山売れてるから障害の例にもなりやすい
他メーカーを入れていればもっとドイヒーの不具合に当たっている可能性もある
サポートもしょぼいし
- 69 :名刺は切らしておりまして:2016/03/31(木) 15:06:05.15 ID:k0LDuOYa.net
- エンヤカヤカヤカヤ〜
- 70 :名刺は切らしておりまして:2016/03/31(木) 15:06:38.97 ID:MMg6dQtF.net
- 今度からケロッグ食うわ
- 71 :名刺は切らしておりまして:2016/03/31(木) 15:06:51.68 ID:/ZqUrrYY.net
- >>40
スイッチが悪いのは即わかるだろ。わからない奴は無能。
- 72 :名刺は切らしておりまして:2016/03/31(木) 15:07:13.08 ID:dPVd/h92.net
- VLANとか使ってる奴かな
- 73 :名刺は切らしておりまして:2016/03/31(木) 15:08:08.18 ID:YgVlGWys.net
- ハードと言うよりソフト設計の問題かな…
- 74 :名刺は切らしておりまして:2016/03/31(木) 15:08:38.05 ID:V8oPH2iC.net
- カタリストって便利だけど癖があると聞いたけどどうなの?
- 75 :名刺は切らしておりまして:2016/03/31(木) 15:15:03.00 ID:hpiuiSM+.net
- }l 'ヾミミヽ rz彡‐`ヽ |::fYj
{| 、_tッ、,゙ ' r' rtッ_‐ァ' |::}}!
゙l `ー 'ノ !、`ー ' |::リノ
- 76 :名刺は切らしておりまして:2016/03/31(木) 15:19:42.68 ID:S5oSOO9f.net
- Ciscoだからこの程度の被害で済んだ VS Ciscoを使わなければ良かった
- 77 :名刺は切らしておりまして:2016/03/31(木) 15:20:01.31 ID:ErSLOsV8.net
- 大坊サーバーは小さい!
- 78 :名刺は切らしておりまして:2016/03/31(木) 15:20:01.57 ID:LlRz5Klz.net
- >>71
全く通信できないとかならすぐに特定できるけど、中途半端に動作されると
特定は難しいと思うぞ。DB一台構成だと問題なく動いてたらしいから。
実際、今回のケースでもスイッチの故障を疑う前にまずDBサーバとアプリサーバ
を確認している。
- 79 :名刺は切らしておりまして:2016/03/31(木) 15:25:45.29 ID:iyH9c2Xe.net
- スタックぐらいくんどけよ
- 80 :名刺は切らしておりまして:2016/03/31(木) 15:25:54.46 ID:rYmEfWl/.net
- >>70
コーンフレークは、ケロッグ博士が“オナニー防止”のために発明した。これ豆な。
- 81 :名刺は切らしておりまして:2016/03/31(木) 15:26:08.54 ID:felWR3bt.net
- 自動でも手動でも系切替は可能だが
それぞれでサブからメインにいくとき各設備(自分ら含む)とのオンラインオフラインなどの異常があるかないかをチェックする
で、今回その中継がゾンビってたので誤作動起こしてシステム自体が立ち上がる前に落ちていたっていうこと
簡単に言うとだけどなー
このゾンビ状態と言うのがくっそ嫌な状態で表面的には生きて居るんだけど中身が死んでるから仕事しない
変な言い方するとシスコの絶大な信頼が招いた問題
時間かかったのはシステム屋が自分で作ったの信用できなくてそれにたどり着くまで時間かかっただけだろ
俺はシスコの別製品でもこのゾンビ状態でシステムが乙るの知ってたからネットワーク障害だと最初に思ったもんだけど
システムには保守員逆らえないからなw
よりによって大元がゾンビってたとかご愁傷様と言わざるをえない
- 82 :名刺は切らしておりまして:2016/03/31(木) 15:28:22.13 ID:ZdII4620.net
- >>6
エレコムってLinuxなんか二度とつかわねーよって捨て台詞はいた後Linux使った商品発売してたっけ。
- 83 :名刺は切らしておりまして:2016/03/31(木) 15:31:14.58 ID:CR4eULmF.net
- スターアライアンスグループw
- 84 :名刺は切らしておりまして:2016/03/31(木) 15:31:31.15 ID:Yj0JDUVk.net
- プログラムのバグを、ハブに責任転嫁するのか?
- 85 :名刺は切らしておりまして:2016/03/31(木) 15:32:08.20 ID:hX5nkXcZ.net
- 全日空てトラブル多いよな
こんなんで飛行機大丈夫かよ
- 86 :名刺は切らしておりまして:2016/03/31(木) 15:33:59.93 ID:BuNBMrIm.net
- 次はLANケーブルの二重化だな。
- 87 :名刺は切らしておりまして:2016/03/31(木) 15:40:18.17 ID:egk9/MfL.net
- やっぱりケロッグ最強
- 88 :名刺は切らしておりまして:2016/03/31(木) 15:40:22.96 ID:GG8xPYPC.net
- この規模のネットワーク機器でシスコに対抗できるメーカーってあんの?
損害賠償とかの話しても、嫌なら他の会社の使ってね、とか言われて
何も言い返せなさそう。。
- 89 :名刺は切らしておりまして:2016/03/31(木) 15:46:01.30 ID:8grQPPlL.net
- これ、DBのクラスタソフトにも問題あるような気もするんだけど。
まあCISCOもみとめてんだから
問題ないけど。
- 90 :名刺は切らしておりまして:2016/03/31(木) 15:48:07.14 ID:KZXhQCKS.net
- 菓子屋が作ったスイーツが原因だって?
- 91 :名刺は切らしておりまして:2016/03/31(木) 15:48:51.24 ID:Vr8Q7P+3.net
- 世界初の事態の訳がないだろバカ。
客先からクレーム入っても、うちの責任じゃないとか、対応は有料だとか言って、ちゃんと情報入れてないだけに決まっとるよ。
シスコの製品は、バグなのか仕様なのか知らんが、長いこと動かしっぱなしにするとゾンビ化しがちではないかね。
週に一度は電源落とせでも何でもええから、客に使用上の注意ぐらい出して欲しいな。
連続運用できる前提になってるから、止めるというとシステム担当者が怒られて、止められないままドツボにはまる気がする。
- 92 :名刺は切らしておりまして:2016/03/31(木) 15:50:31.92 ID:8grQPPlL.net
- >>88
juniperとかnortelとかでなんとかなるかもな
日本メーカーの介在する余地はないw
- 93 :名刺は切らしておりまして:2016/03/31(木) 15:57:01.28 ID:zA3jK2z4.net
- >>61
そか? 昔からこんな感じだよ。
cisco製品使うなんて、いつ止まっても結構ですよ・・・状態。
多機能故に、作った連中ですら気が付かないバグが出るわ出るわ。
- 94 :名刺は切らしておりまして:2016/03/31(木) 16:01:01.84 ID:Cf0y+1Ix.net
- SWの故障なんてよくある話。
真の問題は「何故故障したSWを切り離せなかったか」だ。
それと障害への過信が無かったか?
‘そんな故障はあり得ない’では無かったか?
福島原発事故と全く同じだ。
もう一度障害対策を見直せ!
でも障害復旧に当たったエンジニアの皆さん、お疲れさまでした。
- 95 :名刺は切らしておりまして:2016/03/31(木) 16:01:48.26 ID:4BPaNVZK.net
- シスコが原因なの2度目だろ
簡単な機器なのに全日空だけピンポイントで落とすバグが得意なようで
A380を買うとついてくるバグ?
- 96 :名刺は切らしておりまして:2016/03/31(木) 16:03:50.43 ID:mnX0B23b.net
- アライドってなんでメジャーになれないんだろ
設定も楽で値段もそんなに高くないし 俺は好きなんだけどさ
- 97 :名刺は切らしておりまして:2016/03/31(木) 16:04:48.58 ID:Vr8Q7P+3.net
- 全く個人的な意見としては、そもそも大切な業務はオープンシステムにしたらあかんよ。
そんな切符の予約なんて、大して複雑な仕事でもないのに、毎回、複数のサーバー間の整合を一々確認したり、
不整合だったらただ止まるとか、理屈としては分かるけど、嫌らしいわ…
ちゃんと動いてる内は良いが、障害したら原因の切り分けが大変ですよ。
そういうのは大型汎用機を使うべきです。
コボルでプログラムして。
- 98 :名刺は切らしておりまして:2016/03/31(木) 16:10:30.30 ID:W5iEovBm.net
- スイッチがフェールオーバーするトリガーをスイッチ自身にだけ持たせたのが悪い
使うのはDBと上位スイッチなんだからそっから異常あるかどうか判断させなきゃ
といいつつ担当者はご苦労さん・・・
- 99 :名刺は切らしておりまして:2016/03/31(木) 16:14:58.33 ID:Cf0y+1Ix.net
- そもそも1台のSW故障で全部の飛行機が飛ばなくなってしまうなんて、
設計担当のユニシスの責任!
- 100 :名刺は切らしておりまして:2016/03/31(木) 16:20:41.77 ID:YVP2Dizd.net
- >>95
>>1の記事を読むと、故障したら故障信号を出して予備に切り替える。
今回は、故障しても故障信号を出さなかった場合を考えていなかった。
だから起きた。
ひょっとすると開発側は知っていたけど客から言われなかったから
黙っていたかも知れないし、納期が近いからそんなのに
構っている暇がなかったかもしれない。
ようは、詰め込みが甘かっただけ。開発側の怠慢。
- 101 :名刺は切らしておりまして:2016/03/31(木) 16:22:32.18 ID:4JfZsata.net
- やっぱ使うならコレガだな
- 102 :名刺を切らしておりまして:2016/03/31(木) 16:24:12.81 ID:gQ8RFs5P.net
- >>36
ウイ ビルト ザ シティ!
- 103 :名刺は切らしておりまして:2016/03/31(木) 16:29:14.40 ID:YVP2Dizd.net
- そもそも、日経はみずほのシステムがトラブルを起こすと
みずほに個人的な恨みでもあるのか?というぐらいに叩くのに
ANAのシステムは問題を起こしても好意的。
システム更改をさも難事業であるかのようにうたって称賛。
- 104 :名刺は切らしておりまして:2016/03/31(木) 16:31:52.96 ID:3n7AAzoI.net
- ANAのシステム設計・保守は日本ユニシス
一方、JALは・・・。
- 105 :名刺は切らしておりまして:2016/03/31(木) 16:42:49.50 ID:0ii/sXCI.net
- 4個同じスイッチじゃなくて同等品で2個ずつとかにすればよかったのに
同じ原因では逝かなくなりゃしないかな?
- 106 :名刺は切らしておりまして:2016/03/31(木) 17:20:50.54 ID:jRLYIcqg.net
- >>97
引退しろジジイ
- 107 :名刺は切らしておりまして:2016/03/31(木) 17:22:32.90 ID:va7wMoUq.net
- >>98
スイッチにL7レベルでサーバを監視しろって?お前ニワカだろ
- 108 :名刺は切らしておりまして:2016/03/31(木) 17:25:15.49 ID:X5Hthkjo.net
- ハブにしときゃよかったのに。
- 109 :名刺は切らしておりまして:2016/03/31(木) 17:25:45.73 ID:N3LPZeo5.net
- sw側:正常に動いているように見えるが通信できない
Linux側:NICをbondingしているがAct側のNICがリンクアップしているのでStb側に切り替わらない
こんな感じ?
- 110 :名刺は切らしておりまして:2016/03/31(木) 17:26:53.20 ID:Gz2m+DMC.net
- DBはオラクルとかつかってるのかな
OSはLinux?としたらどこのかな
こんなん、OSとかDB側でエラー出せんのかなぁ〜
すぐスイッチ交換すればいいのに代替機持ってないのがおかしい
- 111 :名刺は切らしておりまして:2016/03/31(木) 17:28:29.19 ID:va7wMoUq.net
- >>109
それならDBへのヘルスチエックで気づくだろ
- 112 :名刺は切らしておりまして:2016/03/31(木) 17:32:17.45 ID:X5Hthkjo.net
- > 4台のDBサーバーはデータを同期しており、同期処理が異常終了した場合に自動停止する機能を備えていた。
異常終了したら停止じゃなくて続行したままアラートでいいんじゃね?
もしかしたら各DBがraid になってないとか?
- 113 :名刺は切らしておりまして:2016/03/31(木) 17:34:04.08 ID:X5Hthkjo.net
- >>92
yamaha がいる
- 114 :名刺は切らしておりまして:2016/03/31(木) 17:41:30.39 ID:TfqkdNbC.net
- 利用者の少ない高い製品名買ってバグを引き当てるくらいなら安い枯れた製品を複数台導入すべき
高けりゃいいってもんじゃない
- 115 :名刺は切らしておりまして:2016/03/31(木) 17:44:30.74 ID:0s2ibkGB.net
- >>112
データーが間違って記録される前に止めるのが正しいという考えが一般的。
- 116 :名刺は切らしておりまして:2016/03/31(木) 17:50:18.68 ID:rJyCFaX6.net
- シスコ(笑)
- 117 :名刺は切らしておりまして:2016/03/31(木) 17:58:08.03 ID:X5Hthkjo.net
- >>115
うちが管理してるのはメイン、サブの2台で
普段はメインのみ運用してサブに同期をとってる。
サブに同期がとれなかったらサブだけ止めて
メインはそのまま続行してもいいんじゃね?と思った次第。
んであとからサブに取り込まれてな差分を入れてあげる。
もちろんサーバーはraid で。
ま、うちなんかと規模がそもそもじぇんじぇん違うだろうけど。
- 118 :名刺は切らしておりまして:2016/03/31(木) 17:59:38.13 ID:EVYBZwlF.net
- バグで人が死ぬ時代が予見できるな。
ケースによっては大変なこともありそうだ。
想定外のバグは次はどこで起きるのか?
- 119 :名刺は切らしておりまして:2016/03/31(木) 18:07:01.76 ID:0s2ibkGB.net
- >>117
おそらく普段は4台で並列動作なんだと思う。
- 120 :名刺は切らしておりまして:2016/03/31(木) 18:13:09.35 ID:pyEoZY2v.net
- Cat4948ってことは、VSS組んだけどIOSがバグって半死にパターンかな。
ソフトウェア冗長に完全は無い典型的なケースだな。
- 121 :名刺は切らしておりまして:2016/03/31(木) 18:16:32.48 ID:yU4K2YrJ.net
- STPの不具合?
相当大変な問題になるはずだけど今まで認知されてなかったの?
- 122 :名刺は切らしておりまして:2016/03/31(木) 18:16:45.30 ID:NdXs7qCh.net
- >>117
同期の概念が違うと思われ
サブはメインの処理が正しいかを検証しているので
違ってたら止めなきゃおかしいことになる
- 123 :名刺は切らしておりまして:2016/03/31(木) 18:22:03.00 ID:NdXs7qCh.net
- >>100
起こるか起こらんか分からない、
というかベンダーは起こらんと言っている、
そんな事象でも予め何でも対応しておくのが
経済的合理性から見て正しいのか、
そう考えると怠慢とか言えんだろう
- 124 :名刺は切らしておりまして:2016/03/31(木) 18:28:11.05 ID:Vr8Q7P+3.net
- コボラーはどんどん少なくなっています。一度、汎用機からオープンに移した業務は、もう元には戻せない。
その切り替えは不可逆なので、もし移行に失敗したら、ちゃんと動くまでの間に、かなり悲惨な苦労しますよ。
しかも機械の信頼性は、ぶっちゃけ中身の複雑化と、人件費圧縮の板挟みで、下がる一方。
- 125 :名刺は切らしておりまして:2016/03/31(木) 18:31:04.25 ID:ZVZCXZ2o.net
- なんかこの障害って冗長化の設計おかしくね??
- 126 :名刺は切らしておりまして:2016/03/31(木) 18:34:55.55 ID:K6AV02BX.net
- >>121
飛行機関係でSTPなんてレガシー機能使わないだろ
- 127 :名刺は切らしておりまして:2016/03/31(木) 18:36:51.89 ID:Vr8Q7P+3.net
- シスコの専用OSは、以前のAndroidみたいなメモリリークの欠陥があるから、
使用環境や時間によっては、段々と不安定になるんだと聞いたこともある。
自分で実験したわけじゃないから真偽は知らんが。
各ベンダの言う通り信じてシステム組んだ結果、うまく動かない。
なるほどベンダは、欠陥が認められれば、無償で修理や交換はするだろうが、
別に、それで業務が止まったことの損害賠償する訳じゃない。
最終的に納入するシステム会社には、大きな損害賠償に耐えるほど蓄えもない。
「システム欠陥補償保険」みたいなもんも無い。
- 128 :名刺は切らしておりまして:2016/03/31(木) 18:38:32.83 ID:AWcSo9Bo.net
- >>4
日本の下請けにならしてるだろうけどアメリカ様の企業にはムリ
- 129 :名刺は切らしておりまして:2016/03/31(木) 18:42:00.22 ID:tGy0MjtC.net
- シスコはココナッツサブレ作ってろ
- 130 :名刺は切らしておりまして:2016/03/31(木) 18:54:53.59 ID:JLAlbB/i.net
- タカタは、エアバッグで。何兆円と損害賠償。
シスコはごめんなさい止まりか。アホくさいにも、ほどがあるな。
- 131 :名刺は切らしておりまして:2016/03/31(木) 19:37:56.90 ID:H6RKMj5c.net
- 2007年も世界で4例しかない故障と言ってたな。
いちいち珍しいアピールして、被害者面したいのか?
- 132 :名刺は切らしておりまして:2016/03/31(木) 19:40:35.49 ID:qk43XuMR.net
- >>22
人命に関わらないからといって脳天気すぎる
- 133 :名刺は切らしておりまして:2016/03/31(木) 19:49:13.16 ID:tXjl2MT+.net
- >>111
小さいパケットだと正常に通信できるのに、大きいパケットだと通信できないという
パターンかな? ヘルスチェックみたいな通信だとパケットサイズちいさいから。
- 134 :名刺は切らしておりまして:2016/03/31(木) 19:57:24.42 ID:azIq+cUg.net
- スイッチってスタック組むんじゃないの?
もう片方が検知できなかったってこと?
- 135 :名刺は切らしておりまして:2016/03/31(木) 19:57:32.01 ID:/otjJbn3.net
- シスコ使うんなら日立電線使えばいいのに
- 136 :名刺は切らしておりまして:2016/03/31(木) 20:06:58.44 ID:sFVLWPY0.net
- >>97
メンテするエンジニアがどんどん死んでるんだよ
- 137 :名刺は切らしておりまして:2016/03/31(木) 20:22:34.48 ID:ucYH9riV.net
- >>6
ちょっと笑った
でもエレコム価格は家計に易しいから好き
- 138 :名刺は切らしておりまして:2016/03/31(木) 20:38:02.49 ID:KiWTTOQD.net
- ネットワークエンジニアの書き込みは皆無だな
- 139 :名刺は切らしておりまして:2016/03/31(木) 20:46:26.09 ID:bcSQHNig.net
- >>92
ノーテルはもう・・・
- 140 :名刺は切らしておりまして:2016/03/31(木) 20:47:41.30 ID:+/CO70fb.net
- シスコーンの会社ですね
- 141 :名刺は切らしておりまして:2016/03/31(木) 20:50:17.17 ID:bcSQHNig.net
- >>103
Mは多くの奴隷が死屍累々だから記事を書きたくもなるのだろう
- 142 :名刺は切らしておりまして:2016/03/31(木) 21:05:35.07 ID:NdXs7qCh.net
- >>141
ミズポは勘定元帳たるDBにくわえて
トランザクションログもぶっ飛ばして
復旧不可能に陥った。
勘定系としては前代未聞の不祥事だからね。
アナはトランザクション処理不可で停止半日だから
まだまし。
- 143 :名刺は切らしておりまして:2016/03/31(木) 21:14:02.95 ID:tWNMnuqH.net
- シスコはシリアル作ってろや
- 144 :名刺は切らしておりまして:2016/03/31(木) 21:24:26.20 ID:BHwzXgHW.net
- シスコの資格って一番上のはクッソむずいよな
- 145 :名刺は切らしておりまして:2016/03/31(木) 21:31:26.83 ID:sZ0uafKa.net
- スイッチに限らず定期的に再起動させるのはやっておいて損はないよね
- 146 :名刺は切らしておりまして:2016/03/31(木) 21:58:10.89 ID:9Uz/UjbK.net
- >>1
世界よ、これが日本の理工系だ!
- 147 :名刺は切らしておりまして:2016/03/31(木) 22:10:38.44 ID:RbIsOxTE.net
- シスコはいくらぐらい損害賠償支払うの??
- 148 :名刺は切らしておりまして:2016/03/31(木) 22:14:18.83 ID:1T0jK+5y.net
- むしろ代品のスイッチ特急で届けた送料を請求してくる
- 149 :名刺は切らしておりまして:2016/03/31(木) 22:53:10.63 ID:qr8xg448.net
- やっぱりほこりだらけになっても壊れない
アライドだろ。
- 150 :名刺は切らしておりまして:2016/03/31(木) 22:56:00.51 ID:EVYBZwlF.net
- シスコは認めたのか?
- 151 :名刺は切らしておりまして:2016/03/31(木) 23:08:20.75 ID:Iz2tjA+b.net
- (´・ω・`)土管屋のせいだったか
- 152 :名刺は切らしておりまして:2016/03/31(木) 23:21:19.63 ID:0YGahJ4G.net
- どういうテスト環境なのか気になる
- 153 :名刺は切らしておりまして:2016/03/31(木) 23:45:58.58 ID:7+5P2iWl.net
- 日本ユニシスは頑張ったと思う
- 154 :名刺は切らしておりまして:2016/03/31(木) 23:50:18.73 ID:I92IsaNy.net
- サムスンもこの分野に入ってほしい
世界の人が最高の技術で幸せになれるのだから
サムスンの有機ELも今後世界を変えていくね!
- 155 :名刺は切らしておりまして:2016/04/01(金) 00:02:01.40 ID:fojJwC6z.net
- すぐにヨドバシカメラに買いに走ればよかったのにな(´・ω・`)
- 156 :名刺は切らしておりまして:2016/04/01(金) 00:04:15.84 ID:cKMSxlcF.net
- _,,,,,,__
/´ ̄ \,
r' ノ ノ ヽ ツ
J 人 ゝ ヤ
こ ノィテyノ ⌒ヽ、 ー ' ! _________
/ |(!$l ,--、 T | /
,!' ! ー、_,、 ! ! ) | < いや〜ん すいっちんぐ
( ( へ、丶ノ_ ソ ノ / / \
y >n/ ⌒ ̄ ゙゙/ノノリノし  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
,uヘヘゝ 〃 ::::::::;!
. >' / ::::;/
( / :::;/
. ゝ-ヘ :;(_
〉-一''''' ̄ ⌒二ニー'⌒'ヽ
| ,r'' ̄>、;;;;;;;;;;;;;;;;;;)
. i ,く ,ノ ヽ,;;;;;;;;/
i ,i' Y;;:: レ'
. i / .|;;:: i'
|ー''゙ .|;;:: /
| i;;:: /
. | |;;:: i',,,,,_ f ̄'---- 、
| レ'⌒  ̄'''''`ー-r_ 'i
. ! 〈 _,,、-‐''''¨´ ̄  ̄¨´
| ト‐‐'''^¨´
. | i
! .}
! i
! .!
. ! !'
| .{ _
| / ヽ
/!/ ,f ̄!
r''゛ / ̄「
゙゙゙゙ ̄ ̄ ̄
゙゙゙゙ ̄ ̄ ̄
- 157 :名刺は切らしておりまして:2016/04/01(金) 00:30:47.99 ID:aLj3Nw1T.net
- バッファローがアップを始めました
- 158 :名刺は切らしておりまして:2016/04/01(金) 00:50:46.21 ID:7LiucoPe.net
- >>4
日本ユニシスって外資じゃないよ
- 159 :名刺は切らしておりまして:2016/04/01(金) 00:52:16.40 ID:GXPuszQG.net
- こういうスレ見てるとそこらへんのアホと業界人との差がハッキリするな
- 160 :名刺は切らしておりまして:2016/04/01(金) 00:52:57.36 ID:7LiucoPe.net
- >>158
まちがえた。こっち
>>128
- 161 :名刺は切らしておりまして:2016/04/01(金) 00:57:14.31 ID:M5196pnl.net
- 信号でエラー検出だけじゃなくて
ボーリングで確認して応答がなければ
エラーに落とす処理が必要だったな
ネットワークスペシャリスト
あたりの例題になりそう
- 162 :名刺は切らしておりまして:2016/04/01(金) 01:07:02.09 ID:0p7TAjHf.net
- oracleかmy sqlかmssqlsvか?
どのdbなんかね
- 163 :名刺は切らしておりまして:2016/04/01(金) 01:26:36.03 ID:GTZwEqex.net
- >>113
ヤマハなんかゴミ扱い
>>134
4948Eはスタック組めない
- 164 :名刺は切らしておりまして:2016/04/01(金) 01:28:06.79 ID:GTZwEqex.net
- >>162
OracleRAC
HP-UX
- 165 :名刺は切らしておりまして:2016/04/01(金) 01:31:53.25 ID:lt99VWVn.net
- HSRPが機能しなかったということか?
ハートビートの結線間違ってたとか初歩的なミスじゃねーの?
4台構成だと襷結線してRIPでダム化しておくかVLAN切ってOSRPでメトリック設定
CiscoのウンコスイッチはRAMが壊れやすいからモジュール丸ごとダウンで
タスキ掛けしたスイッチ間でパケットループが発生した可能性もあるな
Ciscoなんてゴミ使わないでJuniperを使え
- 166 :名刺は切らしておりまして:2016/04/01(金) 01:38:35.78 ID:GTZwEqex.net
- >>165
図をみるとインターコネクト用
インターコネクトにHSRPなんざいらん
- 167 :名刺は切らしておりまして:2016/04/01(金) 01:51:26.16 ID:80t3GbVJ.net
- 技術的知識があって頭のいいえろい人、わかりやすく解説してくださいませ
- 168 :名刺は切らしておりまして:2016/04/01(金) 01:55:16.44 ID:1PxrgEaB.net
- 私でさえ経験した事ある・・・
別に珍しくはないけど、めんどくさかったと思うよ
システムって一度落ちると、立ち上げめんどくさいよね
ちゃんとした手順踏まないで、立ち上げると、またバグ出るし・・・
目に見えない分に、マニュアルで想像しながら手順踏むのは、失敗できない分やりにくい仕事だと思う
- 169 :名刺は切らしておりまして:2016/04/01(金) 01:56:58.80 ID:WfuXkSRC.net
-
だからあれほど「ファーウェイ製ルーターにしろ」と
言ったアル。
- 170 :名刺は切らしておりまして:2016/04/01(金) 02:08:14.60 ID:5QrC07Wr.net
- よく気がついたなー。
スイッチのトラブルってなかなか疑わないと思う。
- 171 :名刺は切らしておりまして:2016/04/01(金) 02:25:27.87 ID:OFtrRYjW.net
- >>152
メモリーリークのバグだと、本番のデータ量で、1週間とか、1ヶ月とかの連続運転やって、
初めて出るのもあるんだよ
それも、特定の業務に異常な偏りがあった場合とかだったりするから、運次第だったりする
- 172 :名刺は切らしておりまして:2016/04/01(金) 02:38:08.58 ID:Vd86vLpH.net
- あーこれはシステム設計の不備だわ
スイッチ故障判断をその故障してるスイッチだけに委ねてるのがひどい
普通外部で同期失敗したら診断プログラム走らせるだろ
こんな重要なスイッチならなおさら
一番ひどいのがビジ板でまともな回答もだせてないとこ
- 173 :名刺は切らしておりまして:2016/04/01(金) 02:40:49.38 ID:hzT2I1lD.net
- >>161
再発防止策としてDBサーバーからのスイッチ監視を入れたそうだから多分、ポーリングかけるようにしたんだろうね。
- 174 :名刺は切らしておりまして:2016/04/01(金) 02:52:01.58 ID:qaijhPZE.net
- >>10
このネタがわかるのは、40以上w
- 175 :名刺は切らしておりまして:2016/04/01(金) 05:19:49.79 ID:WT3IWHYr.net
- 予備のスイッチに切り替わらなかったからって言ってなかった?
予備機に切り替えて、業務終わった後に本番機に戻すんじゃないなら、
SDNで本番&予備同時通信なのか??
- 176 :名刺は切らしておりまして:2016/04/01(金) 07:59:12.95 ID:1JxQ6mYz.net
- ただの
スイッチハブの熱暴走
にしか見えない。
- 177 :名刺は切らしておりまして:2016/04/01(金) 08:02:34.44 ID:RKxvQZN/.net
- スイッチがおかしくなってDB同期できなくなった→わかる
DB同期できなくなったので1台DBサーバが落ちた→わかる
最後のDBサーバまで落ちる→なんでやねん
スイッチ故障の生存サーバ決めとけよ
- 178 :名刺は切らしておりまして:2016/04/01(金) 08:15:27.85 ID:cgJk8RRh.net
- 企業体質が色濃く表れてるな
白いもんを黒くいう経営者が頭にいれば
末端まで正常な判断ができなくなる典型
人事が機能しないからな
- 179 :名刺は切らしておりまして:2016/04/01(金) 08:22:20.47 ID:8MPksJEw.net
- コレガ最強伝説
- 180 :名刺は切らしておりまして:2016/04/01(金) 08:23:27.04 ID:KSfnmWUY.net
- 大坊サーバー
- 181 :名刺は切らしておりまして:2016/04/01(金) 08:47:46.53 ID:4EGW+9kd.net
- 今日はJALのシステムがバグってるようだ
金曜で夜は混むから振り替えは早めに判断したほうがよさげ
- 182 :名刺は切らしておりまして:2016/04/01(金) 08:48:03.39 ID:sfErG4EJ.net
- 株式会社参入させてみろ、安値競争になって既存の保育園もサービス切り下げ保育士給料切り下げせざるを得ない。
だが、それが資本主義だ、規制緩和は必要だ、と上級国民様は宣う。
本当に必要か? 国民全員で如何に貧乏になれるか競争してるだけではないか?
- 183 :名刺は切らしておりまして:2016/04/01(金) 08:59:00.41 ID:VybcY8d6.net
- だからメルコにしとけとあれほど
- 184 :名刺は切らしておりまして:2016/04/01(金) 09:09:47.46 ID:oKJL9Yt6.net
- なんか脆弱性をさらけ出しちゃった感
あのときは一瞬テロも疑っちゃたよ
損害賠償請求は何億位になるのかな
- 185 :名刺は切らしておりまして:2016/04/01(金) 09:22:21.10 ID:ysy4qzTj.net
- こんどはJALがやらかしたいだぞw
- 186 :名刺は切らしておりまして:2016/04/01(金) 09:26:29.98 ID:B9VOdBmB.net
- >>134
スタックを冗長化と思わない方がいい。
ループ発生があって以来、設計から完全排除したわ。
- 187 :名刺は切らしておりまして:2016/04/01(金) 09:28:55.94 ID:7LiucoPe.net
- ソフトバグなのか?
インターフェースICの不良混入、けっこう多いぞ
- 188 :名刺は切らしておりまして:2016/04/01(金) 09:33:58.81 ID:H6MrvMH0.net
- JALでシステム障害発生!
- 189 :名刺は切らしておりまして:2016/04/01(金) 09:45:08.43 ID:Z+jnHUo0.net
- 対応した人等はかなり優秀だな
このケースの場合は原因箇所を特定するのに時間がかかるよね
- 190 :名刺は切らしておりまして:2016/04/01(金) 10:06:08.71 ID:MR6Ejyi1.net
- >>165
juniperって・・・正気か?
- 191 :名刺は切らしておりまして:2016/04/01(金) 10:21:21.20 ID:UgPK8C5b.net
- もう今度から予備のスイッチ用意しとけ!
- 192 :名刺は切らしておりまして:2016/04/01(金) 10:24:28.37 ID:lhd6Fykk.net
- 春先の安定時期でこれじゃ 夏場は暑いので、
ルーターやハブはもっと暴走しやすいんじゃなかった?
- 193 :名刺は切らしておりまして:2016/04/01(金) 10:28:16.98 ID:MR6Ejyi1.net
- >>192
野ざらしで運用ならそうだけど
空調が整ったデータセンター内で運用するんだから快適でしょ
- 194 :名刺は切らしておりまして:2016/04/01(金) 10:30:58.70 ID:KNivyLq7.net
- えーとつまり死活監視が相互になってなかったって事?
だとすると随分お粗末な話だな
- 195 :名刺は切らしておりまして:2016/04/01(金) 10:38:17.47 ID:uxOJys3T.net
- イーサネットなんて言葉、20年前に買ったパソコンでの周辺機器への接続で耳にして以来だな。
ココナツサブレは シスコ
- 196 :名刺は切らしておりまして:2016/04/01(金) 10:38:51.83 ID:F4EggDH6.net
- >>193
昔々のKDDI府中は電源容量一杯一杯でエアコンの室外機に水を(ゲフンゲフン
- 197 :名刺は切らしておりまして:2016/04/01(金) 10:43:59.13 ID:6N+5jW00.net
- 1箇所で出たなら、
この機種を使用している
他の会社でも、同様のバグがある。
つまり、始まりでしかない。
設定や、ソフトウエアで意図的に、
故障シグナルを出さない方法が仮に有ったとしたら、
ハッカーに狙われる可能性もでてくる。
- 198 :名刺は切らしておりまして:2016/04/01(金) 10:47:34.93 ID:ukPCvA6Z.net
- この種のスイッチは、全ての中心となる、最も堅牢が要求される装置で、実際、そのような触れ込みで売られている。
しかし実際はヘボい。ことに性能上限に近い条件で使ってると、いつの間にかゾンビ化しがち。
福島原発みたいなもんで、そういうことが起こるという前提でシステム設計されてなかったりして、対応には一々人力を要する。
そういうことが頻繁に起こるので、裏事情まで知り尽くし、臨機応変な熟練エンジニアが常に詰めてないとダメ、
みたいな仕事になってしまうのですよ。
- 199 :名刺は切らしておりまして:2016/04/01(金) 10:48:34.32 ID:shm5Fl+/.net
- アラクサラに変えるしかないな
- 200 :名刺は切らしておりまして:2016/04/01(金) 10:50:51.90 ID:ukPCvA6Z.net
- 全く同型の機種は国内数千台限りかも知らんが、4500シリーズ全体、
更には似たような機能やOSを使う上位・下位のシリーズにもある問題だとすると、
どれだけになるか分かったもんじゃない。
- 201 :名刺は切らしておりまして:2016/04/01(金) 10:55:11.66 ID:shm5Fl+/.net
- 基本的にこの手の大規模システムで単一メーカーはだめだよ。
シスコ、アルカテル、ジュニパー
国産だとアラクサラ、アプレシア
- 202 :名刺は切らしておりまして:2016/04/01(金) 10:58:27.06 ID:V0/PvMTI.net
- >>201
理屈はそうだけどさ、運用が別機種のオペレーション覚えたくない、というか運用コスト削減による人員削減で iOS一託ってところ多いよ。
- 203 :名刺は切らしておりまして:2016/04/01(金) 11:45:01.24 ID:6WmHFuec.net
- >>1
日本ユニシスって、NHK会長の籾井が数年前まで社長だったとこじゃん!
しかもANAは、民主に寝返ったJALに変わって自民党の指示で政府専用機の委託を勝ち取っているし
安倍の腹具合がまた悪くなるぞw
その報復か、JALでもシステム障害発生!
- 204 :名刺は切らしておりまして:2016/04/01(金) 12:03:13.30 ID:lhd6Fykk.net
- >>183
うちは一流しか使わない方針 BUFFALOのメルコ
コレガ それからIOデータだな
- 205 :名刺は切らしておりまして:2016/04/01(金) 12:07:33.52 ID:9Cr5he4U.net
- アメリカに物作りやらせるなよw
- 206 :名刺は切らしておりまして:2016/04/01(金) 12:07:40.79 ID:Klg1TblX.net
- ネットワーク屋にやらせたらこんなもんだろ
ハードの設計構造まで知らんからハードの機能を鵜呑みにする
組み込み開発やってればハードの機能なんて使えない物が多いのがわかるはず
- 207 :名刺は切らしておりまして:2016/04/01(金) 12:08:20.00 ID:kpR1qrNC.net
- またCiscoかよwww
- 208 :名刺は切らしておりまして:2016/04/01(金) 12:10:16.57 ID:bwJcGqsx.net
- ANA、システム障害で日本ユニシスへの損害賠償検討
http://itpro.nikkeibp.co.jp/atcl/news/16/033100944/
本当にスイッチのバグが原因ならCISCOを訴えるべきだと思う。
たぶんそうではないのだろう。
- 209 :名刺は切らしておりまして:2016/04/01(金) 12:10:53.82 ID:58rWbkoV.net
- 日本猿には扱えない代物だったか
- 210 :名刺は切らしておりまして:2016/04/01(金) 12:13:43.55 ID:D14WdHsU.net
- >>208
シスコを訴えるのは日本ユニシスだろ
- 211 :名刺は切らしておりまして:2016/04/01(金) 12:14:29.44 ID:oRLRp7Ip.net
- >>135
まだあるんだっけ?
- 212 :名刺は切らしておりまして:2016/04/01(金) 12:21:45.03 ID:xt6DGn7i.net
- bug番号もうでた?
- 213 :名刺は切らしておりまして:2016/04/01(金) 12:23:01.53 ID:P3UHD3Vm.net
- >>143
純正シリアルケーブルあるだろ
- 214 :名刺は切らしておりまして:2016/04/01(金) 12:23:29.75 ID:yJgg+ERO.net
- 今日はJALなんだが
- 215 :名刺は切らしておりまして:2016/04/01(金) 12:24:07.17 ID:Z88zk8Wh.net
- 何でわざわざアメリカ製を使うのか全く理解出来ない
日本国内に優秀な技術会社いっぱいあるのに
- 216 :名刺は切らしておりまして:2016/04/01(金) 12:27:49.43 ID:kpR1qrNC.net
- 4948Eはあぢいからラックの上下空けとかないとなー
- 217 :名刺は切らしておりまして:2016/04/01(金) 12:36:31.98 ID:6wPVMvzC.net
- なぜに全日空のシスコのルーターだけが故障するのかな
- 218 :名刺は切らしておりまして:2016/04/01(金) 12:42:51.30 ID:JT9L3cyc.net
- >>217
技術的にはグランドノイズや電磁波測定、電源の波形とかの環境をチェックした方が良いのかな。
運用責任者が非常に稀なネットワーク機器の故障という形で責任なすりつけるタイプとか、技術以外の理由だとあれだけど
- 219 :名刺は切らしておりまして:2016/04/01(金) 12:48:25.97 ID:T16sod/2.net
- >>27
JALも去年システム障害起こしたし、今日も起こしてる
何で嘘を書くの?
- 220 :名刺は切らしておりまして:2016/04/01(金) 12:49:54.41 ID:VJd8Z5WR.net
- >>215
アメリカ製のソフトウェアをインドのIT会社が修正してアメリカのネットワーク機器で動かす。
それがANA。
- 221 :名刺は切らしておりまして:2016/04/01(金) 12:57:38.82 ID:kyFyA7pU.net
- こういうとき縮退っていう用語つかうんだ
化学屋だけど化学以外では使われないと思ってた
- 222 :名刺は切らしておりまして:2016/04/01(金) 13:00:46.53 ID:CavpsIXb.net
- >>208
システムな一部としてUNISYSが納入せてるなら
シスコへの請求はUNISYSがやる
- 223 :名刺は切らしておりまして:2016/04/01(金) 13:08:42.01 ID:DVUYBokA.net
- これはしょうがない気がするけど、契約内容次第だとそら訴えられるわな
こういうのも見越するとなると、コストアップ間違いなしだしバグ疑いだしたりしたらキリがない
- 224 :名刺は切らしておりまして:2016/04/01(金) 13:21:29.64 ID:ukPCvA6Z.net
- あくまで法律的、契約的には、最終納入業者に責任がある。
しかしそれは金銭で解決できる責任だけ。
障害が起こり、皆が困ったこと自体は、誰にも何ともできない。
オープンシステムの欠陥は、そこにありますな。
結局、多数のメーカーの、個々の事情で社外秘かかえた機械使ってるから、
ちゃんと動いてる限りは機器単体が安くなったというメリットがあるが、
一旦、障害が起これば、原因の切り分けが極めて困難。
仕様上、ないはずの相性問題もドッサリ残っており、熟練の技術者が居ないと何ともならない。
昔なら、NECが入れたシステムなら、個々の機器まで全てNEC、とか、分かりやすかったんだが。
- 225 :名刺は切らしておりまして:2016/04/01(金) 13:22:17.65 ID:rhVv4Y7m.net
- 見かけ上は生きてるってのは一番厄介だな
死ぬならバチっと死んで欲しいわ
切り分けと原因究明がかなり手間取る
運用はまだうまくやったように思えるね
- 226 :名刺は切らしておりまして:2016/04/01(金) 13:35:59.17 ID:ukPCvA6Z.net
- おそらく日本独特の問題としては、何であれシステムは完璧に動くのを前提として、寸分狂わぬ運用計画とかを立てがちなことかも。
おそらく鉄道から来た文化だろうが。
海外なら、飛行機なんぞ、くだらねー理由で飛ぶの止めたり、急にストライキして全面運休も珍しくない。
何であれ、ギリギリで運用すればするほど、確かに通常はコストも安く利益も大きくなろうが、
一旦、悪く転び始めると、雪ダルマ的に事態が悪化するものですよ。
- 227 :名刺は切らしておりまして:2016/04/01(金) 15:04:51.27 ID:lhd6Fykk.net
- >>224
責任ないとか リスクはお客様が負うこととか、販売時の契約書に書いてるよ
法律は日本でなく メリーランド州とかペンシルベニア州適応だとか
同意した上でどうのこうのとか
最近は、高額商品でも、文書化せずイン−トールで自動合意が多い
- 228 :名刺は切らしておりまして:2016/04/01(金) 15:09:02.36 ID:ZMqmTDHm.net
- それじゃCCNA程度の知識じゃ解決しないわな
- 229 :名刺は切らしておりまして:2016/04/01(金) 15:26:24.24 ID:QA4CjEXL.net
- このクラスの製品って
「クリティカルな業務には使用しないでください」って但書付いてるの?
- 230 :名刺は切らしておりまして:2016/04/01(金) 16:04:58.90 ID:VJd8Z5WR.net
- >>229
契約書になにか謳われているだろうよ。
例えばパナソニックの場合特別水準と特定水準ではその内容が明記されているはず
標準水準
: コンピュータ、OA機器、通信機器、AV機器、家電、工作機械、パーソナル機器、産業用ロボット
特別水準
: 輸送機器(自動車、列車、船舶など)、交通用信号機器、防犯・防災装置、電力機器、各種安全装置、生命維持を直接の目的としない医療機器
特定水準
: 航空機器、航空宇宙機器、海底中継機器、原子力制御システム、生命維持のための医療機器・装置またはシステム
https://www3.panasonic.biz/ac/j/salespolicies/
- 231 :名刺は切らしておりまして:2016/04/01(金) 16:13:02.47 ID:lhd6Fykk.net
- >>229
使ってもいいけど 責任はお客様とか書いてるんじゃない?
この分野は知らないけど、IT関連はそんなのが一般的で
リスクは一切負えない事を、念入りに書いてるのが多い
- 232 :名刺は切らしておりまして:2016/04/01(金) 16:30:53.76 ID:F5KzmASc.net
- >>1
特定メーカーの特定機種でしか動かないシステム
しか構築できないのが敗因
うまいエンジニアは汎用製品で組む
- 233 :名刺は切らしておりまして:2016/04/01(金) 16:40:08.98 ID:V0/PvMTI.net
- 例えばだけど、ANAがNW設備は自主調達しててUNISYSにそれを使って構築させてたなら、Cisco製品の障害だと公表した上でUNISYS提訴をちらつかせはしないだろね。
だから今回はUNISYSがCisco製品込みで提案してるはず。
Ciscoは製品をUNISYSに卸しただけで、障害発生時の保証は通常の内容で逸失収入の補填まではないだろね。
- 234 :名刺は切らしておりまして:2016/04/01(金) 16:46:46.06 ID:HBMzSHrq.net
- >>174
わからないので解説頼む
@20代中盤
- 235 :名刺は切らしておりまして:2016/04/01(金) 17:07:22.29 ID:1PrgDJWI.net
- まさかEtherPHYはBroadcom製か、まじヤバイぞ
- 236 :名刺は切らしておりまして:2016/04/01(金) 17:16:50.21 ID:eP7OJfAQ.net
- hpの元関係者だからってわけでもないが、今回みたいにhp-uxでhp/serviceguard入れてる場合
2重化してるネットワークのハブもhpにしといてくれたほうがいいと思うだけですね
聴いた話じゃ、宇宙ステーションで使ってるのはCiscoじゃなくてhpのプロカーブらしいし
- 237 :名刺は切らしておりまして:2016/04/01(金) 18:33:01.24 ID:k7PDAc6U.net
- CCIEクラスの一流エンジニアならこの手の
ネットワークはNTPでネイバーテーブルの
ブロッキングポートをオートネゴシエーションで
自動的にエンクリプションして認証させるような
堅牢なスタンドアローン型バストポロジーで
設計する。
要するにそんなこともわからない営業担当が
ネットワークを設計構築してるんだろう?
- 238 :名刺は切らしておりまして:2016/04/01(金) 20:05:07.45 ID:DOL7592P.net
- 大手銀行のシステムとかだと罰金制度あるからIBMとか必死に仕事してるよね
- 239 :名刺は切らしておりまして:2016/04/01(金) 20:18:08.06 ID:ZB0rf2Dx.net
- >>237
自動的→オートマティック
認証→オーセンティケーション
堅牢→サブスタンシャル
設計→デザイン
- 240 :名刺は切らしておりまして:2016/04/01(金) 20:30:19.99 ID:WshLtlWh.net
- >>24
アホか。冗長化プロトコルも知らんやつが知ったかぶりすんな。そんなトラップに依存する低レベルな仕組みにするかよ。
- 241 :名刺は切らしておりまして:2016/04/01(金) 20:34:39.98 ID:WshLtlWh.net
- >>46
当然やってた上で、切り替わらなかったと言う理解がなぜできない?どうやって切り替わるか知らないで記事読むとそういう理解になるわけね。アホか。
- 242 :名刺は切らしておりまして:2016/04/01(金) 20:43:56.70 ID:60kGvnli.net
- >>240
低レベルってどっちの意味だ?
- 243 :名刺は切らしておりまして:2016/04/01(金) 21:28:33.68 ID:y2iwNYoY.net
- 要するにスイッチがボケ老人化したんじゃないのか。
- 244 :名刺は切らしておりまして:2016/04/01(金) 21:40:18.17 ID:qRf0P6Jz.net
- テロ?
- 245 :名刺は切らしておりまして:2016/04/01(金) 21:59:14.35 ID:iuiljIrt.net
- アメリカのソフトなんてこの程度ww
グーグルカーだってバグで毎日事故
所詮はおもちゃしか作れない衰退国さ アメリカ
- 246 :名刺は切らしておりまして:2016/04/01(金) 21:59:33.56 ID:ybj2Lyod.net
- 200レスも前の書き込みに揚げ足とってアホアホ言ってる人がいる・・・
- 247 :名刺は切らしておりまして:2016/04/01(金) 22:01:47.52 ID:nTzndrnm.net
- 故障シグナルって具体的になに?
- 248 :名刺は切らしておりまして:2016/04/01(金) 22:02:47.16 ID:iuiljIrt.net
- だからわが社のメインフレームにしておけとあれほど・・・
富士通
NEC
日立
- 249 :名刺は切らしておりまして:2016/04/01(金) 22:03:26.81 ID:eP7OJfAQ.net
- >>246
この件でうちの機材配置変えた
死んだのは死んだと言えとしてる
>>237
>>245
ニュース速報プラスで、ハートビートとNTPサーバの通信が混線して
クラスターが作動しない、って発見したけどアメリカのバグで修繕不可能と判断
営業さんが菓子折でなんとかした、と聴いた
- 250 :名刺は切らしておりまして:2016/04/01(金) 22:03:26.88 ID:bn30CmNU.net
- 就活で「お席はありません」と嘘をついて取る気がない学生
に無駄な努力を強いている
それの天罰だろ
- 251 :名刺は切らしておりまして:2016/04/01(金) 22:10:45.70 ID:iuiljIrt.net
- >アメリカのバグで修繕不可能と判断
そりゃそうだなw
アメリカってソフトが一番衰退していてバグだらけなんだよ
毎年レベルが下がってる どうせアメリカ製のソフトだからなあって思ってた
- 252 :名刺は切らしておりまして:2016/04/01(金) 22:59:39.24 ID:fyTZAYF4.net
- 放送局のバンクで、A系B系があって、片系が落ちると同期が取れない相方も同時に落ちるってことがあった。
なんの為の予備系なんだよ〜と眠れなくなったものだ。
EVAのMAGIシステムみたいに、3系統にすれば良かったのか。
- 253 :名刺は切らしておりまして:2016/04/01(金) 23:04:27.81 ID:eP7OJfAQ.net
- >>252
金の具合で、7系統、9系統
俺がやったのが最大11系統ありました
そういう切り替えのリスクと金の具合のにらめっこですな・・・
- 254 :名刺は切らしておりまして:2016/04/01(金) 23:13:53.69 ID:SLNK5VsK.net
- >>252
スプリットブレインを避ける一番安直な方法な>三重化
- 255 :名刺は切らしておりまして:2016/04/01(金) 23:14:15.63 ID:aKv6/1ek.net
- >>243
孫「おじいちゃんそのパケットもう転送したでしょ!」
爺「いやーそうだったかいのー?」
- 256 :名刺は切らしておりまして:2016/04/01(金) 23:57:47.50 ID:lt99VWVn.net
- >>190
Juniperでなんか問題あんの?
Extreme Networksでもいいかも
ま、L2スイッチなんてSNMPさえ実装してればなんでもいいんだけど
- 257 :名刺は切らしておりまして:2016/04/02(土) 01:01:15.60 ID:zI3Gow6T.net
- アメリカなら訴訟が起きて賠償1兆円請求のパターンだな
- 258 :名刺は切らしておりまして:2016/04/02(土) 01:21:59.87 ID:sMw5GqUz.net
- HSRPなんて使うかよ
- 259 :名刺は切らしておりまして:2016/04/02(土) 01:26:01.24 ID:I/MRQRWX.net
- >>257
それはできない お客様側ユーザー側の使用者責任であることが契約書に書いてるし
ユーザーや使用場所が日本でも、裁判になれば、TPPで適応法律は日本でなく、
米国の指定の州法 裁判官も弁護士も全部米国だし
悪いことを沢山目一杯やって、私は一切悪くありません 戦争仕掛けても悪いのは相手いう
西欧人が、自己正当化術に非常に長けているのは、基本の基本
- 260 :名刺は切らしておりまして:2016/04/02(土) 01:29:13.59 ID:2RL1dzSF.net
- >>259
その辺りの法務のことも服めていま作業中です
- 261 :名刺は切らしておりまして:2016/04/02(土) 02:08:09.98 ID:nJwTnExk.net
- 「世界初のハゲ」に見えた。
疲れてるな。
- 262 :名刺は切らしておりまして:2016/04/02(土) 02:31:47.53 ID:TlmBusG4.net
- バカが妄信するCisco。漢は黙ってHP。
というか、物理層レベルでネットワークが二重化されていれば、両方同時に
故障するとは考え難いので、仮に一台のハブが死んでも、もう一方のルート
で通信が可能なはずだし、いくら冗長化プロトコルを導入したところで、
肝心の中継するハブが死んでいたら、意味をなさない。
同期に失敗したサーバが自動停止した際に、管理者にメール通知するなり、
パトライト点灯やエラーログを吐かなかったのであれば、システムを構築
したベンダーの基本設計がゴミではないかと。
- 263 :名刺は切らしておりまして:2016/04/02(土) 03:11:18.64 ID:VvrHjHp0.net
- >>262
あのな、ネットワークは物理層だけを二重化してもダメなの。
機械の故障で想定外にL2ループが発生したり、IPデュプリケートが発生してスイッチポートがシャットダウンしたりすることがあるの。
監視はどこでもやってて当たり前だし、想定外は付き物よ。
- 264 :名刺は切らしておりまして:2016/04/02(土) 03:19:59.68 ID:VvrHjHp0.net
- >>237
ネイバーテーブルのブロッキングポートって何?
意味不明。
サーバまでダイナミックルーティングする設計?釣りか?
DB置いてるバックエンドネットワークの構成を複雑にする意味なんてないだろ。
- 265 :名刺は切らしておりまして:2016/04/02(土) 03:41:16.13 ID:TlmBusG4.net
- >>263
DHCPでも問題が発生するとは思えないが、今回のようなシステムでは固定IP
がデフォでしょ。勝手にIP重複が発生するとか、デスマで死んだSEのゴースト
が不正ログインしてconfigでも書き換えたか?
クライアントにベンダー選定能力なんてないのは百も承知だけど、過去にも
問題を起こしたUNISYSを選んだANAの資質が疑われる。
たった数日で改修したとか、明らかにネットワーク機器の設定ミスとかが
原因で、ロクに検証作業や動作確認やってないってことでしょ。
- 266 :名刺は切らしておりまして:2016/04/02(土) 05:11:20.50 ID:FF156iMq.net
- ハブスイッチのプロ仕様?
- 267 :名刺は切らしておりまして:2016/04/02(土) 05:43:06.66 ID:OrP4JBhz.net
- 物理的に完全に二重化し、サーバの同期も取らないなら、そら手作業で線を差し替えれば絶対に復旧するだろうがな…
予約は総キャンセル扱いにせざるを得ないよね…
それでも一日、全く動かんよりマシかも知らん。
>>259
別にシスコ社に限らず、あらゆる機器メーカーが、そういう条件で販売してる。
絶対の可用性など保証しようがない。
不都合が有ったら最大補償しても新品交換。それが当たり前。
しかしユーザーからは、絶対の可用性を要求され、そういう仕様で発注される。
システム会社は、それを飲んで受注するが、システム会社が入れる機器には、そんな性能がない。
責任は法律から言えば、システム会社にあろう。
しかし科学的に不可能なことだから、どうしようもない。
障害して莫大な賠償請求されたら、運が悪かった思って倒産するだけですな。
- 268 :名刺は切らしておりまして:2016/04/02(土) 05:54:54.62 ID:OrP4JBhz.net
- そんな要求仕様は実現不可能だと、突っぱねれば良かっただけではあろうが、それだと受注できない。
客にとっては、そもそも従来、大型汎用機を使った単純な端末システムで、何の問題もなく実現できてたことだし。
結局、各社、できもしないことを、できますよ、とウソついて受注争いし、最も大ウソついた会社が落札すると。
だから本件だって、対応した担当技術者は最優秀だと思うが、それでも「よく被害を小さくしてくれた」と評価されることはない。
本当は、するまでもなく分かってる原因調査と、不可能な再発防止の検討に酷使されるだけでしょう。
- 269 :名刺は切らしておりまして:2016/04/02(土) 06:02:58.93 ID:OrP4JBhz.net
- 酷いときは、技術者なのに訴訟がらみのトラブルに巻き込まれ、心身を消耗して鬱病になり、自殺したりな。
だからな、どんな人か知らんけど、辞めるなら早ければ早い方が良いですよ。
飛行機は飛ぶから人身に危険が及ぶ。
少しでも怪しい時は、飛ばない方がフェイルセーフだ。
正しく飛ばなかったんだから誰の人身にも危険は無かった。
極論すれば、この世に飛行機など無くなっても、誰も死なない。
担当者が悩み苦しむ必要は無いと思いましょう。
- 270 :名刺は切らしておりまして:2016/04/02(土) 08:30:36.73 ID:TlmBusG4.net
- >>269
その点、三菱MRJは、客を乗せて飛ばないから安心です。
- 271 :名刺は切らしておりまして:2016/04/02(土) 08:39:08.87 ID:TlmBusG4.net
- >>267
あくまでANAの状況判断と説明が正しいと言う前提で、落ちる際も4時間以上の
時間がかかっているし、復旧時の2台立ち上げたら両方ダウンするといった状況
から判断して、DB同士の同期を取る処理が、異常系が満足に設計されていな
いか、処理に不具合があったとしか思えない。
2台の縮退運転状態から、片方が落ちて、最後の1台が落ちるまでの時間に
大きな開きがある点からも、明らかに同期失敗でシャットダウンする機能
は働いていない。
たぶん異常時の動作テストもしていないし、テスト手順書はあっても、
同期失敗時の項目自体が作成されていない可能性が大。
- 272 :名刺は切らしておりまして:2016/04/02(土) 09:21:09.20 ID:W71Qlrc8.net
- バグはどの製品にも必ずあるから入念な検証を推奨してる
それはciscoに限らずどのベンダでも同じこと
結局、機器選定の評価項目が甘かった。って結論になるんじゃないかな
- 273 :名刺は切らしておりまして:2016/04/02(土) 10:42:03.81 ID:dD5/t64p.net
- >>265
どこにDHCPなんて書いてあるんだよ。
この環境でDHCPって単語が出るか?
機械の故障によるIP重複は、例えばCiscoだとスタッキング環境でスタックマスターの分離によって起こったりする。
もしかして、設計や構築経験が浅い人?
- 274 :名刺は切らしておりまして:2016/04/02(土) 10:51:54.16 ID:QjGKGrw1.net
- また現場を知らない℃素人が
馬脚を表すスレか()
もうね、青い作業服の人と現場の人間だけにしろよ
アホがタワゴトを真に受けるからチョーシこくんだよw
- 275 :名刺は切らしておりまして:2016/04/02(土) 11:00:58.29 ID:W6ieu7VZ.net
- 普通に考えたら、こんな止まっちゃいけない社会システムが
ネットワーク部分も含めて物理的に冗長化されてない訳ないだろ。
スイッチ側はciscoだとスタックとかvss組んだ上で、
サーバ側のnicはチーミングで異なる物理装置に接続するやろ。
(今回は機種的にスタックはないけど)
その上でどれか1台の機器を停止しても業務継続できることは
冗長試験で確認しているけど、今回は機械が完全に氏ぬような
判りやすい障害じゃなかったので、切り替わりがうまく行かなくて
システム停止になったと想像してる。
- 276 :名刺は切らしておりまして:2016/04/02(土) 11:12:04.88 ID:IJlHPW3P.net
- >>265
スイッチが故障信号を出さないまま動作が不安定になる、
って検査項目を作って検証しなかったのが悪いと?
エレコムとか使ってるなら考えるかもしれんが
そんな事考えんでも良いようにとCISCO使ったんだろうに。
構内の直結でもパケット欠落を考えなきゃならんとか言われて
急に対応させられてる人も出てるのかな。
そっちの方が災難だな。
- 277 :名刺は切らしておりまして:2016/04/02(土) 11:17:38.45 ID:We95XUGh.net
- >>264
ネタにマジレス…
- 278 :名刺は切らしておりまして:2016/04/02(土) 11:46:46.04 ID:uvS2ifNK.net
- >>276
そこがネットワーク屋の限界なんだろうな
故障判定をその判定対象の機器だけに頼るっていうのがね
その検知機能が壊れたら確実に今回の現象は再現されるわけで
サーバーからもスイッチ診断させるのは当然でしょ
- 279 :名刺は切らしておりまして:2016/04/02(土) 12:11:34.78 ID:IJlHPW3P.net
- >>278
検出機能が壊れて、かつ疎通不確実状況を再現するための治具を
作らんと再現できないんじゃね?
そんなん考慮する前に考えなきゃいけない項目は山ほどあるからなあ。
ベンダさんが普通こんなもんです、ってCisco 持ってきたら
そんなもんだね、で終わっちゃうよ。
ネットワーク屋には確かに限界があるが
使えない条件こねくりまわしてウダウダ言う奴よりはまし。
- 280 :名刺は切らしておりまして:2016/04/02(土) 12:26:17.67 ID:uvS2ifNK.net
- >>279
再現は簡単だろ
故障信号カットしてスイッチで通信遮断させて同期失敗させるだけ
今回のシステムだとこれで全サーバーダウン
この程度を想定できないのがありえないわ
- 281 :名刺は切らしておりまして:2016/04/02(土) 12:28:32.04 ID:W6ieu7VZ.net
- >>280
横から口出すけど、故障信号って何よ?
- 282 :名刺は切らしておりまして:2016/04/02(土) 12:39:23.57 ID:IJlHPW3P.net
- >>280
>再現は簡単だろ
>故障信号カットしてスイッチで通信遮断させて同期失敗させるだけ
>今回のシステムだとこれで全サーバーダウン
>この程度を想定できないのがありえないわ
そのテストでは意味が無いだろう。
そこから回復できないのが問題だったわけで。
やっぱりこねくり系かい?
- 283 :名刺は切らしておりまして:2016/04/02(土) 12:40:58.28 ID:z3rkHHiF.net
- 元記事の故障シグナルのことを言ってるんだよね、きっと。
でも >>280 が言うような簡単さではないと思うけど、Cisco機器の障害再現は。
この手の不安定な意味不明の障害って再現が難しくて四苦八苦するし。
- 284 :名刺は切らしておりまして:2016/04/02(土) 12:41:51.52 ID:uvS2ifNK.net
- >>282
そこから回復できないのは
故障信号だけに頼ってるのが原因と言ってるだろうが
ここに不具合がでたら確実に再現されるという事
- 285 :名刺は切らしておりまして:2016/04/02(土) 12:46:31.58 ID:uvS2ifNK.net
- >>283
何ごちゃごちゃいってんだよ
故障信号が1ビットか数バイトか知らんが
予備に切り替えるトリガーを送出できないっていう事は
故障信号は切断されていたと同義
おまえ仕事でもそんな屁理屈言ってるのか
- 286 :名刺は切らしておりまして:2016/04/02(土) 12:52:02.92 ID:pH9/CdYz.net
- >>1でいう「故障シグナル」なるものが何を指しているのかハッキリしないことには
何があったのか想像の域を出ない。
- 287 :名刺は切らしておりまして:2016/04/02(土) 12:53:18.47 ID:2RL1dzSF.net
- 一見馬鹿みたいな事例だけど、案件は東条英機手続きの機材
案外なにかわかるのかも
- 288 :名刺は切らしておりまして:2016/04/02(土) 12:55:05.14 ID:uvS2ifNK.net
- >>286
故障信号つってんじゃん
これ以上の何があるんだよw
明確過ぎるからアホ扱いされてるんだってw
- 289 :名刺は切らしておりまして:2016/04/02(土) 12:55:20.11 ID:W6ieu7VZ.net
- 元記事の故障シグナルのことであれば、技術的な説明を省いているので、
Trapが届かなかったのか、冗長構成の仕組みの監視パケットが届かなくて
切り替わりがうまくいかなかったのか、これだけじゃ話は分からんな。
- 290 :名刺は切らしておりまして:2016/04/02(土) 12:58:55.69 ID:uvS2ifNK.net
- >>289
おまえもアホかw
問題は故障を知らせるトリガーを送出していなかった
たったこれだけ
そのトリガーの種類なんて関係ねーんだってw
- 291 :名刺は切らしておりまして:2016/04/02(土) 13:02:24.59 ID:U97tnoA2.net
- >>290
人のことアホ呼ばわりしてるが、トリガーって単語の使い方が違うぞ
- 292 :名刺は切らしておりまして:2016/04/02(土) 13:03:12.54 ID:uvS2ifNK.net
- >>291
おまえ誰だよw
しかしここど素人しかいねーなw
- 293 :名刺は切らしておりまして:2016/04/02(土) 13:04:43.87 ID:XpZOL2+6.net
- 「お前が死んだらそれをお前が知らせろ」
故障した機器が発信するシグナルを契機に切り替えを行うなんてバカなシステムは見たことない。
- 294 :名刺は切らしておりまして:2016/04/02(土) 13:05:10.13 ID:2RL1dzSF.net
- なんだ、オラクルの俺じゃ無い連呼か
- 295 :名刺は切らしておりまして:2016/04/02(土) 13:05:15.58 ID:z3rkHHiF.net
- >>289
元記事は技術的な用語を避けて説明してるから憶測も入っちゃうね。
確かにこれだけでは状況がよく分からんと思います。
- 296 :名刺は切らしておりまして:2016/04/02(土) 13:07:14.69 ID:n+2Mv4R1.net
- シスコのって、これだろw 計画通り?w
http://gigazine.net/news/20150910-cisco-switch-button-reset/
- 297 :名刺は切らしておりまして:2016/04/02(土) 13:07:41.45 ID:uvS2ifNK.net
- >>295
それはおまえがただのど素人なだけw
- 298 :名刺は切らしておりまして:2016/04/02(土) 13:13:19.22 ID:z3rkHHiF.net
- >>294
今回オラクルは、先にCisco障害ってのが出て助かった感じだね。
普通、今回みたいな現象だとDBMSベンダーかOSベンダーに疑惑の目が向くはずだけど。
- 299 :名刺は切らしておりまして:2016/04/02(土) 13:15:34.30 ID:2RL1dzSF.net
- >>298
俺は故障信号を拾えないかったRACのバグも怪しいと思ってますよ
- 300 :名刺は切らしておりまして:2016/04/02(土) 13:16:12.73 ID:W6ieu7VZ.net
- 俺、ネットワークとかサーバの構築をやってるインフラ系のエンジニアだけど、
ネットワーク機器で障害を検知できるのはSNMPポーリングでMIBを拾うか、
syslog拾うか、機器間で直結している死活監視系の通信ぐらいで、
これまでに故障信号なんて用語は聞いたこと無いわ。
サーバ側でEnd-End間の通信状況を確認して、通信に不具合が発生した場合に
何らかの対処を行う仕組みをシステム側で用意するのは判る。
ただしネットワーク機器だとMIBとかsyslogとかに不具合を示す値やログが
全く見当たらないのに、通信ができないとかスローダウンしているとかいった
不具合にぶち当たることがあって(特にCisco系)、そうした不具合は
検知することも再現することも難しい。
ID:uvS2ifNKは、こうした事情を全然理解してないと思われる。
- 301 :名刺は切らしておりまして:2016/04/02(土) 13:20:47.61 ID:2RL1dzSF.net
- 今回問題のCiscoのスイッチ装置も、買収した会社の機材で既製品ってわけでもないらしいね
- 302 :名刺は切らしておりまして:2016/04/02(土) 13:20:50.45 ID:33Fw6dPm.net
- 中学生レベルなネットワーク構築だなw
- 303 :名刺は切らしておりまして:2016/04/02(土) 13:22:58.99 ID:uvS2ifNK.net
- >>300
ほんとネットワーク屋はバカしかいないね
故障を知らせる信号系に不具合がでたら
切り替え出来ないでしょと言ってる
そんな脆弱なシステムを組んで恥ずかしくないと
言ってる
- 304 :名刺は切らしておりまして:2016/04/02(土) 13:23:52.14 ID:z3rkHHiF.net
- >>299
HB通信の異常をRACが上手く扱えなかったバグかも、ってことですかね?
確かに、その辺が上手く出来てたらインターコネクトのスイッチが一つ駄目になっただけでは今回の事故にならなかったかもしれませんね。
四台RACとか難しいのかも、そういう制御が。
二台+Quorumが一番安定してると思う。
- 305 :名刺は切らしておりまして:2016/04/02(土) 13:25:03.00 ID:2RL1dzSF.net
- >>302
Ciscoもそうだけど、SNMPとかのプロトコルも島んテックのみんなコピーしてるだけだからね
オラクルも
- 306 :名刺は切らしておりまして:2016/04/02(土) 13:30:17.51 ID:W6ieu7VZ.net
- >>303
おまえさんのところは、障害を検知する(した)というトリガー無しで
現用/待機系の切替を行うのか? それこそありえんだろ。
- 307 :名刺は切らしておりまして:2016/04/02(土) 13:30:49.84 ID:z3rkHHiF.net
- >>300
ログとかトラップがないのに異常な状況になることがある、ってのに共感します。
今回のって、えらく早期に開発環境で現象再現したとか、Ciscoがバグ認めたとかありますけど、そんな簡単に分かるかな?と感じるし。
- 308 :名刺は切らしておりまして:2016/04/02(土) 13:33:33.23 ID:Zt9Buz3m.net
- こういう信頼性の要求されるシステムで、受動的に故障信号を待つのでは
なくZabbixとかで常時監視してないのかね?
- 309 :名刺は切らしておりまして:2016/04/02(土) 13:35:27.44 ID:L7PNgMk6.net
- >>16
責任を負うのはSIer。
普通ハードベンダーは営業上の損害は免責される契約になってる
- 310 :名刺は切らしておりまして:2016/04/02(土) 13:35:33.18 ID:uvS2ifNK.net
- >>306
ほんとバカなのかw
故障した時に発する信号だけに頼る設計思想がアホ過ぎと
さっきから何回も言ってるのだが
- 311 :名刺は切らしておりまして:2016/04/02(土) 13:40:40.37 ID:W6ieu7VZ.net
- >>308
こういう規模のシステムだと監視装置(SNMPマネージャ)を入れて、
何分おきかに定期ポーリングをかけるのが当たり前。
接続ポートのダウンアップや、MIBがあればハード障害とかまでも判ったりするけど、
そういうのにかからない不具合が出た場合の検知はやっぱり難しい。
- 312 :名刺は切らしておりまして:2016/04/02(土) 13:41:49.63 ID:QjGKGrw1.net
- uvS2ifNK から基地外の芳醇なかほりが漂ってますなぁ〜〜
- 313 :名刺は切らしておりまして:2016/04/02(土) 13:45:21.34 ID:5pXK6ioS.net
- クラスタシステムか・・・4台のサーバーに1台のストレージ・システムがある
4台のサーバーと共有ストレージの接続にスイッチ
DBはOracleでOracleFaleSafeでクラスタかな
怖いわ・・・
おまけにストレージはRAW形式でOSからファイルが見えないという
止まってはいけないシステムでDB、クラスタ、ネットワーク全部俯瞰できて
障害時に適切な対応できるスーパーSEなんて存在しない
これからも航空業界以外でも同様な障害が起こるだろう
クラスタ、3階層システム、ブレードサーバ、負荷分散システムは鬼門だな
- 314 :名刺は切らしておりまして:2016/04/02(土) 13:45:27.94 ID:zIm6Gixe.net
- メーカーによる解析終わって原因判明してるみたいね。
素直に読むとHSRPで冗長構成取ってて
アクティブが異常動作してるのにHello送り続けてた感じかなぁ
中途半端に動作してるってのは一番性質悪いね
- 315 :名刺は切らしておりまして:2016/04/02(土) 13:49:00.76 ID:W6ieu7VZ.net
- >>312
少なくともID:uvS2ifNKとは、技術的な会話ができないと感じたわ。
根本的に話が通じてない。
>>314
HSRP構成の両現用化かな。経験あるわ。(;´Д`)
- 316 :名刺は切らしておりまして:2016/04/02(土) 13:51:51.03 ID:d01Jolu3.net
- >>300
もうちょい上のレイヤーでもしも〜しってやらんの?
- 317 :名刺は切らしておりまして:2016/04/02(土) 13:51:54.81 ID:uvS2ifNK.net
- >>315
多分理解できないのは
故障信号さえあれば冗長化切り替え問題無しと
思ってるおまえの頭に問題があるからw
- 318 :名刺は切らしておりまして:2016/04/02(土) 13:53:01.78 ID:wVuzON4G.net
- 『システムは故障シグナルを検知するとスイッチを予備機に切り替えるが』
こういう低能がいるから俺でも仕事でメシが食っていけるんだなぁと感謝
- 319 :名刺は切らしておりまして:2016/04/02(土) 13:53:54.99 ID:MRp37Zjv.net
- 40重にしてても駄目な時は駄目なんだね。怖い怖い
- 320 :名刺は切らしておりまして:2016/04/02(土) 13:56:19.98 ID:4bA1N7g6.net
- 2
単発
単発
7
単発
11
単発
単発…
- 321 :名刺は切らしておりまして:2016/04/02(土) 13:59:40.05 ID:W6ieu7VZ.net
- >>316
負荷分散装置挟んでりゃL4より上位層の異常は検知できるし、
複数のルータと回線を挟んだ先の異常ならポリシールーティングで
ping応答の有無を契機に経路を切り換えることはできるけど、
今回の構成はDBサーバ間の同一セグメント間通信っぽいから
L2以下の冗長しか考慮されないんじゃなかろうか・・・
>>317
>故障信号さえあれば冗長化切り替え問題無しと
どっからそんな話が沸いてきたんだ?
- 322 :名刺は切らしておりまして:2016/04/02(土) 14:06:11.26 ID:VJMp+ZN7.net
- >>310
綺麗に検知出来ない障害にどう対応するかが腕の見せ所だからね。
回復可能エラーの統計情報や正常時の性能情報との違い、ケーブル抜いたりしての切り分けや縮退の判断。
ちゃんとしたところはそこらへんも予め準備しているから、腕の見せ所が無いのが理想だけど
- 323 :名刺は切らしておりまして:2016/04/02(土) 14:06:50.27 ID:ytdHQrH8.net
- ユーザー企業は不満があるなら、SI投げるんじゃなくてある程度は自社で社員抱えて自前でやるべき
自社でリスクとって、理解してる人間置かないと永遠に納得できないと思う
リスクは絶対あるから、それを見越して考える発想そろそろできてもいいと思うの
SIもリスクもわかってて結ぶ愚かな契約そろそろやめるべき
- 324 :名刺は切らしておりまして:2016/04/02(土) 14:06:56.20 ID:en4Po2LO.net
- uvS2ifNKのアホぶりに笑える
お前んとこのNWはインターコネクトLANでSniferレベルの監視をやってんのかよ
- 325 :名刺は切らしておりまして:2016/04/02(土) 14:07:32.13 ID:KErmg6DQ.net
- 最初からDB1台運用で設計していればよかったんじゃね?
3台はバックアップ+αな感じで。
複雑でリスクのある事を好みすぎだろ。
- 326 :名刺は切らしておりまして:2016/04/02(土) 14:10:18.12 ID:uvS2ifNK.net
- ほんとアホだねえ
今回はリンクしてたけどもデータが化けてアプリケーションでの同期エラー
ハードで対処できないエラーなんだから
別に外部からエラー監視システムを導入するだろ
こんなのも想定できないで故障信号があれば切り替えOKとか
思ってるんだから低脳過ぎて笑えない
- 327 :名刺は切らしておりまして:2016/04/02(土) 14:13:30.43 ID:e3aPL0/9.net
- 某請負IT土方だが今回の件で今さっき50時間ぶりに帰宅
もう寝る
- 328 :名刺は切らしておりまして:2016/04/02(土) 14:15:00.57 ID:ytdHQrH8.net
- 今回のケースを避ける設計はあるけど結果論で
よくあるから怪しいって当たりつけてないと、この手のバグを見越した設計とか
基本的には不可能だと思うんだけどね
時代遅れの枯れ果てたもの使うか、コスト度外視になっていくから
逃れられない宿命みたいなもんだけど、トラブル絶対おきないという前提で考えられる異常
- 329 :名刺は切らしておりまして:2016/04/02(土) 14:16:34.87 ID:zIm6Gixe.net
- >>325
今回は冗長化が原因の障害だけど
そうじゃないことの方が多いからね
止められないシステムだと仕方ない。
でもシステムによっては冗長化なしでバックアップから復旧で
十分なのも無駄に冗長化してるケースはあるね。
- 330 :名刺は切らしておりまして:2016/04/02(土) 14:16:50.03 ID:ykImUHI1.net
- そりゃ故障シグナルだもの
バグ検証はどうしても甘くなる
- 331 :名刺は切らしておりまして:2016/04/02(土) 14:17:08.84 ID:ofK5Y0b7.net
- そもそもなんで故障したんだ?
故障するのが普通なの?
- 332 :名刺は切らしておりまして:2016/04/02(土) 14:17:16.77 ID:W6ieu7VZ.net
- >>327
お疲れさん。同業者として同情してますわ。ゆっくり休んでくれ。
- 333 :名刺は切らしておりまして:2016/04/02(土) 14:17:50.90 ID:zIm6Gixe.net
- >>331
確率的には普通
- 334 :名刺は切らしておりまして:2016/04/02(土) 14:18:12.45 ID:VJMp+ZN7.net
- >>327
ご苦労様。
- 335 :名刺は切らしておりまして:2016/04/02(土) 14:20:19.07 ID:zIm6Gixe.net
- >>327
お疲れ様でしたー
- 336 :名刺は切らしておりまして:2016/04/02(土) 14:20:52.07 ID:VJMp+ZN7.net
- >>328
この手のバグってどんかバグ?
故障をハードウェアが正しく指摘出来ない不定期な故障ならまぁまぁあることだよ。
- 337 :名刺は切らしておりまして:2016/04/02(土) 14:23:13.55 ID:t1aQzrKn.net
- >>331
NW機器一台あたりの故障率は十分に低いが全体のうちどれか一つとなると無視できない確率になるのよ
- 338 :名刺は切らしておりまして:2016/04/02(土) 14:23:23.53 ID:en4Po2LO.net
- 未知のバグをふせぐ事は不可能。
障害発生時には切り分けを行い然るべき手段で復旧を進める必要があるが、このようなレアケースでは対処のしようがない。
では未知のバグに遭遇した場合に復旧を優先するには?
災対の考えで、別拠点なりにもう一つ同じシステムを用意しておき、そっちを起動させればいい。
この方法は単純だがコストもかかる。現実的ではない。
uvS2ifNKの言っていることは上記と同じ事だ。
- 339 :名刺は切らしておりまして:2016/04/02(土) 14:24:05.87 ID:+xTnRnGj.net
- >>325
スタンバイはいざ切り替えという時に故障が判明したりすることあるのである程度動かしておいた方が安全という考え方もある。
ハードウェアがカチッと検知出来る故障の場合は全て現用の方が安全かも
- 340 :名刺は切らしておりまして:2016/04/02(土) 14:27:42.48 ID:ytdHQrH8.net
- >>336
>スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。
>そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。
- 341 :名刺は切らしておりまして:2016/04/02(土) 14:28:44.65 ID:z3rkHHiF.net
- >>327
おつかれさんでしたー ごゆっくりー
- 342 :名刺は切らしておりまして:2016/04/02(土) 14:28:48.19 ID:P5hDBD/t.net
- >>326
見当違い甚だしいから黙ってろ
- 343 :名刺は切らしておりまして:2016/04/02(土) 14:32:20.11 ID:uvS2ifNK.net
- >>338
未知のバグじゃねーよ
アプリケーションからハード診断できるシステムを組んでれば防げた事例
つまりハードに無知なためハードで診断できる限界がわからず
ハードが検知できない故障があるにも関わらず
ハードの切り替えはハード自体が発する故障信号のみという
とんでもないシステム設計をしたネットワーク屋が全ての原因
- 344 :名刺は切らしておりまして:2016/04/02(土) 14:35:05.97 ID:+xTnRnGj.net
- どこにもエラー無しに不定期にデーターが化けるようなバグ(プログラムの不良)はとても難しい。
エラーがパラパラあったり特定のジョブだけ遅延するのだけど、どこのハードウェアも故障検知しないという程度は、難しいけどまぁまぁある故障なので、予め追加情報採取や切り分け手順、縮退運用基準とかを決めておくべき。それでも想定外れたりするけど
- 345 :名刺は切らしておりまして:2016/04/02(土) 14:36:02.32 ID:t1aQzrKn.net
- >>343
あまり複雑化すると他のメーカーと同居できなくなるから無意味
逆にトラブルの元になるわアホ
- 346 :名刺は切らしておりまして:2016/04/02(土) 14:40:46.16 ID:+xTnRnGj.net
- >>340
不完全ながら動作し故障を検知しない故障はまぁまぁある。
家庭のPCや家電でもWindowsが不安定と思い込んでいるだけで実はハードウェアの故障とか、
突然電源切れたけど、もう一度電源入れなおしたら動いたなんてのもパスコンデンサーの故障で一時的ショートをしたからかもしれない
- 347 :名刺は切らしておりまして:2016/04/02(土) 14:41:15.82 ID:z3rkHHiF.net
- >>323
でもそれだと圧力の掛かる先がSIベンダーから社内のIT部門の係長あたりに変わるだけかも。
障害のないシステムにしろ、ってのは常識的なコストでは無理なんだって認識を世に広めないとなと私は思うよ。
最近はそういう認識持った上で仕事するお客さんも出てきたけどまだまだ少数。
- 348 :名刺は切らしておりまして:2016/04/02(土) 14:41:17.80 ID:uvS2ifNK.net
- >>345
全然複雑じゃねーw
エラー種別で診断プログラムを発動すればいいこと
まあこんな簡単な事も思いつかないんだから
しょせん土方なのか
- 349 :名刺は切らしておりまして:2016/04/02(土) 14:44:09.04 ID:M9hOW8Lo.net
- いちいち賠償請求してたら誰も請け負わなくなるぞ
- 350 :名刺は切らしておりまして:2016/04/02(土) 14:47:40.92 ID:14qyp/Pp.net
- まあどこからエラーが出だしたか見れば
原因がスイッチだと特定するのに時間はかからなさそうだけど
- 351 :名刺は切らしておりまして:2016/04/02(土) 14:49:02.79 ID:KErmg6DQ.net
- DBサーバー異常確認→マニュアルあるなら10分くらい
アプリケーションサーバー異常確認→ログみるだけなら同じく10分くらい
この復旧に8時間かかってるから、責任とってハブ交換してみるのが余程嫌だったんだろうね。
- 352 :名刺は切らしておりまして:2016/04/02(土) 14:49:12.93 ID:z3rkHHiF.net
- >>348
そのエラー種別ってどこが発報するの?
dbサーバ?スイッチ?
発報するところが壊れて発報しなかったらどうするの?
それを監視する仕組みがまたあるの?
- 353 :名刺は切らしておりまして:2016/04/02(土) 14:51:34.97 ID:ytdHQrH8.net
- 設計、運用でおかしかっていうより、客とSIの認識がおかしいんじゃないのって話
記事読んだ印象だと対応での混乱それほどなくて、ある程度はドキュメントあって進めたようにみえるからな
100%防げるかっていうのNoだけど、そういう事になってなかったんだろ
技術屋が糞だから話に終始して、そこは全く触れられない不思議
- 354 :名刺は切らしておりまして:2016/04/02(土) 14:51:46.11 ID:KErmg6DQ.net
- >ANAによれば、3月22日午前3時44分にDBサーバーの1台が停止した。その後2台が停止し
これで復旧に時間がかかっているようであれば、すごいがんばって説明しないとハブ交換できないんだろ
損害賠償でいいよw
- 355 :名刺は切らしておりまして:2016/04/02(土) 14:54:15.11 ID:jXcuCgoO.net
- いくらなんでも原因特定は30分以内にできてたんじゃないの?
他にもないか調べてて時間かかったとか
- 356 :名刺は切らしておりまして:2016/04/02(土) 14:54:32.46 ID:IJlHPW3P.net
- >>327
お疲れさまでした。
- 357 :名刺は切らしておりまして:2016/04/02(土) 14:55:45.29 ID:KErmg6DQ.net
- 運用している会社が従業員の睡眠時間優先で、監視している人間も適当
午前4時くらいの段階でハブ変えてみたらwwwと思っても、
ちゃんと交換する理由を説明できなきゃ交換不可。ハブの交換代金誰が払うんだよwwww
って感じで朝wこんな感じだろ
- 358 :名刺は切らしておりまして:2016/04/02(土) 14:57:15.40 ID:t1aQzrKn.net
- >>348
その診断プログラムが壊れるかもしれないから診断プログラムを診断するプログラムが必要になりますねw
- 359 :名刺は切らしておりまして:2016/04/02(土) 14:57:44.68 ID:uvS2ifNK.net
- >>352
エラーはアプリケーションが出すに決まってんだろ
サーバー4台あるんだから人に聞いてないでちょっとは自分で脳内設計してみたらどうだ
- 360 :名刺は切らしておりまして:2016/04/02(土) 14:58:20.98 ID:+xTnRnGj.net
- >>350
HP-UX ならlanadminコマンドでエラー以外の統計情報も取れるはずだから、横並びで比べて、業務で普段はどのぐらいの負荷なのか分かる人がいれば(または普段から性能情報とってあれば)そこらへんもヒントになる。
ドライバー起動してからの統計情報だから少し時間空けて二回とって差分をみれば正しい情報になるはず
- 361 :名刺は切らしておりまして:2016/04/02(土) 14:59:26.48 ID:KErmg6DQ.net
- バイトと派遣が監視と運用をやっているんだから、システム停まってOKだろ。
オラクルだかなんだかがボッタくってんだろうし
- 362 :名刺は切らしておりまして:2016/04/02(土) 14:59:52.37 ID:t1aQzrKn.net
- >>359
サーバーが判断してどうするだw
サーバー判断できたとしてどうやって通知するだよネットワークは通信断なんだぞ
- 363 :名刺は切らしておりまして:2016/04/02(土) 15:01:47.00 ID:uvS2ifNK.net
- >>362
意味わかんね
通信断って
ただのバカか?w
- 364 :名刺は切らしておりまして:2016/04/02(土) 15:03:21.62 ID:2mjLQ5kK.net
- 世界初と言うのは嘘だと思う
大半んは電源再起動して、ログとかないからわかりませんで逃走、迷宮入りさせてただけだろ
- 365 :名刺は切らしておりまして:2016/04/02(土) 15:05:57.46 ID:2RL1dzSF.net
- >>363
プールで泳いできたが、みんないいわけばっかだな
んで、おまえはまだ他人を馬鹿といって情報引き出そうとしてんのかボラ来る
- 366 :名刺は切らしておりまして:2016/04/02(土) 15:08:45.32 ID:+xTnRnGj.net
- >>364
交換してシステム復旧したらいちいち故障原因追求しない方針なら、「報告が上がったのは」初ということあり得る。
多分、故障した装置全数の故障原因調査はしないんじゃないかな
- 367 :名刺は切らしておりまして:2016/04/02(土) 15:09:03.01 ID:z3rkHHiF.net
- >>359
なるほどアプリが出したエラー拾ってHW診断プログラム流すんだ。
HWってインターコネクトのスイッチだけじゃなくて、FCスイッチ、ストレージ、LB、DBサーバ、APサーバ、沢山あるけど全部診断するの?
故障はそれを検知したアプリの載ってるサーバの可能性もあるけど、それトリガーで動く診断プログラムは信頼できるの?
- 368 :名刺は切らしておりまして:2016/04/02(土) 15:10:42.71 ID:E2PipwRx.net
- >>362
サーバーは表のネットワークだけじゃなく、裏のハードウェアのメンテナンスポートを持ってる。
- 369 :名刺は切らしておりまして:2016/04/02(土) 15:11:38.04 ID:xI3+eMOr.net
- 外部からの攻撃やウィルスが原因ではなかった――ということかな?
- 370 :名刺は切らしておりまして:2016/04/02(土) 15:16:36.46 ID:uvS2ifNK.net
- >>367
おまえはダメだな
一生IT土方だな
まともにシステム時系列も把握できない
エラーだすとサーバーが停止するんだから
あとはすきなように診断すればいいだけの話もわかってない
- 371 :名刺は切らしておりまして:2016/04/02(土) 15:16:41.34 ID:KErmg6DQ.net
- 瞬間的にスイッチが切断してエラーを出さなくても、DBの同期を取るようなポート以外では影響が少なかったんじゃね?
それにスイッチにバグがあったとしても、予測交換でかたずけて来たんだろ。
- 372 :名刺は切らしておりまして:2016/04/02(土) 15:17:21.40 ID:t1aQzrKn.net
- >>368
サーバーにどうやって通知するのよ
サーバーへの通信経路が必ず確保できる保障があればいいがそうはいくまい
また大規模な障害が起きた場合間違いなくサーバーとサーバーへの通信経路に負荷がかかりまともに機能するとは思えん
またサーバーそのもの障害対応はどうするのよ
現時点でもサーバーがSNMPでネットワーク機器のログを集めているけど
あくまで監視としてでありネットワーク機器の制御には踏み込まない理由を考えたまえ
- 373 :名刺は切らしておりまして:2016/04/02(土) 15:21:01.72 ID:uvS2ifNK.net
- >>372
なんだこのバカ
メインとサブで同じ経路使ってるとおもってるのか
とんでもねーバカだなw
- 374 :名刺は切らしておりまして:2016/04/02(土) 15:23:55.76 ID:+CTyVCxk.net
- >>359
システム構築ってのは定石があって、どのレベルの監視が必要か、どこまで可溶性を担保するか、ある程度構築前から決まってるんだよ。
そしてその要件は発注者と受注者で摺り合わせ、お互い納得の上でリリースする。
君の言うアプリからHW監視はやろうと思えばできるかもしれない。
それで今回の事象を見抜ける根拠は?
見抜けたとして、サーバ、SW 含めシステム全体を同じ粒度で監視するのか?って話になる。
原子力や航空制御の世界ならともかく、こういう一般的なシステムでそこまで考慮されるはずがない。
出来る・出来ないの話じゃないんだよ。
- 375 :名刺は切らしておりまして:2016/04/02(土) 15:24:01.96 ID:DHVtEzn3.net
- ユニシスは悪くないってこと?
- 376 :名刺は切らしておりまして:2016/04/02(土) 15:25:21.36 ID:t1aQzrKn.net
- >>373
サーバーがチーミングで冗長とってるから大丈夫とかいうなら今回のシステムも問題なかっただろ
冗長構成がうまく切り替わらなかったというトラブル対策に冗長構成をとるという回答はあり得んだろ
- 377 :名刺は切らしておりまして:2016/04/02(土) 15:25:30.69 ID:KErmg6DQ.net
- >>375
ユニシス悪いだろ。
契約書に責任取りますよ〜って書いてあると思うよ。
- 378 :名刺は切らしておりまして:2016/04/02(土) 15:27:03.02 ID:z3rkHHiF.net
- >>370
私は一生SEできたら幸せだよ。
自嘲することもあるけど一生懸命やってる。
ただ我々の仕事を、同業者以外が蔑みの意を込めてIT土方とかいうのは許せません。
あなたが何に特化した何に詳しいエキスパートかは書き込みから分からなかったけど、同業なら発言しないことしかあなたは書いてないよ。
- 379 :名刺は切らしておりまして:2016/04/02(土) 15:27:33.60 ID:gFzFFvdc.net
- >>327
お疲れ様でした。
「故障シグナル」って結局何なんですか?
- 380 :名刺は切らしておりまして:2016/04/02(土) 15:28:34.31 ID:+xTnRnGj.net
- >>372
スーパードーム2は各ブレードの中にブレードを監視するプロセッサーが載っていて、I2Cとか経由して、CPUや温度センサーが検知したエラーを収集している。
そこからさらに筐体単位の監視プロセッサーであるOAに情報収集する仕組みで、
業務用LANとは分けて使うのが一般的。
ただ、業務用LANに繋がっているLANポートからのエラーはOS上のドライバーに上げられるのでLANの不調はOAが吸い上げた情報には含まれないので、調子が分かるのはCPUやメモリー
- 381 :名刺は切らしておりまして:2016/04/02(土) 15:30:20.93 ID:uvS2ifNK.net
- >>374
これはダメでしょ明らかに
このスイッチは壊れたら致命的な位置にある
その為の冗長化なのに故障検知系統は
冗長化していなかったというとんでもない不手際
- 382 :名刺は切らしておりまして:2016/04/02(土) 15:33:25.38 ID:J6/I+b3h.net
- シスコってチョコフレークも作ってるよね。 アレ大好き。
- 383 :名刺は切らしておりまして:2016/04/02(土) 15:33:38.56 ID:2RL1dzSF.net
- >>381
おまえ見てると、スイッチに強力な磁石接触させて誰かテロったのかと思うわ
- 384 :名刺は切らしておりまして:2016/04/02(土) 15:33:45.83 ID:uvS2ifNK.net
- >>378
なんだ俺が自分をバカというのは許せるが
他人が言うのは許せんという思考回路か
まー一生IT土方なのも納得w
- 385 :名刺は切らしておりまして:2016/04/02(土) 15:34:01.34 ID:W6ieu7VZ.net
- ちょっとID:uvS2ifNKに聞いてみたい。
+−−ルータ1(現用系)−−+
上位NW−−+ +−−L2SW−−サーバ群
+−−ルータ2(待機系)−−+
AAがずれてたらすまんが、こんなありきたりなネットワーク構成があって、
・ルータ1と2はHSRP(またはVRRP)で冗長化を組んでいる
・ルータ1が突然ルーティングしなくなる不具合が発生した
・だけどHSRPは正常に動作したままで、現用/待機は切り替わらなかった
(LinkDownも発生していない)
みたいな不具合が発生したときに、サーバ側で対処可能な仕組みを作れると言ってる?
- 386 :名刺は切らしておりまして:2016/04/02(土) 15:34:04.55 ID:3T1K8dky.net
- >>370
エラー出してサーバが止まったあとに診断プログラムかける!素晴らしい考えですね!
その間は土方が手作業で業務回しましょうか
- 387 :名刺は切らしておりまして:2016/04/02(土) 15:34:07.89 ID:KErmg6DQ.net
- >>381
俺も381を支持するな。
まあ、構築している人間も月給30万とかだろうからうるさい事言うなよって感じだけどw
上の方がぼった食ってんだろうな。外人とか
- 388 :名刺は切らしておりまして:2016/04/02(土) 15:36:32.75 ID:uvS2ifNK.net
- >>383
結局これでしょIT土方の思考は
リスクを想定できない
どうになるんでしょで押し通す
こんなんだからIT土方と言われるわけで
- 389 :名刺は切らしておりまして:2016/04/02(土) 15:37:27.51 ID:2RL1dzSF.net
- >>388
マジでテロか、サン電子
- 390 :名刺は切らしておりまして:2016/04/02(土) 15:38:28.04 ID:t1aQzrKn.net
- >>380
いやいや
今回の問題点わかってる?
故障装置が故障通知できなくて死活監視では生きていたんだよ
君の方法でも見抜けないじゃん
>>381
装置が故障するのは想定内
想定外だったのは故障通知が出なかったこと
これはバグであって故障ではない
- 391 :名刺は切らしておりまして:2016/04/02(土) 15:38:30.70 ID:O/x8niSo.net
- 今回壊れたのってRACのインターコネクトLANを構成するためのスイッチでしょ?
DBサーバは全ノード同じネットワークセグメントにぶら下がっているはずだけど
普通のL2冗長化設計じゃダメなの?
- 392 :名刺は切らしておりまして:2016/04/02(土) 15:38:46.49 ID:2RL1dzSF.net
- パチンコ台に腕につけた磁石で玉引き寄せチューリップに入れる
これのテロな違法をまだやってんのかよ、FBIの指示で
- 393 :名刺は切らしておりまして:2016/04/02(土) 15:40:08.73 ID:hivGYLrn.net
- >>385
まずその図の構成が終わってるな
お前には無理
この程度の耐障害性確保できなくてどうする
- 394 :名刺は切らしておりまして:2016/04/02(土) 15:40:12.45 ID:+xTnRnGj.net
- >>387
再発防止策がスイッチからの故障信号だけをあてにせず、DBサーバーからもスイッチの動作状態をチェックするようにしたということだからね。
やって無かったの?って思える。
- 395 :名刺は切らしておりまして:2016/04/02(土) 15:43:55.89 ID:uvS2ifNK.net
- >>390
またバグとか言って逃げるのかよ
全てのリスク洗い出すのが一流のシステム設計だろ
今回は故障検知系統を冗長すれば問題なかった
バグで済ますな
- 396 :名刺は切らしておりまして:2016/04/02(土) 15:44:43.68 ID:ytdHQrH8.net
- キチガイが1人飛行機飛ばしてるな
- 397 :名刺は切らしておりまして:2016/04/02(土) 15:47:07.92 ID:+xTnRnGj.net
- >>391
故障したスイッチが不定期なエラーを発生するけど、自分が故障とは検知できず通知しないパターンは、スイッチの電源落とすとかしないと切替わらないんじゃないかな。
- 398 :名刺は切らしておりまして:2016/04/02(土) 15:48:18.03 ID:uvS2ifNK.net
- >>385
ダメでしょそれ
明らかに受信エラーが起こる
スイッチからだどればどこのフレームが壊れたか
すぐわかるっしょ
- 399 :名刺は切らしておりまして:2016/04/02(土) 15:52:00.12 ID:t1aQzrKn.net
- >>395
> バグで済ますな
バグなら責任とらなくていいとはいってない
むしろ責任の大小なら
バグ > 故障
だろ
バグなら再現性100%で故障なら故障しなければ再現しないともとれるわけだから
- 400 :名刺は切らしておりまして:2016/04/02(土) 15:52:40.84 ID:+xTnRnGj.net
- >>391
あとスイッチが送信する時に故障の影響でエラーになるパケットを出していた場合、パケットのエラーを検知出来るのはそのパケットを受け取った側のサーバーとかになるし
- 401 :名刺は切らしておりまして:2016/04/02(土) 15:56:30.78 ID:OrP4JBhz.net
- 担当者が現場に常駐しているなら、粗っぽい原因調査は30分ぐらいだろう。
しかし、まずシステム会社の担当者が現地に駆けつけねばならん。
また原因が推定できても、高価なスイッチの予備が無く、取り替えたくても取り替えられないかも知らん。
何より、その推測を会社に報告し、各責任者を納得させてハンコを揃えねばならん。
中には「それをすることで万一致命傷に発展したら誰が責任とる」とか言い出すヤツが居ないとも限らん。
これぐらいの時間で納めたのは、担当者としては優秀かと思いますよ。
組織としては無能かも知らんけど。
- 402 :名刺は切らしておりまして:2016/04/02(土) 15:56:39.68 ID:KErmg6DQ.net
- ダウン時間分のお金を支払ってくれるんだろ。
退職金もない、時給制の日本人運用バイトを使ってぼった食ってんだから、
どうでもいいよ。
- 403 :名刺は切らしておりまして:2016/04/02(土) 15:57:19.85 ID:2RL1dzSF.net
- >>396
隊した仕事もできず、アメリカの工作員
はずかしくないのかね、サン電子
いや実際は電話線の盗聴者だろうが
- 404 :名刺は切らしておりまして:2016/04/02(土) 15:58:18.91 ID:hNKDBsR0.net
- シスコはもともと馬具多いから
日本でデバッグしてやっているからな
- 405 :名刺は切らしておりまして:2016/04/02(土) 16:01:45.57 ID:yxSAj1nD.net
-
SIer「スイッチが一台だと故障時の影響が大きいので冗長性を増す方がいいのでは?」
↓
ANAシステム担当「最新の型式だろ?問題ない問題ない。予算は限られているので。」
↓
システム障害
↓
ANAシステム担当「メーカーに損害賠償を請求する#」
- 406 :名刺は切らしておりまして:2016/04/02(土) 16:02:45.55 ID:2RL1dzSF.net
- 親父のクラウンにもでかい磁石くっつけて誤動作させて、消磁器つけてからうっぱらいか
堀江の東大の盗賊ってことか
- 407 :名刺は切らしておりまして:2016/04/02(土) 16:04:53.19 ID:uvS2ifNK.net
- これさ
さっさとスイッチ原因特定してりゃ手動で予備に切り替えて
とっくに復旧してただろ
まあ設計も運用も全員無能だってことだよ
- 408 :名刺は切らしておりまして:2016/04/02(土) 16:05:48.82 ID:2RL1dzSF.net
- スイッチにアース処理してるかどうかだけ
- 409 :名刺は切らしておりまして:2016/04/02(土) 16:08:20.89 ID:t1aQzrKn.net
- >>407
警報がなきゃ特定は難しいよ
たぶん最初はサーバーの不具合だと思ったんじゃないかな
- 410 :名刺は切らしておりまして:2016/04/02(土) 16:09:28.19 ID:jSr9205w.net
- どこのメーカーが作りました?
こんなアホな設計をするメーカーはどこですか?
- 411 :名刺は切らしておりまして:2016/04/02(土) 16:11:58.88 ID:q7iXOa9E.net
- ラトック製にしとけばこんなことには。。
- 412 :名刺は切らしておりまして:2016/04/02(土) 16:12:32.21 ID:uvS2ifNK.net
- >>409
アラートがでりゃどこが悪いなんてすぐわかるじゃねーか
そんなもんなしで状況からある程度狙いを定めて
実際に検証して早急に特定するのがプロの仕事だろ
復旧に2日もかかってりゃただの無能集団
- 413 :名刺は切らしておりまして:2016/04/02(土) 16:15:08.31 ID:tC6PzB48.net
- 流石に故障シグナルのやらがSNMP Trapじやないと思うが、
もしそうなら素人設計だな
- 414 :名刺は切らしておりまして:2016/04/02(土) 16:15:10.28 ID:jSr9205w.net
- >スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。
てことはこれ、スイッチは冗長化されてねえだろw
- 415 :名刺は切らしておりまして:2016/04/02(土) 16:16:17.15 ID:jSr9205w.net
- >>409
これがゆとりというやつか
- 416 :名刺は切らしておりまして:2016/04/02(土) 16:18:52.72 ID:t1aQzrKn.net
- >>412
空港の受付が復旧は全サーバーダウンから一時間後な
もっともその前から一つずつサーバーがダウンしていったみたいだがね
予約システムなんかが回復したのが2日後
空港からすれば搭乗客対応が第一
縮退稼働を迅速に決めた担当者は素晴らしい判断力だと思うよ
- 417 :名刺は切らしておりまして:2016/04/02(土) 16:18:54.71 ID:jSr9205w.net
- >>404
だよなぁ
俺もバグを見つけてやったことがあるくらいだからな
- 418 :名刺は切らしておりまして:2016/04/02(土) 16:20:57.81 ID:jSr9205w.net
- >>408
普通データセンターは3本脚のコンセントだろ
- 419 :名刺は切らしておりまして:2016/04/02(土) 16:22:18.98 ID:5HEAuEOd.net
- テロの前兆
- 420 :名刺は切らしておりまして:2016/04/02(土) 16:23:31.40 ID:uvS2ifNK.net
- >>416
よく>>1を読んだ方がいいぞ
1台でしか稼働できなかったって事は
予備系統に切り替えできなかった
つまり原因特定に至っていないって事
- 421 :名刺は切らしておりまして:2016/04/02(土) 16:24:26.97 ID:dKqB8H0D.net
- まずトラブルが発生した時間帯を考えろ。
真っ先に疑いを向けるべきはH/W。
そしてH/Wとは何を指すか。
その何をひとつひとつみていくとすぐわかりそうなもの。
- 422 :名刺は切らしておりまして:2016/04/02(土) 16:25:37.22 ID:jSr9205w.net
- >>374
>原子力や航空制御の世界ならともかく、こういう一般的なシステムでそこまで考慮されるはずがない。
は? データベースを4重化もしておいて
一般的なシステムとかねえよw
てか、DBでアラームが出ておかしくないだろこれw SNMPとかやってなかったん?
- 423 :名刺は切らしておりまして:2016/04/02(土) 16:26:44.09 ID:OrP4JBhz.net
- 徒弟制度の秘密組織じゃないんだから、よっぽど特殊な用途ならともかく、どこでも使ってるような、たかが予約管理システムの構成や保守ノウハウ、
いい加減、業界推奨の基本型みたいの固まらんもんですかな…
なんで「俺様のような優秀な技術者なら知ってるノウハウ」みたいなもんが、いつまでも必要とされねばならんのか、些か不思議ではある。
- 424 :名刺は切らしておりまして:2016/04/02(土) 16:27:57.32 ID:jSr9205w.net
- >>423
簡単だよw クビになるからw
- 425 :名刺は切らしておりまして:2016/04/02(土) 16:28:58.05 ID:jSr9205w.net
- >>423
簡単だよw 上の奴の都合とか、営業とかのコストの都合
- 426 :名刺は切らしておりまして:2016/04/02(土) 16:33:09.40 ID:t1aQzrKn.net
- >>420
だから全サービス回復が二日後と書いただろ
ネットワーク会社は顧客企業のサービスを提供することが目的であってサーバー4台稼働させることは手段にすぎない
サービスを提供するためならサーバーを縮退させるのは問題ない
それと顧客企業からすれば原因究明と再発防止は必須だから搭乗手続きを復旧させたあとは慎重に検証を重ねるべき
ここでは早さは必要ない、必要なのは確実性
こんなことも分からんヤツが批判してもね
- 427 :名刺は切らしておりまして:2016/04/02(土) 16:33:42.35 ID:+xTnRnGj.net
- 1台DBサーバーで業務遅延が発生してサーバーTOCかなんかで止める。
クラスラターの再構成が終わってOracleが動き始めるとやはり遅延がありDBのコミットが時間内に終わらない。
大急ぎでサーバー直して元の構成にしろとシステム管理者がハッパをかける。
サーバーの保守はどこにも異常が無いからECCエラーがちょっとあったCPUやDIMMを交換するぐらいしか手が無く、サーバー故障が原因じゃ無いんじゃないかと思い始める。
といったあたりでようやくネットワークを疑い始めるようでは遅い。
クラスラター再構成後に調子が悪いならその段階でサーバー保守に仕事させながら、サーバー故障という仮定を捨ててスイッチやストレージのチェックしないと
- 428 :名刺は切らしておりまして:2016/04/02(土) 16:34:34.71 ID:2RL1dzSF.net
- >>418
それじゃなく、むかしアサンテの馬鹿ハブにはあった本体でアース端子があるかどうか
- 429 :名刺は切らしておりまして:2016/04/02(土) 16:37:49.50 ID:UG23hs/+.net
- >>374
普通に対策として外部監視に切り替えてるだろw
初めっからそれを実装してればこんな大事にならなかったんだよ
- 430 :名刺は切らしておりまして:2016/04/02(土) 16:38:41.55 ID:TlmBusG4.net
- >>428
金属製ラックにマウントされているのに、本体アースって。(w
オーディオオタクみたいに、一点アースで音が変わるとか、そんな
宗教論争?
- 431 :名刺は切らしておりまして:2016/04/02(土) 16:40:08.65 ID:2RL1dzSF.net
- >>430
そうだよ
ラックだって完全に設置されてるかどうか、ほとんどの場合は確認しない
耐震性能だってかなりがおざなり
- 432 :名刺は切らしておりまして:2016/04/02(土) 16:40:16.38 ID:VvrHjHp0.net
- ID:uvS2ifNKがニワカなことだけはわかった。
CCNAレベルも理解できてねえ
- 433 :名刺は切らしておりまして:2016/04/02(土) 16:40:56.20 ID:IJlHPW3P.net
- すげえ、電波がゆんゆんしてるぜ
ー ぼくのかんがえたさいきょうんしすてむ ー
かあ、無敵だな。
- 434 :名刺は切らしておりまして:2016/04/02(土) 16:41:01.51 ID:4zQXahjL.net
- 機種やファームウェアが同一だと冗長性ではやはり落ちるなぁ。
うちの地方のデータセンターが落ちた理由もコアルーターのファームウェアのバグが
原因で同一機材同一ファームだったのが原因だった。
- 435 :名刺は切らしておりまして:2016/04/02(土) 16:43:06.09 ID:5rAFQOt1.net
- >>413
システム設計がソフト畑上がりでは?
- 436 :名刺は切らしておりまして:2016/04/02(土) 16:43:57.40 ID:IJlHPW3P.net
- >>393
もうちょっと具体的に語ろうや
君が電波君で無いのなら
- 437 :名刺は切らしておりまして:2016/04/02(土) 16:45:00.84 ID:2RL1dzSF.net
- >>433
テレビ電波に衛星放送の電波の妨害がすごいな
なあ、海自
交通事故つくってMDの開発なんだろ
- 438 :名刺は切らしておりまして:2016/04/02(土) 16:45:39.40 ID:t1aQzrKn.net
- >>434
同一ロットだと同時に壊れる可能性が高いからマズイってのは聞くけどバグに関しては違うんでない?
装置が二つあった場合ロットが同じ方がどちらか片方がバグにあう確率は低いんじゃないかな
- 439 :名刺は切らしておりまして:2016/04/02(土) 16:48:53.74 ID:4zQXahjL.net
- >>438
実際ファームウェアのバグが原因でルーター落ちて
予備側に切り替えたら、そのバグが原因でやっぱり落ちたってのがあったようだ。
- 440 :名刺は切らしておりまして:2016/04/02(土) 16:54:52.38 ID:TlmBusG4.net
- 専門はインフラ系じゃないけど、こういうのを導入した監視用サーバを
立てた上で、業務系ネットワークと監視系ネットワークをL2 SWを含めて
各々二重化していれば、初期段階で異常を検知できたんでないの?
SNMP対応スイッチのポートトラフィックをZabbixで監視する
ttp://qiita.com/mnb/items/ffc4d85390fca9af8bf0
Zabbixでネットワーク機器をSNMPで超簡単に監視する
ttp://qiita.com/k7tak29/items/dd0961cf9fc1ef3301a7
- 441 :名刺は切らしておりまして:2016/04/02(土) 16:55:15.57 ID:VvrHjHp0.net
- >>385
その図はL2スイッチが1個しかないけど、サーバは2個のL2スイッチにボンディングやIPMPで繋ぐよ。
あと、最近はHSRP+STPよりVCやVCSがL2ループ構成作らないからいいと思う。Ciscoじゃなくてジュニパーやブロケードになるけど。
- 442 :名刺は切らしておりまして:2016/04/02(土) 16:56:22.58 ID:t1aQzrKn.net
- >>439
トラブルの条件によるかな
二つの装置があり
二つともバグ持ちの場合に限りトラブルが発生するなら二つの装置が同一ファームウェアの方が発生確率が高くなる
二つのうち片方でもバグ持ちがあればトラブルが発生するなら二つの装置が異なるファームウェアの方が発生確率が高くなる
現実的には片方でもバグがあった場合にトラブルが発生するパターン(今回みたいに)の方が多そう
- 443 :名刺は切らしておりまして:2016/04/02(土) 16:59:13.24 ID:DHVtEzn3.net
- 予約とかの情報系だから良かったけどこれが基幹系だったらヤバかったんじゃね?
世界初のバグとか意味分からねー バグはバグだろ
- 444 :名刺は切らしておりまして:2016/04/02(土) 17:01:47.73 ID:NlH2lLzv.net
- >>317
お前はどんなプロトコルでもいいから一度でもswitchを冗長構成に組んだことあるのか?
- 445 :名刺は切らしておりまして:2016/04/02(土) 17:02:08.16 ID:KErmg6DQ.net
- 基幹系だったら、運行できないね。
昔どこかがやらかさなかったっけ?
- 446 :名刺は切らしておりまして:2016/04/02(土) 17:02:25.78 ID:t1aQzrKn.net
- >>440
SNMPなんてどこでもやってるよ
今回は対象回線が切れても大丈夫な設計にしてあって、なおかつ対象回線は切れていなかったし対向の装置は故障警報を受けていない
危険度が低い警報は出ていたと思うが標示する設定になってなかったのかもしれん
- 447 :名刺は切らしておりまして:2016/04/02(土) 17:05:39.89 ID:KErmg6DQ.net
- インフラなんて、40歳で首 退職金なし サビ残ありかもしれない いじめ有り
客先作業 資格取得費用馬鹿高 休日も勉強 時給2000円
もうなんか、かわいそうなくらい奴隷だけどがんばるよね。
- 448 :名刺は切らしておりまして:2016/04/02(土) 17:06:55.99 ID:3PzCLxsg.net
- >>156
ちょと面白い
- 449 :名刺は切らしておりまして:2016/04/02(土) 17:08:00.63 ID:KErmg6DQ.net
- 設計なんかコピペだろ。
こんなの時間かけずにやってナンボで大金もらっているんだから、
下請けますます哀れだよね。
- 450 :名刺は切らしておりまして:2016/04/02(土) 17:09:22.93 ID:VvrHjHp0.net
- >>440
トラフィックグラフは運用監視担当が見続けでもしない限りキビシイかも。
閾値監視するにも、キャパシティ管理の観点からトラフィックが出過ぎることは見るけど、出てないことはあまり見ないケースが多いと思う。
- 451 :名刺は切らしておりまして:2016/04/02(土) 17:09:43.83 ID:TlmBusG4.net
- >>446
嘘のレポートを上げてきていたら仕方ないが、SNMPエージェント側から上げる
Trap監視だけでなく、SNMPマネージャ側からポーリングやってたら、たとえ
Trapが上がってこなくても、検出不能にはならないと思うけど?
L2スイッチは監視していなかったとか。
- 452 :名刺は切らしておりまして:2016/04/02(土) 17:12:12.83 ID:DOP+QdIi.net
- 障害を認識できなくてMIBの値が変わってなかったら、トラップもあがらないし、
ポーリングかけても意味ないんじゃないの?
よくわからんけど。
- 453 :名刺は切らしておりまして:2016/04/02(土) 17:13:58.20 ID:uxufAinR.net
- よくあること
- 454 :名刺は切らしておりまして:2016/04/02(土) 17:15:38.56 ID:2AsQWly9.net
- シスコちゃん
- 455 :名刺は切らしておりまして:2016/04/02(土) 17:16:30.74 ID:VvrHjHp0.net
- >>451
監視対象とするアラート以外は監視機器側で除外してると思うよ。
また、ポーリングだと監視したいOID指定しないといけないから、スイッチポートぐらいしか見てなかったんじゃないの。
- 456 :名刺は切らしておりまして:2016/04/02(土) 17:17:07.15 ID:NlH2lLzv.net
- >>377
無責任にそんなこと言ってるとお前がUNISYSから訴えられるぞ
- 457 :名刺は切らしておりまして:2016/04/02(土) 17:18:49.68 ID:IJlHPW3P.net
- >>437
昔自衛隊の仕事の下請のオファー断った事がある
「絶対にバグの無いプログラムが必要なんです」
って電波君みたいな事言われたから反射的に。
今から考えると良いカモだったかもしれん。
- 458 :名刺は切らしておりまして:2016/04/02(土) 17:21:53.71 ID:VvrHjHp0.net
- >>441
間違えた。L2スイッチが独立してる場合は、ボンディングじゃなくチーミングだった。
- 459 :名刺は切らしておりまして:2016/04/02(土) 17:23:20.52 ID:t1aQzrKn.net
- >>451
ポーリングして故障警報が出てないバグが分かるかどうか微妙
回線のエラー発生数が増えたことや回線断ならトラップで通知されるし
現実的には故障SWと対向装置で現在の稼働状況の違いを見比べる必要がある
故障SWで故障portはエラーが多いので使うの止めます、冗長portのみ使うねって設定変更しても対向装置に通知がいかないため故障SWの故障portにフレームが流れ続けて破棄されたんでないの?
- 460 :名刺は切らしておりまして:2016/04/02(土) 17:27:12.66 ID:VvrHjHp0.net
- >>357
スイッチは保守入ってるだろうし、ベンダに持ってこさせるだけで追加費用はかからんよ。
ま、スイッチ交換する理由を説明できないと、交換無理なのには同意。
- 461 :名刺は切らしておりまして:2016/04/02(土) 17:27:21.65 ID:2RL1dzSF.net
- >>457
断れるだけいいじゃん、俺なんか強制だったぞ
- 462 :名刺は切らしておりまして:2016/04/02(土) 17:27:55.78 ID:KErmg6DQ.net
- >>456
それ脅迫だからwww
- 463 :名刺は切らしておりまして:2016/04/02(土) 17:32:11.34 ID:vbWjcdQd.net
- やはりまったくの専門外だけど
・シスコシステムズって良く聞くけどどうなの?国内メーカーで同じようなものは造れないのか?
(ウン百億の案件なら同じような機械をウン10億円かけて新規に作ったりできない?)
・こういうのってシステムを本格稼動させるまえに
メインのネットワークから切り離した状態で故障を想定した試験とかやらないのか?
- 464 :名刺は切らしておりまして:2016/04/02(土) 17:42:40.58 ID:VvrHjHp0.net
- >>463
やっぱりCiscoは巨人。ネットワーク屋はCCNAから始めるだろうし。
アライドでも同じような構成を安く作れるだろうけど、Ciscoのドキュメント量は圧倒的だし、それ故にCisco人口も多い。
大規模ネットワークでは国産スイッチはありえないカンジ。
10年ぐらい前からは、JPIXや大手データセンターのコアスイッチでジュニパーが幅を利かせつつある。
- 465 :名刺は切らしておりまして:2016/04/02(土) 17:44:21.58 ID:nuIcPB8p.net
- シスコに損害賠償請求をしろよ
日本に数あるメ−カ−を蹴ってアメ製使ってwwwwww
- 466 :名刺は切らしておりまして:2016/04/02(土) 17:44:54.68 ID:VvrHjHp0.net
- >>463
メインのネットワークに接続したまま切り替え検収もしただろうけど、そのときにこのバグは発現しなかったんじゃないかな。
- 467 :名刺は切らしておりまして:2016/04/02(土) 17:46:53.51 ID:t1aQzrKn.net
- >>463
> ・シスコシステムズって良く聞くけどどうなの?
ネットワーク機器の世界最大手
便利な機能を開発してはパクリオープン規格が作られて他社がマネしているのが現状
シスコの機器は独自規格とオープン規格の両方対応してて覚える量が2倍になる
お値段高めでL2スイッチなんかはヤマハでよくねって言われる
自社ネットワーク機器の検定がネットワーク業界のみで有名
CCENT CCNA CCNP CCIE
などがある
> 故障を想定した試験とかやらないのか?
この辺が今後の問題になるだろうね
設計当初はテストもして問題なかったがアップデートしたときに十分な検証してなかったとかもあり得る
- 468 :名刺は切らしておりまして:2016/04/02(土) 17:48:59.44 ID:ytdHQrH8.net
- 国産信仰してる奴いるけど、売ってるメーカーですら自社や系列の製品あまり使ってないからな
国士様はその現実を捉えてくれ
- 469 :名刺は切らしておりまして:2016/04/02(土) 17:56:58.03 ID:IJlHPW3P.net
- >>461
受注おめでとう
じゃなくて
ご愁傷様でしたw
危ない案件を野生の勘で回避したり
適切な安全係数を見積に設定するのも
エンジニアのお仕事かな
電波君には不純だと言われるだろうなw
- 470 :名刺は切らしておりまして:2016/04/02(土) 18:43:05.82 ID:WBuJ1yXx.net
- このスレに興味を持った人がシスコ知らないというのが衝撃的やな
- 471 :名刺は切らしておりまして:2016/04/02(土) 18:51:52.76 ID:HaxLHWLO.net
- このスレは運用しかいないだろ
とてもゃないけど設計やるレベルじゃないな
- 472 :名刺は切らしておりまして:2016/04/02(土) 19:12:55.32 ID:Yr5pwwAD.net
- 故障したから故障した信号を送れなかったんだろ。
ケーブルが断線したら断線信号を送るか?
前にも同じトラブルあったら真っ先に疑う筈だろうに。
- 473 :名刺は切らしておりまして:2016/04/02(土) 20:57:32.91 ID:VvrHjHp0.net
- >>471
運用担当さん、お疲れ様です。
今日も夜勤すかw
- 474 :名刺は切らしておりまして:2016/04/02(土) 21:11:18.15 ID:t1aQzrKn.net
- >>472
故障を認識する方法には大きく別けて二種類ある
一つは故障警報を送ること
もう一つは定期的に(2秒、5秒、5分、30分とか)信号を送る設定にしておいて信号が届かなくなることで切断を認識する方法
今回は回線が半端に生きていて死活判定の信号が届いてしまった
本来ならここで故障警報を送るはずがバグで送れなかった
これで対向の装置が故障を認識できなかった
- 475 :名刺は切らしておりまして:2016/04/02(土) 22:05:36.41 ID:lYYxBXoJ.net
- リンク断だけが故障と思ってるのか
通信不安定も故障だぞ
そんな事も想定できないのかこいつらは
- 476 :名刺は切らしておりまして:2016/04/02(土) 22:08:34.84 ID:2RL1dzSF.net
- Ciscoみたいに中途半端に壊れると、そら玄人でも困るよ
これはむかしからだ
- 477 :名刺は切らしておりまして:2016/04/02(土) 22:09:01.93 ID:QjGKGrw1.net
- 障害とは正常と規定する範囲を外れた場合をいう
みたく明記してるだろ
- 478 :名刺は切らしておりまして:2016/04/02(土) 22:13:39.56 ID:lYYxBXoJ.net
- >>476
中途半端な故障なんてない
あるサーバーが同期データを送信して
あるサーバーが同期データを受信する
このプロセスにスイッチ起因による異常があったら
それは全てスイッチの故障なんだよ
- 479 :名刺は切らしておりまして:2016/04/02(土) 22:15:35.60 ID:2RL1dzSF.net
- >>478
シンクロのことか
ああ、失敗ばっかだな、白人のせいで
- 480 :名刺は切らしておりまして:2016/04/02(土) 22:37:44.56 ID:lYYxBXoJ.net
- まあ基本的にネットワーク構築なんて
自作PC構築と何ら変わりないだろう
既製品を有り合わせて組み立てるだけ
自ら専用ソフトを開発したりハードを設計したりはしない
そんな低脳でもできる低レベルな仕事だから
今回みたいな不祥事が起きるのは必然だろう
- 481 :名刺は切らしておりまして:2016/04/02(土) 22:42:36.65 ID:llLkXFeT.net
- >>464
国内最大手の通信会社だが、うちもジュニパー多いぜ。
シスコも多いけどな。
交換機の時代は国内メーカーばっかりだったが、IPになってからは見る影もない。
- 482 :名刺は切らしておりまして:2016/04/02(土) 22:42:54.11 ID:TlmBusG4.net
- 信頼性が要求されるようなシステムでは、サーバ側の上位アプリで、通信エラー
数(タイムアウト含む)の積算や、直近のエラー発生監視くらいをやっていて、
カウントが閾値を越えると異常として検知するくらいのことをやるのが普通
なんでないの?
まぁ、要求仕様に含まれていたかは知らんけど、おそらく >>477 みたいな
曖昧なザル仕様記述だろう。
データベース間の同期をプログラム的にどうやっていたのかも判らないけど、
ODBCドライバ経由と自前のコードみたいな実装ではなく、OracleのAPIなり
SQLを使っていたとしても、戻り値の判定や、例外処理をちゃんとやって
いれば、下位層のエラー原因を特定できないまでも同期失敗の異常は拾えた
はず。
今回はハブ側の故障として片付けているけど、サーバ側で、LANポートの
PHYが壊れたり、デバイスドライバ内処理のバグで通信できなくなったり
した場合も故障情報としては上がらない。
- 483 :名刺は切らしておりまして:2016/04/02(土) 23:01:38.78 ID:FE49uhG2.net
- >>475
だから故障警報を送る機能があるの!
それがバグだったって言ったろ
マジで3行以上読めんのか
- 484 :名刺は切らしておりまして:2016/04/02(土) 23:06:18.01 ID:2RL1dzSF.net
- >>482
オラクルの問題は多々あるけど、俺も国産データベース開発とか考えたが
自分の体格のつクリ直しからやる状態
- 485 :名刺は切らしておりまして:2016/04/02(土) 23:16:08.90 ID:4avpvzAM.net
- SNMPの情報を5分ごとに取得して異常な値がないかチェックしてないの?
- 486 :名刺は切らしておりまして:2016/04/02(土) 23:17:44.90 ID:2RL1dzSF.net
- オラクルとか、そういうリアルタイム性が無いクズなんです
- 487 :名刺は切らしておりまして:2016/04/02(土) 23:25:46.89 ID:lYYxBXoJ.net
- >>483
そんなにその機能に信頼をおくなら
アラートだすフロー全て頭に入ってるんだろうな?
全ての不具合事象を網羅する仕様だと確認したんだろうな?
となると当然スイッチF./Wの仕様を全て理解しないといけないだが
まさかハードの内部なんて知らない
だけどバグだなんて喚いてるわけじゃないだろうな?
- 488 :名刺は切らしておりまして:2016/04/03(日) 00:06:59.28 ID:uMF/myec.net
- >>485
それで検知できないパケットの壊し方だったんじゃね。
- 489 :名刺は切らしておりまして:2016/04/03(日) 00:13:22.69 ID:ynpt9gu2.net
- この手のシステムを汲んだこと無いからわからんけど、そこまでシビアな
ものなら、IP SLAとかでレイテンシーの監視とかせんの?
- 490 :名刺は切らしておりまして:2016/04/03(日) 00:17:59.99 ID:IvmNOSH6.net
- なあ、実務やってる人たちに聞きたいんだけど、故障警報って単語を普段から使ってる?
オレはこのスレで初めて聞く単語だわ。
故障警報って書いてるやつがニワカと思ってるんだが、まさかオレがニワカなのか!?
- 491 :名刺は切らしておりまして:2016/04/03(日) 01:16:49.54 ID:IRn1YJxd.net
- >>489
それだと故障箇所が特定できない
どこかに異常があるとしか分からない
>>490
普段は故障警報なんて言わない
アラーム、アラート、警報、通知とか
ただ間違った表現でもないし構わんのじゃないか?
会話をスムーズに行うコツの一つは相手の使う言葉に合わせること
アスベには無理だがな
- 492 :名刺は切らしておりまして:2016/04/03(日) 01:21:08.94 ID:ZC/KSlix.net
- hpでは、いまでもあるか知らないけど、ManageXっていう
こういう障害探知を画面ですべて管理できるソフトウェアをシステムごと販売してます
とうぜんベンダーロックがかかるのでCiscoは保障できないと思います
あと、価格、当然高いです・・・
- 493 :名刺は切らしておりまして:2016/04/03(日) 01:26:37.47 ID:ljgz4glx.net
- >>485
サーバならCPU負荷率やディスク使用量だけでなくCPUやDIMMの温度、HDDのSMART
情報(ドライブ毎の通電時間やエラー率情報)も拾えるけど、実際のところ、Ciscoの
ハブやルータってSNMPでどれだけ情報を拾えるのかね?
- 494 :名刺は切らしておりまして:2016/04/03(日) 02:05:02.34 ID:ynpt9gu2.net
- >>491
異常があることが分かるのは大きいと思うけどね。それを手がかりに切り分け
ればいいわけだし。今回は通信上の問題だと気づくまで時間が掛かった感じ
じゃないの?
- 495 :名刺は切らしておりまして:2016/04/03(日) 02:40:44.25 ID:/K8nZjQd.net
- シスコ良いけど。結局高い理由で、選ばれない
- 496 :名刺は切らしておりまして:2016/04/03(日) 02:57:08.06 ID:0J8EnVv+.net
- >>493
MIBに登録されてるものは見れるよ
筐体温度とかもちゃんととれる
- 497 :名刺は切らしておりまして:2016/04/03(日) 07:07:37.55 ID:QN6F+02z.net
- 設定ミスとかでコリジョン多発のネットワーク負荷でおかしくなったとかじゃないのかな
例えば同一IPループとか二重化構成だとよく発生した記憶がある
- 498 :名刺は切らしておりまして:2016/04/03(日) 07:11:10.10 ID:82vtRePx.net
- 「単純は、複雑を圧殺する」
このテーゼをそのまんま現象化しただけか?
これ、誰が言ったか知ってるか?
まあ、オマエ等じゃ知ることは一切無い
- 499 :名刺は切らしておりまして:2016/04/03(日) 07:44:46.33 ID:rMXqC/2g.net
- >>494
サーバーが落ちてたのはかなり前から分かってた
つーか>>1も読んでないわけ?
- 500 :名刺は切らしておりまして:2016/04/03(日) 08:36:35.96 ID:c0S64oTz.net
- >>490
> なあ、実務やってる人たちに聞きたいんだけど、故障警報って単語を普段から使ってる?
うちだと障害通知かな
警報って言ってるのは ID:t1aQzrKn でそいつのレス見るとちょいちょいおかしいから単なる知ったか君でしょ
- 501 :名刺は切らしておりまして:2016/04/03(日) 08:37:25.47 ID:tvMg9oP9.net
- 世の中のレベルの低さがわかりやすいスレ。知識が無いくせに的外れのレスが多すぎ。更にユニシスとANAの情シス部門舐め過ぎ。
- 502 :名刺は切らしておりまして:2016/04/03(日) 08:48:05.46 ID:LukhD0oO.net
- >>501
しかしたかがスイッチ1台の障害で社長の謝罪にまで行くのは舐められても仕方がないよ
対策も外部監視を追加したとあるが「今までやってなかったの?」とツッコミたくもなる
- 503 :名刺は切らしておりまして:2016/04/03(日) 08:52:30.55 ID:uVahKUgS.net
- ネットワークの可視化って、何時まで経っても実現しないね
- 504 :名刺は切らしておりまして:2016/04/03(日) 08:58:56.71 ID:iocIIp4J.net
- 別スレで立ってる「ANAが日本ユニシスに損害賠償請求を検討中」みたいな話を聞くと
世界初のバグで予見不可能な障害というよりも防げて当然のことができてない初歩的なポカミスという印象を受けるけどなぁ…
- 505 :名刺は切らしておりまして:2016/04/03(日) 09:11:47.79 ID:tExIMdf9.net
- >>501
> 更にユニシスとANAの情シス部門舐め過ぎ。
この一件だけ見てそう言ってるならアホすぎる
ana システム障害
でググってから出直してこい
- 506 :名刺は切らしておりまして:2016/04/03(日) 09:17:21.30 ID:H/u0LgGj.net
- ルーターって結構壊れるよね。
壊れ方が稀ですり抜けちゃったパターンかな。
- 507 :名刺は切らしておりまして:2016/04/03(日) 09:25:03.67 ID:BGVLRh/y.net
- >>502
パケットエラーにならず、パケットロスを前後の装置が検知しないぐらいの絶妙な遅延を起こす故障とかで、
実際はあの再発防止策じゃ防ぎきれないとかならそりゃ難しいよねと思うけどね。
- 508 :名刺は切らしておりまして:2016/04/03(日) 09:28:40.75 ID:xKZcP11P.net
- ホットスタンバイが失敗したのか
DBサーバーで検知させて何をさせるんだろ
- 509 :名刺は切らしておりまして:2016/04/03(日) 09:52:59.99 ID:rMXqC/2g.net
- >>504
そのへんは契約によりけりだけど
ANAはUNISYSに損害賠償請求
UNISYSはCiscoに損害賠償請求
って形になるんでない?
- 510 :名刺は切らしておりまして:2016/04/03(日) 09:57:23.54 ID:movQ3q3i.net
- >>490
俺も故障警報とか故障信号とか聞いたことないわ。
ANAの人が一般向けの説明として判りやすく言い換えたんだと思ってる。
冗長構成のネットワーク機器で片系がダウンして残った機器側で通信を引き継ぐ
手法としては、お互いに死活監視を行って、相手機器のダウンを検知したら
自装置が現用系として昇格するような動きをする仕組みしか知らないわ。
障害が起きたことを“故障した装置自身”が電気信号やIPパケットの形で
通知し続ける装置や監視手法など聞いたこともない。
一番近いのはハード障害時の赤ランプ点灯ぐらいか?
なので、昨日の ID:uvS2ifNK の
>故障を知らせる信号系に不具合がでたら
>切り替え出来ないでしょと言ってる
>ハードの切り替えはハード自体が発する故障信号のみという
>とんでもないシステム設計をしたネットワーク屋が全ての原因
みたいな書き込みを見ると、全然判ってないしか思えてならない。
- 511 :名刺は切らしておりまして:2016/04/03(日) 10:02:05.46 ID:ljgz4glx.net
- >>507
意味不明。パケットエラーにならずとは、EthernetパケットのCRCエラーが検出
されないってこと?それとも、上位プロトコル層でのエラー検出?
「パケットロスを前後の装置が検知しない」の前後の装置って、どこの前後?
間の装置はハブを指しているの?
絶妙な遅延って具体的に何ms? もし遅延なら、正常パケットが届いている
ことを指すはずだが?ロスじゃなかったの?TCPタイムアウト後に正常パケ
ットが届いたとか?
- 512 :名刺は切らしておりまして:2016/04/03(日) 10:02:56.90 ID:movQ3q3i.net
- >>398
>>385の構成とトラブルの場合、上位NW側からサーバ側への通信が止まるので
残念ながらサーバ側ではどうにもならんのよ。
サーバ側から見ると戻りパケットが届かない事象になるけど、
これはルーティングの話なので、L2(イーサネットフレーム)は関係ない。
- 513 :名刺は切らしておりまして:2016/04/03(日) 10:09:54.75 ID:BGVLRh/y.net
- >>511
サーバー側が多数のCRCエラー検知していたりパケットロスを検知していたらその情報を突き合わせてスイッチが怪しいと見当が付くから、そうじゃない難しい故障だったらねという意味
- 514 :名刺は切らしておりまして:2016/04/03(日) 10:12:23.13 ID:ljgz4glx.net
- >>510
普通、パトライトの点灯制御も監視装置(SNMPマネージャ)から送るんでない?
装置側から送る方法だと、動作中には(正常)状態を示すパケットを定期的に
送出し、監視側は正常パケット受信で装置毎の監視タイマをリロードして延長
し、一定時間内にパケットが届かなくなった時点で監視タイムアウトで異常と
みなす。この方法なら装置無応答でも、物理ネットワークが死んでもエラーの
検出できる。
- 515 :名刺は切らしておりまして:2016/04/03(日) 10:18:49.05 ID:BGVLRh/y.net
- >>514
今回の再発防止策ではスイッチからの通報だけに頼らずDBサーバーからスイッチのチェックをするとしているから、
そういったポーリングやステータスチェックをDBサーバーからやるようにしたってことに思える。
>>502
のように今までやってなかったの?
ってレベル
- 516 :名刺は切らしておりまして:2016/04/03(日) 10:20:42.63 ID:movQ3q3i.net
- >>514
SNMPマネージャによるパトライト制御も知ってますけど、
それは応答有無の確認(ポーリング)の結果であって、
故障した装置が故障信号を出し続けている訳ではないですよね。
ID:uvS2ifNK は故障信号なるものが送られ続けていることを前提にしたような
話しぶりなので、そこに対して突っ込んだだけですわ。
- 517 :名刺は切らしておりまして:2016/04/03(日) 10:30:54.29 ID:H6ItFEgH.net
- 中国製だったらスパムだのウィルスだの連投書き込みしまくる奴が出てくるんだろうな。
この手のトラブルで長時間かかるなら
取りあえず機器を取り替えるという事も考えたほうがいいと思う。
グーグルだって一々直すのではなくてユニット毎に取り替えているらしいし。
>>505
どっちにしろお前には理解できない内容だよ。
- 518 :名刺は切らしておりまして:2016/04/03(日) 10:34:16.62 ID:S1M7EYK6.net
- >>511
CRCエラーは受取側で検知するもので送信側は直接検知できない
そのため受取側から送信側へ回線を切断する旨を通知する必要がある
今回はそれがバグでできなかった
- 519 :名刺は切らしておりまして:2016/04/03(日) 10:43:04.12 ID:uVahKUgS.net
- >>510
センサ類なんかは、故障を通知する出力チャンネル持ってたりするけど
- 520 :名刺は切らしておりまして:2016/04/03(日) 11:31:17.91 ID:Yd9u1L4O.net
- JALのシステム障害はどこの企業が関与してるの?
- 521 :名刺は切らしておりまして:2016/04/03(日) 11:47:12.48 ID:HgqLIaDi.net
- もうさぁ〜 ハードウェアが進歩したんだから、日立かなんかにやらせて
スイッチもルーターもなくしてしまえよ。
- 522 :名刺は切らしておりまして:2016/04/03(日) 11:51:08.25 ID:HgqLIaDi.net
- この構成でいいじゃん。簡単じゃね?
サーバー1 DB+WEBサーバ(東京)
サーバー2 DB+WEBサーバ(北海道)
サーバー3 DB+WEBサーバ(九州)
- 523 :名刺は切らしておりまして:2016/04/03(日) 11:53:06.71 ID:bghIMLxk.net
- >>520
JALの話はこっち
http://daily.2ch.net/test/read.cgi/newsplus/1459471651/
でもどこが構築したかははっきりしてないね。
- 524 :名刺は切らしておりまして:2016/04/03(日) 11:57:59.14 ID:HgqLIaDi.net
- サーバー1台raid2桁利用(ウイルス対策にバックアップ3台)で、羽田空港に置いておけばいいんだろ?
すんげー安くつくれるんじゃねーの?
- 525 :名刺は切らしておりまして:2016/04/03(日) 13:14:21.14 ID:tExIMdf9.net
- >>517
> どっちにしろお前には理解できない内容だよ。
反論もできないならレスするなよ、ウザイわ
- 526 :名刺は切らしておりまして:2016/04/03(日) 13:19:16.76 ID:tExIMdf9.net
- >>518
> そのため受取側から送信側へ回線を切断する旨を通知する必要がある
CRC エラーになると言うことはアドレスも信用できないから応答なんて返しちゃダメ
基本ですのでもっと勉強しましょう
- 527 :名刺は切らしておりまして:2016/04/03(日) 13:31:16.12 ID:S1M7EYK6.net
- >>526
port 1からのフレームにエラーがあったら
port 1から送信元MACアドレスを自身にして送信先MACアドレスはブロードキャストにするに決まってるだろ
- 528 :名刺は切らしておりまして:2016/04/03(日) 13:58:46.15 ID:tExIMdf9.net
- エラー通知をブロードキャスト?
バカの発想って笑える
- 529 :名刺は切らしておりまして:2016/04/03(日) 16:58:49.67 ID:ynpt9gu2.net
- >>499
そっちが話の流れを読んでないだろ。レイテンシーを監視していて
それに問題があったならなんでサーバーだけにこだわるのさ
- 530 :名刺は切らしておりまして:2016/04/03(日) 17:54:05.68 ID:a8xUi9GP.net
- このスレ、ネットワークわかってない奴が多すぎると思う。
- 531 :名刺は切らしておりまして:2016/04/03(日) 18:22:51.28 ID:tWB3n7D8.net
- >>529
もしかしてSLAの対象を端末とサーバーのEnd to Endじゃなくて全NW機器間で行うつもり?
負荷かかりまくりだろ
SNMPのトラップ通知じゃいかんのか?
- 532 :名刺は切らしておりまして:2016/04/03(日) 21:38:44.33 ID:jZ4EQUQB.net
- NEXUS OSがどーしよーもないバグだらけ、と聞いた。
- 533 :名刺は切らしておりまして:2016/04/03(日) 22:03:28.64 ID:SA+D8Swr.net
- シスコによるテロ
- 534 :名刺は切らしておりまして:2016/04/03(日) 22:52:38.37 ID:6UAY7HPz.net
- みゆきの陰謀か
- 535 :名刺は切らしておりまして:2016/04/04(月) 01:02:12.04 ID:eCf/E01+.net
- >>521
人間のクズ集団にやらせるのは無理
- 536 :名刺は切らしておりまして:2016/04/04(月) 02:06:36.30 ID:2ajqWE26.net
- だからファーウェイ製のスイッチを使っておけとあれほど・・・・
- 537 :名刺は切らしておりまして:2016/04/04(月) 17:58:27.01 ID:kBdFq6Z8.net
- 放射能のせいでしょ
- 538 :名刺は切らしておりまして:2016/04/04(月) 20:04:00.17 ID:zYQFEzZa.net
- 1枚16GBのDDR4メモリが7980円みたいだから10万〜で構築して、
空港の空き部屋室にでも置いて再起動用のバイト常駐させる方が信頼性高いんじゃね?
時々、数十秒止まる程度だろ。
- 539 :名刺は切らしておりまして:2016/04/04(月) 21:03:12.84 ID:l+VgkJtD.net
- >>531
1時間に3回ポーリングしてれば気づいたと思うんだけど、負荷なんか大したこと無いだろ。
- 540 :名刺は切らしておりまして:2016/04/05(火) 00:11:21.60 ID:2RSmdzZ+.net
- 非常時には手計算でやるくらいだったら、エクセルのマクロ計算くらいの
プログラムを入れたタブレットPCを、空港カウンタへ配布するとかで足りる
ような気がするのだが、なんでそんな大掛かりなシステムが必要なのか謎?
- 541 :名刺は切らしておりまして:2016/04/05(火) 07:52:51.74 ID:kwlcHCBb.net
- >>1
シスコ以外にまともなメーカーってないの?
>>4
ほんとこれ
日本企業は甘ちゃんすぎる
- 542 :名刺は切らしておりまして:2016/04/05(火) 07:58:31.21 ID:xQhja6XJ.net
- 損害賠償なら、システム会社に対してするっての。
そして、既に障害対応で疲弊した担当者は、更に加えて客先との関係も訴訟沙汰で悪化し、心労で死ぬのであろう。
日立かどっかにやらせろというのは同意。
システム専業でやってる会社は、どーも社会常識がおかしい。
営業担当までコミュ障というか。
- 543 :名刺は切らしておりまして:2016/04/05(火) 08:02:30.23 ID:xQhja6XJ.net
- スイッチという名前ではあるが、実際、こういうのは複雑な機能を数多く備えた中央的な装置
システム会社ごとに、持ってるノウハウも違うから、個々の装置には何使えという要件でもない限り、
どうしても使い慣れた同じ物を使いたがる。
調達や運用のコストも下がるしな。
- 544 :名刺は切らしておりまして:2016/04/05(火) 08:41:28.47 ID:UL5dn7Y8.net
- いろいろ考えてるんやけど、頭痛いんやけど
こんな事故、アメリカが重力波の実験を韓国とやったあとに起きてるねん
まさかと思うが連中、重力またいじったんか?
なんか変なこと多すぎ
- 545 :名刺は切らしておりまして:2016/04/05(火) 10:52:18.09 ID:1Y0LSoYI.net
- 海外のLCCとかは、無茶苦茶安い金額でシステム構築しているんでしょ。
- 546 :121:2016/04/05(火) 12:58:12.26 ID:qhTMGdTZ.net
- >>543
設定コマンドとかも違うし、なんでもないところでトラップにはまったりするから機種の乗り換えには躊躇するよね
- 547 :名刺は切らしておりまして:2016/04/06(水) 01:47:38.16 ID:s76H1rnK.net
- >>541
ネットワンにはアラクサラを勧められる。
- 548 :名刺は切らしておりまして:2016/04/06(水) 05:03:55.17 ID:C6nG+BPE.net
- >>544
お薬のみましたかー?
- 549 :名刺は切らしておりまして:2016/04/08(金) 20:03:18.50 ID:FL2ipWK8.net
- テクノロジーへの盲目的従属は人類の死を意味する
- 550 :名刺は切らしておりまして:2016/04/12(火) 23:58:01.35 ID:MBVT1TyE.net
- 日経のサイトに続報が載ってたけど「故障シグナル」はSNMPのメッセージのことだそうで。
故障した機器がSNMP Trapを正常に送れないのはある意味当然だと思うんだけど、
これが送られなかったことが切り替えに失敗した原因なんだってさ。
- 551 :名刺は切らしておりまして:2016/04/13(水) 06:17:17.34 ID:jBDK+Vkl.net
- >>550
>故障した機器がSNMP Trapを正常に送れないのはある意味当然
フェールセーフ設計の基本が・・・完全に駄目だなぁ。
- 552 :名刺は切らしておりまして:2016/04/13(水) 12:09:26.69 ID:4KdjoIjB.net
- >>550
お前トラップの意味やシステムの構成わかってないだろ
今回はDBサーバ間のポートが半端に故障して通信はできるけど帯域が下がって
Oracle RACのノード間同期ができなくなったんだろ
何度もいうが故障したのはDBサーバがつながってるポートだ
監視サーバとの通信がだめになってるなら
ICMPでNW機器との疎通ができなくなるから
NW機器がダウンした(NNMとか知らねえのか?)ということでパトライトが回る
そうじゃないならDBサーバのポートが壊れてるよっていうトラップもあがってくるだろう
今回の直接の原因は単にCatalystの故障内容でトラップがあがらなかっただけだ
ただなANAがどういう修正したかしらんが
すぐDBサーバ側で対応して今回の事象を回避できる対策を施してる
ぶっちゃけserviceguardのローカルスイッチがパフォーマンスまで評価できるなら
今回の障害は回避できてたと思うよ
- 553 :名刺は切らしておりまして:2016/04/13(水) 12:34:45.91 ID:WPy3huAf.net
- バカすぎでしょ
バグでもなんでもねーじゃん
>>552
明らかに設計ミス
設計すらしてないオナニーシステムといってもいい
- 554 :名刺は切らしておりまして:2016/04/13(水) 13:48:59.05 ID:4KdjoIjB.net
- 別にシステムの設計としては正しい
予想外のことが起きただけで
- 555 :名刺は切らしておりまして:2016/04/13(水) 20:03:47.17 ID:WTgWxxGS.net
- Ciscoなんて安かろう悪かろうなんだから故障してもSNMPトラップをあげないこともあることは、まともなSIerなら経験から分かってるだろw
- 556 :名刺は切らしておりまして:2016/04/13(水) 22:48:56.41 ID:jKoj/Xct.net
- >>553から散々バカ晒してたID:uvS2ifNKと同じ香ばしさを感じる
- 557 :名刺は切らしておりまして:2016/04/13(水) 23:41:05.32 ID:XpUaxn/r.net
- >>555
安くはないだろ。妙な挙動で酷い目に遭う点は否定せんがw
- 558 :名刺は切らしておりまして:2016/04/14(木) 07:47:33.33 ID:h7z1UKED.net
- >>556
無能UNISYS乙
そら設計ミスだもの必死に火消ししてたわけだよ
- 559 :名刺は切らしておりまして:2016/04/14(木) 08:11:53.96 ID:Ja6+r8N0.net
- >>558
GIFの特許騒動以降、ユニシス嫌いな人間ですがなにか?
冗長組んだルータやスイッチを使った設計・構築した経験が
ないなら、黙っといた方がいいぞ。また恥さらすぞ。
- 560 :名刺は切らしておりまして:2016/04/14(木) 12:36:23.79 ID:kNjM0PNM.net
- SNMPのメッセージを契機とする切り替えなんて冗長化の手法あるの?
ルーターだったらHSRPかVRRPでの切り替えかもしくはOSPFとかで動的経路制御するとか
スイッチだったらSTPやRSTP使って切り替えるのが一般的だと思ってた。
- 561 :名刺は切らしておりまして:2016/04/14(木) 16:33:16.57 ID:QtFycX5G.net
- >>413
>流石に故障シグナルのやらがSNMP Trapじやないと思うが、
>もしそうなら素人設計だな
まさにその素人設計だったみたいだ
SNMP trap「も」使っていいが、これ「だけ」に頼るとは。
http://itpro.nikkeibp.co.jp/atcl/watcher/14/334361/041100532/?rt=nocnt
> 故障シグナルとはANAによれば「SNMP(Simple Network Management Protocol)によるメッセージ通知」という。これを運用監視システムで受け取っていた。
それでも、
> 故障内容は厄介だった。「完全に停止したわけでなく、動作が不安定になった」(ANA広報)という“半死”の状態だったのだ。稼働開始から約3年、スイッチが故障により自動的に切り替わったことは一度もないという。
だから、プロトコルレイヤーの高いところで、
結構な量のデータをやり取りするping pongプロトコルを実装してないと、
見つからなかったとは思うがね。
ただ相当バックプレーン容量を余裕を持っていても、
パケットが歯抜けになったりするのはそう珍しい不具合ではないから、
このレベルのシステムなら必ず実装すべきだけどなあ。
正直言って「故障シグナル」が飛ばなかったのが
システムダウンの原因って発表はまずいね。
「完全に停止したわけでなく、動作が不安定になった」時も
故障シグナルが飛ぶと仮定した設計の問題だったと発表すべきだった。
3月末のANAの発表は誤報と言っていいね。
経年劣化でも用意に起きることだからCiscoは濡れ衣だね。
- 562 :名刺は切らしておりまして:2016/04/14(木) 18:04:31.13 ID:eWPEMlda.net
- >>561
> だから、プロトコルレイヤーの高いところで、
> 結構な量のデータをやり取りするping pongプロトコルを実装してないと、
> 見つからなかったとは思うがね。
ネットワーク屋じゃないのだが、そんな面倒なことしなくても、監視(SNMP)
サーバでDBサーバなりのeth0のretry countを常時監視しておけばいいんで
ないの?
当然、処理系と監視系ネットワークは物理的に別系統として、監視系ネット
ワーク側が単独で死ぬ可能性もあるので、監視サーバ自身(localhost)のeth0
についても監視。
さらに信頼性を考えるなら、監視サーバを複数用意して、監視サーバ同士で
相互監視するとか。
- 563 :名刺は切らしておりまして:2016/04/15(金) 10:47:30.28 ID:gz6dcA85.net
- >>562
このケースはEthernetインターフェースじゃ何も検出できてないんじゃない?
TCPのretransmitならば異常な値出ていたと思うが、
どのインターフェースかは特定できないはずだから(HP-UXのnetstat -s相当はどうかな?)
スイッチの切替が必要と判断するにはもう一工夫いる。
そして今回の場合(と言うかどんな時でもそうだが)
スイッチ自身の申告はあてにならない。
Oracle DBのログやコンソールに情報満載だったから当日何とか出来たのだろう。
- 564 :名刺は切らしておりまして:2016/04/15(金) 12:34:29.74 ID:JQ2TXwIg.net
- >>563
localhost(自分自身)のEthernetに関するRetryCountについては、SNMP経由
でもEthernetパケットは飛ばず、たとえ物理層が壊れていたり、ケーブルが
抜けていても、自サーバOS内のデバイスドライバから直接拾ってくるはず。
スイッチ自身の情報は期待できない前提で、当然故障箇所(ハブ,経路,相手側)
までは特定できないが、エラー率(単位時間あたりのエラー数)変化などを
トリガとして、上位アプリでバイパスに切り替えることは可能ではないかと。
- 565 :名刺は切らしておりまして:2016/04/15(金) 13:06:55.01 ID:gz6dcA85.net
- >>564
今時のスイッチイングハブに接続だとこんな感じでしょ
eth0 Link encap:Ethernet HWaddr XXX
inet addr: XXX Bcast: XXX Mask:XXX
inet6 addr: XXX/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:287275394 errors:0 dropped:0 overruns:0 frame:0
TX packets:289395994 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:43100878157 (40.1 GiB) TX bytes:69842815504 (65.0 GiB)
全部スイッチがそのまま受け取ってくれてエラー等は起きない
今回のケースも結構余裕を持ったスイッチ構成になってるから同じだろう
もちろんerror, dropped, collisions, etc.の値が上昇するタイプの故障「だったら」
検知できるからやっといて損はないけど
interfaceの監視だけで十分ではないのはSNMP trapだけで十分でないのと同じ
- 566 :名刺は切らしておりまして:2016/04/15(金) 16:25:11.87 ID:EDGJEnkL.net
- >>565
枯れた技術で障害を発生させてるから、何弁解しても厳しいだろw
- 567 :名刺は切らしておりまして:2016/04/15(金) 16:56:07.40 ID:JQ2TXwIg.net
- >>565
ハブ内でパケットが消失していたら相手が応答を返さないからTCPタイムアウト
で判るし、複数パケットに対してまとめてACK応答を返すようなプロトコルでも、
仮に受信側で消失パケットがあればシーケンス番号が飛ぶので、再送要求を出
してくると思うが?
TCPスタック内で規定のリトライ回数を超えると上位層にはAPIがエラーを返す
はず(Overlapped IOならイベントトリガ)だが、APIの戻り値をチェックして
いない実装なら、そりゃエラーの検知はできんわな。
- 568 :名刺は切らしておりまして:2016/04/15(金) 19:00:55.47 ID:a1aRLdT/.net
- >>567
それは>>562の言うようなインターフェースの監視じゃ済まないってことだよね。
実際Oracleはそれを検知していたから停止したんだろう。
- 569 :名刺は切らしておりまして:2016/04/15(金) 19:02:53.25 ID:a1aRLdT/.net
- それで問題はOracle等に頼るんじゃなくて
監視系で独立に通信路障害を検出したいわけだから
やっぱり>>561みたいな感じになるんじゃないのか?
- 570 :名刺は切らしておりまして:2016/04/15(金) 19:07:16.83 ID:VTujZit3.net
- >>548
俺に仕事が来てるってことは、重力いじったとしか思えないなあ
病院にはきょうも行った
- 571 :名刺は切らしておりまして:2016/04/16(土) 01:25:05.02 ID:wf4Qx51j.net
- >>561
CISCOの中の人も大変なんですねw
壊れてるのに、ちゃんと壊れたこと検出も通知もできないのはクソ装置。
そんな装置を使っていることを理解せず、SNMPトラップだけの故障検出に頼るのはクソ設計。
クソ同士でお似合いw
- 572 :名刺は切らしておりまして:2016/04/16(土) 17:10:28.15 ID:Ii71utId.net
- >>571
中途半端に通信ができている状態でルーティング/スイッチング異常を自ら検知して
通報するような機能が実装された製品があれば、マジで紹介して欲しいわ。
※ 「ぼくのかんがえたさいきょうのスイッチ」シリーズは除く
- 573 :名刺は切らしておりまして:2016/04/16(土) 21:36:44.68 ID:YA8W+K0h.net
- >>571
お前は分かってない
今回のはトラップが飛ばない不具合だ
それに中途半端に壊れても通信ができてたから
DBサーバもリンクダウンとか検出できなかっただけ
- 574 :名刺は切らしておりまして:2016/04/16(土) 22:42:52.47 ID:cBO2/OSj.net
- >>572
仮にそんなスイッチがあったとしても
スイッチとホストをつなぐNICやケーブルがSPoFになるといけないから
結局>>1みたいにNICも経路も二つ必要になって
じゃあ何のためにそれほど信頼性の高いスイッチを
使うのかということになる
- 575 :名刺は切らしておりまして:2016/04/16(土) 22:52:33.71 ID:cBO2/OSj.net
- >>573
> 今回のはトラップが飛ばない不具合だ
これも詳しく見てみると、
・この障害を検出していたがSNMPトラップを出し損なった
・この障害を検出することは意図していたが、
検出し損なったのでSNMPトラップを出せなかった
・この障害は検出していたが
SNMPトラップを出す設定にはなっていなかった (流石にこれはないか)
・この障害は検出していたが
この障害ではSNMPトラップを出すことは不可能だった
・最初から検出することになっていなかった障害が起きた
の可能性があるが、どれかよく分かってない。
第一印象では二番目かと思ったがCiscoのコメントを良く読むとわからなくなる。
> IT推進室長の佐藤透執行役員は会見で「NECがシスコ製品を選択して納入した。
> シスコから世界で同様の問題は4事例しかないと聞いている」と述べた。
>
> この点についてシスコは本誌の取材に「当社としてお客様が発表した以上のことはコメントできない」とした上で、
> 世界4例の障害事例については「現在詳細を確認しているところ。
> ただ、今後このような事が起こらないよう、社内での取り組みを強化したい」と説明する。
- 576 :名刺は切らしておりまして:2016/04/17(日) 00:25:22.86 ID:9AabP4nV.net
- >>575
> >取材に「当社としてお客様が発表した以上のことはコメントできない」とした上で、
> > 世界4例の障害事例については「現在詳細を確認しているところ。
> > ただ、今後このような事が起こらないよう、社内での取り組みを強化したい」と説明する。
これ(世界で4例)は今回のとは違う障害のことだよ。今回のは世界初のケース。
なぜかANAでは極めて稀なネットワーク機器の故障が起きる。
- 577 :名刺は切らしておりまして:2016/04/17(日) 03:22:52.22 ID:DpuAKGBE.net
- 再現可能な不具合なのかな
よくciscoが認めたなあ
- 578 :名刺は切らしておりまして:2016/04/17(日) 05:18:59.60 ID:wjC2DFh0.net
- >>571
お前、死んだらちゃんと俺死にましたって報告しろよ
- 579 :名刺は切らしておりまして:2016/04/17(日) 07:39:22.65 ID:WNyc5crS.net
- >>575
引用部は2007年のANAのトラブルの記事
今回は
> シスコシステムズ日本法人の広報は「今回の不具合はこれまで世界で報告が上がっていなかったもの。
> 全力で原因究明と再発防止に取り組む」とした。
- 580 :名刺は切らしておりまして:2016/04/17(日) 11:37:23.12 ID:yl5VEC9Q.net
- >>577
>>1
> 「本番環境と同等の作りにしてあるテスト環境にスイッチを持ち込んでテストしたところ、不具合が再現した」(ANA広報)。
- 581 :名刺は切らしておりまして:2016/04/17(日) 14:17:03.74 ID:ujo/UQpg.net
- >>580
今までは普通に動いていた、後から○○を繋いだら動かなくなった、だから○○が
悪いに違いないという、通信の世界ではわりとよくある責任転嫁だな。
ちゃんと、検証手順から勉強してロジック確認した方がいいと思うよ。
- 582 :名刺は切らしておりまして:2016/04/17(日) 14:18:15.44 ID:RAS6Qq2j.net
- これシスコのせいにしてるけど作業ミス何でそ?
- 583 :名刺は切らしておりまして:2016/04/17(日) 14:28:14.75 ID:Y9O57A2v.net
- >>582
>>580
- 584 :名刺は切らしておりまして:2016/04/17(日) 14:29:32.26 ID:9vBbn5q8.net
- >>582
正直「いつものことをいつも通りにしていたらいつも通りに動く」よな
ミスとは言わないがいつもと違うなにかをした
んだとは思う
例えばそれが機器の不具合だったとして
やっぱり特定メーカ特定機種でないと稼働しないシステムはおかしい
- 585 :名刺は切らしておりまして:2016/04/17(日) 14:52:14.01 ID:weAjYhV3.net
- 全部ハゲバンクのハゲが悪い
- 586 :名刺は切らしておりまして:2016/04/17(日) 15:22:09.66 ID:7KEZj96p.net
- >>581
話の流れも読めないバカなの?
俺は「再現性の有無」にしか答えてない
責任転嫁とか何を言ってるんだか
- 587 :名刺は切らしておりまして:2016/04/17(日) 15:50:47.68 ID:ujo/UQpg.net
- >>586
再現性(w DOS/Vパソコンの相性問題でちゅか? 所詮、スクリプト書きの
Web屋やSEとか故障解析とかスキルも経験もないし、なんちゃってエンジニア
だから仕方ないかな。
- 588 :名刺は切らしておりまして:2016/04/17(日) 16:24:09.06 ID:yl5VEC9Q.net
- 再現性と相性の区別もつかないアホがいるなw
- 589 :名刺は切らしておりまして:2016/04/17(日) 16:41:37.91 ID:aGGEu3kM.net
- IBMのダークスーツと、裸婦なオープンシステムでは話しにならないよ
やってみたが無理だった
- 590 :名刺は切らしておりまして:2016/04/17(日) 19:08:21.07 ID:ZMBC8+3r.net
- >>584
DBサーバ間を裏側で繋ぐスイッチなんぞ、一回設定してしまえばそうそう変更の
かかるところではないし、普通に考えれば業務が動いている最中に設定変更を
しようとも思わない個所だと思うんだが、変更かけようとしていたと思う理由ってある?
>>587
不具合・誤動作を起こした装置(実機)をメーカーに送って、
不具合が再現されるかどうかを確かめるなんて当たり前とちゃうん?
うちの会社では工場調査とか言ってるけど。
- 591 :名刺は切らしておりまして:2016/04/17(日) 19:24:31.35 ID:Y9O57A2v.net
- ID: ujo/UQpg
ID: RAS6Qq2j
ID: 9vBbn5q8
平日は一体何をしている人なんだろうか…
- 592 :名刺は切らしておりまして:2016/04/18(月) 08:12:27.80 ID:i/C5xY5r.net
- >>591
思い込みの激しい知ったか君だろ
再現性の有無で障害解析のやり易さは天と地の差があるからそう言う経験してたら >>587 みたいな自己紹介はしないでしょ w
- 593 :名刺は切らしておりまして:2016/04/18(月) 21:01:25.61 ID:nMICQhfb.net
- >>561
> 故障シグナルとはANAによれば「SNMP(Simple Network Management Protocol)によるメッセージ通知」という。これを運用監視システムで受け取っていた。
ワロタ
これだろ
o Cisco Active Network Abstraction Administrator Guide
o Advanced VNE Administration
o Device Reachability
> o How Cisco ANA Determines Protocol Reachability
> These topics describes the tests Cisco ANA conducts to check the health of > the SNMP, Telnet, and ICMP protocols. You can check Cisco ANA
> NetworkVision to get details about the health of each protocol (see Check
> the Communication Details in Cisco ANA NetworkVision, page 20-11).
> o SNMP
(以下略)
telnet, icmpはどうしたんだろ?
NetworkVisionで三種類同時に監視できないんだけ?
いずれにせよこんなものだけに頼るなと言いたい
総レス数 593
164 KB
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★