2ちゃんねる スマホ用 ■掲示板に戻る■ 全部 1- 最新50    

■ このスレッドは過去ログ倉庫に格納されています

【IT】AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗

1 :田杉山脈 ★:2019/08/26(月) 17:54:46.68 ID:CAP_USER.net
2019年8月23日金曜日の午後に発生したAWS東京リージョンの大規模障害について、AWSは日本語での詳しい報告を公開しました。

報告によると直接の原因は東京リージョンのデータセンターで使用されている冷却制御システムにバグがあったこと。これにより、緊急時の手動操作にも冷却制御システムの一部が反応しないなどでサーバが過熱し、障害に至ったと説明されています。

8月23日午後に約6時間の障害。EC2だけでなくRDSも
報告によると、障害は日本時間2019年8月23日金曜日の昼過ぎに発生。影響範囲は仮想マシンを提供するAmazon EC2とブロックストレージを提供するAmazon EBSのそれぞれ一部。以下、AWSの報告を引用します。

日本時間 2019年8月23日 12:36 より、東京リージョン (AP-NORTHEAST-1) の単一のアベイラビリティゾーンで、オーバーヒートにより一定の割合の EC2 サーバの停止が発生しました。この結果、当該アベイラビリティゾーンの EC2 インスタンスへの影響及び EBS ボリュームのパフォーマンスの劣化が発生しました。

障害の原因は冷却制御システムのバグによってサーバがオーバーヒートしたため。その冷却制御システムは、障害発生から約3時間後の15時21分に復旧します。

冷却制御システムの復旧によってデータセンターの室温が低下し、影響を受けたEC2インスタンスとEBSボリュームの大部分が回復したのは、障害発生から6時間後の18時半頃。一部についてはさらに復旧に時間がかかっています。

日本時間 18:30 までに影響を受けた EC2 インスタンスと EBS ボリュームの大部分は回復しました。少数の EC2 インスタンスと EBS ボリュームは、電源の喪失と過大な熱量の影響を受けたハードウェアホスト上で動作していました。これらのインスタンスとボリュームの復旧には時間がかかり、一部につきましては基盤のハードウェアの障害によりリタイアが必要でした。

マネージドサービスのAmazon RDSも同時に障害
また、今回公開された報告には含まれていませんが、この障害はAmazon RDSにも影響していました。Amazon RDSでは障害発生のタイミングはほぼ同時ながら、解消まで約10時間かかっています。

下記情報は記事執筆時点でAWSヘルスダッシュボードのRSSの中に残っていますが、いずれ消えてしまうはずです。

日本時間 2019年8月23日 12:36 から 22:05 にかけて、東京リージョンの単一のアベイラビリティゾーンで一部の RDS インスタンスに接続性の問題が発生しました。現在、この問題は解消しており、サービスは正常稼働しております。詳細はこちらをご覧ください。

この障害の詳細情報へのリンク先も今回の大規模障害の報告ページになっています。

つまり8月23日金曜日の午後の大規模障害の範囲はAmazon EC2、EBSだけでなく、少なくともAWSがマネージドサービスで提供しているAmazon RDSにも広がっていたことになります。ただし障害の範囲は1つのアベイラビリティゾーン内だったとされています。

(ほかにもこの障害との関係は未確認ながら、同時間帯にAWSのマネージメントコンソールが利用できなくなった、Amazon ELBでエラーが発生した、といった利用者の声もあがっています)。
以下ソース
https://www.publickey1.jp/blog/19/aws23.html

2 :名刺は切らしておりまして:2019/08/26(月) 18:10:53.06 ID:MdMjbVb5.net
シングルAZ障害でRDSに影響でたらアカンやん

3 :名刺は切らしておりまして:2019/08/26(月) 18:56:38.32 ID:M8PlJtAk.net
禿頭を下げて詫びろ

4 :名刺は切らしておりまして:2019/08/26(月) 19:25:13.50 ID:iB2tfw+9.net
これだけ大規模なのに人がコントロールしてるとは…

5 :名刺は切らしておりまして:2019/08/26(月) 19:38:27.88 ID:hOe1S+oD.net
こんな時にQRコード決済があるから財布いらねーなんてやったら支払いできずに4ぬパターンだな
障害のせいで店でアプリが起動しなくてポイントをもらい損ねた

6 :名刺は切らしておりまして:2019/08/26(月) 19:47:11.51 ID:eGCKUZOd.net
まるでMr Robotの世界。
一流のデータサービスは冷却まで自前でプログラムを書いて制御するのかね。

7 :名刺は切らしておりまして:2019/08/26(月) 19:57:23.29 ID:KJ++yTMI.net
そこらへんのアホマンコが持ってる携帯扇風機かき集めて冷却すれば良いじゃん

8 :名刺は切らしておりまして:2019/08/26(月) 20:01:32.77 ID:9J15nClj.net
SNSに投`稿した「スタイル抜群.の.体.」.現`実.の`姿は`これ(画像)
http://whophotoo.xmlfence.com/qqsc.html

9 :名刺は切らしておりまして:2019/08/26(月) 20:13:20.79 ID:96edZYZw.net
何でマルチリージョンにしないの?バカなの?死ぬの?

10 :名刺は切らしておりまして:2019/08/26(月) 20:13:40.33 ID:tA9r5VZ8.net
オレのエロDVDがまだ届かないのはこのせいか!

11 :名刺は切らしておりまして:2019/08/26(月) 20:14:00.52 ID:9iqDCdOp.net
クラウドを過信すると痛い目を食らうど

12 :名刺は切らしておりまして:2019/08/26(月) 20:16:15.94 ID:BL1+Tlh0.net
詫び石はよ

13 :名刺は切らしておりまして:2019/08/26(月) 20:18:54.23 ID:Q06VP0Cc.net
最近のデータセンターの冷却は機械学習・AIが流行ってるらしいが、これはどうだったんかな?

14 :名刺は切らしておりまして:2019/08/26(月) 20:20:13.61 ID:36HHefzY.net
>>1
たった一ヶ所でシステム障害とか、データセンターと変わらない件

15 :名刺は切らしておりまして:2019/08/26(月) 20:22:56.57 ID:lOQNshM4.net
わざとだったりして。

16 :名刺は切らしておりまして:2019/08/26(月) 20:26:54.18 ID:nsapGNWm.net
AWSも簡単に落ちるんだな。。。

17 :名刺は切らしておりまして:2019/08/26(月) 20:29:24.94 ID:X145W28c.net
クラウドは落ちることがある と書き込んだらAWSは違うと主張し続けてきた5ch
腐れ在日5chは、アフィ料に尻尾振りすぎなんだよ

18 :名刺は切らしておりまして:2019/08/26(月) 20:32:23.47 ID:Xf50K2rt.net
>この度の事象発生時、異なるアベイラビリティゾーンの EC2 インスタンスや EBS ボリュームへの影響はございませんでした。
>複数のアベイラビリティゾーンでアプリケーションを稼働させていたお客様は、事象発生中も可用性を確保できている状況でした。

なんかMulti-AZにしてれば大丈夫だったみたいな説明をAmazonがしてるけど、
Multi-AZでもサービスに支障きたしてたとこがちらほらあったんでそ?

19 :名刺は切らしておりまして:2019/08/26(月) 20:34:05.15 ID:W2w00RVJ.net
あれっ?
大規模火災じゃなかったのか?

20 :名刺は切らしておりまして:2019/08/26(月) 20:41:47.16 ID:ar+o/Sa/.net
サマーウォーズで見た

21 :名刺は切らしておりまして:2019/08/26(月) 20:43:10.95 ID:M+T/JTU/.net
DQN鉄筋工が咥え煙草で燃やしたデータセンタだっけ
一族郎党で韓国に逃げ帰って賠償バックレ

22 :名刺は切らしておりまして:2019/08/26(月) 20:43:17.96 ID:j+3Vhjjs.net
詫び石は?

23 :名刺は切らしておりまして:2019/08/26(月) 20:48:14.47 ID:AdFo0ZfW.net
>>9
予算がねえに決まってんだろ

24 :名刺は切らしておりまして:2019/08/26(月) 20:53:19.92 ID:iYkzqiVi.net
ジャップ設備屋のゴミ空調が故障しただけかよ
AWS自体は悪くないのに本当に足を引っ張るなあジャップ設備
これを機に空調すら海外製をそのまま持ってくる風潮が広まれば良いね
品質最低なジャップ設備をデータセンターから駆逐しよう

25 :名刺は切らしておりまして:2019/08/26(月) 20:55:36.89 ID:YKWXR6XA.net
多分、安くあげようとして吉田製作所辺りに工事を発注したんだな()

26 :名刺は切らしておりまして:2019/08/26(月) 21:08:01.07 ID:MPx1SgQE.net
高額エンジニアを雇えば問題ないと思ってたけど、
設備の方も多重請負が酷いんだろうな
設備の方も多重請負を規制しろ

27 :名刺は切らしておりまして:2019/08/26(月) 21:10:05.42 ID:SEm8r2Xr.net
ジャップが、Amazon様に迷惑かけただとぉ?
死んで詫びろ

28 :名刺は切らしておりまして:2019/08/26(月) 21:19:35.08 ID:lF7KnTXV.net
>>18
https://blog.hirokiky.org/entry/2019/08/23/200749

29 :名刺は切らしておりまして:2019/08/26(月) 23:15:13.57 ID:LiD9eIo7.net
>>19
それはリアルアマゾンの深林での話

30 :名刺は切らしておりまして:2019/08/26(月) 23:26:12.11 ID:PHwGRv8w.net
トラブルはどうしようもないとしても、
一ヶ所こけたら、みんなこけるんだね。

31 :名刺は切らしておりまして:2019/08/26(月) 23:29:04.21 ID:D/sX+Yhh.net
冗長化なんて気休めなんだよね

32 :名刺は切らしておりまして:2019/08/26(月) 23:44:48.81 ID:BSjgc/Gq.net
>>17
むしろAWSは局所的にわりとよく落ちるんだけどクラウド故にサービスレベルが高く算出されるという手品。

33 :名刺は切らしておりまして:2019/08/26(月) 23:49:18.00 ID:RG0VRuP7.net
サービスレベルに関して「クラウド > オンプレ」は幻想

34 :名刺は切らしておりまして:2019/08/26(月) 23:50:34.70 ID:HVW9VAFv.net
フェールセーフに失敗するなんて有り得ない。
それはそもそもはじめからフェールセーフではなかったということ。

35 :名刺は切らしておりまして:2019/08/26(月) 23:51:52.20 ID:1Md6JRBg.net
ダイキンのエアコンをそのまま付けていれば良いものを。余計な事をしくさって

36 :名刺は切らしておりまして:2019/08/26(月) 23:56:26.41 ID:wzVAKSxi.net
>>33
そうね

だな、信頼性が命でデータセンターや運用スタッフを自前で持つ金融機関ならともかく
普通の企業は自前で持つコストを考えたらクラウドを選ぶよなあ

37 :名刺は切らしておりまして:2019/08/27(火) 00:11:26.93 ID:+WOR4zXc.net
熱制御のバグでダウンまで分かったが、もっと分かりやすく原因と障害対策、
今後の見通しを説明しろや、変なカタカナ英語を除いた日本語で。

38 :名刺は切らしておりまして:2019/08/27(火) 00:12:01.51 ID:BsaRDeuR.net
人件費削減のツケだね
圧縮できた分を冗長につかえばええのに

39 :名刺は切らしておりまして:2019/08/27(火) 00:30:57.93 ID:5IRe9ls7.net
>>37
たぶんだけどIDCそれぞれの空調制御と>>1の冷却制御システムはまた別のシステムなんだよ。
で、急に涼しくなったからIDC側で空調の設定を変えたら>>1のバグが発生とかそんな感じかと。

AWSといってもIDCは色々だろうからアマゾン側で繋ぎ込みに失敗してたんだろ。
例えばIDC側空調システムの温度設定が「AUTO」に設定された場合とかかな?

40 :名刺は切らしておりまして:2019/08/27(火) 00:37:26.78 ID:Rj/tlmkd.net
つまり、切り替えバックアップシステムがしんだの?

41 :名刺は切らしておりまして:2019/08/27(火) 00:37:30.83 ID:Mod+LAJO.net
アベイラヴィリティーゾーンがインスタンスでヘルスダッシュボードね
だいたい分かった

42 :名刺は切らしておりまして:2019/08/27(火) 01:12:34.46 ID:+WOR4zXc.net
>>39

>たぶんだけど
貴様の推測は要らん

43 :名刺は切らしておりまして:2019/08/27(火) 01:44:04.93 ID:huPuAFyP.net
こういうの損害賠償求められないのか?
ドスパラとか土曜の稼ぎ時に全店営業停止とかシャレになんねーほど被害受けてるだろ?

44 :名刺は切らしておりまして:2019/08/27(火) 05:28:34.10 ID:qFnHAQ6c.net
何でそんなところに獏が?

45 :名刺は切らしておりまして:2019/08/27(火) 08:53:20.92 ID:pfsiLNY0.net
これみるとマシンオペレーター常駐するが、プログラムエラーで冷却ファン停止→熱暴走で集団自決(アクシズ押しながらジム自爆)な感じ

46 :名刺は切らしておりまして:2019/08/27(火) 11:00:17.09 ID:VPXR3V+u.net
>>43
月額料金のうち、ダウンしてた時間分の金額が払われる。

47 :名刺は切らしておりまして:2019/08/27(火) 11:26:52.69 ID:3tYGCxYF.net
エアコンを24時間稼働してれば良かった話
経費削減で冷却制御システムなんて稼働歴が短いものを動かしてたから障害に出くわした
ダイキンエアコンを動かしてろっつーの

48 :名刺は切らしておりまして:2019/08/27(火) 11:28:32.70 ID:3tYGCxYF.net
経費削減なんてことばかりやってるからこういう目に遭う

49 :名刺は切らしておりまして:2019/08/27(火) 11:33:47.49 ID:j2cnSBtS.net
こんなの直接温度を測定してればダウン前に気付けるだろ
一瞬でオーバーヒートする訳じゃないし

50 :名刺は切らしておりまして:2019/08/27(火) 11:39:14.20 ID:T/0HYfsG.net
>>1
非ITの大手企業の部長みたいな人たちに限って「クラウド」って言葉を過信してる人多いと思う
たぶんよく分かってないけどクラウドって言っとけば今風と思ってる

51 :名刺は切らしておりまして:2019/08/27(火) 20:43:51.38 ID:mSvXpEr3.net
ドコモのサービス色々停止してるんだけど
AWSが原因らしい
ネットワークサービス企業がAWSつかうのは
なんだか情けない 日本のバカ経営らしいけど

52 :名刺は切らしておりまして:2019/08/27(火) 21:52:08.35 ID:YxZE3Z5/.net
>>43
100%常にサービス提供するとは宣言してないし、防ぐためのインフラ構築手法があるからね(ただし今回それでも落ちてたという話がちらほらあるにはある)
ユーザー側が予算ケチるなってだけ

53 :名刺は切らしておりまして:2019/08/27(火) 21:59:53.10 ID:AYn9NEvc.net
アジュールの方が安定しているの?

54 :名刺は切らしておりまして:2019/08/27(火) 22:09:44.62 ID:eW7XY7mm.net
釧路あたりの寒冷地にデータセンター作れよ。
過疎化してるしちょうどいいだろ。

55 :名刺は切らしておりまして:2019/08/28(水) 00:42:29.08 ID:2UoHxBm8.net
クラスメソッドに相談しないからこうなる

56 :名刺は切らしておりまして:2019/08/28(水) 01:34:49.99 ID:fb1C2TpI.net
気を付けないと大ダメージくらうど

57 :名刺は切らしておりまして:2019/08/28(水) 06:20:58.78 ID:E9crdevZ.net
>>55
AWS教信者集団に任せるなんて怖すぎるわ
無能経営者を洗脳するのは上手いけどw

58 :名刺は切らしておりまして:2019/08/28(水) 08:59:02.16 ID:6uduPEwx.net
基盤おいてるデータセンター、損害賠償問題でてんやわんやしてそう

59 :名刺は切らしておりまして:2019/08/28(水) 11:11:27.92 ID:E9crdevZ.net
>>1
Kの法則発動

60 :名刺は切らしておりまして:2019/08/28(水) 18:32:34.50 ID:JjW/GUhW.net
>>27
しね

61 :名刺は切らしておりまして:2019/08/29(木) 22:12:30.63 ID:tE0SJwTT.net
>>53
azureも2年くらい前に同じようなことになってた
今年GWで障害も起こしてるし

どっちもどっち
障害は必ず起きるから前提でシステム設計しましょうねってだけ

62 :名刺は切らしておりまして:2019/09/08(日) 17:17:28.68 ID:rYlXPzVv.net
とりあえずインシデントに登録して、問題管理にエスカレーションして、
変更管理で冷却の仕様を改善したらもう起きないでしょ。

総レス数 62
15 KB
掲示板に戻る 全部 前100 次100 最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★