2ちゃんねる スマホ用 ■掲示板に戻る■ 全部 1- 最新50    

■ このスレッドは過去ログ倉庫に格納されています

【クラウド障害】AWSが11月の大規模障害について説明 [エリオット★]

1 :へっぽこ立て子@エリオット ★:2020/12/01(火) 14:05:37.86 ID:CAP_USER.net
 Amazon Web Services(AWS)は、米国時間11月25日に発生した大規模障害についての説明を公開した。この障害では、何千ものサードパーティーのオンラインサービスが数時間にわたって影響を受けた。
□AWSで障害--多数のサービスに影響 - ZDNet Japan
https://japan.zdnet.com/article/35162958/

 数十におよぶAWSのサービスも影響を受けたが、同社によれば、障害が発生したのはバージニア北部のUS-EAST-1リージョンだけだった。同社によれば、ことが起こったのはKinesisサーバーのフロントエンドフリートに「小規模な容量の追加」を行った後だったという。

 Kinesisはデータや動画のストリームをキャプチャーし、AWSの機械学習プラットフォームで処理するサービスであり、顧客にも使用されているが、「CloudWatch」や認証サービスの「Cognito」などをはじめとするAWSの他サービスでも使用されている。

 Kinesisサービスのフロントエンドでは認証やスロットリングの処理を行っているほか、「シャーディング」と呼ばれるデータベースのメカニズムを介してワークロードをバックエンドの実働クラスターに分散している。

 AWSが長々とした障害対応経緯のまとめで説明しているように、容量の追加は障害発生のきっかけではあったが、根本的な原因ではなかった。原因は、容量の追加作業が午前2時44分(太平洋標準時〈PST〉)から約1時間かけて行われた後、Kinesisのフロントエンドフリートに属する全てのサーバーで、スレッド数が現在のOSの設定で許容されている最大値を超過し始めたことだった。
□Summary of the Amazon Kinesis Event in the Northern Virginia (US-EAST-1) Region(英文)
https://aws.amazon.com/message/11201/

 最初のアラームが発生したのは午前5時15分(PST)で、問題の解決までには約5時間かかった。Kinesisが完全に復旧したのは午後10時23分(PST)だった。

 Amazonは、Kinesisのフロントエンドサーバーがバックエンドにデータを分散させる方法について、「フロントエンドの各サーバーは、バックエンドクラスターのメンバーシップの詳細やシャードの所有権を含む情報のキャッシュを保持しており、このキャッシュはシャードマップと呼ばれている」と説明している。

 AWSによれば、この情報はメンバーシップ情報や「DynamoDB」からの設定情報の取得、他のKinesisフロントエンドサーバーからのメッセージの継続的な処理を行うマイクロサービスを呼び出すことで取得されている。

 問題は、スレッド数がOSの設定を超えたことが原因で、フロンドエンドサーバーのシャードマップが使い物にならなくなり、リクエストをKinesisのバックエンドクラスターにルーティングすることができなくなってしまったことだったという。AWSは障害のきっかけとなった追加された容量を取り外したが、障害対応中は復旧に遅れが生じることを恐れてスレッドの上限値を上げるのを避けたと説明している。

 AWSは「今回の事態がお客さまに与えた影響についてお詫びしたい」と述べている。

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
https://www.zdnet.com/article/amazon-heres-what-caused-major-aws-outage-last-week-apologies/

2020-12-01 12:55
ZDNet Japan
https://japan.zdnet.com/article/35163174/

2 :名刺は切らしておりまして:2020/12/01(火) 14:22:56.87 ID:FEePJnre.net
で、誰のクビが飛ぶの?

3 :名刺は切らしておりまして:2020/12/01(火) 14:26:08.08 ID:QQSaGxfg.net
>>2
日本とは違う
アメリカはこの程度では飛ばさないよ

4 :名刺は切らしておりまして:2020/12/01(火) 14:27:26.66 ID:1BVQje80.net
クラウドはバックアップに使え。
実データは自分の手元に置いとけ。

5 :名刺は切らしておりまして:2020/12/01(火) 14:34:49.46 ID:GGX09WAH.net
116動け動けウゴウゴ5ちゃんねる2020/11/26(木) 16:59:22.28ID:h2v4uiMY0
何やっとんねん
https://mao.5ch.net/mmonews/subback.html

117動け動けウゴウゴ5ちゃんねる2020/11/27(金) 04:22:35.45ID:6QzCsezZ0
こないだのメンテ時にミスって全スレ落ちた

tp://agree.2ch.net/test/read.cgi/operate/1527697241/512
> また前述障害によりサーバ起動時の初期設定スクリプトがうまく動かなかったため
> サーバ自身の内蔵時計が上手く設定されなかった(未来時刻になっていた)ことにより
> 多くの板でDAT落ちが発生した模様です

6 :名刺は切らしておりまして:2020/12/01(火) 14:41:35.12 ID:8oJzjh9s.net
>>2
責任もクラウドの向こう側

7 :名刺は切らしておりまして:2020/12/01(火) 14:42:30.81 ID:4EcUOUgy.net
ハゲの席替え芸だな

8 :名刺は切らしておりまして:2020/12/01(火) 15:10:51.72 ID:a/nh8QBh.net
インテルなんて使うからだ

9 :名刺は切らしておりまして:2020/12/01(火) 16:19:53.31 ID:qC8UVPlg.net
これって補償無いんだよな

10 :名刺は切らしておりまして:2020/12/01(火) 16:56:48.56 ID:9lzT0d2O.net
>>2
ユーザー

11 :名刺は切らしておりまして:2020/12/01(火) 17:17:42.54 ID:wS0iz7dA.net
>>9
何年か前にあった大規模障害でデータ全損失食らったけど、ゴメンの一言すらなかったよ
バックアップ取ってなかったら死んでたわ

12 :名刺は切らしておりまして:2020/12/01(火) 17:26:48.71 ID:sIJugh2c.net
何でスレッド数が増加したんだ?
そこが>>1読んでもわからん

13 :名刺は切らしておりまして:2020/12/01(火) 17:29:55.78 ID:4k+jrsaM.net
だからグーグルにしとけと

14 :名刺は切らしておりまして:2020/12/01(火) 18:06:25.14 ID:JkTi2Epb.net
日本でもあったよな
こういうのが強いのがクラウドじゃんなきゃいけないのに障害起こしすぎだろ

15 :名刺は切らしておりまして:2020/12/02(水) 10:50:21.79 ID:AC+X6EX7.net
>>9
オンプレでも補償しないでしょ?

総レス数 15
6 KB
掲示板に戻る 全部 前100 次100 最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★