昨日発生したINST Messengerの不具合に関して

INST石野です。今日はひとネタ挟まずいきます。

まずは、昨日発生したINST Messengerの不具合に関して、ご利用いただいている企業の皆様方にはメール/twitter/Facebookでご報告させていただき、障害報告書もお送りしておりますが、改めて深くお詫び申し上げます。

誠に申し訳ありませんでした。本来であれば1社1社ご報告に上がるべきところですが、ブログにて失礼します。

調査の結果12:00-16:08の約4時間強にわたって、SMS送信などが出来ない状況になっておりました。不具合を検知したのが14:45と発生から2時間45分検知にかかってしまったもの問題です。

 

当該時間内に送信をしていただいたSMSはINST Messengerのシステム内でリクエストが保留(PENDING)の状態になっており、PENDINGになっているSMSには料金は発生いたしませんが、送る場合は手動での再送信が必要になります。

もし再送をいただけた場合の費用負担は全額INSTが負担させていただきますので、再送された場合は通数をINSTまで申告いただければと思います。

 

不具合の直接の理由はDBサーバーのディスク容量が90%以上に達しており、残りの10%が仮想メモリに割り当てられていたため、新規の書き込み(データ作成=SMS送信など)にエラーが発生していたことです。

こちらはDBサーバーのディスク容量を100倍に増強することで対応を行いました。

実は今年の6月にINST SMS→INST Messengerと名称を変更した際にディスク容量5倍に増やしてあったので、正直安心をしておりました。が、社数はそこまで増えていなくとも、1社あたりの送信量がこの半年で約2-3倍に増えていることからこのような事態が発生してしまいました。本当に深くお詫び申し上げます。

また、障害報告書でもご報告差し上げましたが、再発防止策として下記を実施/実施予定です。

◆DBサーバーのディスク容量のスケールアップ(済)

◆DBサーバーの検知システムの修正(済)
→DBサーバーのディスク容量が95%を超えるとアラートが来るようになっていましたが仮想メモリが想定よりも大きくなってしまっておりましたので、ディスク容量80%でアラートが飛ぶように設定し直しました

◆送信エラー発生の社内通知システム(未:11/21までに予定)
→送信エラー(電話番号間違いや存在しない番号含む)が連続して発生すると社内チャット(Slack)にアラート通知が飛ぶ仕組みを構築いたします
※今までもテストでは行っていたのですが、社員全員が確認できるスレッドにて運用開始

◆SMS送信状況の確認システム(未:11月中に構築完了予定)
→本確認システム用にdocomo/au/softbankの3キャリアの携帯電話に対し、INST Messengerから30分おきにSMSを自動送信し、送信状況を確認(不具合あれば社内チャットに通知)するシステムを構築いたします

 

また、不具合のご報告のメールに対して、ご利用企業様から暖かい励ましの言葉や叱咤激励をいただけたのはとてもありがたかったです。が、利用企業様が増え、利用量が増えてきたということはそれだけ企業としての責任も大きくなってきたと痛感いたしました。今後、さらなる進化を遂げ続けていくことと共に、堅牢で屈強な安定性を誇るシステムにする努力を怠らないことをここにお約束いたします。

引き続きINST Messenger、そしてINSTをどうぞよろしくお願いいたします。

2016年11月18日
株式会社INST
代表取締役社長 石野 幸助