2022/11/10

万が一の通信障害発生時にも、大規模化を防ぎ早期に復旧させるために

2022年7月2日に発生した通信障害をうけ再発防止策のひとつとして、障害発生時の早期復旧手順を確立し、サービスの安定的な運用に向けて全力を上げて取り組んでいます。

今回の事故においては、一部の通信設備が壊れたバックアップファイルを読み込み異常状態で起動したことにより携帯電話の位置を確認する信号が繰り返し送信され、さらに、加入者データベースにおいてセッション情報のデータ不一致が発生するなど、複数の異常状態が継続したために、復旧作業に長時間を要しました。

そのため再発防止の観点から、通信障害時の復旧手順の見直し、通信設備の輻輳解消ツールの開発等により、複雑な状態を考慮した復旧手順の確立に取り組んでいます。

※輻輳とは。こちらをご確認ください。

通信設備での作業風景

① 輻輳発生時の復旧手順の見直し・通信設備の輻輳解消ツールの開発・導入

通信設備が輻輳状態であることに早く気づき、速やかに復旧させるための対処を実施しています。
(1)輻輳の早期検知を実現するために検知ツールを開発・導入しました。
(2)異常状態のバックアップファイルを読み込むことが無いように、通信設備のリセット手順を改修しました。
(3)輻輳の早期復旧を実現するためにワンタッチで複数の通信設備に対して同時に短時間で実行できるツールを開発・導入しました。

② 復旧対処の自動化を検討(令和5年度以降に段階的実装を検討中)

「革新的 AI ネットワーク統合基盤技術の研究開発(平成30年度-令和2年度)」の「AIによるネットワーク運用技術」において、学習データに基づいたAIによる障害検知・原因特定・復旧手順作成・復旧対処の研究開発を実施しています。
輻輳検知から対処の実行までを自動的に実行するようにシステム化を検討しており、令和5年度以降の段階的商用実装に向けて次世代アーキテクチャ5GC・OSS検証環境で検証中です。
※このプロジェクトの研究開発では、自動化レベル3に向けた90%超の正解率の原因特定手法や重大事故の短時間復旧に目途を立てます。
(併せて、既存設備と同等の高い品質が要求される最新の仮想化ネットワークにおける研究開発の成果を導出します)

この記事の評価をお願いします

ご回答ありがとうございました。
よろしければ評価の理由を教えてください。

※300文字以内でご入力下さい。
※ご入力いただいた内容については今後の改善に利用させていただきます。
※返信は行っておりませんので、個人情報のご入力はご遠慮下さい。