2019/04/08
運用チームの救世主!鳴り止まないアラートもOpsgenieで改善福田 修三Osami Fukuda
RickCloudサービスの運用チームでは、システムの監視における問題を解決するためにOpsgenieを導入しました。
今回は、Opsgenieとはどういったツールなのか、Opsgenieの選定理由や導入するメリットをチームが抱えていた問題と照らし合わせてご紹介します。
Opsgenieとは、常時稼働するサービスを運用するためのインシデント管理ツールで、DevOpsチームのサービス中断計画やインシデント発生中も管理された状態の維持を様々な機能でサポートしてくれます。メインの機能は以下の6つです。
2018年9月4日、Atlassian Summit Europe 2018にてAtlassianによる買収が発表され、一躍脚光を浴びました。
現在では世界で5000社以上が導入し、私が所属するRickCloudサービスの運用チームでも2018年12月から導入しております。
上記の機能をメインに全体的に直感的に使えること、英語ですがドキュメントが非常に分かりやすく充実しているため、比較的容易に導入できます。
また、24/7/365でチャットによるサポート対応(Subscription PlanでEnterprise版を選択の場合。現在、英語によるサポートのみ。)が提供されていることも魅力的です。
世界の多くのOps(運用)チームがサービスを継続させるために24時間体制で監視を行っているものと思います。
私のチームでもお客様へサービスを常に快適に提供すべく、メンバーでシフトを作成し、夜間や休日も協力してサービス運用を実施していますが、当時は以下のような問題を抱えていました。
運用における問題でよくあることだと思いますが、限られたメンバーで平日の営業時間は定常作業をしつつ、夜間・休日のアラートに対応することは心身ともに負担があります。
不要な警告通知(アラート)で深夜に起こされたり、万が一を考えて監視担当者としてアサインするという負担が課題点として浮き彫りになり改善策を検討していました。
上記の問題を抱えていたことから、以下の要件で問題を解消できるツールを探していました。
ご存知のとおり、Opsgenieのようにアラートを統合管理したり、電話による通知を可能にするツールは他にもたくさんあります。
数多くあるツールの中から運用チームでは、すべての要件を満たしたOpsgenieとPagerdutyで検証することにしました。
どちらも検証・比較した上で、主観的な意見になってしまいますが、Opsgenieについて私が主に感じたことは、以下の4点です。
上述の理由に加えAtlassian社がOpsgenieを買収したこともあり、Atlassianパートナーとしてドッグフーディングを実施することも後押しし、導入にいたりました。
※買収報道以前からOpsgenieの利用を検討していました。
これまでの文章の中で既に何となく想像できている方もいるかもしれませんが、具体的にOpsgenieを導入してみて良かったことはたくさんありました。
導入する上で懸念があるとすれば、基本的にドキュメントもサポートも英語でしか対応していないという点です。
ですが、前述しているように、操作性は高く非常に分かりやすいUI・UXですので、ドキュメントを読まなくてもそこまで困ることはないかもしれません。
現在、アラートの統合管理やインシデント管理、通知方法に課題を感じているチームの方へは強く導入をお勧めいたします。
現在でしたら、2週間無料でEnterprise版が検証できますので、一度試してみるといいかもしれません。
お試ししたい場合は、リックソフトにご相談ください。
もしくはホームページから、お問い合わせください。
アトラシアン社ではサポート範囲外となっているサードパーティ製のアドオンをリックソフトのRS標準サポートではサポートします。
リックソフトのRS標準サポートは開発元が提供するサポート以上の価値があります。
ツールを導入しただけでは成功とはいえません。利用者が効果を感じていただくことが大切です。独自で制作した各種ガイドブックはツール活用を促進します。
リックソフトからライセンス購入を頂いたお客様にはガイドブックを無料進呈いたします。
ツール操作の研修だけでなく「ウォータフォール型開発」「アジャイル型開発」のシミュレーション研修も提供。
日本随一の生産性向上にも効果のある研修サービスです。
リックソフトからライセンス購入を頂いたお客様には無料招待や割引特典がございます。