Author
福田 修三Osami Fukuda
RickCloudサービスの運用チームでは、システムの監視における問題を解決するためにOpsgenieを導入しました。
今回は、Opsgenieとはどういったツールなのか、Opsgenieの選定理由や導入するメリットをチームが抱えていた問題と照らし合わせてご紹介します。
Opsgenieってどんなツール?
Opsgenieとは、常時稼働するサービスを運用するためのインシデント管理ツールで、DevOpsチームのサービス中断計画やインシデント発生中も管理された状態の維持を様々な機能でサポートしてくれます。メインの機能は以下の6つです。
- 様々な監視ツールからのアラートの集約・統合管理
- On-Call、エスカレーションの管理
- サービスを意識したインシデント管理
- チャットツール・ビデオ会議ツールとのコラボレーション
- 高度なレポートとアナリティクス
- 電話通知のエスカレーション
2018年9月4日、Atlassian Summit Europe 2018にてAtlassianによる買収が発表され、一躍脚光を浴びました。
現在では世界で5000社以上が導入し、私が所属するRickCloudサービスの運用チームでも2018年12月から導入しております。
上記の機能をメインに全体的に直感的に使えること、英語ですがドキュメントが非常に分かりやすく充実しているため、比較的容易に導入できます。
また、24/7/365でチャットによるサポート対応(Subscription PlanでEnterprise版を選択の場合。現在、英語によるサポートのみ。)が提供されていることも魅力的です。
チームが抱えていた問題
世界の多くのOps(運用)チームがサービスを継続させるために24時間体制で監視を行っているものと思います。
私のチームでもお客様へサービスを常に快適に提供すべく、メンバーでシフトを作成し、夜間や休日も協力してサービス運用を実施していますが、当時は以下のような問題を抱えていました。
- 異なる監視ツールから様々な通知が飛んでくる
- チャットツールやメール通知のみでは、担当者が夜間の通知に気づけないことがある。
- 担当者以外にも通知が飛んでしまう。
- 気づけなかった場合の再送がメールのみ
運用における問題でよくあることだと思いますが、限られたメンバーで平日の営業時間は定常作業をしつつ、夜間・休日のアラートに対応することは心身ともに負担があります。
不要な警告通知(アラート)で深夜に起こされたり、万が一を考えて監視担当者としてアサインするという負担が課題点として浮き彫りになり改善策を検討していました。
何故Opsgenieを選択したのか?
上記の問題を抱えていたことから、以下の要件で問題を解消できるツールを探していました。
- 異なる監視ツールからの煩雑な通知を一元管理できる
- 電話通知など、担当者が夜間の睡眠中でも気づきやすい通知方法が利用できる
- エスカレーションを適切に設定でき、担当者以外への通知を削減できる
- なるべく費用が安い
ご存知のとおり、Opsgenieのようにアラートを統合管理したり、電話による通知を可能にするツールは他にもたくさんあります。
数多くあるツールの中から運用チームでは、すべての要件を満たしたOpsgenieとPagerdutyで検証することにしました。
どちらも検証・比較した上で、主観的な意見になってしまいますが、Opsgenieについて私が主に感じたことは、以下の4点です。
- 何よりもまずEnterprise版が安い!
何よりもEnterprise版が安いです。機能的な差はもちろんありますが、機能的に私達の必要な要件を1月1ユーザー当たり$29(年間購入時)で満たしてくれます。
- 操作が直感的で分かりやすい
これは、利用してみての感覚的な部分の感想になってしまうのですが、Pagerdutyと比べOpsgenieはUIが見やすく、また設定も簡単です。
- ドキュメントが充実している上、分かりやすい
実は、Pagerdutyは日本に代理店もあり既に多くの日本企業が導入しているため、様々な機能やインテグレーションについての設定方法は既にインターネット上に多く紹介されています。ですが、それを込みにしてもPagerdutyと比較して利用するのに十分な量のドキュメントがOpsgenieの公式で準備されています。
公式ドキュメントが豊富なツールは非常に運用しやすいですよね。
- モバイル向けのアプリケーションのクオリティが高い
個人的に大きな違いだと思ったのですが、モバイルアプリのクオリティが大きく違いました。
具体的には、Opsgenieではモバイルアプリ上で、担当者が確認すべきことは全て確認できます。
また、驚いた機能として、Android版については、マナーモード中もOpsgenieのアラートについては担当者の間音量を鳴らして通知させるなどの設定が可能となります。
上述の理由に加えAtlassian社がOpsgenieを買収したこともあり、Atlassianパートナーとしてドッグフーディングを実施することも後押しし、導入にいたりました。
※買収報道以前からOpsgenieの利用を検討していました。
Opsgenieを導入することのメリット
これまでの文章の中で既に何となく想像できている方もいるかもしれませんが、具体的にOpsgenieを導入してみて良かったことはたくさんありました。
- アラートの一元管理が出来る
当たり前ですが、様々な監視ツールから飛んでいる通知を一元管理できるようになりました。
特にいいのは、その時見る必要があるアラートと時間のある時に確認すればいいアラートを分けることができることです。
タグやアラートレベルによって、通知させる時間帯を変更させることもできます。
その他、アラートに関しては以下のようなことが可能です。
- 通知に入っている文字列によって、アラートレベルの変更・タグ付け・アラートを作成させない・他のアラートのクローズ・その他のアクションをさせること
- チーム毎のアラートの振り分け
- アラートのトラッキング(いつアラートが作成され、誰が対応したかなどのログを確認できる)
- あらゆるインターフェースからアラートのステータス変更が可能
- 必要な時に必要な人にアラートを飛ばすことが出来るので、担当者以外の負担が減った
Routing RuleやEscalation Policyを作成することで、時間とアラートの種類によってEscalation Policyを変更したり、対応状況によって通知先を変更することができます。
また、On-Call Scheduleを作成することで、時間によって対応すべき担当者を割り当てられます。
これにより、不必要にアラートを確認するということがかなり減りました。元々、夜間に2人の担当者を割り当てていましたが、現在は主担当と副担当に分け、主担当が対応できない場合がアラート作成後から一定時間続いた場合、副担当に通知を飛ばすなど、副担当もほぼ対応しなくて良いことが増えました。 - ユーザー毎に通知方法や通知の再送方法をカスタマイズできるため、担当者が一番気付きやすい方法で通知が出来る
ユーザー毎に通知設定ができます。また、時間帯や機関によっても通知方法を柔軟にカスタマイズできるため、メンバー毎に一番自分が気付きやすい方法を作成し通知を受け取ることが可能になります。また、シフトの開始や終了時にも通知を飛ばすなどの設定も可能です - 通知の確認と1次対応がお手軽
前述していますが、Opsgenieはモバイルアプリも非常に充実しています。
一々パソコンを開く必要やメールを打つ必要がないため、一時対応のストレスも軽減されました。
導入する上での懸念点
導入する上で懸念があるとすれば、基本的にドキュメントもサポートも英語でしか対応していないという点です。
ですが、前述しているように、操作性は高く非常に分かりやすいUI・UXですので、ドキュメントを読まなくてもそこまで困ることはないかもしれません。
まとめ
現在、アラートの統合管理やインシデント管理、通知方法に課題を感じているチームの方へは強く導入をお勧めいたします。
現在でしたら、2週間無料でEnterprise版が検証できますので、一度試してみるといいかもしれません。
お試ししたい場合は、リックソフトにご相談ください。
もしくはホームページから、お問い合わせください。