LitmusはこのガイドでPrometheusとGrafanaを使ったモニタリングについて取り上げている。
しかし、監視は警告なしでは不完全である。 そのため、このガイドでは、統合されたPrometheus Alert Managerを使用したアラートのトピックを取り上げます。
Prometheus Alert Managerは、Prometheusサーバーから送信されるアラートを処理し、電子メール、Slack、またはその他のツールを通じてエンドユーザーに通知します。
Prometheus Alert Managerは、Prometheusから送信されるアラートを、エンジニアリングチーム向けにアラート通知に変換し、アクションを可能にするためのオープンソーススタンダードです。 Eメール、Slack、その他のツールでエンドユーザーに通知することができる。
モニタリングは、Litmus Edge Manager 環境における潜在的な問題を予測し、現在の問題を通知するのに役立ち、問題の詳細を示します。 アラート機能は、問題が発生するとすぐに通知するのに役立ち、チームは通知を通じて問題を特定できる。
ユーザーは、このアプローチを通じて実用的なアラートを作成することができるため、アラート疲労を軽減することができる。
アラート疲労とは、優先順位付けされていない、対処不可能なアラートに頻繁に応答することによる疲労のことである。 これは長期的には持続不可能だ。 すべてのアラートが、サポート・エンジニアを起こさなければならないほど緊急であるわけではない。
オンコール週間を持続可能なものにするためには、いくつかの点を考慮する必要がある。
サポートの場合、対応時間や解決にかかる時間が重視されがちだが、オンコール・プロセスが燃え尽き症候群の一因になっていないことをどうやって確認するのだろうか?
Prometheus Alert Managerは、1ダースのアラートが1ダースのアラート通知につながるという仮定に挑戦しているため、持続不可能で非効率的なサポートの原因となる、サポートに関連する一連の典型的なペインポイントに対処することができます。
Pain Point: 適切なチームにアラートを送信 Feature: Routing Prometheus Alert Manager: ラベル付きのアラートは、対応する受信機にルーティングされる。
Pain Point: Too many alerts at once Feature: Inhibition Prometheus Alert Manager: Alerts can inhibit other alerts (e.g., Litmus Edge down alert inhibits DeviceHub down alert)
Pain Point: False positive on an Alert Feature: Silencing Prometheus Alert Manager: Temporarily silence an alert, especially when performing scheduled maintenance
Pain Point: Alerts are too frequent Feature: Throttling Prometheus Alert Manager: Customizable back-off options to avoid re-notifying too frequently
Pain Point: Unorganized alerts Feature: Grouping Prometheus Alert Manager: Environment=dev や service=broker などのラベルでアラートを論理的にグループ化します。
問題点:__ 通知が構造化されていない 機能: 通知テンプレート Prometheus Alert Manager: サービス間でアラートが構造化されるように、アラートをテンプレートに標準化する。
Prometheus Alert Managerのこれらの機能を活用することで、何十ものアラートを一握りのアラート通知に絞り込むことができ、オンコールエンジニアは、アラートではなくインシデントの観点から考えることで、コンテキストスイッチを減らすことができます。
Litmus Edge Managerには、Prometheus Alert Managerを使用したアラートがデフォルトで含まれており、これらの重要な機能をお客様の組織に提供することで、お客様はLitmus環境を効率的かつ持続的にサポートすることができます。
しかし、既存の集中型Prometheusアラートマネージャーや、Sysdigが提供するようなソリューションを利用している組織であれば、Litmus Edge Managerをこのプラットフォームに簡単に接続し、全体的なITインフラサポート戦略の一部にすることができます。
Prometheus Alert Managerが収集したアラートは、本ガイドには含まれないPrometheus Alert Managerプラグインを使用して、Grafanaなどのツールで可視化することも可能です。