モニタリングのアラーム設定方法

モニタリングにおけるアラームの設定方法について説明いたします。
モニタリングのアラームを新規設定するには、モニタリングコントロールパネル上で「アラーム一覧」を選択し、アラーム一覧画面から「作成」または「一括作成」をクリックします。
アラーム設定方法

モニタリングのアラームの新規設定においては、下記の4つの項目を設定します。

基本情報設定 お客様でアラームを管理するためのアラーム名やその説明を記載します。
アラームの条件 各リソースおよびメーターに対する閾値を設定します。
アラーム発生時のアクション
アクションを発動する条件(閾値を超過または下回った場合)および
アクション種別(メール通知またはAPIのPOST)、
アクション内容(通知先アドレスまたはAPIリクエスト文)を設定します。
アクション数の上限は1アラームあたり5個までです。
高度な設定
アラームに関する統計方法を設定します。
「高度な設定」を利用して統計方法を設定することで、アラームの条件を拡張することが可能です。
1. 生成範囲・・・統計情報を生成する範囲を秒単位で指定します。
2. 統計方法・・・統計方法の種別を選択します。以下の値から選択が可能です。
- count:生成範囲で取得した値の個数に対してアラーム条件を適用します。
- sum:生成範囲で取得した値の合計値に対してアラーム条件を適用します。
- avg:生成範囲で取得した値の平均値に対してアラーム条件を適用します。
- min:生成範囲で取得した内の最も小さい値に対してアラーム条件を適用します。
- max:生成範囲で取得した内の最も大きい値に対してアラーム条件を適用します
3. 評価回数・・・評価を行う生成範囲の個数を指定します。
4. 評価タイプ・・・アクションの実行条件を指定します。評価回数の内のいずれか1回でも条件を満たす場合に”ALARM”状態と判定するときは"or”に設定します。行った全ての評価で条件を満たす場合に”ALARM”状態と判定するときは”and”に設定します。
5. 繰り返し通知・・・アラームの繰り返し通知の有無を選択します。(繰り返し通知有に設定すると、ALARM状態継続中は5分毎にアラームアクションが実行されます。)
1回でも閾値を上回った/下回った際にすぐアラームアクションを実行したい場合、「高度な設定」は不要です。

注釈

死活監視のメーターは、正常(active)=0、故障(down)=1を示します。

注釈

アラーム通知先のアドレスで利用可能な記号は「.」「_」「-」のみとなります。

注釈

アラーム通知先のPOSTリクエストで指定可能なアドレスの条件は下記となります。
- インターネットから通信可能
- 255文字以下
- URI形式
- プロトコルが以下のいずれか
http
https

注釈

「高度な設定」の項目にはデフォルトから値が設定されており、監視間隔が10秒以内の場合においてはアラームの条件に影響します。各メーターの監視間隔は こちら をご参照ください。


ここでは、「高度な設定」の利用例、サーバーインスタンス(CentOS_Tutorial)のCPU高負荷時のアラーム設定例、インスタンス停止時のアラーム設定例の3つを説明します。

「高度な設定」の利用例

ここでは「高度な設定」を利用した場合について、図を用いて説明します。
CPU使用率が80%以上になった場合にALARM状態と評価しメール通知するアラームに対して、以下の「高度な設定」を追加します。
  • 生成範囲:450秒
  • 統計方法:min
  • 評価回数:2
  • 評価タイプ:or
  • 繰り返し通知:off

高度な設定の利用例

  1. 「高度な設定」の各項目に値を入力してアラームを設定すると、その設定が適用されます。ただし、初回の判定はアラーム設定後の最初のCPU監視タイミングを基準として実行されます。なお、CPU監視は対象リソースが作成された直後から定期的に実行されています。
  2. 450秒の生成範囲を2回繰り返し、生成範囲①では監視タイミングAとB、生成範囲②では監視タイミングCとDの評価を行います。
  3. 各生成範囲の最小値(生成範囲①ではB、生成範囲②ではD)が評価対象となり、生成範囲①は「OK状態」、生成範囲②は「ALARM状態」と評価されます。
  4. 評価タイプが「or」の場合、いずれかの生成範囲が条件に該当するとALARM状態と評価されるため、ALARMアクションが実行され、メール通知が行われます。

注釈

監視間隔に数秒の誤差があるため、上記の図における監視タイミングDは評価対象外(生成範囲外)になる場合があります。

CPU高負荷時のアラーム設定例

ここでは、「CPU使用率が80%を超過した場合にメール通知」のアラーム設定例についてご説明します。
「CPU使用率が80%を超過した場合にALARM状態と判定」を条件として設定し、「ALARM状態に遷移した場合にメールで通知する」を条件に合致した際のアクションとして設定します。
CPU Utilizationの設定例

注釈

上記例において、ALARM状態からOK状態に遷移した場合(CPU使用率が80%を下回った場合)にもメール通知を実施したい場合は、「③アクションを設定」においてOK状態におけるアクションを追加する必要があります。

注釈

「③アクションを設定」は、入力後に必ず「+追加」ボタンをクリックし、「追加済みアラームアクション一覧」に追加してください。

さらに、「高度な設定」による「5分毎のCPU使用率が、2回連続で80%を超過した場合にメール通知」のアラーム設定例についてご説明します。
「過去450秒間のCPU使用率の最小値(min)が閾値の80%を超えた場合にALARM状態と判定」と設定します。
高度な設定の例

注釈

この設定例では、現在時刻と300秒前の2つのサンプル値をアラームの判定対象とします。 CPU利用率のメーターは300秒間隔で監視していますが、モニタリングの監視間隔には数秒の誤差があるため、 300秒前のサンプル値をアラーム判定対象に含むには生成範囲を300+150(監視間隔の1/2)=450秒に設定します。
また、CPU利用率が80%を超過してからアラームがALARM状態に遷移するまでに少なくとも10分かかります。

インスタンス停止時のアラーム設定例

ここでは、「対象のサーバーインスタンスが停止状態になった場合にメール通知」のアラーム設定例についてご説明します。
「サーバーインスタンス死活監視のメーターが1(停止状態)の場合にALARM状態と判定」を条件として設定し、「ALARM状態に遷移した場合にメールで通知する」を条件に合致した際のアクションとして設定します。

注釈

サーバーインスタンス死活監視(VirtualMachineStatus)のメーターにおいて、インスタンス停止状態を示す値は1です。

VirtualMachine Instanceの設定例

注釈

上記設定例において、ALARM状態からOK状態に遷移した場合(インスタンスが起動状態に戻った場合)にもメール通知を実施したい場合は、「③アクションを設定」においてOK状態におけるアクションを追加する必要があります。

注釈

「③アクションを設定」は、入力後に必ず「+追加」ボタンをクリックし、「追加済みアラームアクション一覧」に追加してください。

さらに、「高度な設定」による「1分毎に収集しているサーバーインスタンスのステータスが、3回連続で停止状態になった場合にメール通知」のアラーム設定例についてご説明します。
「過去150秒間のサーバーインスタンス死活監視のメーターの最小値(min)が1(停止状態)の場合にALARM状態と判定」を設定します。
高度な設定の例

注釈

この設定例では、現在時刻、60秒前、120秒前の3つのサンプル値をアラームの判定対象とします。 サーバーインスタンス死活監視のメーターは60秒間隔で監視しておりますが、 モニタリングの監視間隔には数秒の誤差があるため、120秒前のサンプル値をアラーム判定対象に含むには生成範囲を120+30(監視間隔の1/2)=150秒に設定します。
また、サーバーインスタンスが停止してからアラームがALARM状態に遷移するまでに少なくとも3分かかります。

複数リソースへのCPU高負荷時とインスタンス停止時のアラーム一括設定例

アラーム一括設定機能では、単一リソースへの複数アラームの一括設定や、複数リソースへの同一アラームの一括設定ができます。
ここでは、複数のサーバーインスタンス(Ubuntu_Tutorial、RHEL_Tutorial)への「CPU使用率が80%を超過した場合にメール通知」、「対象のサーバーインスタンスが停止状態になった場合にメール通知」のアラームを一括で設定します。
アラーム一括設定の例