モニタリングのアラーム設定方法¶
モニタリングにおけるアラームの設定方法について説明いたします。
モニタリングのアラームを新規設定するには、モニタリングコントロールパネル上で「アラーム一覧」を選択し、アラーム一覧画面から「作成」または「一括作成」をクリックします。
モニタリングのアラームの新規設定においては、下記の4つの項目を設定します。
基本情報設定 | お客様でアラームを管理するためのアラーム名やその説明を記載します。 |
アラームの条件 | 各リソースおよびメーターに対する閾値を設定します。 |
アラーム発生時のアクション | アクションを発動する条件(閾値を超過または下回った場合)および
アクション種別(メール通知またはAPIのPOST)、
アクション内容(通知先アドレスまたはAPIリクエスト文)を設定します。
アクション数の上限は1アラームあたり5個までです。
|
高度な設定 | アラームに関する統計方法を設定します。
「高度な設定」を利用して統計方法を設定することで、アラームの条件を拡張することが可能です。
1. 生成範囲・・・統計情報を生成する範囲を秒単位で指定します。
2. 統計方法・・・統計方法の種別を選択します。以下の値から選択が可能です。
- count:生成範囲で取得した値の個数に対してアラーム条件を適用します。
- sum:生成範囲で取得した値の合計値に対してアラーム条件を適用します。
- avg:生成範囲で取得した値の平均値に対してアラーム条件を適用します。
- min:生成範囲で取得した内の最も小さい値に対してアラーム条件を適用します。
- max:生成範囲で取得した内の最も大きい値に対してアラーム条件を適用します
3. 評価回数・・・評価を行う生成範囲の個数を指定します。
4. 評価タイプ・・・アクションの実行条件を指定します。評価回数の内のいずれか1回でも条件を満たす場合に”ALARM”状態と判定するときは"or”に設定します。行った全ての評価で条件を満たす場合に”ALARM”状態と判定するときは”and”に設定します。
5. 繰り返し通知・・・アラームの繰り返し通知の有無を選択します。(繰り返し通知有に設定すると、ALARM状態継続中は5分毎にアラームアクションが実行されます。)
1回でも閾値を上回った/下回った際にすぐアラームアクションを実行したい場合、「高度な設定」は不要です。
|
注釈
死活監視のメーターは、正常(active)=0、故障(down)=1を示します。
注釈
アラーム通知先のアドレスで利用可能な記号は「.」「_」「-」のみとなります。
注釈
アラーム通知先のPOSTリクエストで指定可能なアドレスの条件は下記となります。
- インターネットから通信可能
- 255文字以下
- URI形式
- プロトコルが以下のいずれか
http
https
注釈
「高度な設定」の項目にはデフォルトから値が設定されており、監視間隔が10秒以内の場合においてはアラームの条件に影響します。各メーターの監視間隔は こちら をご参照ください。
ここでは、「高度な設定」の利用例、サーバーインスタンス(CentOS_Tutorial)のCPU高負荷時のアラーム設定例、インスタンス停止時のアラーム設定例の3つを説明します。
「高度な設定」の利用例¶
ここでは「高度な設定」を利用した場合について、図を用いて説明します。
CPU使用率が80%以上になった場合にALARM状態と評価しメール通知するアラームに対して、以下の「高度な設定」を追加します。
- 生成範囲:450秒
- 統計方法:min
- 評価回数:2
- 評価タイプ:or
- 繰り返し通知:off
- 「高度な設定」の各項目に値を入力してアラームを設定すると、その設定が適用されます。ただし、初回の判定はアラーム設定後の最初のCPU監視タイミングを基準として実行されます。なお、CPU監視は対象リソースが作成された直後から定期的に実行されています。
- 450秒の生成範囲を2回繰り返し、生成範囲①では監視タイミングAとB、生成範囲②では監視タイミングCとDの評価を行います。
- 各生成範囲の最小値(生成範囲①ではB、生成範囲②ではD)が評価対象となり、生成範囲①は「OK状態」、生成範囲②は「ALARM状態」と評価されます。
- 評価タイプが「or」の場合、いずれかの生成範囲が条件に該当するとALARM状態と評価されるため、ALARMアクションが実行され、メール通知が行われます。
注釈
監視間隔に数秒の誤差があるため、上記の図における監視タイミングDは評価対象外(生成範囲外)になる場合があります。
CPU高負荷時のアラーム設定例¶
ここでは、「CPU使用率が80%を超過した場合にメール通知」のアラーム設定例についてご説明します。
「CPU使用率が80%を超過した場合にALARM状態と判定」を条件として設定し、「ALARM状態に遷移した場合にメールで通知する」を条件に合致した際のアクションとして設定します。
注釈
上記例において、ALARM状態からOK状態に遷移した場合(CPU使用率が80%を下回った場合)にもメール通知を実施したい場合は、「③アクションを設定」においてOK状態におけるアクションを追加する必要があります。
注釈
「③アクションを設定」は、入力後に必ず「+追加」ボタンをクリックし、「追加済みアラームアクション一覧」に追加してください。
さらに、「高度な設定」による「5分毎のCPU使用率が、2回連続で80%を超過した場合にメール通知」のアラーム設定例についてご説明します。
「過去450秒間のCPU使用率の最小値(min)が閾値の80%を超えた場合にALARM状態と判定」と設定します。
注釈
この設定例では、現在時刻と300秒前の2つのサンプル値をアラームの判定対象とします。
CPU利用率のメーターは300秒間隔で監視していますが、モニタリングの監視間隔には数秒の誤差があるため、
300秒前のサンプル値をアラーム判定対象に含むには生成範囲を300+150(監視間隔の1/2)=450秒に設定します。
また、CPU利用率が80%を超過してからアラームがALARM状態に遷移するまでに少なくとも10分かかります。
インスタンス停止時のアラーム設定例¶
ここでは、「対象のサーバーインスタンスが停止状態になった場合にメール通知」のアラーム設定例についてご説明します。
「サーバーインスタンス死活監視のメーターが1(停止状態)の場合にALARM状態と判定」を条件として設定し、「ALARM状態に遷移した場合にメールで通知する」を条件に合致した際のアクションとして設定します。
注釈
サーバーインスタンス死活監視(VirtualMachineStatus)のメーターにおいて、インスタンス停止状態を示す値は1です。
注釈
上記設定例において、ALARM状態からOK状態に遷移した場合(インスタンスが起動状態に戻った場合)にもメール通知を実施したい場合は、「③アクションを設定」においてOK状態におけるアクションを追加する必要があります。
注釈
「③アクションを設定」は、入力後に必ず「+追加」ボタンをクリックし、「追加済みアラームアクション一覧」に追加してください。
さらに、「高度な設定」による「1分毎に収集しているサーバーインスタンスのステータスが、3回連続で停止状態になった場合にメール通知」のアラーム設定例についてご説明します。
「過去150秒間のサーバーインスタンス死活監視のメーターの最小値(min)が1(停止状態)の場合にALARM状態と判定」を設定します。
注釈
この設定例では、現在時刻、60秒前、120秒前の3つのサンプル値をアラームの判定対象とします。
サーバーインスタンス死活監視のメーターは60秒間隔で監視しておりますが、
モニタリングの監視間隔には数秒の誤差があるため、120秒前のサンプル値をアラーム判定対象に含むには生成範囲を120+30(監視間隔の1/2)=150秒に設定します。
また、サーバーインスタンスが停止してからアラームがALARM状態に遷移するまでに少なくとも3分かかります。
複数リソースへのCPU高負荷時とインスタンス停止時のアラーム一括設定例¶
アラーム一括設定機能では、単一リソースへの複数アラームの一括設定や、複数リソースへの同一アラームの一括設定ができます。
ここでは、複数のサーバーインスタンス(Ubuntu_Tutorial、RHEL_Tutorial)への「CPU使用率が80%を超過した場合にメール通知」、「対象のサーバーインスタンスが停止状態になった場合にメール通知」のアラームを一括で設定します。