目次
はじめに
こんにちは、クラウド事業部の松尾です。
OCIのモニタリングを使って、コンピュートの死活監視を試してみたいと思います。 監視対象が多い場合にはサードパーティの監視ツールなどで一括監視が多いかと思いますが、今回はシンプルに、OCI環境のみでリソースの監視と通知までを作っていきます。
どんなひとに読んで欲しい
- OCIのモニタリングを知りたい人
- OCIでコンピュートの死活監視と検知、通知の流れを知りたい人
関連記事
参考にしたチュートリアルはこちら。
コンピュート作成
コンピュートは以下手順の内容で作っていきます。モニタリング設定が有効になっていることを見ておくぐらいでしょうか。(デフォルトで有効)
モニタリング
作成したコンピュートの各種メトリクスはモニタリング機能で確認することができます。
サービス・メトリックを開く
メトリック・ネームスペースにoci_computeagentを選択
すると、メトリクスが表示されます。今回コンピュートが1台なので1台分のメトリクスしかないですが、この画面では全てのコンピュートのメトリクスが集約されて表示されます。
アラート作成
続いてアラートの通信先を作成していきます。
開発者サービスから通知を選択
トピックの作成から通知先を作っていきます。今回は以前作ったトピックがあるのでこちらを使っていきます。
モニタリングからアラーム定義を選択
アラームの作成から設定をしていきます。
アラーム名を設定
メトリクスの説明。ここではどのメトリクスを監視するか、どんな間隔で監視するかを設定していきます。
- コンパートメントを指定
- メトリック・ネームスペースはoci_computeagent
- メトリック名はCpuUtilization
- 間隔は1分
- 統計はMean
続いてディメンション設定。ここでは監視対象のコンピュートを選択していきます。
続いてトリガー・ルール。ここでは監視したメトリクスをどんなしきい値、条件で通知を行うかを設定します。
パラメータ入力時に画面下に、このパラメータだとどうなるかのイメージが表示されるので確認しながら設定するとイメージしやすいと思います。この図では赤点線がしきい値です。
アラート通知。しきい値を超えた場合の通知先を設定していきます。
最後にその他の監視設定です。今回はデフォルトのままにします。
アラートを作成するとアラーム設定が有効になります。
通知テスト
今回はCPU使用率を監視するので、stressコマンドで意図的にCPUに負荷をかけていきます。
stressコマンドでほぼ100%の使用率にした状態
OCIコンソールのサービス・メトリックでも100%になっていることが確認できました。
数分後に受信したメールはこちら。
通知されることは確認できました。CPU使用率が何%になっているかの情報は無しでした。「アラートルール○○がしきい値を超えました」という粒度の通知です。
モニタリングのステータスも発火状態となってました。
復旧時の通知メールはこちら。英語なこともあり監視に特化したツールよりは分かりにくい印象はあります。「FIRING_TO_OK」で見分ける形でしょうか。
おわりに
OCIとして提供しているメトリクスの監視に限れば、OCIの機能だけでメトリクスの監視と通知を行うことができました。
CPUやメモリなどの基本的なメトリクス監視は、もはやクラウドでは標準機能となっています。この機能だけで複雑な監視要件を満たすことは難しいと思いますが、検証や開発フェーズ、暫定的に監視を実装したい場合には適切な選択かと思います。
複雑な監視の他にもモニタリングで出来ないことと言えば、例えば各種ログの可視化。これはloggingAnalyticsの領域になります。
お知らせ
私達クラウド事業部はクラウド技術を活用したSI/SESのご支援をしております。
また、一緒に働いていただける仲間も募集中です!
今年もまだまだ組織規模拡大中なので、ご興味持っていただけましたらぜひお声がけください。