APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

【PagerDuty on Tour TOKYO 2024】レビュー : AIとPagerDutyが拓く新時代のインシデント管理

はじめに

こんにちは、クラウド事業部の牧瀬です。

8月6日に「PagerDuty on Tour TOKYO 2024」が開催されていましたので、参加してきました。

とくに勉強になったセッションについていくつかまとめましたので、ご紹介します。

ツアー全体の所感

テーマは「AIと自動化の新時代におけるオペレーショナル・レジリエンスの再構築」でした。AIと自動化を導入することで、各企業様がPagerDutyをどのように活用してシステム運用やインシデント管理を強化しているのか、さまざまな事例を拝見しました。

現在業務でPagerDutyの調査をしていることもあり、知らない知識はぜんぶ吸収するぞ!と意気込んで臨みました。

会場は東京ミッドタウンのカンファレンスホールでした。最寄りの六本木駅から直結です。真夏の強烈な温度と直射日光を避けて会場までたどり着けました。ありがたい。。!

ビジネスセッション(13:00-17::00)からエンジニアセッション(17:30〜20:30)の最後まで参加させていただき、PagerDutyの活用方法など大変勉強になりました。

ビジネスセッション

PagerDutyを導入することでシステム運用やインシデント管理がいかに改善されたか、という事例紹介のお話が多かったです。

インシデントの対応時間の削減や、アラートの削減など、具体的に数値で示されており、PagerDutyによるインパクトの大きさが伝わってきました。

Keynote : AIと自動化が実現するオペレーショナル・エクセレンス

PagerDutyの最高プロダクト開発責任者(Chief Product Development Officer)のJeffrey Hausmanさんによる基調講演です。

会場では同時通訳用の機器が配られており、日本語訳で内容を聞けたようですが、入手方法がわかりませんでした。。Jeffreyさんがゆっくりと聞きやすいスピードで話してくれたことや、セッションのスライドが日本語で書かれていたため、影響はほとんどありませんでした。

PagerDuty社の代表取締役社長である山根さんの開会挨拶でも触れられていましたが、7月19日に発生した世界的なシステム障害においてPagerDutyが大活躍していたことがわかりました。平常時よりもインシデントが1922%増加したようですが、復旧時間の増加は29%にとどまったとのことです。かなりインパクトのある数字ですよね。インシデントが20倍に増えたにもかかわらず、復旧時間がほとんど変わらないのは、PagerDutyのインシデント管理の優秀さを物語っています。

また、大半の参加者が気になっていたであろう生成AI機能(PagerDuty Advance)のリリースが発表されました。日本語版の提供が開始とのことで、8月29日にベータ版、9月30日に正式版が予定されています。「あれ、日本語版提供なんて情報あったっけ?」と思い、その場でスマホで調べたところPagerDuty社のブログ記事(参照: 「PagerDuty Advance」一般提供開始〜インシデントライフサイクルの全段階に対応する生成AI〜)を発見しました。8月6日に投稿されてたので、ちょうど基調講演のタイミングで更新したんですかね。やりかたがうまい…!激アツ…!

生成AIの導入における各企業の対応状況も参考になりました。

  • 98% 生成AIのユースケースを試している
  • 46% 生成AIを導入しなければ遅れをとると考えている
  • 100% 生成AIに人間の介在が必要だと考えている
  • 29% ガイドラインを正式に作成している

生成AIの導入を検討しているものの、業界全体で業務活用の標準化やノウハウの蓄積はまだ進んでいない印象でした。ただ、間違いなく生成AIの活用は一般化するだろうと感じました。

Customer Showcase : トヨタCCoEのインシデント管理効率化に向けた挑戦

トヨタ社の村瀬さんの講演です。

まず、発表が非常にわかりやすかったです。こういったセッションでは、冒頭でいかに聴講者を引きつけ、セッションの内容を理解してもらうかが重要だと思いますが、村瀬さんは冒頭で「このセッションで説明すること・しないこと」を明示してくださったので、どこに注目すべきかがすぐにわかりました。また、トヨタ社らしく「ムダをなくす」と、トヨタ生産方式(TPS)を思わせる表現を使っていたのもうまいなと思いました。トヨタ社の独自色を出しつつ、一般に受け入れられている表現を使うとは、さすがです。

自分もこういう発表したいなー思いながら聞いてました。

トヨタのCCoE(Cloud Center of Excellence)チームでは、クラウドプラットフォーム「TORO」におけるインシデント管理にPagerDutyを活用しているそうです。PagerDuty導入前の課題が、PagerDutyを導入することで解決されたことがうかがえました。インシデント発生時の起点をPagerDutyに集約し一元管理すること、電話による即時対応とエスカレーションを整理すること、チケット起票や会議設定を自動化することなど、PagerDutyの機能を駆使してインシデント管理を効率化していました。検証では、インシデント解消までの時間が62%削減されたとのことです。

今後の期待として、村瀬さんはインシデントのNotesにおけるマークダウンや画像貼り付けの対応を挙げていました。たしかに現時点ではNotesには文字を直接入力する以外のことはできません。私もインシデントのNotesにはかなり期待しています。というのも、生成AI(PagerDuty Advance)はNotesに記載された情報を優先的に読み取る印象が強いからです。Notesに記載する情報を工夫することで、生成AIから引き出せる情報をうまいこと調整できるんじゃないかなと感じています。マークダウン対応になれば、構造化されたテキストデータを解釈することが予想できます。画像を貼り付けられれば、マルチモーダル対応になることが予想できます。

村瀬さんも生成AI(PagerDuty Advance)を意識して言っているのかなと思いました。懇親会で伺えばよかった。。

エンジニアセッション

エンジニアセッションでは、実際に現場でPagerDutyを活用している方々のお話を多く聞くことができました。

PagerDutyの優れた機能や、導入することでシステム運用やインシデント管理がどのように変わったかなど、現場目線で語られていたので非常に勉強になりました。

スリーシェイク社の尾張さんの講演です。

システム運用における生成AIの活用について、真摯に解説していただきました。詳しくは不明ですが、実際に生成AIの活用を検討しているお客様からさまざまな相談を受けていて、生成AI活用の検証をたくさん行っているのではないかと思いました。生成AIの活用に関するリアルな感想や苦労話、勘所の説明には説得力がありました。私もちょうど生成AI(PagerDuty Advance)の検証を行っているので、業務の参考になりました。

生成AIを運用でうまく利用するには、まずデータソースをメンテナンス不要の状態で精度良く蓄積することがポイントだとのことです。存在しないデータや利用が難しいデータをそのまま利用しようとしても、生成AIから必要な情報は引き出せないので、まずは学習対象のデータの整備が必要です。これはなんとなくPagerDuty Advanceを触っていて感じていたことなので、言語化していただいたことで「あ、やっぱりそうだよな」と妙に納得しました。

また、システム運用に生成AIを活用する際には、生成AIの利用を考慮した運用ルールの見直しやデータ整備のガイドラインも必要ではないかと考えていましたが、尾張さんによると、生成AIの活用に合わせて運用保守業務の再設計を行うことも有効だとのことでした。こちらも腑に落ちました。

セッションの時間が限られていたため、スライドはかなりスピーディに進んでいきましたが、あと30分くらいお話を聞きたいと思いました。

Customer Showcase : エンタープライズ企業の障害対応革新 – PagerDuty導入とその成果

イオンスマートテクノロジーの齋藤さん、林さんの講演です。

発表スライドはSpeaker Deckで公開されていました。

発表の仕方がユニークで会場からたびたび笑いがおきてました。とくに12スライド目のエンタープライズの障害対応あるあるは、会場のエンジニアみんな心当たりあるのか、かなり受けていました。インシデント対応というと、心理的にも肉体的にも大きなストレスがかかりますが、こうして笑いに転化できるのはいろんな意味で強いなーと思いました。

PagerDuty AIOpsアドオンを導入しているようで、以前にAIOpsアドオンのデモツアー記事を書いた身としては、かなり前のめりに聞いていました。

techblog.ap-com.co.jp

とくに惹きつけられたのは過去の類似インシデントをAIが推測する機能です。PagerDuty AdvanceのAIアシスタント機能と組み合わせるとさらにパワーアップします。AIアシスタントに「現在発生しているインシデントと似たインシデントはありますか?」と聞けば「このときの障害と似てるよ」と、障害対応経験豊富な猛者が行うアクションをAIが代行してくれるわけです。

おわりに

PagerDutyの日本法人は2022年に設立されたばかりで実際どれくらいの人数が集まるのか不明でしたが、カンファレンスホールは常時ほぼ満員(300人くらい)でした。

PagerDutyをはじめとしたインシデント管理プラットフォームは、まだそれほど日本で浸透していませんが、AI活用と親和性が高いため、個人的に非常に注目している分野です。また、PagerDutyが業界標準となりつつある中で、コミュニティ活動は発展途上のようで、コミュニティの発展をリアルタイムで体験できるのが良いと感じました。

懇親会では会場限定グッズもいただけました。

  • ペイジーぬいぐるみ
  • 運用エンジニア必携!「安眠祈願」お守り
  • PagerDuty on Tour 限定ステッカー

ペイジーくんに見守っていただきながら、日々の業務をがんばりたいと思います!