1. はじめに
こんにちは。ACS事業部でEnginnering Managerをしている谷合です。
弊社はSIerとしてSIでのご支援の傍らSRE(Site Reliability Engineering)を提供しています。
過去投稿したSREに関するブログは以下をご参照ください
SREは、システムの信頼性向上と運用の自動化を目指すエンジニアリング手法として、多くの企業で導入が進んでいます。
しかし、SIerがSREを人月で提供する場合、「適切なエンジニアのアサイン」と「SREマインドの教育」という2つの大きな課題に直面します。
本記事では、SIerがSREを提供する際に抱えるアサインと教育の難しさを整理し、実践的な解決策を紹介します。
2. SREの人月提供で直面するアサインの難しさ
2.1 SREに必要なスキルセットが広すぎる
SREには以下のような幅広い知識が求められます。
- Kubernetes、クラウド(AWS/GCP/Azure)
- Observability(Datadog, New Relic, Prometheus, OpenTelemetryなど)
- CI/CD(GitHub Actions, Argo CD, Tekton)
- IaC(Terraformなど)
- SLO/SLIの策定とエラーバジェット管理
どのスキルを持つエンジニアが適任なのか判断するのが難しく、案件ごとに最適な人材を確保するのが困難です。
2.2 「インフラエンジニア=SRE適性あり」とは限らない
SREは、単なるインフラ運用ではなく、「仕組みで解決する文化」を持つことが重要です。
- インフラ運用経験が豊富でも、障害対応の自動化や開発者とのコラボレーションに慣れていないとSREとしての適性が低い。
- DevOpsの考え方や、ソフトウェア開発の理解も必要になる。
2.3 案件ごとに求められるSREの役割が異なる
- プロダクト開発支援型(Embedded)SRE:開発チームと密接に連携し、信頼性を担保する。
- 運用自動化型SRE:運用負荷を軽減し、Toil削減に取り組む。
- 信頼性改善型SRE:SLO策定、モニタリング強化、オンコール改善に特化する。
- そもそものSRE組織の立ち上げや、SRE文化の布教
これらの違いを理解し、適切な人材をアサインする必要があります。
3. SREを提供するための教育の壁
3.1 SREマインドの定着が難しい
- 「障害対応=復旧すればOK」ではない
- 「なぜ起きたのか?」「どうすれば再発防止できるか?」を考える文化が必要。
- 「手作業で対応する」から「仕組みで解決する」への意識改革
- SREチームはコードを活用しながら、システム全体の信頼性と運用効率を高めるエンジニアリングチーム。ツールや自動化を駆使するマインドセットが必須。
3.2 短期間で現場適応できるスキル育成が求められる
案件ごとに異なる技術スタック(AWS/Kubernetes, GCP, Azure など)に適応する必要があります。
しかし、案件内で環境理解の期間を長く取れないため、「実践ベースのOJT」が重要となります。
3.3 「開発」と「運用」の橋渡しスキルをどう教えるか
SREは運用だけでなく、開発チームとの連携が必須となります。この時「SREは開発と運用の両視点が必要」と言われますが、実際の育成は非常に難しいものがあります。
また、障害対応の設計スキルや、CI/CDの実践ノウハウも必要となり、非常に多くの技術領域をカバーする必要がでてきます。
4. SIerとしての解決策
SIerとしての解決策は以下が考えられるかと思います。
4.1 アサインの工夫
SREスキルマップの作成
- Kubernetes、Observability、CI/CD、SLO策定などをレベル別に整理し、エンジニアのスキルと案件ニーズをマッチングさせる
ペアリングの活用
- 経験の浅いメンバーを案件内の熟練SREと組ませ、実プロジェクト内でOJTを実施
チームとしてのアサイン(ラボ型提案)
- 案件と人が紐づかないように、チームとしてアサインし、適性のあるメンバーと適宜入れ替えを行う
4.2 教育の工夫
SREの「考え方」を定着させる
- 技術研修だけでなく、Postmortemの書き方、エラーバジェットの運用、Toil削減の視点などを重点的に学ぶ。
実践型トレーニングの強化
- 「障害発生→原因分析→改善策提案」といったシナリオベースの演習を実施。
- 実際のプロジェクトの振り返りを教材化し、ナレッジを体系化。
SLO・SLIを意識した運用設計の研修
- 「なぜSLOが必要なのか?」を具体例とともに学ぶことで、SREとしての価値を理解する。
5. SRE人材の成長とキャリアパス
初級SRE → 中級SRE → 上級SREの成長ステップ
- 初級: インシデント対応、モニタリング設定、CI/CD基礎。
- 中級: SLO策定、Toil削減、運用の自動化。
- 上級: 信頼性アーキテクチャ設計、SRE組織の運営、システムスケール戦略。
SREの専門性を高める vs マネジメントやアーキテクト方向に進む選択肢
- 明確なスキルマップとロードマップを用意し、技術レベルに応じた成長を促す
- 社内勉強会やハンズオン研修を定期的に開催し、実務と理論を組み合わせた学習環境を整備
- SREプロジェクトのローテーションを導入し、異なる案件での経験を積む機会を提供
6. まとめ
- SIerとしてSREを提供するには「適切なアサイン」と「継続的な教育」が不可欠
- SREは単なるインフラ運用ではなく、仕組み化と改善が求められる
- 案件ごとに適した人材配置をするために、スキルマップやOJTの仕組みを整えることが重要
SIerがSREを提供するためのベストプラクティスを確立し、今後の運用支援の質をさらに向上させていくことが求められています。
弊社もまだまだ半ばですべてが徹底できているわけではありませんが、これからも前進してまいります。
「SREで人月!?」な興味本位でも構いませんので、是非マンパワーが足りない場合はノウハウ提供が必要な企業様いらっしゃいましたら、是非お問い合わせください!
ACS事業部のご紹介開発者ポータルBackstage、Azure AI Serviceなどを活用し、Platform Engineering+AIの推進・内製化のご支援をしております。 www.ap-com.co.jp www.ap-com.co.jp www.ap-com.co.jp
また、一緒に働いていただける仲間も募集中です!
我々の事業部のCultureDeckはコチラ。
www.ap-com.co.jp
今年もまだまだ組織規模拡大中なので、ご興味持っていただけましたらぜひお声がけください。
www.ap-com.co.jp