皆さん、GitHub Actions使っていますか?
GitHub ActionsとはCI/CDパイプラインをyaml形式で宣言的に定義し、Workflowとしてまとめて実行できるなんとも便利なサービスです。
なんと、GitHub Actionsは全世界で毎月1億3千万以上ものジョブが実行されています!!
そんなGitHub Actionsですが、実行環境を大きく分けて2つあります。
GitHub社がホストするVMのGitHub-hosted runner docs.github.com
ユーザが独自にホストする環境(コンテナ含む)のSelf-hosted runner docs.github.com
今回よりご紹介するのは後者で、Kubernetes PodをSelft-hosted runnerとして動作させることができる、GitHub社公式のKubernetes OperatorであるActions Runner Controllerです。 github.com
先日Actions Runner Controllerのコードリーディングをしたので最新の機能であるAutoscaling Runner Scale Setsモードを、今回より以下のように複数回に渡ってシリーズとして紹介していきたいと思います。
なお、Autoscaling Runner Scale Sets mode登場以前のモードはレガシーモードとされていますので、今回はスコープ外とします。
- アーキテクチャ紹介(今回)
- インストール方法および動作紹介(次回)
- 各ControllerのコードレベルでのDeep Dive
Autoscaling Runner Scale SetsモードはGitHub Actionsのジョブ数に応じて、Selft-hosted runnerであるPodを自動スケールさせるJob実行の信頼性を高めるモードです。このAutoscaling Runner Scale Setsモード、実はレガシーモードでも実装されていました。Autoscaling Runner Scale Setsモードが導入されてからは以下の機能追加がなされています。
- No longer require cert-manager as a prerequisite for installing actions-runner-controller
- Reliable scale-up based on job demands and scale-down to zero runner pods
- Reduce API requests to api.github.com, no more API rate-limiting problems
- The GitHub Personal Access Token (PAT) or the GitHub App installation token is no longer passed to the runner pod for runner registration
- Maximum flexibility for customizing your runner pod template
また、レガシーモードではスケーリングメトリクスやWebhookを契機にスケールさせていますが、Autoscaling Runner Scale SetsモードではGitHubとロングポーリングを行い、Jobの状態をメッセージとして受け取り、JobAvailableメッセージ受信を契機にスケールさせています。
- ARC is installed using the supplied Helm charts, and the controller manager pod is deployed in the specified namespace. A new AutoScalingRunnerSet resource is deployed via the supplied Helm charts or a customized manifest file. The AutoScalingRunnerSet controller calls GitHub's APIs to fetch the runner group ID that the runner scale set will belong to.
- The AutoScalingRunnerSet controller calls the APIs one more time to either fetch or create a runner scale set in the Actions Service before creating the Runner ScaleSet Listener resource.
- A Runner ScaleSet Listener pod is deployed by the AutoScaling Listener Controller. In this pod, the listener application connects to the Actions Service to authenticate and establish a long poll HTTPS connection. The listener stays idle until it receives a Job Available message from the Actions Service.
- When a workflow run is triggered from a repository, the Actions Service dispatches individual job runs to the runners or runner scalesets where the runs-on property matches the name of the runner scaleset or labels of self-hosted runners.
- When the Runner ScaleSet Listener receives the Job Available message, it checks whether it can scale up to the desired count. If it can, the Runner ScaleSet Listener acknowledges the message.
- The Runner ScaleSet Listener uses a Service Account and a Role bound to that account to make an HTTPS call through the Kubernetes APIs to patch the EphemeralRunner Set resource with the number of desired replicas count.
- The EphemeralRunner Set attempts to create new runners and the EphemeralRunner Controller requests a JIT configuration token to register these runners. The controller attempts to create runner pods. If the pod's status is failed, the controller retries up to 5 times. After 24 hours the Actions Service unassigns the job if no runner accepts it.
- Once the runner pod is created, the runner application in the pod uses the JIT configuration token to register itself with the Actions Service. It then establishes another HTTPS long poll connection to receive the job details it needs to execute.
- The Actions Service acknowledges the runner registration and dispatches the job run details.
- Throughout the job run execution, the runner continuously communicates the logs and job run status back to the Actions Service.
- When the runner completes its job successfully, the EphemeralRunner Controller checks with the Actions Service to see if runner can be deleted. If it can, the Ephemeral RunnerSet deletes the runner.
- AutoScalingRunnerSet CustomResourceのデプロイ
- AutoScalingRunnerSet ControllerによってEphemeralRunnerSetとAutoScalingListener CustomResourceが順番にデプロイ
- AutoScalingListener ControllerによってAutoScalingListener Podが作成され、GitHubとのロングポーリングが開始されます。
- CI/CD jobが開始されると、AutoScalingListener Podに通知され、EphemeralRunnerSetの.spec.replicasを0からターゲットの数まで増やす
- EphemeralRunnerSet Controllerによって.spec.replicasの数だけEphemeralRunner CustomResourceが作成される。
- EphemeralRunner Controllerによって、EphemeralRunner Podが作成され、Self-hosted runnerとして動作する
- CI/CD job終了後は自動でGitHub上のRunnerと、EphemeralRunner Podが削除される
2023/09/08 追記: 第二回動作解説編は以下を参照ください。 techblog.ap-com.co.jp
