こんばんは、ACS 事業部の埜下です。
KubeCon + CloudNativeCon Europe 2023 の 1 日目、Kubernetes SIG Scalability のセッションについてお伝えします。
Kubernetes SIG Scalability の紹介
導入として、SIG Scalability では何をしているのかについて説明がありました。
- スケーラビリティの定義と推進
- パフォーマンス向上
- システムのパフォーマンスの監視と測定
- リグレッションからの保護
- コミュニティの助言と指導
また、SIG Scalability では以下の観点で SLI/SLO を定義しているようです。
- API Call Latency
- Pod Startup Latency
- In-Cluster Network Programming Latency
- DNS Programming Latency
- In-Cluster Network Latency
- DNS Latency
Scalability Testing Infrastructure
テストフレームワークとして ClusterLoader2 を使用しているそうです。
ClusterLoader2 は半宣言的にクラスタの望ましい状態を記述します。
また、クラスタをシミュレートするための Kubemark というツールも使用しているそうです。 これにより、テスト用に大規模なクラスタを用意できるとのこと。
予算を使い果たしそうなのでインフラコストの削減が必要とも仰っていました。
リグレッション
リリースごとに API Server や Kubelet でスケーラビリティのリグレッションが発生していたものの、前回のリリース(v1.27?)はまったく発生しなかったそうです。
色々なコンポーネントでリグレッションが見られるので、スケーラビリティのことを頭の片隅においてほしいとのことです。
スケーラビリティの向上
SIG API-machinery と共同で以下の KEP などに取り組んでいるそうです。
- KEP-1040: Priority and Fairness for API Server Requests
- Allow informers for getting a stream of data instead of chunking
- Graceful shutdown
- kube-apiserver の改善
- 高スループットをサポートするためのの改善
さいごに
SIG Scalability のセッションについてお伝えしました。 どのように Kubernetes のスケーラビリティが維持・改善されているか垣間見ることができました。