技術(tech)

【紹介】SRE NEXT 2023でエラーバジェットの運用について発表します

どうも、久しぶりの投稿となります。

2023/09/29 に開催されるSRE NEXT 2023の登壇内容の紹介です。

第1回、第2回と聴講者としてSRE NEXTに参加させていただく側だったものが、今度は登壇者として発表させていただけることが決まり、非常に嬉しく思っております。

「エラーバジェット運用までの取り組み – 信頼性の低下に対するアクションを定義しよう」というタイトルで、9/29 16:20 – 16:40の時間帯でTrack Bで発表いたします。

興味があればぜひぜひご参加ください。

https://sre-next.dev/2023/schedule/#jp050

発表内容

SRE NEXT 2023の発表概要の通りでございます。

SLOの低下(エラーバジェットの消費)が次のアクションに結びついていない。そんな状況に心当たりはありませんか? なぜ、エラーバジェットの運用が後回しにされがちなのか、ご存知でしょうか?

SLOにより信頼性を定量化出来ます。しかしこれだけだと、次の行動には移せません。行動に移すには、エラーバジェットを使い果たした際に行うべきことを、エラーバジェットポリシーとして定めるのが1つの手です。 このポリシーを定めて運用するには、関係者との合意形成が必要ですが、ハードルの高さから後回しにされがちです。

ではハードルを乗り越えてでもエラーバジェットの運用が必要なのはなぜなのでしょうか。運用のために具体的に何をすればいいのでしょうか。

本セッションでは、エラーバジェットポリシーを定め、エラーバジェットを運用をするまでに実施した内容を紹介します。また、運用で得た学び、反省点をお話します。

キーワード
・SLOに納得感を持ってもらおう
・エラーバジェットに対するネガティブイメージを払拭しよう
・一人ではポリシーは定まらない。関係者を巻き込もう
・ロードマップの決定/変更権限を持つ人の理解を得よう

 

見どころ

私は、2022年8月にある部署のSREチームに参画し、SREの文化をプロダクトチームにインストールする役割を担っております。

そのSREチームとは、昨年のSRE NEXT 2022で発表していた、かつては一人SREだったチームです(https://sre-next.dev/2022/schedule#jp02)。

私がSREチームへ参画した際には、一人SRE時代と比較してプロダクトチームも成長しており、既に導入されていたSLI/SLOの考え方が、プロダクトチームにも浸透している状況でした。具体的には、プロダクトチームのメンバーが計測されているSLOを日々ウォッチし、SLOが低下する = ユーザの満足度の低下 と置き換えて考えられる状況になっておりました。

上記の通り、SLOの計測が出来ていて、SLOが低下すると信頼性が低下している状況である。という共通認識は持てていたものの、いざSLOが低下してエラーバジェットを使い切ってしまった場合に、どんなアクションを取るべきなのかが定まっていませんでした。
※ 勿論、障害が発生した際の対応フローは存在します。 

しかしながら、障害が発生した際に、開発と運用のバランスを取りつつ、どのような優先度付けを行って対処するのかは、プロダクトチームの肌感覚によるものが大きかったのです。

この課題感が顕在化する出来事が発生したことをきっかけに、エラーバジェットの運用を進めることを決めました。

とはいえ、運用に載せるまでには、さまざまな壁を乗り越えなければなりません。
また、運用した後でも、さまざまな課題が発生します。

この発表では、運用に載せるまでのTipsや気をつけるべきこと、実際に運用してみての反省や学びをお伝えいたします。

きっと、同じような境遇の方々の助けになるような発表内容になっていると思います。

想定する聴講者

 

  • SLOまでは定めているんだけれども、まだまだ活用出来ていない方
  • 開発と運用、どちらも大事だけど…
    双方のバランスの取り方に悩んでいる方

本発表では、開発と運用の双方のバランスを取るためにエラーバジェットポリシーを運用する話を紹介いたします。

 

持ち帰ってもらえること

 

本発表を聞くことで、エラーバジェットの運用を始めよう! とチームへ提案出来る状態へになってもらえることかと思います。

具体的には、以下をお伝えし、持ち帰っていただくことができます。

  • エラーバジェットに基づくポリシーを定め、運用する意義が分かる
  • エラーバジェットポリシーの策定のために、具体的に何をすべきかが分かる

 

おわりに

発表時間が20分と長丁場になります。

このようなクラスのカンファレンスで発表させていただくのは初めてでして、とても緊張しております。

折角、貴重な発表のお時間を頂けたので、私のSRE活動の取り組みを紹介させていただき、何かしら聴講者の方々のためになればと思っております。

当日は、何卒よろしくお願いいたします。