技術(tech)

【報告】SRE NEXT 2023に登壇させていただきました

SRE NEXT 2023で「エラーバジェット運用までの取り組み – 信頼性の低下に対するアクションを定義しよう」というお題で発表しました

はじめに

 

9/29(金)に開催されていたSRE NEXT 2023に登壇者として参加させていただきました!

本記事は、本カンファレンスへの参加レポートでございます。

以下の記事の報告編となります。

【紹介】SRE NEXT 2023でエラーバジェットの運用について発表しますどうも、久しぶりの投稿となります。 2023/09/29 に開催されるSRE NEXT 2023の登壇内容の紹介です。 第1回、第2回と聴講者としてSRE NEXTに参加させていただく側だったものが、今度は登壇者として発表させていただけることが決まり、非常に嬉しく思っております。 「エラーバジェット運用までの取り組み - 信頼性の低下に対するアクションを定義しよう」というタイトルで、9/29 16:20 - 16:40の時間帯でTrack Bで発表いたします。 興味があればぜひぜひご参加ください。...

会場内の様子

会場に到着後、真っ先に自分が発表する会場(Track b)の下見に行きます。

思っていた以上に会場が広い!

こんな素敵な場所で発表できるのか… なんてことを考えつつ、メイン会場(Track a)に向かいます。

発表間の隙間時間に、ぶらぶら会場内を散策。記念写真をパシャリ(ぼっち旅)。

あれ、ここは結婚式場でしょうか?ゴージャスな会場でした。

会場内に設置してあったアンケート内容に興味津々(以下は帰り間際の写真です)。

私の発表内容に直結することもあり「SLO導入レベル」のアンケート結果が気になりました。

「SLOを定めているが活用できていない」が一番多いようです(こちらも帰り間際の写真です)。

発表会場前には多くのスポンサーブースが立ち並んでおりました。

残念ながら、発表のことで頭がいっぱいだったのもあり、ゆっくりと見て回ることは出来ませんでした。

エラーバジェット運用までの取り組み – 信頼性の低下に対するアクションを定義しよう

初のカンファレンスでの発表でした。

発表20分前くらいからの記憶があやふやなくらいには緊張していたものの、特にトラブルも無く発表自体は無事に終えることが出来ました。

この発表を通じて「エラーバジェットの運用を始めてみよう」と思っていただけた方が一人でも居れば幸いです。

当日の発表資料は以下にアップロードされております。

20230929_SRE_NEXT_エラーバジェット運用までの取り組み-信頼性の低下に対するアクションを定義しよう / Let’s define actions against unreliability

当日の発表の様子もYouTubeにアップロードされております。

SRE NEXT 2023 Track B

各セッション

会場内で直接見ていて、特に思い出深かったセッションをピックアップしています。

(素敵なセッションが多過ぎて、ここでは紹介しきれないので本当に一部だけ…)

ギークがイオンに飛び込んだ結果がやばい〜Reliabilityと経営〜

樽石さんの基調講演です。バリバリのテック企業から日本の大企業に入社するなんて…ね…?という勝手な想像が完全にひっくり返りました。ソースコードを中心とした開発文化、内製化チームの立ち上げ、「イオンすげぇ…」その一言に尽きます。講演中の「コンピューターサイエンスの基礎を理解すれば応用範囲が増える」という言葉が深く刺さりました。SRE NEXT 2023の開幕にぴったりのワクワクする発表でした。

講演: https://www.youtube.com/live/c_oMpshssRg?si=v-Ddv6hcvUBzX2MM&t=1550

LINEスタンプのSREing事例集:大量のスパイクアクセスを捌くためのSREing

午前中の発表にも関わらず、会場内に人が入れなくなる満席状態でした。凄い。大規模トラフィックに対する対処について気になり聴講いたしました。平日ピーク時と比較して13倍もの瞬間アクセス… 痺れ(ビビリ)ます。高負荷状態の再現方法、検証における考え方、実験方法等、そのまま持ち帰って実践したい内容の目白押しでした。性能試験が必要になった時のためにブックマークしておきます。

LINEスタンプのSREing事例集:大きなスパイクアクセスを捌くためのSREing

講演: https://www.youtube.com/live/hGjWOgBVAOI?si=9vns5xOOvqCJz6cz&t=4789

 

エンジニアのためのSRE論文への招待

社会人になってから論文を読むことがほとんど無かったのもあり、講演タイトルに惹かれ聴講いたしました。余談ですが、SRE NEXT皆勤賞なのが凄いです。論文の基本的な調べ方、SRE論文の例、カンファレンスの情報等が紹介されていて、非常に参考になりました。これを機に、SREに関する論文を漁って、読んでみようかな。と思いました。

エンジニアのためのSRE論文への招待 / Introduction to SRE Papers for Engineers

講演: https://www.youtube.com/live/c_oMpshssRg?si=6_zDlVMz87jDsXHl&t=8410

 

QAと共に築く、機能性を通じた信頼性担保への取り組み

SRE活動をする上で「コラボレーションが大事」と思わされる機会が多かったのもあり、QAとSREとのコラボレーション話が気になり聴講しました。プロダクトに変更を加える際のテストケースについて、QAやプロダクトチームに聞かなければ分からないことも多く、逆にSREが持っている情報を共有した方がより早く、円滑に物事が進むケースも多々あります。そういう意味で、各チーム間のコラボレーションは大切だよなと思い、非常に共感できました。発表中に話されていた「気合を入れて凄いことをやろうとしなくてもいい」という気持ちを大切にしようと思えました。

QAと共に築く、機能性を通じた信頼性担保への取り組み

講演: https://www.youtube.com/live/c_oMpshssRg?si=zk-4uoYNXcYHU6KE&t=18443

 

Warningアラートを放置しない!アラート駆動でログやメトリックを自動収集する仕組みによる恩恵

トイルになりがちな大量のWarningアラートに対するアプローチとして、「アラート駆動でログやメトリックを自動収集する仕組み」が紹介されていたのが印象的でした。ロードバランサー起点のエラーに対する調査の観点や流れって同じになりがちだよなぁ。と共感するところがあり、そこを上手く自動化してくれるの仕組みづくりが素敵だなと思いました。

Warningアラートを放置しない!アラート駆動でログやメトリックを自動収集する仕組みによる恩恵

講演: https://www.youtube.com/live/yKygYvlEsqo?si=uuKff-bsyAtYiaM0&t=22155

 

信頼性目標とシステムアーキテクチャー

SLI/SLO/エラーバジェット等のSREプラクティスの基礎的な考え方を改めて学ぶことが出来ました。自分の発表内容を頭に浮かべながら、自分の理解が正しいかどうかを考えつつ講演を聴講していました。

特に、r9y.devの章には釘付けでした。SLOに応じたアーキテクチャパターンの例がまとめられていて、費用対効果の説明時に利用したいです。

信頼性目標とシステムアーキテクチャー / Reliability Objective and System Architecture

講演: https://www.youtube.com/live/c_oMpshssRg?si=uSKvyGwF8_HYmbYl&t=27609

他にもたくさんの魅力的なセッションがありました

発表への感想は都度都度追記していきたいと思います!

当日見きれなかった分は、YouTubeにアップロードされている各会場の映像を見させてもらっています。

track_a

SRE NEXT 2023 Track A

track_b

SRE NEXT 2023 Track B

track_c

Card

 

追記(後日、YouTubeの動画を見ての感想集です)

SLOを組織文化にするための挑戦 〜 Biz/Dev/SREが一丸で進めるSLOジャーニー 〜

SLOを組織文化にするための課題とそれに対する挑戦、学びがまとめられていて、とても参考になりました。私も「どうしたらSLOに当事者意識を持ってもらえるか」を常に考え続けるのは大事だなと思っています。というのも、プロダクトチーム側に必要性を感じてもらえなければ、運用するモチベーションに繋がらないためです。無理矢理何を導入したとしてもいずれ形骸化してしまいます。文化形成のためには、当事者意識が非常に重要です。そこで、当事者意識を持ってもらうための一番の方法として、障害から学ぶというのは非常に納得感がありました(私も同じアプローチを取っていました)。社内のリソースをフル活用してワークショップを作り上げられるのはめちゃくちゃ羨ましいです…

SLOを組織文化にするための挑戦

講演: https://www.youtube.com/live/c_oMpshssRg?si=excUMFDhqhQ92SHi&t=20156

SREの組織類型に応じたリーダーシップの考察

SL理論の考え方を踏まえて、SREの組織がリーダシップを発揮するためにどんな行動指針を定めるべきか、組織の状況別に分けて語られていて、とても勉強になります。私が考える最終的に目指したいチームの姿は「SREが居なくてもSREのプラクティスが自然と実践出来ている」であり、これは委任型(意思決定のプロセスを周りの組織に任せて、支援が必要なところを支援する)のリーダシップに該当するんだろうなと改めて感じました。

懇親会で少しお話を聞いたのですが、TopotalのWaroomサービスの「インシデントステートドキュメントの自動生成」機能、めっちゃ使いたいです… インシデント後のドキュメント作成の辛みから解放されたい…

SREの組織類型におけるリーダーシップの考察

講演: https://www.youtube.com/live/hGjWOgBVAOI?si=z3T3OG1JvGMZmsnq&t=22230

懇親会

色んなバックグラウンドを持ったSREの方々と交流を深めることが出来ました。
話に夢中になりすぎて、写真を一枚たりとも撮っていないです。申し訳ございません。

時間の関係上、発表中には紹介しきれない突っ込んだ内容や詳細な話まで聞くことができるのは、懇親会の魅力ですね。

業種や職種を超えて対話やコミュニケーションが大事だよね。という話が何度か挙がったのを覚えています。
SRE NEXT 2023の3つの価値観「Interactivity」「Diversity」「Empathy」は、SREを前に進める上で非常に重要な考え方なのだな。というのを改めて実感いたしました。

そんなこんなで楽しい時間もあっという間に過ぎてしまいました。
会場から出る際にチョコをいただきました。

食べるのが勿体無く感じてしまう、記念に残しておきたくなるデザインでした。

外はすっかり暗くなっており、寂しさを感じつつもカンファレンス会場を後にします。

おわりに

第1回ぶりのオフライン開催となったSRE NEXTは会場の熱気や雰囲気を肌で感じることが出来、多くの学びや気付きが得られる、本当に素敵なイベントでした。

「まだまだ勉強やチャレンジが足りないな。」と反省すると共に、「明日からまた頑張ろう。」と思えました。刺激的な1日でした。

SRE NEXTの開催のために尽力してくださったスタッフの方々、スポンサー企業の方々、発表者や参加者、全ての方々にお礼申し上げます。

ありがとうございました。