SREの経験者です。SREのチーム運用及び社内展開についてお話できます。
Googleが提唱したSRE(Site Reliability Engineering)はGoogleで培われたシステム管理とサービス運用の方法論です。昨今の日本のIT業界でも多くの企業が採用し、中規模から大規模のシステムにおいては必須の方法論になりました。
私は、SREのチーム運用及び社内展開を通して、その中にある問題点やそれに対する解決方法を経験しました。導入時の一番の課題は、サービスに関わる組織(経営者、マネージメント、開発者)に対するSREの導入のメリットの共有でした。それも含めSREを組織に導入するための道筋についてお話すことができます。
SREを導入する事により下記の実績/成果があります。
- SLO、SLI、SLA の策定
- 品質とリリースの最適化
- 自動化されたリリースフロー
- システムの安定化の促進
よろしくおねがいします。
■その他
地域: 東京
役割: マネジメント経験/現場経験
規模: 40名