"El objetivo de SRE es un sistema confiable". Descripción general de las métricas básicas de SRE

La ingeniería de confiabilidad del sitio (SRE) es una forma de implementación de DevOps. El enfoque SRE se originó en Google y se hizo popular entre las empresas de TI de productos después de la publicación del libro del mismo nombre en 2016.



En este artículo, describiremos cómo se relaciona el enfoque de SRE con DevOps, qué tareas resuelve un ingeniero de SRE y qué métricas se encarga.





De DevOps a SRE



En muchas empresas de TI, diferentes equipos están involucrados en el desarrollo y la operación con diferentes objetivos. El objetivo del equipo de desarrollo es implementar nuevas funciones. El objetivo del equipo de operaciones es mantener en producción las funciones nuevas y antiguas. Los desarrolladores se esfuerzan por entregar la mayor cantidad de código posible, los administradores del sistema se esfuerzan por mantener el sistema confiable.



Los goles de los equipos se contradicen. Para resolver estas contradicciones, se creó la metodología DevOps. Implica reducir los silos, aceptar errores, confiar en la automatización y otros principios.



, , DevOps . « DevOps?». , , .



2016 , Google «Site Reliability Engineering». DevOps. SRE-, IT-.



DevOps — . SRE — . DevOps — , SRE — , DevOps.



SRE-



SRE , DevOps .



, , SRE . , - . , SRE .



SRE — . , , — .



, SRE , , . - : « — ». , . SRE . , , . , .



. , , . , .



SRE . , SRE : «OK, , , ». , , , .



  • — , .
  • — , . , .


SRE , -, . SRE ( , ).



SRE , - .



, SRE . , -. — .



: SLA, SLI, SLO



. — , .



SRE , . , (, . .) , .



- — Service-Level Objective (SLO). , .



SRE , . « , . , , SLO», Google. — , , .



, — Service Level Indicator (SLI). , , , — .



SLO SLI — , . Service Level Agreement (SLA). .



SLA: 99,95% ; 99 ; 85% 1,5 .



100%



SRE , . , .



, «»:



  • — 99%,
  • — 99,9%,
  • — 99,99%,
  • — 99,999%.


— 5 , — 3,5 .





, 100%, . - ROI — .



, . ! 47 . . .



. 99,99% 99,999%, 99%. , 10 8 . , .



— MTBF MTTR



, SRE : MTBF MTTR.



MTBF (Mean Time Between Failures) — .



MTBF . SRE «!». , SRE - , , .



MTTR (Mean Time To Recovery)— ( ).



MTTR SLO. SRE . , SLO 99,99% , , 13 3 . 13 , «» , SLO .



13 — , . 7-8 , — . MTTR , .



SRE , MTTR, SLO , , .



, . , , :



, SRE. , SRE , , , , . , , .





, 100% , , , — , - «» .



SLO. SLO (Error budget).





SRE.



43 , 40 , : SLO, . , -.



, . SRE Error budget :



  • , ,
  • ,
  • ,
  • .


, Error budget . .





«» : SRE, . , , . SRE .



— SRE . Netflix Chaos Engineering.



Netflix Chaos Engineering: Chaos Monkey CI/CD ; Chaos Gorilla AWS. , SRE , — , . , .



Chaos Engineering :



  1. , , ( ).
  2. , . — : , .
  3. , , , CI/CD- .


Post mortem



SRE blameless postmortem, , .



, 13 , 15. ? SRE, ; -, ; , , SLA . , , - . .





, , SLO. SRE — . , , .



:



  • — (« !»);
  • — (« - , , »);
  • — , («, , , »).


SRE , , , , . .



(Observability). , , , .



: , , . : , - Kubernetes, , .



Observability MTTR. Observability , , , MTTR.



SRE



SRE , , , . SRE , . , . , .



SRE , , . . — (, ). , , , .



SRE : SLO, SLI, SLA . , SLA SLO. . , , .



, , — , . Error budget, , .





SRE. , .



SRE Google:

Site Reliability Engineering

The Site Reliability Workbook

Building Secure & Reliable Systems



:

SRE

SLA, SLI, SLO

Chaos Engineering Chaos Community Netflix

200 SRE



SRE ():

Keys to SRE

SRE

SRE

SRE





, — . , - SRE . 11–13 2020.



SLO, SLI, SLA, , , .



SLO: , , , DoS-. , Error budget, , .






All Articles