SRE

Site Reliability Engineer

Обеспечение надежности и отказоустойчивости систем

99.9% Uptime SLA
24/7 Мониторинг
<15мин MTTR

О профессии SRE

🔧

Автоматизация

Автоматизация рутинных задач, CI/CD пайплайны, Infrastructure as Code

📊

Мониторинг

Построение систем мониторинга, алертинг, дашборды, SLO/SLI метрики

🛡️

Отказоустойчивость

Проектирование надежных систем, disaster recovery, chaos engineering

🚀

Производительность

Оптимизация производительности, capacity planning, load balancing

Технологический стек

Контейнеризация & Оркестрация

Kubernetes Docker Helm Containerd

Облачные платформы

AWS GCP Azure Terraform

Мониторинг & Логирование

Prometheus Grafana ELK Stack Jaeger

Автоматизация

Ansible GitLab CI Jenkins ArgoCD