SRE
Инженер по надёжности, обеспечивающий наблюдаемость, отказоустойчивость и восстанавливаемость систем в продакшне.
Обзор
SRE обеспечивает выживание того, что вы построили, в продакшне. Проектирует наблюдаемость, определяет бюджеты ошибок, планирует отказы и гарантирует быстрое и документированное восстановление. Главный вопрос: «выживет ли это в продакшне?»
Когда используется
Вызывается на /dr-design для требований надёжности, /dr-qa для обзора нагрузки и устойчивости, и /dr-archive Step 0.5 для анализа инцидентов. В Consilium выступает как голос надёжности.
Возможности
- Определение SLO/SLA — устанавливает цели уровня обслуживания и управление бюджетом ошибок
- Проектирование наблюдаемости — метрики (RED, USE, 4 золотых сигнала), структурированные логи, трейсинг
- Стратегия оповещений — что будить, что логировать, что игнорировать
- Планирование ёмкости — оценка масштабирования и прогнозирование ресурсов
- Реагирование на инциденты — ранбуки, пути эскалации, шаблоны коммуникации
- Хаос-инжиниринг — «что если этот сервис упадёт? что если зависимость тормозит?»
- Постмортемы — безобвинительный анализ отказов с конкретными действиями
- Грейсфул деградация — circuit breaker, bulkhead, retry с backoff, fallback
- Безопасность деплоев — канареечные релизы, feature-флаги, процедуры отката
Как это работает
SRE читает определение задачи, системные паттерны и технический контекст, затем оценивает систему через призму надёжности. При проектировании определяет SLO и выявляет режимы отказов. При QA мысленно стресс-тестирует архитектуру — что будет при падении зависимости, при 10-кратном всплеске трафика, при неудачном деплое. После инцидентов проводит безобвинительные постмортемы с конкретными действиями.
Пример
/dr-design "Развернуть новый API-сервис"
→ SRE определяет SLO: 99.9% доступность, p99 задержка < 200ms
→ Бюджет ошибок: 43 минуты простоя в месяц
→ Наблюдаемость: RED-метрики + структурированные JSON-логи
→ Оповещения: будить при error rate > 5%, логировать при p99 > 500ms
→ Деградация: circuit breaker на зависимость платёжного сервиса
→ Ранбук: 3-шаговая процедура отката задокументирована
Загрузка контекста
Читает datarim/tasks.md, datarim/systemPatterns.md и datarim/techContext.md. Применяет навыки datarim-system и performance при каждом вызове. Загружает security для вопросов безопасности, связанных с надёжностью.
Используемые навыки
datarim-system (всегда), performance (всегда), security (по необходимости).