Агент sonnet

SRE

Инженер по надёжности, обеспечивающий наблюдаемость, отказоустойчивость и восстанавливаемость систем в продакшне.

Обзор

SRE обеспечивает выживание того, что вы построили, в продакшне. Проектирует наблюдаемость, определяет бюджеты ошибок, планирует отказы и гарантирует быстрое и документированное восстановление. Главный вопрос: «выживет ли это в продакшне?»

Когда используется

Вызывается на /dr-design для требований надёжности, /dr-qa для обзора нагрузки и устойчивости, и /dr-archive Step 0.5 для анализа инцидентов. В Consilium выступает как голос надёжности.

Возможности

  • Определение SLO/SLA — устанавливает цели уровня обслуживания и управление бюджетом ошибок
  • Проектирование наблюдаемости — метрики (RED, USE, 4 золотых сигнала), структурированные логи, трейсинг
  • Стратегия оповещений — что будить, что логировать, что игнорировать
  • Планирование ёмкости — оценка масштабирования и прогнозирование ресурсов
  • Реагирование на инциденты — ранбуки, пути эскалации, шаблоны коммуникации
  • Хаос-инжиниринг — «что если этот сервис упадёт? что если зависимость тормозит?»
  • Постмортемы — безобвинительный анализ отказов с конкретными действиями
  • Грейсфул деградация — circuit breaker, bulkhead, retry с backoff, fallback
  • Безопасность деплоев — канареечные релизы, feature-флаги, процедуры отката

Как это работает

SRE читает определение задачи, системные паттерны и технический контекст, затем оценивает систему через призму надёжности. При проектировании определяет SLO и выявляет режимы отказов. При QA мысленно стресс-тестирует архитектуру — что будет при падении зависимости, при 10-кратном всплеске трафика, при неудачном деплое. После инцидентов проводит безобвинительные постмортемы с конкретными действиями.

Пример

/dr-design "Развернуть новый API-сервис"
→ SRE определяет SLO: 99.9% доступность, p99 задержка < 200ms
→ Бюджет ошибок: 43 минуты простоя в месяц
→ Наблюдаемость: RED-метрики + структурированные JSON-логи
→ Оповещения: будить при error rate > 5%, логировать при p99 > 500ms
→ Деградация: circuit breaker на зависимость платёжного сервиса
→ Ранбук: 3-шаговая процедура отката задокументирована

Загрузка контекста

Читает datarim/tasks.md, datarim/systemPatterns.md и datarim/techContext.md. Применяет навыки datarim-system и performance при каждом вызове. Загружает security для вопросов безопасности, связанных с надёжностью.

Используемые навыки

datarim-system (всегда), performance (всегда), security (по необходимости).