ssm.ro Docs
Securitate, Infrastructură & OperațiuniManagementul Incidentelor

Procedura de Răspuns la Incidente

Clasificarea, detecția, răspunsul, escaladarea și analiza post-incident

Procedura de răspuns la incidente definește cum sunt detectate, clasificate, tratate și analizate evenimentele de securitate sau de disponibilitate pe platforma SSM.ro.

Clasificarea incidentelor

SeveritateDescriereExemple
Critic (P1)Indisponibilitate totală a serviciului sau compromitere confirmată a datelorOutage producție, compromitere credențiale, breșă de date
Major (P2)Degradare semnificativă sau risc ridicatErori în creștere bruscă, indisponibilitate parțială
Minor (P3)Impact limitat, fără afectarea datelorDefecțiuni izolate, erori non-critice

Detecția

Incidentele sunt detectate prin stiva de monitorizare:

  • New Relic — alerte NRQL pe rate de erori și Ping Monitor (alertă Critical la indisponibilitatea endpoint-ului)
  • Sentry — alerte email la excepții runtime noi sau regresii
  • Status furnizori — monitorizarea status.heroku.com și a stării serviciilor AWS

Detalii: Metrici și Alerte.

Pași de răspuns

  1. Identificare — alerta este recepționată și confirmată
  2. Triaj și clasificare — se stabilește severitatea și impactul
  3. Izolare/limitare — se limitează impactul (ex. rollback release defect, rotație credențiale)
  4. Remediere — se aplică corecția (restaurare date, patch, repornire serviciu)
  5. Notificare — tenantii și/sau autoritățile sunt informați conform procedurii de notificare
  6. Verificare — se confirmă revenirea la normal și integritatea datelor
  7. Analiză post-incident — review scris și acțiuni corective

Răspuns la scenarii specifice

ScenariuAcțiune imediată
Release defectRollback Heroku cu un click (< 30 min)
Compromitere credențialeRotație imediată a tuturor secretelor (Heroku config vars, chei AWS, tokeni Postmark/furnizor semnătură electronică); verificare log-uri; notificare dacă sunt afectate date ale clienților (< 2 ore)
Pierdere dateRestaurare din PITR/snapshot (Postgres) sau versioning/CRR (S3)
Breșă de date personaleActivarea procedurii de notificare a breșelor GDPR

Escaladare

Incidentele P1/P2 sunt escaladate către echipa tehnică responsabilă și, după caz, către conducere și DPO (pentru date cu caracter personal). Comunicarea către clienți se face prin email și actualizări de status.

Analiză post-incident (post-mortem)

Pentru orice eveniment cu impact în producție:

  1. Review scris — cauze, impact, cronologie, acțiuni întreprinse
  2. Acțiuni corective — identificate și urmărite până la implementare
  3. Actualizarea procedurilor — integrarea lecțiilor învățate în SOP-uri

Incidentele majore cu impact public sunt consemnate în Istoric Incidente.