Procedura de Răspuns la Incidente

Procedura de răspuns la incidente definește cum sunt detectate, clasificate, tratate și analizate evenimentele de securitate sau de disponibilitate pe platforma SSM.ro.

Clasificarea incidentelor

Severitate	Descriere	Exemple
Critic (P1)	Indisponibilitate totală a serviciului sau compromitere confirmată a datelor	Outage producție, compromitere credențiale, breșă de date
Major (P2)	Degradare semnificativă sau risc ridicat	Erori în creștere bruscă, indisponibilitate parțială
Minor (P3)	Impact limitat, fără afectarea datelor	Defecțiuni izolate, erori non-critice

Detecția

Incidentele sunt detectate prin stiva de monitorizare:

New Relic — alerte NRQL pe rate de erori și Ping Monitor (alertă Critical la indisponibilitatea endpoint-ului)
Sentry — alerte email la excepții runtime noi sau regresii
Status furnizori — monitorizarea status.heroku.com și a stării serviciilor AWS

Detalii: Metrici și Alerte.

Pași de răspuns

Identificare — alerta este recepționată și confirmată
Triaj și clasificare — se stabilește severitatea și impactul
Izolare/limitare — se limitează impactul (ex. rollback release defect, rotație credențiale)
Remediere — se aplică corecția (restaurare date, patch, repornire serviciu)
Notificare — tenantii și/sau autoritățile sunt informați conform procedurii de notificare
Verificare — se confirmă revenirea la normal și integritatea datelor
Analiză post-incident — review scris și acțiuni corective

Răspuns la scenarii specifice

Scenariu	Acțiune imediată
Release defect	Rollback Heroku cu un click (< 30 min)
Compromitere credențiale	Rotație imediată a tuturor secretelor (Heroku config vars, chei AWS, tokeni Postmark/furnizor semnătură electronică); verificare log-uri; notificare dacă sunt afectate date ale clienților (< 2 ore)
Pierdere date	Restaurare din PITR/snapshot (Postgres) sau versioning/CRR (S3)
Breșă de date personale	Activarea procedurii de notificare a breșelor GDPR

Incidentele P1/P2 sunt escaladate către echipa tehnică responsabilă și, după caz, către conducere și DPO (pentru date cu caracter personal). Comunicarea către clienți se face prin email și actualizări de status.

Analiză post-incident (post-mortem)

Pentru orice eveniment cu impact în producție:

Review scris — cauze, impact, cronologie, acțiuni întreprinse
Acțiuni corective — identificate și urmărite până la implementare
Actualizarea procedurilor — integrarea lecțiilor învățate în SOP-uri

Incidentele majore cu impact public sunt consemnate în Istoric Incidente.