Securitate, Infrastructură & OperațiuniManagementul Incidentelor
Procedura de Răspuns la Incidente
Clasificarea, detecția, răspunsul, escaladarea și analiza post-incident
Procedura de răspuns la incidente definește cum sunt detectate, clasificate, tratate și analizate evenimentele de securitate sau de disponibilitate pe platforma SSM.ro.
Clasificarea incidentelor
| Severitate | Descriere | Exemple |
|---|---|---|
| Critic (P1) | Indisponibilitate totală a serviciului sau compromitere confirmată a datelor | Outage producție, compromitere credențiale, breșă de date |
| Major (P2) | Degradare semnificativă sau risc ridicat | Erori în creștere bruscă, indisponibilitate parțială |
| Minor (P3) | Impact limitat, fără afectarea datelor | Defecțiuni izolate, erori non-critice |
Detecția
Incidentele sunt detectate prin stiva de monitorizare:
- New Relic — alerte NRQL pe rate de erori și Ping Monitor (alertă Critical la indisponibilitatea endpoint-ului)
- Sentry — alerte email la excepții runtime noi sau regresii
- Status furnizori — monitorizarea
status.heroku.comși a stării serviciilor AWS
Detalii: Metrici și Alerte.
Pași de răspuns
- Identificare — alerta este recepționată și confirmată
- Triaj și clasificare — se stabilește severitatea și impactul
- Izolare/limitare — se limitează impactul (ex. rollback release defect, rotație credențiale)
- Remediere — se aplică corecția (restaurare date, patch, repornire serviciu)
- Notificare — tenantii și/sau autoritățile sunt informați conform procedurii de notificare
- Verificare — se confirmă revenirea la normal și integritatea datelor
- Analiză post-incident — review scris și acțiuni corective
Răspuns la scenarii specifice
| Scenariu | Acțiune imediată |
|---|---|
| Release defect | Rollback Heroku cu un click (< 30 min) |
| Compromitere credențiale | Rotație imediată a tuturor secretelor (Heroku config vars, chei AWS, tokeni Postmark/furnizor semnătură electronică); verificare log-uri; notificare dacă sunt afectate date ale clienților (< 2 ore) |
| Pierdere date | Restaurare din PITR/snapshot (Postgres) sau versioning/CRR (S3) |
| Breșă de date personale | Activarea procedurii de notificare a breșelor GDPR |
Escaladare
Incidentele P1/P2 sunt escaladate către echipa tehnică responsabilă și, după caz, către conducere și DPO (pentru date cu caracter personal). Comunicarea către clienți se face prin email și actualizări de status.
Analiză post-incident (post-mortem)
Pentru orice eveniment cu impact în producție:
- Review scris — cauze, impact, cronologie, acțiuni întreprinse
- Acțiuni corective — identificate și urmărite până la implementare
- Actualizarea procedurilor — integrarea lecțiilor învățate în SOP-uri
Incidentele majore cu impact public sunt consemnate în Istoric Incidente.