Securitate, Infrastructură & OperațiuniBackup & Continuitate
Plan de Continuitate și Recuperare în caz de Dezastru
BCP și DRP — scenarii, obiective RTO/RPO, comunicare și testare periodică
Planul de continuitate a afacerii (BCP) și planul de recuperare în caz de dezastru (DRP) asigură reluarea serviciilor SSM.ro în limitele obiectivelor de recuperare definite. Procedurile sunt documentate în SOP Operațional (Backup, DR & Patching), v1.0 (2026-04-29), revizuit anual.
Obiective de recuperare
| Componentă | RPO | RTO |
|---|---|---|
| Date relaționale (Heroku Postgres) | ≤ 5 minute | 4 ore |
| Documente (AWS S3) | ≤ 15 minute | 8 ore |
Definițiile și detaliile: RTO și RPO.
Scenarii de dezastru și răspuns
| Scenariu | Mecanism de recuperare | RTO |
|---|---|---|
| Outage platformă (Heroku / AWS dedicat) | Monitorizare status provider; notificare tenanți; revenire la normalizare | 4 ore |
| Corupere/pierdere bază de date (Postgres / RDS) | Restaurare din PITR sau backup/snapshot zilnic | 4 ore |
| Outage regiune AWS / pierdere S3 | Recuperare documente din replica CRR (altă regiune) | 8 ore |
| Release defect | Rollback la release-ul anterior (Heroku cu un click / redeploy ECS) | < 30 minute |
| Compromitere credențiale | Rotație imediată a tuturor secretelor | < 2 ore |
Procedurile pas cu pas sunt în Procedura de Recuperare Date.
Continuitate prin arhivă externă
Tenantii care utilizează exportul zilnic automat către o arhivă externă dispun de o cale suplimentară de recuperare, independentă de disponibilitatea platformei (RPO ≤ 24 ore), precum și de portabilitatea datelor.
Comunicarea în timpul incidentelor
- Tenantii afectați sunt notificați prin email la identificarea evenimentului
- Actualizări de status sunt emise pe parcurs, până la rezolvare
- La rezolvare: confirmare finală transmisă tenantilor afectați
Detalii: Notificarea Incidentelor.
Testarea planului
- Capacitatea de restaurare se validează prin restaurări ad-hoc efectuate când este necesar din punct de vedere operațional, folosind garanțiile de integritate ale serviciilor managed (Heroku Postgres backups, S3 versioning + CRR).
- SOP-ul de continuitate și recuperare este revizuit anual sau la orice schimbare semnificativă a arhitecturii.
- Lecțiile rezultate din evenimente reale sunt integrate în proceduri prin procesul post-incident.