Close

Manuale degli imprevisti Atlassian

Panoramica

I team che gestiscono servizi tecnici oggi sono chiamati a garantirne la disponibilità 24 ore su 24, 7 giorni su 7.

Quando si verifica un problema, che sia un'interruzione dell'attività o una sospensione delle funzionalità, i membri del team devono rispondere immediatamente e ripristinare il servizio. Questo processo viene chiamato gestione degli imprevisti e rappresenta una sfida continua e complessa per aziende di grandi e piccole dimensioni.

We want to help teams everywhere improve their incident management. Inspired by teams like Google, we've created this handbook as a summary of Atlassian's incident management process. These are the lessons we've learned responding to incidents for more than a decade. While it’s based on our unique experiences, we hope it can be adapted to suit the needs of your own team.

Risposta a un imprevisto

Procedura di risposta e misure da adottare una volta rilevato un imprevisto.

Analisi post mortem degli imprevisti

Come svolgere un'analisi post mortem senza biasimi, identificare le cause e pianificare interventi correttivi.

Panoramica del Manuale degli imprevisti

A chi è destinata questa guida?

Se fai parte di un team operativo o di sviluppo che si occupa di servizi Internet per clienti che richiedono una disponibilità di 24 ore su 24, questo manuale è per te.

Che cos'è un imprevisto?

Definiamo un imprevisto come un evento che causa un'interruzione o una riduzione della qualità di un servizio e che richiede una risposta di emergenza. I team che seguono le prassi ITIL o ITSM potrebbero invece usare il termine imprevisto grave per definire un tale evento.

Un imprevisto è risolto quando il servizio compromesso riprende a funzionare nel modo consueto. La risoluzione comprende solo le attività richieste per il ripristino della piena funzionalità. 

L' analisi post mortem di un imprevisto viene svolta dopo l'imprevisto per determinare la causa primaria e assegnare azioni per assicurare che tale causa sia affrontata prima che l'imprevisto possa ripetersi.

I nostri valori inerenti gli imprevisti

Un processo per la gestione degli imprevisti non può coprire tutte le situazioni possibili, pertanto forniamo ai nostri team una guida generale sotto forma di valori. Analogamente ai valori aziendali Atlassian, i nostri valori per la gestione degli imprevisti sono studiati per:

  • Guidare il processo decisionale autonomo di singoli e team in caso di imprevisti e analisi post mortem. 

  • Sviluppare una cultura coerente tra i vari team circa il modo in cui individuiamo e gestiamo gli imprevisti e impariamo da questi episodi.

  • Allineare i team sull'attitudine di cui devono dare prova in ogni fase dell'identificazione e della risoluzione degli imprevisti e della successiva riflessione critica.

Fase Valore dell'imprevisto Valore Atlassian rapportabile Motivazione
1. Rileva Atlassian lo sa prima che lo sappiano i clienti

Build with Heart and Balance

Un servizio bilanciato include strumenti di monitoraggio e notifica sufficienti a rilevare gli imprevisti prima che lo facciano i nostri clienti. 

Il miglior monitoraggio ci avvisa dei problemi prima ancora che diventino imprevisti.

2. Rispondi Fare escalation, escalation, escalation 

Gioco di squadra

Nobody likes being woken up and we don’t take the responsibility lightly. But people understand that occasionally they will be woken for an incident where it turns out they aren't needed. What’s usually harder is waking up to a major incident and playing catch up when you should have been alerted earlier.

Non abbiamo sempre tutte le risposte, quindi "non esitiamo a fare escalation".

3. Ripristina I guai capitano; l'importante è fare presto a risistemare Non !@#$ il cliente

Ai nostri clienti non interessa sapere perché il loro servizio non funziona, ma solo che lo ripristiniamo il più velocemente possibile.

Non esitare mai a risolvere rapidamente un imprevisto in modo da ridurre al minimo l'impatto sui nostri clienti. 

4. Impara Evitare sempre di dare colpe Open Company, No Bullshit Gli imprevisti fanno parte della normale gestione dei servizi. Noi miglioriamo i nostri servizi responsabilizzando i team, non addossando colpe.
5. Migliora Mai incorrere due volte nello stesso imprevisto Avvia il cambiamento, iniziando da te

Identificare la causa e le modifiche che eviteranno il ripetersi dell'intera categoria di imprevisti.

Impegnarsi a implementare modifiche specifiche entro precise scadenze.

 

Requisiti degli strumenti

Il processo di gestione degli imprevisti qui descritto utilizza vari strumenti specifici di Atlassian , che all'occorrenza possono essere sostituiti con altri:

  • Monitoraggio dell'imprevisto - ogni imprevisto viene registrato come issue di Jira , con una issue di follow-up creata per monitorare il completamento delle analisi post mortem (Atlassian utilizzava una versione fortemente personalizzata di Jira Software prima del rilascio di Jira Ops).

  • Chat - un canale di comunicazione testuale in tempo reale è fondamentale per diagnosticare e risolvere l'imprevisto con un lavoro di squadra.

  • Videochat - per molti imprevisti, una videochat di team come Blue Jeans può aiutare a discutere e concordare gli approcci.

  • Sistema di notifica - uno strumento come OpsGenie gestisce le rotazioni e le escalation su chiamata.

  • Strumento di documentazione - noi utilizziamo Confluence per i nostri documenti sullo stato degli imprevisti e per la condivisione delle analisi post mortem tramite blog.

  • Statuspage - la comunicazione della situazione con i membri interni coinvolte e con i clienti tramite Statuspage aiuta a tenere tutti aggiornati.

Monitoraggio degli imprevisti

Ogni imprevisto viene registrato come issue di Jira, con una issue di follow-up creata per monitorare il completamento delle analisi post mortem. Il processo descritto in questo manuale fa riferimento alla nostra versione fortemente personalizzata di Jira Software, che ha ispirato la creazione di Jira Ops. Di conseguenza, le fasi non corrispondono esattamente alle funzionalità oggi disponibili in Jira Ops.

Le issue relative agli imprevisti vengono in genere create da un tecnico dell'assistenza in risposta a un ticket del cliente o da uno sviluppatore che identifica in un avviso di monitoraggio come un imprevisto. Esortiamo i nostri collaboratori a creare una issue se qualcosa li preoccupa, piuttosto che attendere un'escalation del problema.

In Jira, disponiamo di un semplice flusso di lavoro per monitorare gli imprevisti nel corso della fase di risoluzione e per registrare tutte le azioni importanti intraprese durante la risposta agli imprevisti.

L'Incident manager

Ogni imprevisto è gestito dall'Incident manager (IM), che ha la responsabilità generale e l'autorità decisionale sull'imprevisto. Questa persona è indicata dall'assegnatario sulla issue relativa all'imprevisto. L'Incident manager ha facoltà di intraprendere qualsiasi azione necessaria a risolvere l'imprevisto, incluso contattare chiunque nell'organizzazione e tenere focalizzate sul ripristino più rapido possibile del servizio tutte le parti coinvolte nella risoluzione dell'imprevisto. 

L'Incident manager è un ruolo, non un singolo tecnico incaricato dell'imprevisto. Il vantaggio di definire i ruoli durante la gestione di un imprevisto è che le persone possono essere interscambiabili. A condizione che una determinata persona sappia come svolgere un determinato ruolo, può assumere quel ruolo per qualsiasi imprevisto.

Hai idee o suggerimenti per questa guida?

Ottimo! Puoi inviare il tuo feedback a incident-handbook@atlassian.com e farci sapere cosa ne pensi.

Risposta a un imprevisto

Procedura di risposta e misure da adottare una volta rilevato un imprevisto.

Analisi post mortem degli imprevisti

Come svolgere un'analisi post mortem senza biasimi, identificare le cause e pianificare interventi correttivi.

Cerchi uno strumento che ti aiuti nel processo di gestione degli imprevisti?