Close

Gestione degli imprevisti per i team high velocity

Manuale degli imprevisti Atlassian

I team che gestiscono servizi tecnici oggi sono chiamati a garantirne la disponibilità 24 ore su 24, 7 giorni su 7.

Quando si verifica un problema, che sia un'interruzione dell'attività o una sospensione delle funzionalità, i membri del team devono rispondere immediatamente e ripristinare il servizio. Questo processo viene chiamato gestione degli imprevisti e rappresenta una sfida continua e complessa per aziende di grandi e piccole dimensioni.

Noi vogliamo aiutare i team, ovunque si trovino, a migliorare la loro gestione degli imprevisti. Ispirati da team come Google, abbiamo creato questo manuale come riepilogo del processo di gestione degli imprevisti di Atlassian. È il risultato degli insegnamenti appresi in oltre un decennio di attività di risposta agli imprevisti. Benché basato sulle nostre esperienze specifiche, ci auguriamo che possa essere adattato alle esigenze del tuo team.

Manuale sulla gestione degli imprevisti

Scarica il manuale in formato cartaceo o PDF

Il nostro Manuale sulla gestione degli imprevisti è disponibile in un numero limitato di copie cartacee che spediamo gratuitamente. In alternativa, puoi scaricare una versione PDF.

Noi vogliamo aiutare i team, ovunque si trovino, a migliorare la loro gestione degli imprevisti. Ispirati da team come Google, abbiamo creato questo manuale come riepilogo del processo di gestione degli imprevisti di Atlassian. È il risultato degli insegnamenti appresi in oltre un decennio di attività di risposta agli imprevisti. Benché basato sulle nostre esperienze specifiche, ci auguriamo che possa essere adattato alle esigenze del tuo team.


A chi è destinata questa guida?

Se fai parte di un team operativo o di sviluppo che si occupa di servizi Internet per clienti che richiedono una disponibilità di 24 ore su 24, questo manuale è per te.


Che cos'è un imprevisto?

Definiamo un imprevisto come un evento che causa un'interruzione o una riduzione della qualità di un servizio e che richiede una risposta di emergenza. I team che seguono le prassi ITIL o ITSM potrebbero invece usare il termine imprevisto grave per definire un tale evento.

Un imprevisto è risolto quando il servizio compromesso riprende a funzionare normalmente. La risoluzione comprende solo le attività richieste per il ripristino della piena funzionalità.

L' analisi post mortem di un imprevisto viene svolta dopo l'imprevisto per determinare la causa primaria e assegnare azioni per assicurare che tale causa sia affrontata prima che l'imprevisto possa ripetersi.


I nostri valori inerenti gli imprevisti

Un processo per la gestione degli imprevisti non può coprire tutte le situazioni possibili, pertanto forniamo ai nostri team una guida generale sotto forma di valori. Analogamente ai valori aziendali Atlassian, i nostri valori per la gestione degli imprevisti sono studiati per:

  • Aiutare persone e team a prendere decisioni in autonomia in caso di imprevisti e analisi retrospettive.
  • Sviluppare una cultura coerente tra i vari team circa il modo in cui individuiamo e gestiamo gli imprevisti e impariamo da questi episodi.
  • Allineare i team sull'attitudine di cui devono dare prova in ogni fase dell'identificazione e della risoluzione degli imprevisti e della successiva riflessione critica.
Stage Valore dell'imprevisto Valore Atlassian rapportabile Motivazione
1. Rileva Atlassian lo sa prima che lo sappiano i clienti

Crea con passione ed equilibrio

Un servizio bilanciato include strumenti di monitoraggio e notifica sufficienti a rilevare gli imprevisti prima che lo facciano i nostri clienti.

Il miglior monitoraggio ci avvisa dei problemi prima ancora che diventino imprevisti.

2. Rispondi La parola d'ordine è: escalation

Gioco di squadra

A nessuno piace essere svegliato nel cuore della notte e non ci assumiamo questa responsabilità alla leggera. Può succedere, tuttavia, che le persone vengano tirate giù dal letto per un imprevisto per poi scoprire che la loro presenza non era necessaria. Di solito la cosa più difficile è svegliarsi per un imprevisto grave e dover recuperare il ritardo causato dal fatto che l'avviso avrebbe dovuto essere inviato prima.

Non abbiamo sempre tutte le risposte, quindi "non esitiamo a fare escalation".

3. Ripristina I guai capitano; l'importante è fare presto a risistemare Non !@#$ il cliente

Ai nostri clienti non interessa sapere perché il loro servizio non funziona, ma solo che lo ripristiniamo il più velocemente possibile.

Sii sempre tempestivo nella risoluzione di un imprevisto, in modo da ridurre al minimo l'impatto sui clienti.

4. Impara Evitare sempre di dare colpe Promuovi un'azienda aperta, non solo a parole Gli imprevisti fanno parte della normale gestione dei servizi. Noi miglioriamo i nostri servizi responsabilizzando i team, non addossando colpe.
5. Migliora Mai incorrere due volte nello stesso imprevisto Avvia il cambiamento, iniziando da te

Identificare la causa e le modifiche che eviteranno il ripetersi dell'intera categoria di imprevisti.

Impegnarsi a implementare modifiche specifiche entro precise scadenze.


Requisiti degli strumenti

Il processo di gestione degli imprevisti qui descritto utilizza vari strumenti specifici di Atlassian , che all'occorrenza possono essere sostituiti con altri:

  • Monitoraggio degli imprevisti: ogni imprevisto viene registrato come ticket Jira, con un ticket di follow-up creato per monitorare il completamento delle analisi retrospettive (Atlassian utilizza una versione fortemente personalizzata di Jira Software).
  • Chat - un canale di comunicazione testuale in tempo reale è fondamentale per diagnosticare e risolvere l'imprevisto con un lavoro di squadra.
  • Videochat - per molti imprevisti, una videochat di team come Blue Jeans può aiutare a discutere e concordare gli approcci.
  • Sistema di notifica - uno strumento come OpsGenie gestisce le rotazioni e le escalation su chiamata.
  • Strumento di documentazione - noi utilizziamo Confluence per i nostri documenti sullo stato degli imprevisti e per la condivisione delle analisi post mortem tramite blog.
  • Statuspage - la comunicazione della situazione con i membri interni coinvolte e con i clienti tramite Statuspage aiuta a tenere tutti aggiornati.

Monitoraggio degli imprevisti

Ogni imprevisto viene registrato come ticket Jira, con un ticket di follow-up creato per monitorare il completamento delle analisi retrospettive. Il processo descritto in questo manuale fa riferimento alla nostra versione altamente personalizzata di Jira Software.

Le issue relative agli imprevisti vengono in genere create da un tecnico dell'assistenza in risposta a un ticket del cliente o da uno sviluppatore che identifica in un avviso di monitoraggio come un imprevisto. Esortiamo i nostri collaboratori a creare una issue se qualcosa li preoccupa, piuttosto che attendere un'escalation del problema.

In Jira, disponiamo di un semplice flusso di lavoro per monitorare gli imprevisti nel corso della fase di risoluzione e per registrare tutte le azioni importanti intraprese durante la risposta agli imprevisti.


L'Incident manager

Ogni imprevisto è gestito dal gestore imprevisti (IM), che ha la responsabilità generale e l'autorità decisionale in merito all'imprevisto. Il gestore imprevisti è indicato dall'assegnatario nel ticket relativo all'imprevisto. Il gestore imprevisti ha la facoltà di intraprendere qualsiasi azione necessaria per risolvere l'imprevisto, tra cui contattare qualsiasi persona nell'organizzazione e far sì che tutti gli stakeholder coinvolti in un imprevisto restino focalizzati sul ripristino del servizio nel più breve tempo possibile.

L'Incident manager è un ruolo, non un singolo tecnico incaricato dell'imprevisto. Il vantaggio di definire i ruoli durante la gestione di un imprevisto è che le persone possono essere interscambiabili. A condizione che una determinata persona sappia come svolgere un determinato ruolo, può assumere quel ruolo per qualsiasi imprevisto.


Have ideas or suggestions for this guide?