Close

Gestione degli imprevisti per i team high velocity

Che cos'è la gestione degli imprevisti?

La gestione degli imprevisti è un processo usato dai team DevOps che consente di rispondere agli eventi non pianificati o alle interruzioni del servizio allo scopo di ripristinarne il funzionamento.

In Atlassian, definiamo un imprevisto come un evento che causa un'interruzione o una riduzione della qualità di un servizio e che richiede una risposta di emergenza. I team che seguono le prassi ITIL o ITSM potrebbero invece usare il termine imprevisto grave per definire un evento di questo tipo.

Manuale sulla gestione degli imprevisti

Scarica il nostro manuale sulla gestione degli imprevisti

Scarica il PDF per scoprire i principi e le pratiche di gestione degli imprevisti e capire come applicare queste lezioni utilizzando Jira Service Management.

Gli imprevisti sono eventi di qualsiasi tipo che interrompono un servizio o ne causano una riduzione della qualità e richiedono una risposta di emergenza. Un malfunzionamento in un'applicazione aziendale è un imprevisto. Anche un forte rallentamento di un server web può essere un imprevisto, perché interferisce con la produttività. Peggio ancora, comporta un rischio persino maggiore di fermo totale dell'attività. Questi tipi di imprevisti possono variare notevolmente in termini di gravità; si passa infatti dall'arresto anomalo di un intero servizio Web globale a un numero limitato di utenti con errori intermittenti.

Un imprevisto è risolto quando il servizio compromesso riprende a funzionare come dovrebbe. Sono incluse solo le attività necessarie per mitigare l'impatto e ripristinare la funzionalità.

L'importanza della gestione degli imprevisti

Valori della gestione degli imprevisti

Valori della gestione degli imprevisti di Atlassian

La gestione degli imprevisti è uno dei processi più critici di cui un'organizzazione ha bisogno per avere successo. Le interruzioni del servizio possono essere costose per l'azienda e i team hanno bisogno di un modo efficiente per rispondere a questi problemi e risolverli rapidamente. I team hanno bisogno di un metodo affidabile per definire le priorità degli imprevisti, risolverli più rapidamente e offrire un servizio migliore agli utenti.

Quando i team si trovano ad affrontare un imprevisto, hanno bisogno di un piano che li aiuti a:

  • Rispondere in modo efficace affinché possano recuperare rapidamente.
  • Rivolgersi in modo chiaro a clienti, stakeholder, responsabili dei servizi e altri membri dell'organizzazione.
  • Collaborare in modo efficace per risolvere il problema più velocemente come team e rimuovere le barriere che impediscono loro di risolverlo.
  • Imparare costantemente da queste interruzioni e applicare le lezioni apprese è indispensabile per migliorare un servizio e perfezionare il processo per il futuro.

Vuoi sapere come Atlassian gestisce gli imprevisti più gravi? Abbiamo pubblicato il nostro manuale interno sulla gestione degli imprevisti. Ti invitiamo a leggerlo attentamente, adattandolo alle tue esigenze e usandolo come meglio credi.

Tipi di processi di gestione degli imprevisti

Tipi diversi di aziende tendono a gravitare verso tipo diversi di processi di gestione degli imprevisti. Non esiste un solo approccio adatto a tutte le aziende, quindi è probabile che aziende diverse adottino approcci diversi.

Molti team si affidano a un processo di gestione degli imprevisti in stile IT più tradizionale, come quelli delineati nelle certificazioni ITIL. Altri team si orientano verso un processo di gestione degli imprevisti più in linea con lo stile Site Reliability Engineer (SRE) o DevOps.

Processo di gestione degli imprevisti IT

Un processo di gestione degli imprevisti aiuta i team IT a indagare sulle interruzioni del servizio, registrarle e risolverle. Il flusso di lavoro di gestione degli imprevisti ITIL mira a ridurre i tempi di inattività e a minimizzare l'impatto sulla produttività dei dipendenti causato dagli imprevisti. Utilizzando modelli progettati per gestire gli imprevisti, è possibile creare un flusso di lavoro di gestione degli imprevisti ripetibile, che consenta ai team di registrare gli imprevisti, diagnosticarli e risolverli, tenendo traccia delle loro attività.

Il framework ITIL è utilizzato principalmente dai team IT che gestiscono servizi all'interno delle aziende. In genere i team prendono ciò di cui hanno bisogno dall'ITIL, che si occipa di quasi ogni tipo di imprevisto, problema e processo che i team IT potrebbero dover affrontare, e lasciano il resto. L'ITIL è ottimo quando i team devono concentrarsi sulla creazione di una cultura di risoluzione attiva dei problemi. I processi prescritti aiutano i team a tenere traccia degli imprevisti e delle azioni in modo coerente, perfezionando la creazione di report e analisi e ottenendo un miglioramento del servizio e del team.

Fasi del processo di gestione degli imprevisti ITimprevisto

Identificazione e registrazione di un imprevisto

Un imprevisto può provenire da qualsiasi luogo: un dipendente, un cliente, un fornitore o un sistema di monitoraggio. Quale che sia l'origine, i primi due passaggi sono semplici: qualcuno identifica un imprevisto, poi qualcun altro lo registra. I registri degli imprevisti (ad esempio, i ticket) in genere includono quanto segue:

  • Il nome della persona che segnala l'imprevisto
  • La data e l'ora in cui è stato segnalato l'imprevisto
  • Una descrizione dell'imprevisto (che cosa non funziona o funziona male)
  • Un numero identificativo univoco assegnato all'imprevisto per il monitoraggio

Categorizzazione

Assegna una categoria logica e intuitiva (e una sottocategoria, se necessario) a ogni imprevisto. Ciò consente di analizzare i dati alla ricerca di tendenze e modelli, ovvero una parte fondamentale per una gestione dei problemi efficace e per prevenire imprevisti futuri.

Definisci le priorità

A ogni imprevisto deve essere assegnata una priorità. Inizia valutando l'impatto che ha sul business, il numero di persone interessate dall'impatto, gli eventuali SLA e le potenziali implicazioni finanziarie, di sicurezza e di conformità. Confronta questo imprevisto con tutti gli altri imprevisti aperti per determinarne la priorità relativa. La best practice prevede la definizione dei livelli di gravità e priorità prima che si verifichi un imprevisto, in modo che i gestori imprevisti possano valutare rapidamente la priorità.

Rispondi

  • Diagnosi iniziale: idealmente, il tuo team di supporto in prima linea può vedere un imprevisto dalla diagnosi alla chiusura, ma se non ci riesce, il passaggio successivo consiste nel registrare tutte le informazioni pertinenti e passarle al team di livello successivo.
  • Inoltro: il team successivo prende i dati registrati e continua con il processo di diagnosi e, se non riesce a diagnosticare l'imprevisto, lo inoltra al team successivo.
  • Comunicazione: il team condivide regolarmente gli aggiornamenti con gli stakeholder interni ed esterni.
  • Analisi e diagnosi: questa fase continua fino a quando non viene identificata la natura dell'imprevisto. A volte i team si rivolgono a risorse esterne o membri di altri reparti che offriranno la loro consulenza e il loro aiuto nel processo di risoluzione.
  • Risoluzione e ripristino: in questa fase, il team arriva a una diagnosi ed esegue i passaggi necessari per risolvere l'imprevisto. Il ripristino implica semplicemente il tempo necessario per il ripristino completo delle operazioni, poiché alcune correzioni (come patch di bug ecc.) potrebbero richiedere attività di test e distribuzione anche dopo aver identificato la risoluzione appropriata.
  • Chiusura: quando l'imprevisto è stato inoltrato, viene infine rinviato al service desk per essere chiuso. Per mantenere la qualità e garantire un processo senza intoppi, solo i dipendenti del service desk sono autorizzati a chiudere gli imprevisti e il responsabile dell'imprevisto deve chiedere conferma alla persona che lo ha segnalato per verificare che la risoluzione sia soddisfacente e che l'imprevisto possa, di fatto, essere chiuso.

Processo di gestione degli imprevisti DevOps e SRE

Con un approccio DevOps o SRE alla gestione degli imprevisti, anche il team che crea il servizio lo esegue e lo risolve in caso di guasto. La popolarità di questo approccio è cresciuta di pari passo con la diffusone di servizi cloud sempre attivi, applicazioni Web accessibili a livello globale, microservizi e software as a service.

Sempre più spesso il software su cui fai affidamento per la vita quotidiana e professionale non viene ospitato su un server nella tua stessa posizione fisica. Si tratta probabilmente di un'applicazione con accesso Web distribuita in un data center per migliaia o milioni di utenti in tutto il mondo. Per i team incaricati di eseguire questi servizi, l'agilità e la velocità sono fondamentali. Infatti, un tempo di inattività può interessare migliaia di organizzazioni, non solo una.

Un vantaggio dell'approccio "lo costruisci, lo esegui" è che offre la flessibilità di cui i team agile hanno bisogno, ma può lasciare spazio a dubbi in merito a chi è responsabile di cosa e quando. I team DevOps possono preferire processi di sviluppo meno strutturati. Tuttavia, è consigliabile creare un insieme di processi di base standard per la gestione degli imprevisti, in modo che non ci siano dubbi su come rispondere nel vivo di un imprevisto e che si possa tenere traccia dei problemi, segnalando come vengono risolti.

Tre convinzioni dei team di gestione degli imprevisti DevOps

  • Essere reperibili a turno: piuttosto che avere alcuni membri del team sempre reperibili, i team DevOps in genere ruotano attraverso un programma di chiamata in cui tutti i membri condividono l'onere di essere risvegliati di notte per rispondere a un imprevisto.
  • L'ingegnere che lo ha costruito è la persona migliore per ripararlo: l'idea centrale alla base del concetto "lo costruisci, lo esegui" è che le persone che hanno più familiarità con il servizio (i costruttori) sono quelle meglio attrezzate per risolvere un'interruzione.
  • Costruisci velocemente, ma in maniera responsabile: se gli ingegneri sanno che loro stessi e i loro colleghi sono in difficoltà durante le interruzioni, sono più motivati ad assicurarsi che stai implementando un codice di qualità.

Questo approccio garantisce tempi di risposta e feedback più rapidi ai team che hanno bisogno di sapere come sviluppare un servizio affidabile.

Nel nostro Manuale sugli imprevisti Atlassian illustriamo un approccio alla gestione degli imprevisti compatibile con DevOps.

Strumenti di gestione degli imprevisti

La gestione degli imprevisti non viene eseguita solo con uno strumento, ma con la giusta combinazione di strumenti, pratiche e persone. Di seguito sono riportate alcune delle categorie di strumenti più comuni per una gestione efficace degli imprevisti:

  • Monitoraggio degli imprevisti: ogni imprevisto deve essere monitorato e documentato in modo da poter identificare le tendenze e fare confronti nel tempo.
  • Chat room: la comunicazione testuale in tempo reale è fondamentale per diagnosticare e risolvere l'imprevisto come team. Inoltre, fornisce un ricco set di dati per l'analisi delle risposte in un secondo momento.
  • Chat video: la chat video integra la chat di testo per molti imprevisti, la chat video del team può aiutare a discutere i risultati e tracciare una strategia di risposta.
  • Sistema di avviso: uno strumento come Jira Service Management si integra con il sistema di monitoraggio e gestisce le rotazioni e le escalation su chiamata.
  • Strumento di documentazione: uno strumento come Confluence può acquisire documenti sullo stato degli imprevisti e analisi retrospettive.
  • Statuspage: la comunicazione della situazione con i membri interni e con i clienti tramite Statuspage aiuta a tenere tutti aggiornati.

Argomenti relativi alla gestione degli imprevisti

Tutorial in primo piano

Vuoi sapere come funziona la gestione degli imprevisti in Jira Service Management?

Iscriviti per più articoli e tutorial

Thank you for subscribing