Close

Gestione degli imprevisti per i team high velocity

Le 7 fasi di una risposta efficace agli imprevisti

In the midst of daily operations, an IT leader suddenly receives a barrage of alerts — a service outage threatens to disrupt their system. However the seasoned incident management team has faced similar challenges before and swiftly springs into action. By following a well-rehearsed plan and incident response best practices, they coordinate to mitigate the issue, limit damage, and restore operations, averting customer impact.

Incident response should not be reactionary but a well-defined series of practices and processes that you implement when unforeseen events occur. By understanding the structured incident response lifecycle, companies gain guidance through a strategic framework to swiftly identify, react to, and neutralize disruptions or security threats, ensuring a prompt return to normal operations.

This guide will cover the incident response lifecycle and its phases, the types of security incidents, and essential tools for effective incident management. Additionally, it will address key team members, potential challenges, and insights to streamline and fortify incident response strategies.

Che cos'è la risposta agli imprevisti?

La risposta agli imprevisti è il processo di reazione di un'organizzazione alle minacce IT come attacchi informatici, violazioni della sicurezza e tempo di inattività dei server.

Altri team IT Ops e DevOps possono fare riferimento alla pratica come gestione degli imprevisti gravi o meno.

Processo di Risposta agli imprevisti

Le sezioni seguenti descrivono un processo di risposta agli imprevisti e spiegano cosa fare nei momenti che intercorrono tra la presa di coscienza che un servizio è inattivo e la sua riattivazione, sulla base del materiale contenuto nel nostro Manuale sugli imprevisti.

In questo articolo tratteremo le sette fasi chiave della risposta agli imprevisti:

  1. Rilevazione dell'imprevisto
  2. Configurazione dei canali di comunicazione del team
  3. Valutazione dell'impatto e assegnazione di un livello di gravità
  4. Comunica con i clienti
  5. Escalation agli addetti appropriati
  6. Delega agli addetti alla risposta agli imprevisti
  7. Risoluzione dell'imprevisto
Flusso di lavoro di risposta agli imprevisti

Rilevazione dell'imprevisto

Idealmente, gli strumenti di monitoraggio e avviso rileveranno un imprevisto e ne informeranno il tuo team prima ancora che i tuoi clienti se ne accorgano. Anche se a volte verrai a conoscenza dell'esistenza di un imprevisto da Twitter o dai ticket dell'assistenza clienti.

Indipendentemente dal modo in cui viene rilevato l'imprevisto, il primo passo dovrebbe essere quello di registrare l'apertura di un nuovo imprevisto in uno strumento di monitoraggio dedicato. Una soluzione di gestione degli imprevisti, come Jira Service Management, l'invio di avvisi e le comunicazioni sono integrati nello strumento di monitoraggio.

Configurazione dei canali di comunicazione del team

Una delle prime cose che il Gestore imprevisti (IM) fa quando è operativo è impostare i canali di comunicazione del team addetto agli imprevisti. L'obiettivo ora è organizzare e focalizzare tutte le comunicazioni di questo team su strumenti noti, ad esempio:

  • Chat in Slack o un altro servizio di messaging.
  • Videochat in un'app per conferenze come Zoom (o se siete tutti nello stesso posto, riunione del team in una stanza fisica).

Preferiamo utilizzare sia la videochat che uno strumento di chat di testo durante gli imprevisti, poiché entrambi sono ottimizzati per scopi diversi. La videochat è ottima per creare rapidamente un'immagine mentale condivisa dell'imprevisto attraverso discussioni di gruppo. Inoltre, Slack aiuta a generare un record con data e ora dell'imprevisto, insieme a collegamenti raccolti a screenshot, URL e dashboard.

Slack e la maggior parte degli altri strumenti di chat consentono agli utenti di impostare un argomento della stanza. Il gestore imprevisti deve utilizzare questo campo per fornire informazioni sull'imprevisto e collegamenti utili.

Infine, l'IM imposta il proprio stato chat personale all'identificatore ticket dell'imprevisto che sta gestendo. Questo consente ai colleghi di sapere che l'IM è impegnato nella gestione di un imprevisto.

Preparation

Preparation is the core of an incident response plan and determines a company’s responsiveness to an attack. A well-documented pre-incident process facilitates smooth navigation through intense, high-stress scenarios.

Any company will be more resilient with a robust incident response process based on the Atlassian Incident Handbook.

Identification

This phase involves detecting and verifying incidents through error messages, log files, and monitoring tools. Incidents might be identified through social media or customer support tickets, requiring the response team to manually record the incident in an incident-tracking tool.

Tools like Jira Service Management centralize all alerts and incoming signals from your monitoring, service desk, and logging applications, making it easy to categorize and prioritize issues.

Containment

Once you detect an incident, containment helps prevent further damage. During containment, the response team aims to minimize the scope and effects of an incident.

Eradication

Following containment, the primary focus shifts to removing threats from the company’s network or system. This phase involves a meticulous cleansing of all systems, removing any lingering malicious content to minimize the risk of potential reinfection.

Companies start restoring normal operations by conducting a comprehensive investigation and successfully eliminating threats.

Recovery

After eradicating the threats, the team focuses on restoring the affected systems to their pre-incident state. Data recovery and system restoration are vital for minimizing further losses and ensuring smooth operations.

Lessons learned

Incident debriefings are crucial to refining incident response strategies. The team reviews documentation, evaluates performance, and implements change to enhance incident handling efficiency. Every incident is a learning opportunity for the incident response team.

Tools for effective incident response

Teams need specialized tools, such as security information & event management (SIEM) systems, intrusion detection systems (IDS), forensic tools, and communication platforms, for streamlined incident response processes. 

Tools like Jira Service Management play a critical role in reducing resolution time and negative impacts. They automatically limit noise and surface the most crucial issues to the right team using powerful routing rules and multiple communication channels. 

Valutazione dell'impatto e assegnazione di un livello di gravità

Dopo che i canali di comunicazione del team incaricato della risoluzione dell'imprevisto sono stati impostati, è tempo di valutare l'imprevisto, in modo che il team possa decidere cosa comunicare riguardo l'imprevisto e chi coinvolgere per correggerlo.

Gli IM rivolgono ai propri team la seguente serie di domande:

  • Qual è l'impatto sui clienti (interni o esterni)?
  • Cosa stanno notando i clienti?
  • Quanti clienti sono interessati (alcuni, tutti)?
  • Quando è iniziato il malfunzionamento?
  • Quanti casi di supporto hanno aperto i clienti?
  • Vi sono altri fattori, ad es. Twitter, sicurezza o perdita di dati?

Il passaggio successivo consiste in genere nell'assegnare un livello di gravità.

Incident response: Frequently asked questions

Why is incident response important?

A well-structured incident response plan minimizes incident impacts, enabling businesses to act swiftly and efficiently against threats. It reduces recovery time, financial loss, and reputational damage.

Who should be on an incident response team?

The incident response team should be diverse and include various roles and responsibilities. The team should include the incident commander, technical leads, communications managers, customer support leads, subject matter experts, social media leads, and problem managers. Executives and leaders across multiple domains within the company should coordinate the team.

What are some challenges of incident response?

Incident response teams often face an array of challenges, from resource constraints to issues with context, prioritization, communication, collaboration, stakeholder visibility, and the occasional human error. Preparedness is crucial to anticipate and tackle these challenges effectively. For example, involving the legal team in the preparation stage can mitigate potential legal or regulatory hurdles.

Prossimo contenuto
Best Practices