Proceso de Gestión de Incidentes Mayores

Un proceso de gestión de incidentes importantes es imprescindible para las organizaciones, ya que les ayuda a minimizar el impacto empresarial de un incidente importante. El proceso de gestión de incidentes importantes consta principalmente de los siguientes pasos:

Explicar las 4 etapas principales de un incidente mayor

Etapa 1: Identificación

Declarando el incidente mayor:

El primer paso es identificar posibles incidentes importantes. Es importante que las organizaciones establezcan varios métodos para identificar amenazas. Los técnicos pueden señalar los incidentes importantes cuando se topan con tickets inusuales, o pueden detectarlos soluciones como las herramientas de monitoreo de red que pueden señalar automáticamente un problema de red y crear un ticket para alertar al servicio de asistencia. Las organizaciones también pueden establecer una línea directa exclusiva para que el personal del servicio de asistencia señale los incidentes importantes sospechosos.

Informar a las partes interesadas:

Una vez que se ha identificado un incidente importante, es necesario comunicarlo a todas las partes interesadas clave. Hay cuatro grupos principales a los que se debe informar sobre los incidentes importantes:

Equipo técnico: Es importante informar al equipo técnico inmediatamente para que puedan comenzar a decidir el curso de acción para solucionar el problema.
Gestión: Mantener a la alta dirección, como el CIO, informada sobre los incidentes importantes ayuda a la rendición de cuentas. Las organizaciones también deben mantener a la dirección informada de todos los pasos que se toman para solucionar los incidentes importantes.
Partes interesadas clave: Los jefes de departamento y el personal de gestión empresarial a nivel de servicio también necesitan estar informados de los incidentes importantes y recibir actualizaciones de estado periódicas.
Usuarios: Los usuarios necesitan saber qué servicios pueden no estar disponibles debido a un incidente importante.

Etapa 2: Contención

Formación del equipo de incidentes mayores:

Un equipo de incidentes importantes, o MIT por sus siglas en inglés, está formado por técnicos, jefes de gestión de nivel de servicio y otras partes interesadas clave; a veces se contrata personal externo altamente capacitado para abordar un incidente importante. El MIT trabaja en conjunto para encontrar una solución al incidente importante y hacer que las operaciones vuelvan a la normalidad.

Configuración de un puente de conferencia:

Un puente de conferencia, más conocido como llamada en conferencia, ayuda a resolver problemas de manera eficaz y a centralizar la comunicación. Actúa como un canal de comunicación claro y rápido entre los miembros del MIT.

Preparando una sala de guerra designada:

Tener una sala de operaciones designada permite que todos los miembros del MIT se reúnan y resuelvan el incidente. Esto aumenta los esfuerzos de colaboración y ayuda al MIT a encontrar una solución más rápidamente.

Creación de un ticket de problema para identificar problemas subyacentes:

Se puede crear un ticket de problema para descubrir y comprender la causa raíz del incidente importante. Esto puede ayudar a prevenir incidentes importantes similares en el futuro al abordar las causas del incidente principal.

Etapa 3: Resolución

Implementar el plan de resolución como un cambio:

Es una buena práctica implementar la solución para el incidente principal como un cambio para garantizar que la resolución se documente e implemente correctamente. Implementar la resolución como un cambio minimiza el riesgo de que una resolución fallida interrumpa otros servicios.

Etapa 4: Mantenimiento

Realizar una revisión posterior a la implementación:

Es importante hacer un balance del incidente a lo largo del tiempo para asegurarse de que se haya resuelto por completo. Si los problemas subyacentes quedan sin resolver, podrían dar lugar a otro incidente importante.

Producir documentación clara:

Documentar todo el proceso de resolución del incidente importante ayuda a la organización a prepararse para incidentes similares en el futuro. Con la documentación adecuada de incidentes pasados, la organización puede implementar la solución probada y comprobada de inmediato cuando se enfrente a otro incidente importante similar, lo que reducirá su impacto.

Medición de métricas:

Medir el rendimiento del servicio de asistencia técnica ayuda a evaluar la eficacia del servicio de asistencia técnica y del proceso MIM. Algunas métricas importantes que se pueden medir son el tiempo medio de reconocimiento (MTTA), el tiempo medio de resolución (MTTR), la cantidad total de incidentes importantes y el tiempo de inactividad promedio para incidentes importantes.