Gestión de la Continuidad del Servicio de TI (ITSCM) Etapas y Claves

Escrito por Adolfo Navarro | May 17, 2024 2:30:00 PM

Es cierto para todas las operaciones actuales: todos los negocios están en riesgo.

El nivel de riesgo varía desde una interrupción temporal del sistema hasta un desastre total causado por una falla de ciberseguridad. Evaluar y planificar proactivamente para eventos imprevistos es fundamental para la capacidad de recuperación de una empresa y para garantizar la resiliencia empresarial. Todo esto forma parte de una gestión efectiva de la Continuidad del Servicio de TI (ITSCM).

¿Qué encontrarás en este artículo?

¿Qué es la Gestión de la Continuidad de los Servicios de TI (ITSCM)?
- Preparación para desastres
- Diferencia entre ITSCM y Gestión de la Continuidad del Negocio
¿Por qué es importante el ITSCM?
- Beneficios de la Gestión de la Continuidad del Servicio de TI
Etapas y claves para implementar la ITSCM
Implementa o mejora la Gestión de la Continuidad del Servicio

¿Qué es la Gestión de la Continuidad de los Servicios de TI (ITSCM)?

La Gestión de la Continuidad de los Servicios de TI es un proceso dentro de la Gestión de los Servicios de TI que se enfoca en la planificación para la predicción, prevención y gestión de incidentes en caso de que ocurra un incidente a nivel de desastre. Es un componente clave de la prestación de servicios tanto de la Biblioteca de infraestructura de TI (ITIL) como de ISO 20000.

A nivel operativo, el objetivo es garantizar que los servicios funcionen de manera óptima cuando ocurra un incidente inevitable. Esto se logra implementando procesos y procedimientos para restaurar los servicios a su condición y estado anterior lo más rápido posible.

Se busca tener un plan para mantener la disponibilidad del servicio y garantizar la Confidencialidad, Integridad y Disponibilidad (CIA) de la infraestructura y los servicios tecnológicos mientras se mantiene el rendimiento en los niveles más altos posibles antes, durante y después de un incidente a nivel de desastre.

Este plan tiene un importante papel dentro del Plan de Continuidad del Negocio (BCP) general y el desarrollo de la resiliencia organizacional.

Tener un plan claro y bien documentado puede ayudar a tu empresa a navegar con facilidad por la multitud de factores que pueden afectar la reanudación de los "servicios normales" después de un incidente.

También puede interesarte: Seguridad en TI: Combinar ISO 20000 e ISO 27001.

Preparación para desastres

La frase “preparación para desastres” puede sugerir de forma aparentemente exagerada el almacenamiento de alimentos enlatados para un apocalipsis zombi, pero no me refiero a eso.

Primero, definamos qué entendemos por desastre. El Business Continuity Institute, define un desastre como: “Un evento repentino no planificado que causa un gran daño o pérdida grave a una organización. Da como resultado que una organización no pueda proporcionar funciones comerciales críticas durante un período mínimo predeterminado”. 

Tres de estos términos clave son subjetivos para cada negocio: daño grande o pérdida grave, función comercial crítica y período de tiempo mínimo. El primer paso en el proceso ITSCM es definir cada una de esas variables de acuerdo con el negocio en cuestión.

A. Gran daño o pérdida grave.

Los grandes daños o pérdidas graves suelen medirse en valor monetario. Aunque la pérdida puede adoptar varias formas, como la caída de una aplicación, la falta de disponibilidad de servicios, daños a la reputación o pérdida de datos, el valor monetario de la pérdida es la medida más común para ITSCM.

Por ejemplo, un sitio de comercio puede saber exactamente cuánto costará la interrupción, pero puede no ser capaz de ser tan preciso sobre el valor monetario. Cuando no se pueden determinar valores exactos, como suele ser el caso, las organizaciones utilizan su experiencia y criterio para determinar el costo de una pérdida de servicio durante un período determinado.

B. Función empresarial crítica.

Las funciones comerciales críticas son actividades o procesos comerciales que deben restaurarse en caso de una interrupción para garantizar la capacidad de proteger los activos de la organización, satisfacer las necesidades organizacionales y cumplir con las regulaciones. Tenga cuidado al evaluar las funciones comerciales críticas, ya que es posible que estas funciones no siempre sean las esperadas. Por ejemplo, digamos que la "nómina" no es una función comercial crítica, ya que los ingresos de la empresa del ejemplo no dependen de la nómina. Sin embargo, si el servicio deja de funcionar a fin de mes y no se puede pagar al personal, ¿cómo afectará esto a la reputación de la empresa y a la moral de la fuerza laboral?  Asegúrese de evaluar todos los escenarios posibles.

C. Período mínimo de tiempo.

Una empresa puede decidir que puede soportar una pérdida de cuatro horas de servicio e implementar procesos y procedimientos para trabajar en cualquier incidente para restaurar su servicio dentro de este período. Pero ¿qué sucede cuando se acercan las cuatro horas sin servicio y aún no se vislumbra una solución? ¿Cuál es el plan ahora? ¿Deberían detener el trabajo de rectificación e invocar el plan de “recuperación de desastres”? Tener un plan y un procedimiento es fundamental: ¿quién tiene la autoridad para invocar un plan de recuperación? ¿Cómo son accesibles? ¿Existe algún contrato que garantice que un servicio no estará inactivo por más de un cierto período de tiempo? Determinar las respuestas a estas preguntas es un paso integral en el plan ITSCM.

Diferencia entre ITSCM y Gestión de Continuidad del Negocio (BCM)

La gestión de la continuidad del negocio es un proceso gestionado fuera de TI que identifica los riesgos para el negocio y trabaja para mitigarlos. Algunos riesgos pueden estar relacionados con TI, incluidos incidentes a nivel de desastre, como amenazas a la seguridad cibernética, y algunos riesgos pueden estar fuera del control de TI, como desastres naturales o incendios de instalaciones. 

Dado que BCM abarca ITSCM y otros procesos de mitigación de riesgos, tiene sentido que los equipos de TI trabajen estrechamente con el equipo de BCM para crear lo siguiente: 

Plan de continuidad del negocio (BCP): incluye planes de prevención y recuperación de incidentes de TI a nivel de desastre. 
Análisis de impacto empresarial (BIA): identifica el posible impacto empresarial de un desastre de TI.

¿Por qué es importante la ITSCM?

Si tu organización cuenta con planes claros para la recuperación del servicio se recuperará más rápida y completamente en caso de interrupciones prolongadas del servicio. Ten en cuenta que ITSCM no se trata de planificar los cortes diarios. Se trata de abordar los peores escenarios y garantizar que, si suceden, causen una interrupción mínima en las vidas de los clientes y empleados.

Los beneficios obvios de una buena práctica ITSCM son:

Si ocurre un desastre, un buen plan ITSCM significa que los servicios esenciales volverán a funcionar rápidamente.
Debido a que la organización siempre está preparada para un incidente importante, se minimizará el impacto en los ingresos, la reputación y más.
Todos en la empresa entienden lo que sucederá en caso de una interrupción importante del servicio y durante cuánto tiempo pueden esperar que los sistemas estén inactivos.

Los incidentes pueden ocurrir en cualquier momento del día o de la noche, desde la interrupción de un servicio de misión crítica, como una interrupción de Internet o una falla de una aplicación, hasta algo aparentemente simple como un disco duro que se queda sin capacidad y causa una cascada de eventos que eventualmente se vuelven igualmente "desastrosos”. Tener un plan de recuperación bien documentado y procedimientos para la continuidad del servicio ayudará a mitigar cualquier retraso en la restauración de sus servicios.

También puede interesarte: Acuerdos de Nivel de Servicio: Clave para el éxito de tu empresa de TI.

Una evaluación de continuidad requiere de la realización de un análisis de costo-beneficio, es decir analizar cuánto cuesta desarrollar acciones preventivas (ya sea inversiones en tecnología, adecuaciones de infraestructura, capacitaciones, contratación de proveedores y servicios especializados) comparado con el daño que una falla de servicio puede provocar si no se toman medidas preventivas.

El problema de esta visión es parecido a la opinión que tienen algunos sobre la contratación de un seguro de auto. Algunos deciden no contratarlo porque “conducen bien” y por eso consideran que no lo requieren… pero cuando desafortunadamente tiene algún accidente, el costo de este puede ser más alto que el costo de su vehículo.

En pocas palabras: las interrupciones son más peligrosas que nunca para la reputación y los ingresos de una empresa.

Beneficios de la Gestión de la Continuidad del Servicio de TI

Menor probabilidad de impacto adverso en caso de falla.
Menor probabilidad de presencia de fallas.
Menor tiempo de recuperación ante fallas.
Recuperación controlada de sistemas.
Reducción del tiempo de inactividad: mayor continuidad del servicio al cliente
Interrupción mínima en el negocio de los departamentos.
Menor probabilidad de pérdida de información.

Etapas y claves para implementar la ITSCM

Paso 1: Identificar los riesgos.

Obviamente, no todos los riesgos pueden cubrirse, por lo que es mejor centrarse en las cosas que son probables, dada la experiencia pasada y la de otras empresas similares en el sector industrial o la ubicación física (determinando qué riesgos ambientales pueden ser más probables).

Identifica los riesgos importantes que son probables y crea una lista. Para comenzar, veamos una lista de riesgos comunes. En una perspectiva anual o de tres años, los siguientes escenarios suelen representar una amenaza para las empresas:

Riesgos ambientales: el hardware corre el riesgo de sufrir inundaciones, incendios, caídas de líneas eléctricas por fuertes vientos, etc.
Riesgos maliciosos: amenazas externas a la seguridad.
Riesgos de planificación: años sabáticos, licencias de larga duración, etc.
Planificación de sucesión: personas que planean irse en diferentes etapas de sus carreras, jubilarse, etc.
Puntos únicos de falla (SPOF): una falla en el diseño, implementación o configuración de un circuito o sistema. Un SPOF derribará todo el sistema en caso de mal funcionamiento.
Obsolescencia: la obsolescencia tecnológica significa grandes inversiones para mantenerse al día.

Una vez que has determinado una lista de riesgos, el siguiente paso es tabular esos riesgos en la Matriz de Riesgos.

En la matriz de riesgos, los riesgos se miden mediante dos índices: probabilidad e impacto.

La probabilidad es la medida de la probabilidad de que ocurra un evento. Dado que la probabilidad nunca será del 0% o del 100%, ¿cómo se debe medir la probabilidad de un evento futuro? Una medida que se utiliza a menudo es la frecuencia con la que el evento ocurrió en el pasado.

Por ejemplo, es posible que el evento en cuestión nunca haya ocurrido, haya ocurrido raramente, haya ocurrido algunas veces o esté sucediendo frecuentemente. Incluso si un evento no le ha sucedido a tu empresa, puede ser una ocurrencia común en tu sector industrial o ubicación física (por ejemplo: banco - objetivo de piratería, ubicación de llanura aluvial - inundación).

Cada empresa puede tener en cuenta su propio criterio y experiencia al determinar la probabilidad, y estos deben medirse.

¿Cómo se mide el impacto? Esta es una métrica variable de una empresa a otra, pero que, como ya vimos, a menudo se mide como "pérdida de ingresos”. Para obtener una estimación aproximada de la pérdida potencial por hora, se dividen los ingresos anuales que genera la empresa por el número de horas de trabajo del año. Utiliza la siguiente ecuación:

Por ejemplo, en un entorno de oficina, que funciona de 9 a 5, de lunes a viernes, hay alrededor de 2,000 horas al año para generar ingresos. Si los ingresos anuales rondan los 5 millones al año, la pérdida potencial por hora es de aproximadamente 2,500 por hora de interrupción del servicio.

Esta es una herramienta muy básica, ya que otros factores, como el daño a la reputación, las sanciones contractuales, las multas legales o reglamentarias y la pérdida de oportunidades, se sumarán a la tasa de pérdidas por hora y deben tenerse en cuenta.

Paso 2: Abordar los riesgos.

Una vez que se han identificado los riesgos clave, quedan varias opciones abiertas para abordarlos:

Evitar: ¿Estás ubicado en una zona propensa a inundaciones costeras? Acerca la probabilidad de riesgo lo más posible al 0% alejando la ubicación de la empresa de la costa.
Reducir: Toma medidas para reducir la probabilidad y disminuir el impacto mediante la instalación de defensa contra inundaciones.
Transferir: Pasa el problema a otra persona. Por lo general, esto se logra con la cobertura de un seguro ante desastres.
Compartir: Mitigar el impacto distribuyendo la carga. Esto puede ser con acuerdos en la cadena de suministro, asociaciones por sector industrial, acuerdos de vecindad, etc.
Aceptar: No hacer nada y aceptar el impacto total del evento en caso de que suceda.

Aquí hay que tomar en cuenta un concepto especial, el “apetito por el riesgo”. Esto se trata de qué tan dispuesta está una empresa a tomar un riesgo (apetito por el riesgo alto) o qué tanto prefiere la empresa mitigar todos los posibles riesgos (apetito por el riesgo bajo), es una forma de ver el sistema de riesgo vs recompensa, y lógicamente determina el resultado de muchas decisiones de seguridad a lo largo del tiempo.

Una empresa puede comprender que es muy poco probable que en un proyecto de construcción vecino a sus instalaciones cometa un error y excave su conexión de cable de internet. La empresa evalúa el costo de instalar un segundo cable para mitigar este evento, y debido al alto apetito por el riesgo deciden no instalar una segunda conexión. Sin embargo, otra empresa también puede considerar también que el riesgo es muy improbable, pero su apetito por el riesgo es bajo y, por lo tanto, invierte en mitigar ese riesgo pagando por una segunda conexión.

Paso 3: Planifica lo peor.

Este es el corazón de ITSCM. Cuando hayas identificado los riesgos clave, determina cuáles de esos riesgos están relacionados con TI. Desde una perspectiva empresarial, el objetivo de ITSCM es reducir el tiempo de inactividad, los costos y el impacto empresarial de los incidentes a nivel de desastre. A un nivel más táctico, los objetivos incluyen:

Trabajar en estrecha colaboración con BCM para proteger la continuidad general del negocio.
Crear y gestionar planes para la continuidad y recuperación del servicio de TI en caso de desastre.
Trabajar con proveedores para minimizar el impacto de cualquier tiempo de inactividad en sus productos y servicios, en lo que se refiere al negocio.
Analizar el riesgo y el impacto y revisar los planes en consecuencia a lo largo del tiempo.

Paso 4: Implementación.

Una vez que se ha acordado la estrategia de BCM, el siguiente paso implica definir el ITSCM a un nivel detallado. Esta etapa incluye:

Establecimiento de grupos o comités de recuperación empresarial y de TI.
Desarrollo del Plan de Continuidad del Servicio de TI (parte del Plan de Continuidad del Negocio).
Desarrollo de planes de implementación de Continuidad de Negocio.
Implementación de cualquier acuerdo de reserva.
Implementación de medidas acordadas de reducción de riesgos.
Desarrollo de planes de recuperación de sistemas y servicios TI.
Desarrollo de procedimientos de recuperación.
Definición y realización de pruebas iniciales.
Definición de procedimientos de mantenimiento y revisión.

Paso 5: Gestión operativa.

Una vez completada la implementación, todos los elementos de BCM deben entregarse a los gerentes y equipos designados para respaldarlo y operarlo. Normalmente se designará un administrador (ITIL Service Continuity Manager o Gerente de Continuidad del Servicio) para gestionar los elementos de TI. Las actividades operativas incluyen:

Educación y concientización: esto incluye tanto la organización general como la organización de TI, en detalle, para las actividades de continuidad del servicio. El objetivo es garantizar que todo el personal conozca el BCP y lo que debe hacer para respaldarlo.
Capacitación: esto es para garantizar que los miembros del equipo de recuperación sean capaces de cumplir con sus obligaciones para facilitar la recuperación.
Revisión: es necesaria una revisión periódica de todo el BCP. Para TI, esto es necesario siempre que haya un cambio significativo en cualquier componente de los sistemas/servicios de producción. Dichos cambios deben realizarse a través de la Gestión de Cambios de ITIL y comunicarse al Gerente de Continuidad del Servicio de ITIL para evaluar el impacto antes de la implementación.
Pruebas: un programa de pruebas periódicas para garantizar que se prueben los sistemas y servicios críticos para el negocio (normalmente al menos una vez al año).
Gestión de cambios ITIL: los planes deben actualizarse después de las pruebas y revisiones e incorporar cambios, por lo que el Gerente de Continuidad del Servicio debe participar estrechamente en el proceso de Gestión de Cambios.
Garantía: esto implica demostrar que la calidad de la operación de ITSCM cumple con los requisitos de la alta dirección empresarial y que los procesos asociados están funcionando satisfactoriamente.

Finalmente: hazte las siguientes preguntas antes de pensar que tienes un plan de continuidad del servicio eficaz.

¿Cómo evaluamos nuestra respuesta actual ante incidentes?
¿Qué directrices estamos siguiendo y cómo se están implementando?
¿Qué tan bien preparados estamos para los diferentes tipos de desastres identificados?
¿Cómo estamos gestionando los riesgos/amenazas inherentes a nuestro negocio?
¿Qué sistemas estamos apoyando actualmente y cómo se está llevando a cabo este apoyo?
¿Hemos identificado correctamente cuáles de estos sistemas son críticos?
¿Cuál es nuestra respuesta planificada para cada tipo de desastre y cómo la estamos evaluando?
¿Dónde se encuentra la información necesaria para apoyar y restaurar los sistemas críticos y cómo se está gestionando?
¿Cómo estamos centralizando esta información y simplificando los procesos de restauración del servicio?
¿Es la información y la documentación del proceso suficientemente colaborativa y revisable por los equipos encargados de su gestión?

Después, tomando en cuenta las respuestas, procede a revisar y/o definir lo siguiente:

Políticas de recuperación de desastres.
Análisis de responsabilidades de TI.
Análisis del impacto de cada riesgo.
Planes y procesos para cada riesgo analizado.
Capacitación y personal asignado para cada actividad de recuperación.

Si logras contar documentalmente con los puntos mencionados en el párrafo anterior tiene un muy buen plan de continuidad. Felicidades.

Implementa o mejora la Gestión de la Continuidad del Servicio de TI en tu organización

En conclusión, la Gestión de la Continuidad del Servicio de TI (ITSCM) es esencial para asegurar que empresas de servicios de TI y departamentos corporativos de TI puedan mantener la operatividad y minimizar el impacto de cualquier interrupción.

La implementación de un marco sólido de ITSCM no solo protege contra riesgos potenciales, sino que también fortalece la resiliencia organizacional, mejora la confianza de los clientes y asegura el cumplimiento de normativas.

En este contexto, nuestros servicios de consultoría pueden ser un aliado clave. Acompañamos a las organizaciones a implementar marcos reconocidos como ISO 20000 e ITIL, de una forma personalizada y sencilla para establecer prácticas efectivas de continuidad del servicio, garantizando así que sus sistemas críticos estén siempre protegidos y preparados para cualquier eventualidad, así como el resto de las prácticas y procesos que ofrecen las normas y modelos internacionales para la gestión de TI.

Ver post completo