Es cierto para todas las operaciones actuales: todos los negocios están en riesgo.
El nivel de riesgo varía desde una interrupción temporal del sistema hasta un desastre total causado por una falla de ciberseguridad. Evaluar y planificar proactivamente para eventos imprevistos es fundamental para la capacidad de recuperación de una empresa y para garantizar la resiliencia empresarial. Todo esto forma parte de una gestión efectiva de la Continuidad del Servicio de TI (ITSCM).
La Gestión de la Continuidad de los Servicios de TI es un proceso dentro de la Gestión de los Servicios de TI que se enfoca en la planificación para la predicción, prevención y gestión de incidentes en caso de que ocurra un incidente a nivel de desastre. Es un componente clave de la prestación de servicios tanto de la Biblioteca de infraestructura de TI (ITIL) como de ISO 20000.
A nivel operativo, el objetivo es garantizar que los servicios funcionen de manera óptima cuando ocurra un incidente inevitable. Esto se logra implementando procesos y procedimientos para restaurar los servicios a su condición y estado anterior lo más rápido posible.
Se busca tener un plan para mantener la disponibilidad del servicio y garantizar la Confidencialidad, Integridad y Disponibilidad (CIA) de la infraestructura y los servicios tecnológicos mientras se mantiene el rendimiento en los niveles más altos posibles antes, durante y después de un incidente a nivel de desastre.
Este plan tiene un importante papel dentro del Plan de Continuidad del Negocio (BCP) general y el desarrollo de la resiliencia organizacional.
Tener un plan claro y bien documentado puede ayudar a tu empresa a navegar con facilidad por la multitud de factores que pueden afectar la reanudación de los "servicios normales" después de un incidente.
También puede interesarte: Seguridad en TI: Combinar ISO 20000 e ISO 27001.
La frase “preparación para desastres” puede sugerir de forma aparentemente exagerada el almacenamiento de alimentos enlatados para un apocalipsis zombi, pero no me refiero a eso.
Primero, definamos qué entendemos por desastre. El Business Continuity Institute, define un desastre como: “Un evento repentino no planificado que causa un gran daño o pérdida grave a una organización. Da como resultado que una organización no pueda proporcionar funciones comerciales críticas durante un período mínimo predeterminado”.
Tres de estos términos clave son subjetivos para cada negocio: daño grande o pérdida grave, función comercial crítica y período de tiempo mínimo. El primer paso en el proceso ITSCM es definir cada una de esas variables de acuerdo con el negocio en cuestión.
Los grandes daños o pérdidas graves suelen medirse en valor monetario. Aunque la pérdida puede adoptar varias formas, como la caída de una aplicación, la falta de disponibilidad de servicios, daños a la reputación o pérdida de datos, el valor monetario de la pérdida es la medida más común para ITSCM.
Por ejemplo, un sitio de comercio puede saber exactamente cuánto costará la interrupción, pero puede no ser capaz de ser tan preciso sobre el valor monetario. Cuando no se pueden determinar valores exactos, como suele ser el caso, las organizaciones utilizan su experiencia y criterio para determinar el costo de una pérdida de servicio durante un período determinado.
Las funciones comerciales críticas son actividades o procesos comerciales que deben restaurarse en caso de una interrupción para garantizar la capacidad de proteger los activos de la organización, satisfacer las necesidades organizacionales y cumplir con las regulaciones. Tenga cuidado al evaluar las funciones comerciales críticas, ya que es posible que estas funciones no siempre sean las esperadas. Por ejemplo, digamos que la "nómina" no es una función comercial crítica, ya que los ingresos de la empresa del ejemplo no dependen de la nómina. Sin embargo, si el servicio deja de funcionar a fin de mes y no se puede pagar al personal, ¿cómo afectará esto a la reputación de la empresa y a la moral de la fuerza laboral? Asegúrese de evaluar todos los escenarios posibles.
Una empresa puede decidir que puede soportar una pérdida de cuatro horas de servicio e implementar procesos y procedimientos para trabajar en cualquier incidente para restaurar su servicio dentro de este período. Pero ¿qué sucede cuando se acercan las cuatro horas sin servicio y aún no se vislumbra una solución? ¿Cuál es el plan ahora? ¿Deberían detener el trabajo de rectificación e invocar el plan de “recuperación de desastres”? Tener un plan y un procedimiento es fundamental: ¿quién tiene la autoridad para invocar un plan de recuperación? ¿Cómo son accesibles? ¿Existe algún contrato que garantice que un servicio no estará inactivo por más de un cierto período de tiempo? Determinar las respuestas a estas preguntas es un paso integral en el plan ITSCM.
La gestión de la continuidad del negocio es un proceso gestionado fuera de TI que identifica los riesgos para el negocio y trabaja para mitigarlos. Algunos riesgos pueden estar relacionados con TI, incluidos incidentes a nivel de desastre, como amenazas a la seguridad cibernética, y algunos riesgos pueden estar fuera del control de TI, como desastres naturales o incendios de instalaciones.
Dado que BCM abarca ITSCM y otros procesos de mitigación de riesgos, tiene sentido que los equipos de TI trabajen estrechamente con el equipo de BCM para crear lo siguiente:
Si tu organización cuenta con planes claros para la recuperación del servicio se recuperará más rápida y completamente en caso de interrupciones prolongadas del servicio. Ten en cuenta que ITSCM no se trata de planificar los cortes diarios. Se trata de abordar los peores escenarios y garantizar que, si suceden, causen una interrupción mínima en las vidas de los clientes y empleados.
Los beneficios obvios de una buena práctica ITSCM son:
Los incidentes pueden ocurrir en cualquier momento del día o de la noche, desde la interrupción de un servicio de misión crítica, como una interrupción de Internet o una falla de una aplicación, hasta algo aparentemente simple como un disco duro que se queda sin capacidad y causa una cascada de eventos que eventualmente se vuelven igualmente "desastrosos”. Tener un plan de recuperación bien documentado y procedimientos para la continuidad del servicio ayudará a mitigar cualquier retraso en la restauración de sus servicios.
También puede interesarte: Acuerdos de Nivel de Servicio: Clave para el éxito de tu empresa de TI.
Una evaluación de continuidad requiere de la realización de un análisis de costo-beneficio, es decir analizar cuánto cuesta desarrollar acciones preventivas (ya sea inversiones en tecnología, adecuaciones de infraestructura, capacitaciones, contratación de proveedores y servicios especializados) comparado con el daño que una falla de servicio puede provocar si no se toman medidas preventivas.
El problema de esta visión es parecido a la opinión que tienen algunos sobre la contratación de un seguro de auto. Algunos deciden no contratarlo porque “conducen bien” y por eso consideran que no lo requieren… pero cuando desafortunadamente tiene algún accidente, el costo de este puede ser más alto que el costo de su vehículo.
En pocas palabras: las interrupciones son más peligrosas que nunca para la reputación y los ingresos de una empresa.
Obviamente, no todos los riesgos pueden cubrirse, por lo que es mejor centrarse en las cosas que son probables, dada la experiencia pasada y la de otras empresas similares en el sector industrial o la ubicación física (determinando qué riesgos ambientales pueden ser más probables).
Identifica los riesgos importantes que son probables y crea una lista. Para comenzar, veamos una lista de riesgos comunes. En una perspectiva anual o de tres años, los siguientes escenarios suelen representar una amenaza para las empresas:
Una vez que has determinado una lista de riesgos, el siguiente paso es tabular esos riesgos en la Matriz de Riesgos.
En la matriz de riesgos, los riesgos se miden mediante dos índices: probabilidad e impacto.
La probabilidad es la medida de la probabilidad de que ocurra un evento. Dado que la probabilidad nunca será del 0% o del 100%, ¿cómo se debe medir la probabilidad de un evento futuro? Una medida que se utiliza a menudo es la frecuencia con la que el evento ocurrió en el pasado.
Por ejemplo, es posible que el evento en cuestión nunca haya ocurrido, haya ocurrido raramente, haya ocurrido algunas veces o esté sucediendo frecuentemente. Incluso si un evento no le ha sucedido a tu empresa, puede ser una ocurrencia común en tu sector industrial o ubicación física (por ejemplo: banco - objetivo de piratería, ubicación de llanura aluvial - inundación).
Cada empresa puede tener en cuenta su propio criterio y experiencia al determinar la probabilidad, y estos deben medirse.
¿Cómo se mide el impacto? Esta es una métrica variable de una empresa a otra, pero que, como ya vimos, a menudo se mide como "pérdida de ingresos”. Para obtener una estimación aproximada de la pérdida potencial por hora, se dividen los ingresos anuales que genera la empresa por el número de horas de trabajo del año. Utiliza la siguiente ecuación:
Por ejemplo, en un entorno de oficina, que funciona de 9 a 5, de lunes a viernes, hay alrededor de 2,000 horas al año para generar ingresos. Si los ingresos anuales rondan los 5 millones al año, la pérdida potencial por hora es de aproximadamente 2,500 por hora de interrupción del servicio.
Esta es una herramienta muy básica, ya que otros factores, como el daño a la reputación, las sanciones contractuales, las multas legales o reglamentarias y la pérdida de oportunidades, se sumarán a la tasa de pérdidas por hora y deben tenerse en cuenta.
Una vez que se han identificado los riesgos clave, quedan varias opciones abiertas para abordarlos:
Aquí hay que tomar en cuenta un concepto especial, el “apetito por el riesgo”. Esto se trata de qué tan dispuesta está una empresa a tomar un riesgo (apetito por el riesgo alto) o qué tanto prefiere la empresa mitigar todos los posibles riesgos (apetito por el riesgo bajo), es una forma de ver el sistema de riesgo vs recompensa, y lógicamente determina el resultado de muchas decisiones de seguridad a lo largo del tiempo.
Una empresa puede comprender que es muy poco probable que en un proyecto de construcción vecino a sus instalaciones cometa un error y excave su conexión de cable de internet. La empresa evalúa el costo de instalar un segundo cable para mitigar este evento, y debido al alto apetito por el riesgo deciden no instalar una segunda conexión. Sin embargo, otra empresa también puede considerar también que el riesgo es muy improbable, pero su apetito por el riesgo es bajo y, por lo tanto, invierte en mitigar ese riesgo pagando por una segunda conexión.
Este es el corazón de ITSCM. Cuando hayas identificado los riesgos clave, determina cuáles de esos riesgos están relacionados con TI. Desde una perspectiva empresarial, el objetivo de ITSCM es reducir el tiempo de inactividad, los costos y el impacto empresarial de los incidentes a nivel de desastre. A un nivel más táctico, los objetivos incluyen:
Una vez que se ha acordado la estrategia de BCM, el siguiente paso implica definir el ITSCM a un nivel detallado. Esta etapa incluye:
Una vez completada la implementación, todos los elementos de BCM deben entregarse a los gerentes y equipos designados para respaldarlo y operarlo. Normalmente se designará un administrador (ITIL Service Continuity Manager o Gerente de Continuidad del Servicio) para gestionar los elementos de TI. Las actividades operativas incluyen:
Finalmente: hazte las siguientes preguntas antes de pensar que tienes un plan de continuidad del servicio eficaz.
Después, tomando en cuenta las respuestas, procede a revisar y/o definir lo siguiente:
Si logras contar documentalmente con los puntos mencionados en el párrafo anterior tiene un muy buen plan de continuidad. Felicidades.
En conclusión, la Gestión de la Continuidad del Servicio de TI (ITSCM) es esencial para asegurar que empresas de servicios de TI y departamentos corporativos de TI puedan mantener la operatividad y minimizar el impacto de cualquier interrupción.
La implementación de un marco sólido de ITSCM no solo protege contra riesgos potenciales, sino que también fortalece la resiliencia organizacional, mejora la confianza de los clientes y asegura el cumplimiento de normativas.
En este contexto, nuestros servicios de consultoría pueden ser un aliado clave. Acompañamos a las organizaciones a implementar marcos reconocidos como ISO 20000 e ITIL, de una forma personalizada y sencilla para establecer prácticas efectivas de continuidad del servicio, garantizando así que sus sistemas críticos estén siempre protegidos y preparados para cualquier eventualidad, así como el resto de las prácticas y procesos que ofrecen las normas y modelos internacionales para la gestión de TI.