Business impact and transparency: expressing system availability.
¡El mes pasado la disponibilidad del sistema fue 99.83%! ¡Esto es mayor que la del mes anterior de 99,75%!»
Suena bien, ¿no? Quiero decir, eso es un gran número, ¿verdad? ¿No?
En realidad, no. No es un número muy útil, en sí mismo. De hecho, considero que la publicación de indicadores como el tiempo de disponibilidad, como un síntoma lamentable de que TI se centra en los aspectos técnicos, en lugar del impacto en el negocio. Aquí hay una discusión de por qué yo lo veo de esa manera, seguido por una presentación de un enfoque alternativo que ofrece mucho más valor de negocio.
Entonces, ¿qué hay de malo con una métrica de larga tradición como «la disponibilidad del sistema fue 99,83%»?
- El número es engañoso. Pocas personas pueden traducir mentalmente «99,83% de disponibilidad» en un número real más significativo, como «el sistema estuvo caído 1,3 horas el mes pasado. «Menos aún se puede ver la diferencia real entre un 99,3% de disponibilidad (también suena bastante bien, ¿verdad?) y 99,8% de disponibilidad. Ambos 99,3% y 99,8% son vistos (para la gran mayoría de la gente de negocios) a primera vista como números bastante buenos para el tiempo de disponibilidad, pero el primero representa más de tres veces el número de «horas caído» que el segundo.
- El número no está bien definido. Se plantea la cuestión de lo que se considera interrupción: ¿qué si el sistema solo tuvo problemas de performance? ¿Quién decide que está caído? ¿Quién declara que es una copia de seguridad? Todos hemos visto situaciones en las que un técnico insiste en que el sistema está disponible, a pesar de que nadie es capaz de acceder u obtener un rendimiento suficiente para que realmente se utilice.
- En el número no suele comprenderse que incluye. En particular, muchos no tienen en cuenta el mantenimiento programado como el tiempo de inactividad al calcular su métrica de disponibilidad. Cuando no se tiene en cuenta el mantenimiento programado, posiblemente estás ignorando muchas horas de impacto real en el negocio por mes. Mantenimiento programado no puede ser un «pase libre» para el tiempo de inactividad.
- El número no compara manzanas con manzanas. Sólo el seguimiento del tiempo de inactividad total considera todas las interrupciones de la misma, sin importar el momento o situación. Un corte de diez minutos a mediodía puede afectar a su empresa mucho más que una interrupción de una hora a las 3 de la mañana. Un corte que se produce cuando se está ejecutando una campaña clave para llevar a la gente a su sitio, puede ser especialmente devastador.
Alternativas
Mejor que las métricas del estilo «tiempo de actividad del 99,83%» es la presentación de informes sobre el número específico de horas o minutos del sistema caído en el período. Es cuando el sistema esta caído que se impacta en el negocio, entonces porque no usar eso como su patrón, en lugar de a la inversa. Algunos llaman a esto «horas de impacto». Afirmar que el sistema no estuvo disponible durante 20 minutos la semana pasada es mucho más claro (¡aunque a veces más penoso!) para las personas de negocio, en comparación a decir que estuvo disponible el 99,8%. Aun así, sin embargo, expresar la figura como horas caído no aborda los problemas mencionados anteriormente.
La idea subyacente es que las estadísticas, ya sea que estén expresadas como un porcentaje de tiempo de actividad o como horas de inactividad, no son más que un indicador de impacto en el negocio. Y no muy buenos, por las razones expuestas.
He aquí una idea radical: el objetivo no es simplemente informar y reducir el tiempo de inactividad por sí mismo. En su lugar, quieren evaluar, promulgar, y después trabajar, el impacto total en el negocio de los cortes, y para hacerlo con eficacia, es necesario pesar las interrupciones por hora del día y el tráfico. Y es necesario incluir todos los cortes en su evaluación de impacto en el negocio, incluido el mantenimiento.
¿Cuál es la expresión más clara del impacto en el negocio? En pocas palabras: DINERO. ¿Cuál fue el costo de una falla dada para la compañía, en términos de ventas perdidas y gastos perdidos? Sí, hay muchos factores y supuestos implícitos en esta averiguación, pero para esto están los modelos. Hacer algunas suposiciones y construir un modelo que calcula el costo específico, en dinero, para un corte sobre la base de información acerca de la duración de la interrupción, el patrón de tráfico del sitio en el momento de la interrupción, etc.
Hicimos exactamente esto en un sitio de Internet donde el flujo de ingresos fue del orden de un millón y medio de dólares a la semana. Hemos incorporado consideraciones como las siguientes en nuestro modelo:
- Después de un análisis, nos dimos cuenta de que cualquier interrupción daba como resultado suscripciones perdidas, publicidad del sitio, y las suscripciones para los servicios de asociados de los que se derivan ingresos de la compañía. Necesitábamos el modelo para incorporar la comprensión de los patrones y los costos en dólares para cada uno de estos.
- También nos dimos cuenta de que un corte también significaba que habíamos perdido el dinero gastado en publicidad externa en Internet durante la caída que impulsaba gente a nuestro.
- Interrupciones en diferentes momentos (horas del día, más bien el día de la semana) eran muy diferentes a nuestro sitio en términos de impacto en el negocio y costo. El tiempo específico de la interrupción necesitaba ser una parte clave de los cálculos del impacto en el negocio.
- El impacto de la Interrupción depende también de si se trataba de un día de mucho tráfico o no. Un día de mucho tráfico puede suponer más de diez veces el volumen normal de operaciones y tráfico y, una interrupción en ese punto podría decirse que nos ha costado diez veces más.
- No todos los cortes fueron totales: a veces el rendimiento se degrada, pero aún se sigue accediendo. Hemos decidido incorporar un » % de degradación» a los parámetros en el modelo para una interrupción, reconociendo que la decisión sobre ese porcentaje sería un juicio por cualquier interrupción.
- Como se ha señalado, la mayoría de los sitios no tienen en cuenta el mantenimiento programado en el tiempo de inactividad. Pero eso sigue siendo una pérdida de ingresos. La evaluación del impacto en la empresa requiere tanto ser conservativo como una total transparencia. Hemos decidido incluir todos los cortes, programados o no, cuando publicamos nuestras métricas de impacto en el negocio.
Crear el modelo requiere no sólo algunas habilidades de los adeptos a las hoja de cálculo, pero la acumulación inicial (y la actualización periódica) de varias base de datos para impulsar los cálculos. En concreto, para cada hora y día de la semana, tuvimos que:
- Recoger y promediar los datos históricos agregados de tráfico
- Recoger y promediar los números agregados de los ingresos por ventas
- Determinar la forma de calcular los ingresos probables por publicidad
Una vez construido, nuestro modelo no solo nos deja expresar nuestro tiempo de inactividad en términos de impacto real en el negocio (es decir, el total de dólares durante un período determinado), sino que también proporciona una forma inmediata de analizar, desde el principio, el costo específico de una parada programada. Usando esto como una herramienta, la gestión podría evaluar con mucha mejor eficacia las alternativas y los costos de oportunidad de cuando intervenir en el sistema para hacer frente a diversos problemas que se están considerando.
He aquí una instantánea de las entradas del modelo (en amarillo) y sus resultados, ligeramente modificado para su presentación:
A partir de aquí, es un pequeño paso para el registro y seguimiento de los costos totales estimados a través de un determinado período de tiempo como un mes. (Usted debe prever, por cierto, que la divulgación del costo total en dólares de los cortes suele invocar mucha más atención y comentarios que la cifra porcentual al ¡viejo estilo nunca hecho! La Transparencia trae control. Esta es una buena cosa.)
Sí, los cálculos y agregaciones fueron necesarios para llegar a estos costos aproximados, es sólo un modelo, después de todo, con todo tipo de supuestos incorporados. Y las estimaciones nunca serán completamente perfectas. Pero aun así, ellos estarán mucho mejor para ayudarnos a aprender a expresar el impacto de negocio aproximado de su tiempo de inactividad, que solo declarar con orgullo que tiempo de disponibilidad el sistema fue de «99,83% el mes pasado.
Traducido desde el original con el permiso de Peter Kretzman