Continuidad de Negocios – Amazon, Netflix y la computación en la nube

En la pasada navidad, Netflix estuvo más de 23 hs. con problemas en su servicio debido a un inconveniente presentado en su proveedor de servicios en la nube; Amazon AWS.

Tanto Amazon como Netflix han hecho un análisis del evento y han publicado la razón de las más de 23 hs. sin servicio para Netflix en una parte de USA y por ende más de 23 hs. sin facturar en su negocio.

Los detalles se pueden leer en este informe de GigaOM, donde cuentan que la razón principal ha sido;

La causa principal, de acuerdo a AWS: Un desarrollador accidentalmente borro los datos de estado de Elastic Load Balancer

En pocas palabras, un error humano – voluntario o involuntario – costó más de 23 hs. de interrupción de servicio.

Leyendo el artículo se llega a la frase;

El equipo de Elastic Load Balancer, no pudo descubrir la causa principal del problema por varias horas, punto en el cual comenzó el desafiante proceso de intentar recuperar los datos de estado a un punto en el tiempo justo antes del accidente.

Nuevamente la solución a un problema de negocios queda en manos de técnicos – en este caso externos a la organización – que intentan descubrir por horas el problema y no pueden y que en el momento de recuperar el estado de la operación a un determinado momento del tiempo, el proceso no es tan sencillo ni funciona como debe ser.

Algunas reflexiones sobre este punto;

  1. Las interrupciones de negocio y el tiempo de recuperación tienen que ser una decisión del negocio, ante un evento de falla tecnológica, no solo se tienen que enterar los técnicos, las personas de negocio con responsabilidad sobre las operaciones afectadas se tienen que enterar inmediatamente.
  2. Uno de las decisiones importantes de un plan de continuidad, es definir en que momento del tiempo desde que se produjo el incidente, se debe declarar la contingencia ya que el incidente supera el umbral aceptado de interrupción afectando los ingresos de la organización, a partir de ese momento debemos recurrir al respaldo y dejar de intentar solucionar un problema que desconocemos.
    Esta decisión tienen que estar documentada, aprobada por el directorio de la organización y su ejecución tienen que tener responsabilidades asignadas no pudiendo quedar la responsabilidad en un equipo de técnicos y/o en gurúes de tecnología.
  3. Como he dicho en ocasiones anteriores, siempre realiza la prueba de tu plan continuidad pero no solo en periodos programados, sorprende a tu proveedor y realiza la prueba al azar. Netflix y muchos otros lo sufren sacrificando ingresos de sus negocio. Define claramente con tu proveedor cuales serán las condiciones por las que se declarará que la recuperación ha sido exitosa.

Como se puede leer en el informe, Netflix tiene un Gurú de Computación en la Nube que trabaja junto a un equipo para establecer procedimientos de operación de las facilidades.

También como he escrito en alguna oportunidad, cuando los proveedores te dicen que ellos se harán cargo de tus operaciones 24/7, nunca te olvides que de tú lado tiene que existir un equipo de personas que puedan establecer y ejecutar los procesos necesarios para que eso ocurra.

Como estamos viendo con las grandes operaciones de Computación en la Nube, tus responsabilidades y necesidades de personal no son cero, sino que muy posiblemente sean bastantes y este caso te lo muestra. Dos empresas movilizan recursos para solucionar problemas y les lleva nada más que 23hs.

Analiza tú realidad actual y actúa en consecuencia, evita ser el próximo caso que figure en la prensa mundial.

Procesa este inconveniente de acuerdo a lo que lees de la Computación en la Nube y la promesa de Marketing. Para ser más concreto voy a ejemplificar con un artículo que leí no hace mucho;

¿Por qué la nube es confiable y segura?

En un momento el autor se pregunta ¿porqué el cloud es tanto o más seguro que un ambiente on-premises?, y como respuesta se lee lo siguiente;

“Los proveedores de Cloud, desde grandes proveedores como pueden ser Amazon, Microsoft, Google, IBM o VMware hasta pequeños proveedores locales o específicos de algún negocio o servicio, deben sí o sí preocuparse por la seguridad y así lo hacen. Quizás allí es otra vez donde los grandes proveedores sacan una ventaja en el juego, ya que ellos pueden invertir mayor dinero en asesorarse y contratar a especialistas en seguridad que hagan de sus nubes y de sus infraestructuras un servicio muy seguro y quizás es por esto de que el cloud probablemente sea más seguro que la infraestructura on-premises que cada cliente tenga.”

Amazon, líder mundial de provisión de servicios en la nube no ha podido demostrar que esto sea verdad. Se borran datos de producción muy fácilmente – un entorno que demuestra no ser muy seguro – generando más de 23 hs. de interrupción de servicio.

Los varios incidentes producidos durante el año 2012 de falla en los servicios de AWS, demuestran que no necesariamente por ser un proveedor de servicios lo hará mejor que una solución on-premises.

Estamos comenzando un año donde desde la industria de TI y sus empresas analistas aliadas te van a bombardear todo el tiempo con que debes;

  1. Si eres CIO – cambiar tu estrategia por la computación en la nube o tus colegas te dejan afuera de las decisiones.
  2. Si eres un CXO – te van a decir que ahora si te puedes deshacer del CIO y comprar lo que quieras.Si vas a utilizar servicios de computación en la nube comprados con tarjeta de crédito, ten presente que no te olvidarás de los problemas de la entrega de Servicios de Tecnología, posiblemente todo lo contrario, tus operaciones queden en manos de proveedores que no puedan garantizarte en lo más mínimo la seguridad y confiablidad de los servicios.

Sin importar si eres un CIO y/o un CXO, prepárate y prepara a tú organización para que conozcan el riesgo de este tipo de servicios y como recuperarse.

Recuerda la lista de preocupaciones de la computación en la nube de ISACA;

  • Las regulaciones del gobierno a la par con el mercado
  • Las estrategias de salida
  • Privacidad internacional de los datos
  • Cuestiones jurídicas
  • Contrato que bloquea con el proveedor
  • Propiedad de los datos y custodia de las responsabilidades
  • La permanencia en el mercado de los proveedores
  • Integración de la nube con los sistemas internos
  • La credibilidad de los proveedores
  • Pruebas y aseguramiento

Utiliza esta lista para ejemplificar los riesgos y planear acciones de como minimizarlos, no la utilices como un inhibidor y recuerda a tus colegas que;

Si salen en los diarios posiblemente ya será tarde y la pérdida de ingresos puede ser significativa.

Anuncios

¿Qué opinan?

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s