Análisis de la incidencia de hoy

Resumén de lo ocurrido

Hoy, 12 de Noviembre, hemos sufrido una nueva incidencia en nuestra plataforma, el cual ha provocado que varios servidores hayan estado fuera de servicio entre 2 y 7 horas.

El origen de la incidencia ha sido un bug o error de software en el sistema operativo de uno de nuestros sistemas de almacenamiento, el cual ha provocado un kernel panic y el reinicio del mismo.

Tras el reinicio, el sistema de almacenamiento ha perdido parte de los volúmenes de datos que contenía. Hemos corregido la situación importando los datos del sistema en espejo, el cual contenía los datos intactos.

Una vez restaurados los datos, hemos tenido problemas en la conexión iSCSI entre el sistema de almacenamiento y los servidores. Inicialmente hemos pensando en la posibilidad de una perdida de datos completa, por lo que hemos iniciado el procedimiento de restauración de backups. Hemos puesto online algunos servidores a partir de backups.

En cualquier caso, hemos continuado tratando de resolver el mencionado problema de conexión iSCSI y tras reconfigurar algunos aspectos y hacer una restauración de la estructura LVM de los volúmenes, hemos podido reestablecer las conexiones.

Tras ello hemos empezado a reiniciar los servidores fallidos, pero ha fallado el reinicio de todos ellos, viéndonos obligados a hacer un fsck de los discos. Tras el fsck todos los servidores han arrancado.

Qué vamos a hacer

Entendemos las consecuencias que las incidencias de larga duración tienen para nuestros clientes y queremos evitarlo a toda costa.

De hecho, tenemos nuestra infraestructura montada para minimizar incidencias de larga duración y hace años que no sufrimos ninguna, desgraciadamente estas últimas semanas se han juntado varias.

Nuestro objetivo es que esto no vuelva a suceder y vamos a tomar medidas a corto y medio plazo.

Como medidas a corto plazo, vamos a migrar servidores fuera del sistema de almacenamiento que ha fallado y a migrar clientes a nuestra otra plataforma. Nos pondremos en contacto según vayamos programando estás migraciones.

En cuanto a las medidas a medio plazo, vamos a construir una nueva plataforma de hosting que será mucho más tolerante a fallos, con los diferentes servicios totalmente aislados y donde este tipo de incidencias sean imposibles. Os informaremos al respecto en breve.

Un pensamiento en “Análisis de la incidencia de hoy

  1. Estupendo. Nos alegra mucho esta transparencia a la hora de dar explicaciones sobre problemas de la infraestructura.
    Seguid informándonos, por favor, esto genera confianza.
    Un saludo
    PD: por supuesto ayer os odiamos bastante

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *