Incidencia en shz30

Esta mañana hemos sufrido una incidencia importante en servidor shz30 ubicado en el CPD de Madrid. La incidencia ha afectado al servicio entre las 5:05 y 9:15 de la mañana.

La incidencia ha sido provocada por un fallo en el sistema de almacenamiento compartido que utiliza este servidor.

Nada más detectar el problema hemos intentado resolver el problema por la vía rápida, pero no ha sido posible. Por lo que el tiempo de recuperación del servicio ha sido más largo de lo deseado.

Os pedimos disculpas por este error y os informamos que estamos trabajando para que esto no vuelva a suceder.

Incidencia en shz25

El pasado 12 de Marzo sufrimos una incidencia en el servidor shz25, ubicado en el CPD de Madrid. Y como siempre hacemos, publicamos esta nota para aclarar los sucedido y dejar constancia de la incidencia.

La incidencia fue provocada por un fallo en un componente de hardware del hypervisor que da servicio al servidor, haciendo que el servidor shz25 dejará de responder. Ocurrió sobre las 11:10 de la mañana y para las 12:30 estaba resuelto.

Desgraciadamente, la incidencia provocó una degradación en el sistema de archivos del servidor y tuvimos que apagar el servidor, con el objetivo de corregir la integridad del sistema de archivos y evitar la perdida de datos. Este procesó requirió una hora y media aproximadamente, tiempo en el que el servidor volvió a estar fuera de servicio, concretamente entre las 13:55 y 15:30

Como sabéis, trabajamos activamente para que estos sucesos no ocurran y, de hecho, desde Noviembre del 2014 no hemos sufrido ningún percance tan grave. Las medidas que hemos tomado y seguimos tomando para mejorar nuestro servicio reducen estos problemas al máximo, pero desgraciadamente de vez en cuando ocurren.

Continuamos trabajando para evitar estas situaciones y, en caso de que sucedan, corregirlas en el menor tiempo posible.

Muchas gracias por vuestra confianza, de parte de todo nuestro equipo.

Análisis de la incidencia de hoy

Resumén de lo ocurrido

Hoy, 12 de Noviembre, hemos sufrido una nueva incidencia en nuestra plataforma, el cual ha provocado que varios servidores hayan estado fuera de servicio entre 2 y 7 horas.

El origen de la incidencia ha sido un bug o error de software en el sistema operativo de uno de nuestros sistemas de almacenamiento, el cual ha provocado un kernel panic y el reinicio del mismo.

Tras el reinicio, el sistema de almacenamiento ha perdido parte de los volúmenes de datos que contenía. Hemos corregido la situación importando los datos del sistema en espejo, el cual contenía los datos intactos.

Una vez restaurados los datos, hemos tenido problemas en la conexión iSCSI entre el sistema de almacenamiento y los servidores. Inicialmente hemos pensando en la posibilidad de una perdida de datos completa, por lo que hemos iniciado el procedimiento de restauración de backups. Hemos puesto online algunos servidores a partir de backups.

En cualquier caso, hemos continuado tratando de resolver el mencionado problema de conexión iSCSI y tras reconfigurar algunos aspectos y hacer una restauración de la estructura LVM de los volúmenes, hemos podido reestablecer las conexiones.

Tras ello hemos empezado a reiniciar los servidores fallidos, pero ha fallado el reinicio de todos ellos, viéndonos obligados a hacer un fsck de los discos. Tras el fsck todos los servidores han arrancado.

Qué vamos a hacer

Entendemos las consecuencias que las incidencias de larga duración tienen para nuestros clientes y queremos evitarlo a toda costa.

De hecho, tenemos nuestra infraestructura montada para minimizar incidencias de larga duración y hace años que no sufrimos ninguna, desgraciadamente estas últimas semanas se han juntado varias.

Nuestro objetivo es que esto no vuelva a suceder y vamos a tomar medidas a corto y medio plazo.

Como medidas a corto plazo, vamos a migrar servidores fuera del sistema de almacenamiento que ha fallado y a migrar clientes a nuestra otra plataforma. Nos pondremos en contacto según vayamos programando estás migraciones.

En cuanto a las medidas a medio plazo, vamos a construir una nueva plataforma de hosting que será mucho más tolerante a fallos, con los diferentes servicios totalmente aislados y donde este tipo de incidencias sean imposibles. Os informaremos al respecto en breve.

Incidencia de red

Desde aproximadamente las 13:30 hasta las 17:30 hemos sufrido una incidencia de red que ha afectado de forma intermitente a gran parte de nuestra infraestructura.

La mayoría de servidores lo han sufrido durante menos de 30 minutos, pero los servidores sh23, sh24, sh30, sh32 y alguno más han estado fuera de servicio entre 2 y 3 horas, aunque de no de forma continuada.

La incidencia ha tenido su origen en un ataque de denegación dirigido a parte de nuestra infraestructura. La incidencia ya está controlada y resuelta.

Os pedimos disculpas por los problemas ocasionados.

Mantenimiento en sh22, sh23, sh24, sh30, sh32 y sh36

El sábado y domingo por la noche, entre las 0:00 y 4:00 CEST (hora Madrid) de los días 19 y 20 de Octubre respectivamente, vamos a llevar a cabo tareas de mantenimiento en los servidores sh22, sh23, sh24, sh30, sh32 y sh36.

El sábado migraremos sh22, sh23 y sh32 a un nuevo sistema de almacenamiento, mientras que el domingo noche haremos lo mismo con sh24, sh30 y sh36.

Las migraciones requieren a apagar los servidores, que estarán fuera de servicio entre 25 y 40 minutos.

Estás migraciones tiene como objetivo la mejora del rendimiento de escritura lectura/lectura y son consecuencia de la incidencia sufrida hace unos días en uno de nuestros sistemas de almacenamiento.

Incidencia de red

La incidencia ha sido resuelta sobre las 21:50

Desde aproximadamente las 18:10 CEST o GMT+2 estamos sufriendo problemas de conectividad.

Aún no tenemos claro el alcance de la incidencia, ya que no parece afectar a todos los usuarios.

Estamos trabajando para poder resolver la incidencia lo antes posible.

Os pedimos disculpas por las molestias que esta incidencia os pueda ocasionar.

Incidencia en Correo Corporativo

Hace unas horas hemos detectado problemas en el cluster de almacenamiento de nuestra solución de Correo Corporativo.

Estamos trabajando por resolver el problema cuanto antes, mientras tanto el acceso sigue operativo, pero el servicio funcionará de forma intermitente y puede mostrar un comportamiento errático.

Os pedimos disculpas por los problemas ocasionados, todo volverá a funcionar correctamente en breve.

Mantenimiento de urgencia en sh16, sh17, sh18, sh19, sh20, sh21, sh22 y sh25

Por problemas en uno de los sistemas de almacenamiento de nuestra plataforma cloud, vamos a migrar los servidores de hosting sh16, sh17, sh18, sh19, sh20, sh21, sh22 y sh25 a un nuevo sistema de almacenamiento.

El sistema de almacenamiento presente problemas que parece relacionadas con un fallo de hardware a nivel de placa base, memoria o controladores. Dado que su identificación requerirá bastante tiempo, para minimizar el tiempo de indisponibilidad de servicio es mejor migrarlo todo a otro sistema de almacenamiento.

No hay riesgo de perdida de datos, pero si no llevamos a cabo la mencionada migración de datos es posible que lo haya en el futuro.

La migración de cada uno de los mencionados servidores requerirá de 30 a 45 minutos, tiempo durante el cual estarán fuera de servicio.

La ventana de mantenimiento la hemos definido entre las 23:00 del 6 de Marzo y las 7:00 del 7 de Marzo, en horario CET o GMT+1 (hora de Madrid).

Mantenimiento de urgencia en sh35

[2:25] El servidor vuelve a estar online. Ha estado fuera de servicio unos 45 minutos.

Hemos detectado cierta corrupción en el sistema de archivos del servidor sh35, por lo que acabamos de reiniciar el servidor con el objeto de hacer fsck y corregir cualquier problema antes de que se agrave.

Haciendo el fsck cuanto antes evitamos posible perdida de archivos y disminuimos el tiempo en el que el servidor esta fuera de servicio.