La importancia de operadores en Datacenter

Datacenter
DataCenter

Los Datacenters

Son aquellos sitios donde además de servidores y cacharros que hacen ruido, generan calor y consumen electricidad, están los operadores.

Los operadores son aquellos que llevan las redes de un lugar a otro, ya sea de tránsito o de puntos neutros como vimos en el post PEERING: Su Importancia en las conexiones.

Los Datacenters no son como casa o las oficinas, que si hay problema con Internet esperamos un poco y listo. Cuando uno de los operadores falla la cosa se puede complicar dependiendo de lo que los responsables hayan decidido arriesgar o asegurar.

Trabajo en el Datacenter de Comvive y en este caso os voy a presentar un caso real que nos ha ocurrido, ya que es la mejor manera de poder presentar con datos e imágenes reales como no tener estos problemas.

El problema:

Durante el día de hoy se nos ha vuelto a caer la línea de Colt  (por segunda vez en 15 días). Toda empresa tiene, o debería tener, sus servicios monitorizados por lo que en el momento que se nos ha caído la línea nos ha saltado una alarma en el sistema de monitorización.

Como es lógico y después de comprobar que todo estaba bien por nuestra parte, la segunda parte ha sido abrir incidencia en la operadora y esperar ( por ahora van 10 horas sin servicio).

¿Y ahora cómo lo solucionamos?

Por nuestra parte no podemos hacer más que esperar a que en nuestro caso los señores de Colt solucionen el problema.

¿Y esto como afecta a los clientes?

Aquí es donde entraba la responsabilidad o el riesgo de los responsables, al igual que podía afectar a los Operadores. Si se ha tenido esto en cuenta el cliente no lo notará más allá de un poco de lentitud en la ruta, a que al no poder salir por un operador saldrá por otro sin mayor problema.

El Ejemplo:

Gráfica de tráfico

En la gráfica se puede ver como la red de Cogent asumió el tráfico que Colt no podía mover, pero que el tráfico total de Comvive no se vio afectado.

¿Por qué no afectó a los clientes del Datacenter?

La red de los Datacenter tiene distintos operadores y se establecen sesiones BGP. La forma de trabajar del BGP es coger todas las rutas que dan los operadores, ordenarlo y usar las mejores rutas de un operador u otro para comunicarse con ellos.

En caso de caída esas rutas desaparecen, por lo que los sistemas BGP reordenan las rutas que tienen y empiezan a usarlas, por lo que es importante que los sistemas tengan varias rutas para que en casos como estos no tengamos problemas de conectividad, sólo temporalmente un operador menos.

¿Qué pasará cuando la linea se restablezca?

Pues al igual que cuando falló la línea, ahora en sentido inverso, los sistemas levantarán la sesión BGP y recibirán las rutas de nuevo, las meterán en sus sistemas y después de reordenarlas empiezan a usarlas como antes del problema.

La solución:

Grafica Solucionado

Una vez solucionada la incidencia ( en este caso fue un problema en un parcheo que corrigieron 26 horas después ) el router levantó la sesión BGP de nuevo, recibió las rutas, y empezó a usarlas como veis en las gráficas. Al igual que cuando la perdió el trafico que antes había subido en Cogent ahora bajó y empezó a salir por Colt, pero en la gráfica general no se notó ninguna incidencia.

Actualizado: 22/03/2.018  17:30 Incidencia Solucionada