Saltar al contenido

Datacenter

Algunas de las caídas de grandes Datacenters más curiosas

En uno de los blogs de obligada visita para mantenerse al día en el mundo de los Datacenters (algo así como el hola para esta temática), he encontrado este interesante artículo sobre alguna de las caídas más curiosas que se han producido en Datacenters de gran tamaño. Es antiguo, pero no deja de tener gracia-

 

Para aquellas personas perezosas o que no se manejen demasiado bien con la legua de Shakespeare os dejo un pequeño resumen de los más interesantes.

 

El Bug del “Leap Second”:

Uno de los requisitos en sistemas complejos es que los distintos sistemas deben estar sincronizados horariamente entre si, para lo cual hacen uso de servidores horarios mediante NTP. Debido a las pequeñas variaciones en la rotación de la tierra, periódicamente es necesario introducir una pequeña corrección en los servidores de tiempo, es lo que se denomina comunmente “Leap Second”.

La última corrección dejo fuera de servicio sitios como LinkedIn, Reddit, Mozilla,etc.

 

La ardilla “Chispas”:

Esta es una de esas historias que no puede sino hacernos sonreír. En el mundo de todo duplicado, todo redundado y a prueba de fallos una ardilla dejo fuera de servicio en 2010 el Datacenter de Yahoo en Santa Clara.

ardilla-chispas

La mudanza (versión Diablo sobre Ruedas):

Ya lo decía el maestro Tanembaum, “nunca subestimes el ancho de banda de una furgoneta cargada de cintas” (o algo así). Eso debieron pensar los ingenieros de Time Warner tras comprar el proveedor Alabanza y decidir trasladar los clientes a su Datacenter de Massachusetts, solo que su planificación para el cambio fue:

  • Apagamos los servidores
  • Los montamos en un camión
  • Conducimos varias horas por la autopista has su nuevo destino
  • Encendemos los servidores

resultado…varios clientes estuvieron fuera de servicio durante unas cuantas horas. Un 10 en planificación para estos chicos!!

DiabloSobreRuedas<fotograma de la película el Diablo sobre Ruedas>

as

Ashrae publica el estándar 90.4 para energía en el Datacenter

Después de tener este nuevo estándar durante varios años en el horno, por fin Asharae se ha decidido a publicar su nuevo estándar “90.4-2016, the Energy Standard for Data Centers“.

ashrae_logo_banner

como era de esperar, incluye recomendaciones en cuanto a diseño, construcción, operación y mantenimiento del Datacenter para maximizar su eficiencia.

¿La controversia esta servida?

Después de muchos tiempo evaluando la eficiencia del Datacenter en términos de PUE y DCIE (podéis leer más sobre estos concecptos aquí), ha saltado cierta controversia, ya que en la versión borrador del documento se fijaban niveles máximos de PUE y en la final se ha eliminado toda referencia a esto, ¿el motivo?, desde Ashrae dicen que los Datacenters son infraestructuras de misión critica y que por tanto la gestión del riesgo debe ser prioritaria a la propia mejora de la eficiencia.

Principales Cambios

El estándar 90.4 esta orientado ante todo al rendimiento de los componentes MLC (Mechacnical load components) y ELC (Electrical Loss Component) y se basa en el calculo y posterior comparación de nuestros MLC y ELC con con los máximos “permitidos”. Hay que decir que los valores de ELC y MLC varían  en función de las distintas zonas climáticas.

 

¿Qué opináis de estos cambios?

 

 

 

Huawei IDSx000 Indoor Data Center Solution

Huawei es uno de los principales fabricantes para el Datacenter. Con un portfolio realmente extenso que abarca desde el networking a los containers, pasando por UPS, cooling y servidores, muchas de sus soluciones no son especialmente conocidas (al menos en el mercado Europeo y Latam), un ejemplo de esto podría ser la solución IDSx000 para DataCenters.

A continuación os dejo un pequeño vídeo resumen de este producto:

¿Cual es el PUE recomendable en España?

El PUE se ha transformado en la medida principal de la eficiencia de los Datacenters. La formula para calcularlo es:

Formula_PUEy básicamente mide la diferencia entre el consumo total de electricidad y el que se destina a alimentar el equipamiento IT. No hay que olvidar que actualmente el consumo de la infraestructura necesaria para operar el DC (Clima principalmente), supone entre el 28 y el 30% del consumo de un Datacenter.

 

¿Cuál es el PUE medio en España?

Es difícil de saber, principalmente porque no todos los operadores hacen disponible esta información.

¿Cuál es el PUE recomendable para España?

Nuevamente es difícil de decir, puesto que esto dependerá fundamentalmente de en qué zona geográfica esta ubicada nuestra instalación.

Los chicos de ASHRAE que no pueden perder oportunidad de hacer recomendaciones, van a preparar un nuevo documento donde indicaran en función de la zona en la que este ubicada nuestro CPD, cual es el PUE objetivo.

ashrae_logo_banner¿cuál es la tabla mágica?

Power Usage Effectiveness (Design PUE) Maximum
Climate Zone Design PUE
1A 1.61
2A 1.49
3A 1.41
4A 1.36
5A 1.36
6A 1.34
1B 1.53
2B 1.45
3B 1.42
4B 1.38
5B 1.33
6B 1.33
3C 1.39
4C 1.38
5C 1.36
7 1.32
8 1.30

¿Cómo queda el reparto de zonas?

International_Climate_Zones<fuente Ashrae>

concretamente y para el caso de España

Spain_Climate_Zones<fuente Ashrae>

lo que nos daría un PUE medio de entre 1.36 y 1.41.

Para que os hagáis una idea de lo importante de la ubicación del Datacenter, más el uso de las últimas técnicas os dejo un ejemplo de PUE de uno de los Datacenters de Facebook.

 

PUE_Facebook_Exmaple

<fuente aquí>

¿Puedo bajar la humedad de mi Datacenter?

La humedad relativa en el Datacenter es una de esas grandes desconocidas, quizás no para todos, pero si para muchos managers que desconocen el impacto y efecto de bajarla o subirla en nuestro Datacenter.

¿Cuál es la humedad relativa recomendada?

Normalmente se dice que la HR debe estar entre  el 40 y el 55%, ¿por qué?, por encima del 55% aumentaríamos el riesgo de corrosión, y por debajo del 40%  aumentamos el riesgo de descargas estáticas.

ashrae_1

¿Podemos infringir estos valores?

Por supuesto que podemos, tan solo necesitaremos modificar el setup de nuestras máquinas de clima ;-). Bromas aparte, al igual que con las franjas de temperatura de operación, cada vez hay más managers (incluso la propia ASHRAE) que abogan, por aprovechar la mayor robustez del equipamiento IT, para aumentar el rango de HR permitido.

ashrae_logo_banner

¿Qué ventajas aportaría modificar el rango permitido de HR?

Fundamentalmente una, el ahorro energético. Ashrae va a publicar un Whitepaper destinado a los grandes operadores de Datacenters acerca de este tema. En dicho Whitepaper se indica que hoy por hoy es seguro permitir que la HR baje hasta alrededor de un 8%. Esta indicación se basa en estudios donde comprobaron que la diferencia de electricidad estática es muy pequeña  entre el 8% y el 25%.

No hay que olvidar además que la temperatura y la humedad estan relacionadas, por lo que aumentar estos rangos puede reportar un importante ahorro.

DC en el Datacenter, ¿el futuro?

Hace poco he tenido oportunidad de participar en una charla/debate acerca del sentido o no de usar DC (corriente continua) para alimentar a los servidores en el DataCenter y me ha servido de motivación para escribir este post.

Los que me conocéis o seguís, sabéis que la arquitectura de Sistemas y la explotación de grandes infraestructuras es un tema que me interesa sobremanera, además he tenido la suerte de profesionalmente estar vinculado, bien en proyectos para ellas o directamente como responsable de las mismas.

¿Como es un Datacenter tradicional?

En un Datacenter tradicional, la entrada o suministro de energía se realiza en corriente alterna (por simplicidad vamos a dejar de lado conceptos como baja, media o alta tensión que serían complicar innecesariamente el artículo), después esa corriente alterna se transforma en corriente continua, que es la que pueden almacenar los SAIs, para después volver a convertirse de continua a alterna para alimentar a los servidores. Esto que parece un follón, no termina aquí, pues aún restaría otra conversión de alterna a continua que realizarán las fuentes de alimentación de los servidores para alimentar las componentes internas del propio servidor.

 

En total se realizan las siguientes conversiones AC=>CC (DC) =>CA=>CC(DC),

 

Conversions_AD_DC lo que supone al menos 3 conversiones cada una de ellas con su correspondiente perdida en la transformación (dependerá de lo eficientes que sean nuestros equipos). Fijaos que fuente de ineficiencia más grande, 3 conversiones para llegar a la finalidad última que es alimentar el dispositivo IT.

 

¿Hay otra manera de hacer las cosas?

Por supuesto, con el presupuesto suficiente y los profesionales adecuados siempre la hay ;-).

En grandes Datacenters sobre todo, se estudiando y probando la manera de reducir el nº de transformaciones necesarias desde distinta óptica.

Algunos ejemplos posible serían:

  • Google: Prescinden de la UPS clásica en la entrada o acometida y traslada esta funcionalidad a los servidores, es decir son los servidores los que tienen una pequeña batería que haría las veces de UPS, de esta maneras se convierte de alterna a continua una única vez (en la fuente del servidor)
  • Microsoft: utiliza un enfoque parecido a Google, pero ellos realizan la transformación a continua en la acometida del Rack, situando la batería antes de la alimentación al servidor.
  • Facebook: Son los más creativos sin duda y los que más avanzados (en mi opinión) están en este aspecto. Se van notando además las distintas mejoras fruto del proyecto OpenCompute

DC_Alimentacion_Vaultas-and-EDCS-1<original de la imagen aquí>

¿Tiene sentido esta discusión en el contexto actual español?

Como todo, dependerá de la organización.

En mi experiencia la mayoría de organizaciones aún tienen camino por recorrer en términos de mejora de eficiencia a través de conceptos de diseño de Datacenters mucho más sencillos (puedes leer algunos aquí), o a través de mejoras en la arquitectura de sistemas (Consolidación de servidores a través de la virtualización, Hyperconvergencia, SDN,etc, etc.).

Una organización que aún no conoce sus costes de operación en el Datacenter, que aún no aplica los consejos de ASHRAE, que no mide donde y como se consume la energía difícilmente tendrá la madurez para abordar un proyecto de este tipo y si lo aborda seguramente nunca llegue a saber si el resultado es el adecuado o cuanto se ha mejorado.

y vosotros, ¿qué opináis?