Cómo almacenar petabytes de datos del gran colisionador de hadrones

Cómo almacenar petabytes de datos del gran colisionador de hadrones

El Gran Colisionador de Hadrones (LHC) del CERN es el centro de investigación más importante en el campo de la física. Los datos recopilados en los experimentos 1 y 2 ya se han utilizado para demostrar la existencia de partículas subatómicas no detectadas previamente, ampliando nuestra comprensión general del Universo y cómo se formó. En particular, en 2012, gracias al LHC, se confirmó la existencia del bosón de Higgs.

La escala del experimento del CERN es alucinante. Esto se aplica tanto al tamaño del acelerador de partículas anular, cuyo radio alcanza los 4,3 km, como a la frecuencia de las colisiones de partículas en él: cada segundo, el equipo del LHC registra hasta mil millones de colisiones.

Pero lo más increíble es la cantidad de información generada: las colisiones de partículas generan 1 petabyte (PB) de datos por segundo. Incluso después de seleccionar eventos que interesan a los científicos, el CERN requiere alrededor de 10 PB de espacio de almacenamiento libre cada mes para almacenar y posteriormente analizar nuevos datos.

La información se almacena en el centro de datos del CERN y se transmite a una red de aproximadamente 170 centros de datos para su análisis utilizando la red mundial del LHC, WLCG. Hoy en día, el CERN utiliza 3200 matrices de discos JBOD, que contienen 100.000 discos duros con una capacidad total de 350 PB.

Cómo almacenar petabytes de datos del gran colisionador de hadrones

Con cada nuevo lanzamiento del LHC, se necesita cada vez más espacio libre para la información recibida.

Para almacenar estas colosales cantidades de datos, el CERN utiliza discos duros de Toshiba Electronics Europe desde 2014. Durante tres generaciones de unidades Toshiba, los científicos han estado ayudando a aumentar la capacidad del sistema de manera oportuna, pero ¿es posible continuar este proceso? Según Eric Bonfillou, jefe de planificación y adquisiciones del CERN, «las actualizaciones planificadas de los sistemas del LHC requerirán un aumento tal en los recursos informáticos y la capacidad de almacenamiento que las tecnologías actuales a nuestra disposición pueden no ser suficientes».

Cronología del uso de unidades Toshiba en el CERN

2014: el CERN adquiere las primeras unidades Toshiba

Los discos duros Toshiba se utilizan en el CERN desde 2014. Básicamente, el centro necesita unidades de servidor con alto rendimiento, alta confiabilidad y máxima capacidad. Durante 2013-14, el CERN lleva a cabo la primera fase de cierre planificado del sistema para preparar una nueva ejecución del LHC. Durante este período, el laboratorio está actualizando sus sistemas de almacenamiento mediante la instalación de arreglos JBOD 4U de 24 bahías con discos duros Toshiba MG03SCA400.

Dada la capacidad de 4 GB de cada unidad, la velocidad de rotación de 7200 rpm y la interfaz de transferencia de datos de 6 Gb/s, cada matriz JBOD proporcionó una ganancia del sistema de 96 TB. Los discos duros tienen un tiempo medio entre fallas (MTTF) de 1,2 millones de horas, lo que equivale a una tasa de falla anual esperada (AFR) del 0,72%.

2015/2016 – El CERN comienza la ejecución 2: la necesidad de sistemas de almacenamiento de datos aumenta considerablemente

Con el inicio de Run 2 en 2015, la necesidad de sistemas de almacenamiento aumenta significativamente. El CERN está ampliando la capacidad del sistema utilizando los nuevos discos duros Toshiba SATA de 6 TB, MG04ACA600E. Se vuelven a utilizar matrices JBOD 4U con 24 bahías, aumentando así la capacidad base de cada una de ellas a 144 TB.

El MTTF de este modelo es de 1,4 millones de horas, lo que supone una reducción del AFR de hasta un 0,62%.

2018: Toshiba lanza el modelo MG 07 que utiliza helio y aumenta la capacidad de almacenamiento a 14 TB

Desde 2016, Toshiba ha acelerado el desarrollo y la introducción de nuevos modelos de discos duros empresariales de alta capacidad para satisfacer la demanda global de sistemas de almacenamiento en la nube. La empresa lanza dos nuevas generaciones de discos duros, MG05 y MG06. La capacidad del disco MG06 alcanza los 10 TB. Y aunque el diseño todavía utiliza aire, Toshiba pudo aumentar el MTTF a 2,5 millones de horas, es decir, lograr un AFR del 0,35%, el más bajo del mercado para unidades con carcasas llenas de aire.

Los discos duros de 3,5 pulgadas que utilizan tecnología convencional de grabación magnética (CMR) y carcasas llenas de aire alcanzan el techo de capacidad de 10 TB debido a que su diseño no puede utilizar más de 7 «panqueques».

Aunque en teoría esta limitación podría evitarse utilizando panqueques más finos, el peso del aire ejercería demasiada presión sobre ellos. Una alternativa es utilizar la tecnología de grabación magnética en mosaico (SMR), pero esto requiere un enfoque especial para evitar problemas graves con el rendimiento de la unidad y el uso de sistemas de archivos especiales compatibles con la tecnología.

La actualización de almacenamiento del CERN en 2018 coincide con el lanzamiento de la serie de unidades MG07 de Toshiba, los primeros discos duros para servidores del mundo con capacidades de hasta 14 TB. Gracias a la compra e instalación de una versión de unidades de 12 TB, el CERN puede duplicar la capacidad de cada matriz JBOD, llevándola a 288 TB.

En las unidades MG07, la capacidad aumenta debido al uso de helio en lugar de aire, lo que permite reducir la presión sobre los «panqueques» y utilizar 9 «panqueques» en lugar de 7 sin cambiar el factor de forma del disco duro.

Al utilizar la tecnología de grabación CMR, las unidades MG07 son adecuadas para cualquier carga de trabajo sin los problemas de rendimiento asociados con SMR. Además, el coeficiente de fricción del helio es menor que el del aire, lo que reduce significativamente el consumo de energía para hacer girar los «panqueques». Al ajustar el motor del husillo, el consumo de energía de los discos duros MG07 que utilizan helio se redujo en un tercio (de 11 W a <7 W).

Al mismo tiempo, el MTTF de la nueva línea ha aumentado hasta los 2,5 millones de horas.

Cómo almacenar petabytes de datos del gran colisionador de hadrones

Aumento de los requisitos de almacenamiento para la sesión de ejecución 3

En 2019, el LHC se cerró nuevamente para actualizar los componentes y prepararse para la sesión Run 3 programada para 2021. Teniendo en cuenta que durante su transcurso la instalación generará nueva información mucho más rápido, es necesaria una importante ampliación del sistema de almacenamiento de datos.

Eric Bonfillou señala: “La calidad de los productos y el soporte técnico de Toshiba cumplen plenamente con los estrictos requisitos del CERN. Gracias a las unidades confiables y de alta capacidad de Toshiba, podemos escalar oportunamente la potencia informática y el sistema de almacenamiento del proyecto para satisfacer las crecientes necesidades de cálculos científicos”.

El lanzamiento de las nuevas unidades de 3,5 pulgadas de Toshiba basadas en tecnologías CMR y SMR permitirá al CERN utilizar discos duros de 16 y 18 TB, aumentando así la capacidad total de cada matriz JBOD a 432 TB.

«Los productos Toshiba son muy adecuados para aplicaciones de grandes centros de datos, y el rendimiento de los discos duros Toshiba Enterprise en el exigente entorno de TI del CERN durante tres generaciones es un testimonio de este hecho», afirmó Larry Martínez-Palomo, director general de la división. para la producción de discos duros Toshiba Electronics Europe.

En términos de planes de I+D a largo plazo, Toshiba está desarrollando actualmente una tecnología de grabación magnética de próxima generación que eventualmente permitirá aumentar la capacidad de almacenamiento a 20 TB manteniendo el factor de forma familiar de 3,5 pulgadas.