Historia del Big Data – Parte 2
En la primera parte del artículo hablamos de la historia del surgimiento de big data y definimos este término, ahora veremos ejemplos y áreas de aplicación, y también hablaremos de las tecnologías que se utilizan en Big Data.
Introducción
El informe sobre los problemas asociados con 3V se publicó por una razón. Ya a finales de los 90, industrias como los motores de búsqueda analizan y mejoran sus algoritmos; empresas de marketing que están empezando a recopilar una cantidad cada vez mayor de datos sobre los patrones de comportamiento de sus compradores potenciales; Agencias de investigación como la NASA, que consolidan información de miles de sus dispositivos, se han enfrentado a los desafíos descritos en este informe. Las soluciones existentes ya no eran suficientes para hacer frente a los crecientes flujos de datos que llegaban cada vez más allá de la RAM de las soluciones individuales, por lo que un enfoque de ampliación ya no satisfacía las necesidades empresariales. Se necesitaban nuevos enfoques y el mundo necesitaba nuevas tecnologías para almacenar y analizar información. Tecnologías tolerantes a fallos y altamente escalables horizontalmente. Y no tuvieron que esperar mucho.
MapReduce y GFS
En 2004, Google, representado por Jeffrey Dean y Sanjay Ghemawat, presentó al mundo un enfoque sorprendentemente simple pero increíblemente poderoso para procesar enormes cantidades de información. En esencia, este algoritmo permitió trabajar con una cantidad ilimitada de datos, sujeto a la posibilidad de expandir nuevos nodos del clúster en proporción al aumento en la cantidad de información procesada.
Como sugiere el nombre, el algoritmo se redujo a dividir el proceso de procesamiento en dos funciones simples: Mapear y Reducir, y podemos dividir una sola tarea en una cantidad infinitamente grande de pequeñas subtareas que se ejecutarán en paralelo entre sí, y luego simplemente agregue el resultado resultante. Cada parte de una gran tarea se puede enviar para su procesamiento a uno de los nodos de un solo clúster, y lo único que nos queda al aumentar el volumen de información es expandir el clúster al tamaño requerido para nuestra tarea.
Intentemos comprender el enfoque de MapReduce con un ejemplo simple. Digamos que necesitamos contar todas las menciones de Ivan Ivanov, Petr Petrov y Andrei Andreev en todas las páginas de Internet. Será necesario analizar una gran cantidad de información y para un nodo esa tarea es simplemente imposible. Pero utilizando el enfoque MapReduce, podemos dividir todas las páginas en partes y distribuir su análisis a diferentes nodos de nuestro clúster.
En el primer paso, los datos de las páginas se enviarán a la función Mapa, que, si hay coincidencia, nos devolverá pares clave-valor.
Esta tecnología se convirtió en el punto de partida para la creación de sistemas que funcionan con Big Data y se ha convertido en una especie de estándar de facto a la hora de desarrollar soluciones en el campo de Big Data. Este enfoque ayudó a Google a mejorar la eficiencia de su recurso de búsqueda y a paralelizar tareas lineales cuando se trabaja con petabytes de datos. En sus inicios, Google utilizó MapReduce como un medio para optimizar la indexación de datos para consultas de búsqueda. Pero, ¿cómo almacenar estos datos y, lo más importante, cómo encontrarlos y acceder a ellos rápidamente si están alojados en miles de servidores?
Para estos fines, Google utilizó su propio desarrollo: el sistema de archivos distribuido GFS (Google File System), que utilizaba los llamados fragmentos como unidad de almacenamiento, que tenían un cierto tamaño y transportaban información. Todos los servidores incluidos en el clúster GFS se pueden representar como un disco duro grande, en contraste con el cual, la información sobre la ubicación de un bloque de datos particular (fragmento) se almacena en servidores maestros separados que almacenan constantemente metadatos en la RAM, lo que permite una rápida acceder exactamente a la parte deseada del cluster. Para lograr redundancia, una copia de un fragmento se almacena en varios servidores y el servidor maestro envía instantáneas de su RAM a los servidores esclavos, que están listos en cualquier momento para implementar la instantánea en su espacio y asumir el rol de maestro.
Este enfoque también tuvo un obstáculo. Era el servidor maestro, porque con el crecimiento en la cantidad de información y la introducción de nuevos servicios que iban mucho más allá del alcance de la tarea del motor de búsqueda y requerían retrasos casi nulos al trabajar con datos, el servidor maestro podía alcanzar el umbral. de su crecimiento vertical. Google resolvió este problema con el lanzamiento de GFS 2.0, con nombre en código Colossus, distribuyendo el servidor de metadatos. Esto fue especialmente cierto debido a la reducción del tamaño de los fragmentos y el consiguiente aumento del volumen de metadatos en los servidores maestros.
A pesar de que hemos abordado estas tecnologías de forma muy superficial, todavía podemos imaginarnos el panorama general que Google nos pintó en 2003-2004 y que se puede llamar plenamente Big Data. En esta imagen hay miles de servidores que almacenan petabytes de datos ubicados en forma de fragmentos en un sistema de archivos común a todo el espacio agregado de servidores, con la capacidad de buscar instantáneamente un fragmento con la información necesaria a través de servidores maestros. Y luego los trabajadores de Map entran en batalla, actuando en paralelo, obteniendo «valor clave» de los datos y entregándoselos a los trabajadores de Reduce, quienes combinan la información recibida en un solo todo.
Este enfoque dio un rápido comienzo al desarrollo de tecnologías relacionadas con big data. Después de los motores de búsqueda, comenzaron a tomar el relevo las redes sociales, el Internet de las cosas, los sectores bancario y de investigación, así como todos los ámbitos de negocio en los que la implementación de tecnologías Big Data proporcionaba ventajas tangibles sobre la competencia.
Hadoop
Como mencionamos anteriormente, el concepto desarrollado por Google estimuló rápidamente el interés de la comunidad en el almacenamiento distribuido y el análisis de información. A pesar de que Google no reveló información precisa sobre el funcionamiento de sus tecnologías, pronto comenzaron a aparecer implementaciones similares de este enfoque, y la principal, sin duda, es Hadoop, cuyo desarrollo comenzó casi inmediatamente después del informe de Google. en el modelo informático MapReduce. Inicialmente, el trabajo en el proyecto lo llevaron a cabo sólo dos desarrolladores: Doug Cutting y Mike Cafarell. El precursor de Hadoop fue el proyecto Nutch, en el que Doug Cutting intentó resolver el problema del big data en la industria de los motores de búsqueda, pero su arquitectura no lo permitía.
El informe sobre el algoritmo MapReduce fue un soplo de aire fresco para Cutting. En 2006, fue invitado a liderar un equipo de desarrollo en Yahoo para implementar un sistema informático distribuido, lo que dio como resultado el proyecto Hadoop, que lleva el nombre del elefante de juguete del hijo de Doug Cutting. Dos años más tarde, Hadoop ejecutaba un motor de búsqueda distribuido que funcionaba con 10.000 núcleos de procesador. Al mismo tiempo, Hadoop pasó a formar parte de la Apache Software Foundation. La base de Hadoop, como en el caso de Google, es el sistema de archivos distribuido HDFS y el algoritmo informático distribuido Hadoop MapReduce.
Tras el aparente éxito del motor de búsqueda Yahoo basado en Hadoop, la tecnología empezó a ser utilizada por empresas como Amazon, Facebook, NewYork Time, Ebay y muchas otras. El éxito de Hadoop fue tan abrumador que tanto los principales como los nuevos actores del mercado se apresuraron a comercializarlo. Cloudera (donde más tarde se mudó Cutting) fue la primera en desarrollar la mina de oro, seguida por MapR, IBM, Oracle, EMC, Intel y otros. Yahoo trasladó el departamento de desarrollo a una empresa independiente, Hortonworks, que más tarde escribió una implementación de Hadoop para Microsoft. La solución a los problemas de la letra V ha avanzado.
Pero en la práctica no todo es tan bonito como parece sobre el papel. La implementación clásica de MapReduce tiene un matiz muy importante: toda la cadena de resultados del trabajo de los trabajadores de Map-Reduce se almacena en el subsistema de disco. Y dado que este proceso es mucho más complicado de lo que describimos en nuestro ejemplo, realmente habrá muchas operaciones de lectura y escritura que no pueden tener un efecto positivo en el tiempo de ejecución del algoritmo. Estos problemas se han aliviado parcialmente con soluciones como Spark, que trasladan la mayoría de los cálculos a la RAM. Después de la aparición de este concepto, muchos usuarios de Hadoop comenzaron a utilizarlo activamente, alejándose del cuello de botella en el rendimiento de los subsistemas de disco.
Usando Spark como ejemplo, queda claro que MapReduce, siendo pionero en algoritmos de computación distribuida, comenzó a dar paso a otros enfoques en esta área. Otro enfoque, llamado Tez, que utiliza gráficos, fue desarrollado por el ya mencionado Hartonworks.
¿ SQL o NO ?
¿ Cómo podemos responder brevemente al debate sobre la elección del modelo de base de datos?. Sin entrar en detalles, el modelo SQL, o relacional, organiza el almacenamiento de datos en tablas planas, cada fila de las cuales está llena de propiedades. Está bien estructurado, definimos el esquema de almacenamiento de antemano y los datos dentro de este esquema son del mismo tipo.
NoSQL tiene un enfoque diferente. A primera vista, es caótico, porque junto al texto puede contener imágenes, claves, valores y otros tipos diferentes de datos. No necesitamos crear y definir un esquema de almacenamiento por adelantado para ingresar información en la base de datos. Su estructura es dinámica o completamente ausente.
Las soluciones siempre se seleccionan en función de las tareas y muy a menudo se combinan en función del tipo de datos que deben almacenarse, la velocidad y el volumen de su crecimiento, la estructura, los requisitos de procesamiento posterior y otros criterios.
En el ecosistema Hadoop, las soluciones SQL incluyen las siguientes: Hive, que finalmente abandonó el paradigma MapReduce en favor del Tez anterior; Spark SQL, Impala, que tampoco utiliza el desarrollo de Google, pero, a diferencia de Hive, inicialmente implementa su propio desarrollo de un algoritmo informático distribuido.
De NoSQL-HBase. Esta base de datos descentralizada permite enormes ganancias de productividad a través de su método de operación. Recopila datos en la RAM después de alcanzar un cierto límite y solo entonces escribe los datos en HDFS.
Pero no sólo hadoop… La gama de tecnologías que pueden clasificarse con seguridad como Big Data es ahora tan amplia que resulta problemático incluso hablar de cada una de ellas en pocas palabras. Esto incluye SAP Hana, que introdujo una nueva expresión, NewSQL, y utiliza el enfoque en memoria en su arsenal. Estos incluyen analistas de registros como Splunk e InTrust. Este es Yandex Clickhouse, que demostró lo rápido que puede ser el procesamiento de datos. Druid, HP Vertica, Calpont y docenas de otros productos tecnológicos ayudan a gestionar big data en una variedad de aplicaciones.
Hábitat de Big Data
Omitamos la descripción del alma mater del big data: los motores de búsqueda; aparte de ellos, hoy en día es difícil encontrar una industria donde el uso de tecnologías de big data de una forma u otra no produzca resultados positivos. En el sector comercial, estos sistemas suelen desempeñar la función de crear un retrato de un cliente potencial para personalizar y orientar la publicidad. Es poco probable que los áticos en el centro de Madrid interesen a un estudiante de 18 años sin ingresos regulares, o que el tinte para el cabello inspire a un ingeniero calvo de 50 años a comprarlos. Big Data ha llevado la conciencia empresarial de las personas al mismo nivel que las agencias de inteligencia. Gracias a esto, ya no es un secreto qué tipo de leche compras, con qué frecuencia vas a la tienda, cuál es tu factura promedio, dónde vas de vacaciones, tu nivel de ingresos aproximado (créeme, casi exacto) y otras pequeñas cosas que, cuando caen en el caldero analítico de los sistemas Big Data, conecte información no estructurada y obtenga un retrato suyo increíblemente cercano a la realidad. Y luego ya sólo queda mostrarte en el momento adecuado aquello que llevas tanto tiempo queriendo comprar y aún no te has atrevido.
Pero la publicidad dirigida está lejos de ser la única herramienta empresarial para aumentar el crecimiento de las ventas. Gracias a las tecnologías Big Data, las empresas realizan análisis de reputación procesando los comentarios de los usuarios en redes sociales, plataformas comerciales, foros y otros recursos. Las tarjetas de clientes potenciales se reponen con una lista de su actividad en estos recursos, se realizan búsquedas y comparaciones de cuentas, se analiza la negatividad y mucho más. Los macrodatos se han convertido literalmente en el motor del comercio.
El sector bancario también utiliza activamente el análisis de big data en sus procesos de captación de clientes, así como en el ámbito de la seguridad de la información. Recientemente, han comenzado a funcionar sistemas de puntuación que calculan los riesgos crediticios
Como mencionamos en el primer artículo, el Internet de las Cosas ahora va mucho más allá del hogar inteligente. Esta es otra industria en la que Big Data ha cambiado. Fábricas inteligentes, almacenes inteligentes, datos de tráfico, análisis de miles de parámetros en la producción y en las minas: todo esto forma parte del IoT. En la agricultura, los macrodatos permiten desarrollar rápidamente nuevas variedades; las fotografías descargadas de plantas enfermas evitan la pérdida de cultivos, y estos son sólo un par de muchos ejemplos.
No ignoraremos a Elon Musk, cuyo Big Data recopila 30 GB de información de cada modelo de Tesla, como resultado de lo cual se creará un modelo para entrenar vehículos autónomos.
La salud es una de las industrias más prometedoras para la implementación de tecnologías Big Data. Ya ahora los motores de búsqueda, basándose en un aumento de las consultas sobre determinadas enfermedades, nos brindan la oportunidad de prevenir una epidemia. Se están desarrollando activamente modelos de diagnóstico experimentales y creemos que no está lejano el día en que el diagnóstico estará casi completamente automatizado.
Fundación Big Data _ _
Es imposible construir un sistema de tal complejidad sin un fuerte soporte, que tradicionalmente proviene de los sistemas de almacenamiento de datos y tecnologías relacionadas.
¿Cómo ayudan a trabajar con big data? Algunos de ellos son extremadamente eficaces para ayudar a combatir los problemas de la «letra V», que no pasarán a un segundo plano a medida que crezca el volumen de información.
Conclusión
Espero que hayamos podido contarles cómo el mundo de las tecnologías de TI llegó a la necesidad de la tecnología Big Data y que tengan una idea clara de cómo funcionan estas tecnologías y dónde se utilizan. Sus perspectivas son simplemente enormes. Imagínese el gran avance que se puede lograr en medicina automatizando el desarrollo de vacunas contra nuevas cepas de virus, realizando y analizando innumerables experimentos para combatir enfermedades actualmente incurables. Y esta está lejos de ser la única actividad científica en la que las tecnologías Big Data pueden ayudar a lograr un avance real. Dejaremos al lector más fantasías. Y recuerde que los datos son el nuevo petróleo, y el Big Data…
Manuel García
Experto del mundo digital con experiencia en SEO y redacción web. Con una sólida formación en comunicación y tecnología, he dedicado los últimos años a perfeccionar mis habilidades en la creación de contenido web de calidad.