Introducción.
Como ya dijimos en el anterior artículo, Hadoop actúa sobre
los datos contenidos en su HDFS mediante las operaciones MapReduce. Ahora voy a
contaros una cosa. Antes de empezar a tratar sobre dichos datos debe volcarlos
a ficheros y para ellos , requiere de
herramientas externas para realizar lo que se llama E.T.L. (Extraction ,
Transformation ,Loading).
Extraction:
Extrae datos de diferentes origenes. Si se dispone de conectores o drivers
específicos sobre BBDD Hadoop y su ecosistema admite la conexión a fuentes de datos via ODBC o similares para el proceso.
Transformation:
Valida, normaliza los datos para evitar errores
Loading: Vuelca
los datos al HDFS (o a otros sistemas de BigData).
Para ello se introduce aquí el concepto de “ecosistema de
hadoop”, es decir aquellas herramientas y utilidades que complementan a Hadoop
para realizar las tareas de procesamiento masivo de datos.
Hadoop es el
“motor” del vehículo. Las herramientas de ecosistema se pueden ejemplarizar
como los neumáticos, la suspensión,..etc
|
Para realizar dichas operaciones ETL tenemos herramientas
como scoop (http://sqoop.apache.org/),
que permite la transferencia de datos de E.T.L.
de manera eficiente e integrada con Hadoop. Está también desarrollada
por la Apache Software Foundation. Aquí hago un paréntesis para indicar que
Hadoop es capaz de tratar tanto con datos estructurados (las clásicas tablas de
BBDD organizadas en columnas ) como con no estructurados (XML).