En los próximos artículos vamos a dar algunas pinceladas describiendo
una de las últimas tendencias de las tecnologías de la información: Big Data.
También daremos alguna visión acerca de su evaluación como
producto desde el punto de vista de QA y su uso como herramienta para estas
metodologías.
Big Data:Conceptos y presentación.
Si tenemos que definir Big Data en base a alguna de las
muchas descripciones que hay publicadas podríamos decir cosas como que
“herramienta de recolección masiva de datos “, “el futuro de las analíticas de
empresa” , “el descendiente listo de Business Inteligence”…
Pero para ser concisos , hemos elegido esta:
Proceso de recolección de datos en grandes cantidades y su tratamiento para encontrar patrones y correlaciones. |
En cuanto a las características del mismo hay también varias
ideas que podríamos definir como mnemotécnicas:
“Las 5V”
- Volumen: Captar toda la info, de manera completa y no sesgada, evitando duplicidad y redundancia
- Velocidad:Herramientas ágiles y con poco tiempo de respuesta
- Variedad:Datos de múltiples fuentes heterogeneas se uniformizan y centralizan.
- Veracidad:Que sea verdadera, de calidad y disponible,eliminando fallos
- Valor: Aporta competitividad y da servicio rentabilizando la información
“Las 5 R”
- ROI:Retorno de Inversión considerar el dato como un activo.
- Reliable:Fiabilidad en los datos para generar acciones fiables.
- Realistics: Que sea verdadera y ajustada a la realidad.
- Realtime: Información en tiempo real.
- Relevant: Definir qué es relevante y útil.
Metodologías
Como principal metodología hay que destacar I.C.A.V. ,que
por supuesto son unas siglas que coinciden con Identificación, Consolidación,
Análisis y Visualización.
En concreto la identificación del área y sus necesidades de datos, la consolidación como tratamiento, limpieza y filtrado de datos , el análisis emitiendo predicciones con la información consolidada y la visualización que muestra los resultados del análisis.
La implantación de
Big Data en la empresa requiere de cambios en la relación entre los departamentos
de tecnología de la información y el resto de la compañía, puesto que nuestro
objetivo es disponer de toda la información que se genera en la empresa, tanto
la histórica como la que viene desde todas las posibles fuentes de información
por las que los datos entran en la empresa. Esto incluye a los datos
automatizados y determinar cómo mecanizar aquellos que no lo estén.
Big data a dia de hoy se enfoca principalmente a
- Marketing, con la realización de campañas por distintos segmentos de clientes
- Nuevos productos: Estableciendo qué nuevas necesidades se pueden satisfacer
- Aumento de clientes
- Expansión de mercados
Para realizar estas tareas se ha establecido como estándar
en el mercado una herramienta específica y utilidades asociadas. De esto
trataremos en el siguiente punto.
Apache Hadoop. Qué es y cómo funciona.
Como ya hemos dicho, la realización de las tareas que
componen el Big Data en todas sus vertientes se ha de llevar a cabo mediante
herramientas específicas por los elevados volúmenes de datos y procesamiento
asociado que requiere. En el mercado actual una herramienta específica
sobresale por encima del resto , imponiéndose como el estándar a seguir :
Hadoop.
Haddop es un sistema de código abierto que almacena, procesa
y analiza grandes volúmenes de datos. No solo determina el software sino que da
proporciona las guías de una infraestructura hardware donde se pueda aprovechar
hardware commoditie, es decir , normalizado en el mercado de manera que por procesamiento paralelo
alcance grandes valores de cálculo.
La arquitectura de Hadoop se base en nodos maestros y
servidores . En un cluster de Hadoop al
nodo maestro se le conoce como namenode y
a los nodos servidores como datanodes.
El nodo maestro contiene el datos asociado a sus datanodes y
mantiene el estatus de los datanodes. Los datanodes almacenan la información
procesada.
Flujo información y tareas Hadoop |