sábado, 12 de diciembre de 2015

Big Data. Introducción y características



En los próximos artículos vamos a dar algunas pinceladas describiendo una de las últimas tendencias de las tecnologías de la información: Big Data.
También daremos alguna visión acerca de su evaluación como producto desde el punto de vista de QA y su uso como herramienta para estas metodologías.


Big Data:Conceptos y presentación.


Si tenemos que definir Big Data en base a alguna de las muchas descripciones que hay publicadas podríamos decir cosas como que “herramienta de recolección masiva de datos “, “el futuro de las analíticas de empresa” , “el descendiente listo de Business Inteligence”…
Pero para ser concisos , hemos elegido esta:


Proceso de recolección de datos en grandes cantidades y su tratamiento para encontrar patrones y correlaciones.


En cuanto a las características del mismo hay también varias ideas que podríamos definir como mnemotécnicas:


“Las 5V”

  •   Volumen: Captar toda la info, de manera completa y no sesgada, evitando duplicidad y redundancia
  •   Velocidad:Herramientas ágiles y con poco tiempo de respuesta
  •   Variedad:Datos de múltiples fuentes heterogeneas se uniformizan y centralizan.
  •   Veracidad:Que sea verdadera, de calidad y disponible,eliminando fallos
  •   Valor: Aporta competitividad y da servicio rentabilizando la información
“Las 5 R”
  •   ROI:Retorno de Inversión considerar el dato como un activo.
  •  Reliable:Fiabilidad en los datos para generar acciones fiables.
  •  Realistics: Que sea verdadera y ajustada a la realidad.
  • Realtime: Información en tiempo real.
  •  Relevant: Definir qué es relevante y útil.
 

Metodologías


Como principal metodología hay que destacar I.C.A.V. ,que por supuesto son unas siglas que coinciden con Identificación, Consolidación, Análisis y Visualización.

En concreto la identificación del área y sus necesidades de datos, la consolidación  como tratamiento, limpieza y filtrado de datos , el análisis emitiendo predicciones con la información consolidada y la visualización que muestra los resultados del análisis.

La implantación de Big Data en la empresa requiere de cambios en la relación entre los departamentos de tecnología de la información y el resto de la compañía, puesto que nuestro objetivo es disponer de toda la información que se genera en la empresa, tanto la histórica como la que viene desde todas las posibles fuentes de información por las que los datos entran en la empresa. Esto incluye a los datos automatizados y determinar cómo mecanizar aquellos que no lo estén.

Big data a dia de hoy se enfoca principalmente a


  • Marketing, con la realización de campañas por distintos segmentos de clientes
  •  Nuevos productos: Estableciendo qué nuevas necesidades se pueden satisfacer
  •  Aumento de clientes
  •  Expansión de mercados

 

Para realizar estas tareas se ha establecido como estándar en el mercado una herramienta específica y utilidades asociadas. De esto trataremos en el siguiente punto.


Apache Hadoop. Qué es y cómo funciona.




Como ya hemos dicho, la realización de las tareas que componen el Big Data en todas sus vertientes se ha de llevar a cabo mediante herramientas específicas por los elevados volúmenes de datos y procesamiento asociado que requiere. En el mercado actual una herramienta específica sobresale por encima del resto , imponiéndose como el estándar a seguir : Hadoop.

Haddop es un sistema de código abierto que almacena, procesa y analiza grandes volúmenes de datos. No solo determina el software sino que da proporciona las guías de una infraestructura hardware donde se pueda aprovechar hardware commoditie, es decir , normalizado en el mercado  de manera que por procesamiento paralelo alcance grandes valores de cálculo.
La arquitectura de Hadoop se base en nodos maestros y servidores .  En un cluster de Hadoop al nodo maestro se le conoce como namenode y  a los nodos servidores como datanodes.

El nodo maestro contiene el datos asociado a sus datanodes y mantiene el estatus de los datanodes. Los datanodes almacenan la información procesada.

Flujo información y tareas Hadoop



En el cluster Hadoop los nodos se organizan en racks , donde se dispone de un switch que permite conectarse con otros nodos del cluster. Al hacer uso de algoritmos muy afinados permite aprovechar los equipos commodities generando racks como estos.
Hadoop es escalable horizontalmente y proporciona una gran velocidad  de proceso y acceso a los datos,  asi como fiabilidad por la replicación de los datos y el estado de los procesos que los manejan .
Es efectivo en costes por la reducción de volumen aplicada en los procesos de consolidación . También es flexible por la adaptación a nuevos estándares de formato de datos.

Hadoop  se basa en dos operaciones de manejo de datos que forman su metodología de trabajo, a las que llamamos Map y Reduce.

  • Map: Extrae el dato y lo ordena
  • Reduce: Consolida los datos .
 
MapReduce.


Hadoop usa un modelo de BBDD llamado NoSQL. Este modelo propone una estructura más flexible y versátil aunque con restricciones en la integridad de los datos. Sus principales características son

  • Ausencia de esquema en el modelo de datos
  • Escalabilidad horizontal sencilla
  • Alta velocidad

Para la gestión de los ficheros de datos sobre los que trabajan las operaciones MapReduce, Hadoop ha implementado otro componente central: El Hadoop Distributed File Sistem o HDFS.
Hadoop trabaja sobre ficheros de tamaños grandes (minimo de 100 MB en adelante) ,distribuidos sobre los datanodes.

Este HDFS no solo distribuye sino que además replica los datos en varios nodos, de manera que como hemos dicho, es robusto ante fallos y recuperable ante errores.


Tenemos que entender que Hadoop con el HDFS no solo distribuye el dato, sino también los procesos que lo tratan


Una vez desglosados los principales componentes de Hadoop ejemplificaremos un caso de uso y daremos algunos puntos para su monitorización, posibles utilidades para el  ámbito de la QA ,así como el concepto del "Ecosistema" asociado a Hadoop....cosa que trataremos en el siguiente artículo. BigData II: Ecosistema y casos de uso. Y por supuesto daremos algún que otro ejemplillo de "qué tiene que ver esto con QA"

Como siempre, esperamos vuestros comentarios, correcciones y preguntas.




No hay comentarios:

Publicar un comentario