En los próximos artículos vamos a dar algunas pinceladas describiendo
una de las últimas tendencias de las tecnologías de la información: Big Data.
También daremos alguna visión acerca de su evaluación como
producto desde el punto de vista de QA y su uso como herramienta para estas
metodologías.
Big Data:Conceptos y presentación.
Si tenemos que definir Big Data en base a alguna de las
muchas descripciones que hay publicadas podríamos decir cosas como que
“herramienta de recolección masiva de datos “, “el futuro de las analíticas de
empresa” , “el descendiente listo de Business Inteligence”…
Pero para ser concisos , hemos elegido esta:
Proceso de recolección de datos en grandes cantidades y su tratamiento para encontrar patrones y correlaciones. |
En cuanto a las características del mismo hay también varias
ideas que podríamos definir como mnemotécnicas:
“Las 5V”
- Volumen: Captar toda la info, de manera completa y no sesgada, evitando duplicidad y redundancia
- Velocidad:Herramientas ágiles y con poco tiempo de respuesta
- Variedad:Datos de múltiples fuentes heterogeneas se uniformizan y centralizan.
- Veracidad:Que sea verdadera, de calidad y disponible,eliminando fallos
- Valor: Aporta competitividad y da servicio rentabilizando la información
“Las 5 R”
- ROI:Retorno de Inversión considerar el dato como un activo.
- Reliable:Fiabilidad en los datos para generar acciones fiables.
- Realistics: Que sea verdadera y ajustada a la realidad.
- Realtime: Información en tiempo real.
- Relevant: Definir qué es relevante y útil.
Metodologías
Como principal metodología hay que destacar I.C.A.V. ,que
por supuesto son unas siglas que coinciden con Identificación, Consolidación,
Análisis y Visualización.
En concreto la identificación del área y sus necesidades de datos, la consolidación como tratamiento, limpieza y filtrado de datos , el análisis emitiendo predicciones con la información consolidada y la visualización que muestra los resultados del análisis.
La implantación de
Big Data en la empresa requiere de cambios en la relación entre los departamentos
de tecnología de la información y el resto de la compañía, puesto que nuestro
objetivo es disponer de toda la información que se genera en la empresa, tanto
la histórica como la que viene desde todas las posibles fuentes de información
por las que los datos entran en la empresa. Esto incluye a los datos
automatizados y determinar cómo mecanizar aquellos que no lo estén.
Big data a dia de hoy se enfoca principalmente a
- Marketing, con la realización de campañas por distintos segmentos de clientes
- Nuevos productos: Estableciendo qué nuevas necesidades se pueden satisfacer
- Aumento de clientes
- Expansión de mercados
Para realizar estas tareas se ha establecido como estándar
en el mercado una herramienta específica y utilidades asociadas. De esto
trataremos en el siguiente punto.
Apache Hadoop. Qué es y cómo funciona.
Como ya hemos dicho, la realización de las tareas que
componen el Big Data en todas sus vertientes se ha de llevar a cabo mediante
herramientas específicas por los elevados volúmenes de datos y procesamiento
asociado que requiere. En el mercado actual una herramienta específica
sobresale por encima del resto , imponiéndose como el estándar a seguir :
Hadoop.
Haddop es un sistema de código abierto que almacena, procesa
y analiza grandes volúmenes de datos. No solo determina el software sino que da
proporciona las guías de una infraestructura hardware donde se pueda aprovechar
hardware commoditie, es decir , normalizado en el mercado de manera que por procesamiento paralelo
alcance grandes valores de cálculo.
La arquitectura de Hadoop se base en nodos maestros y
servidores . En un cluster de Hadoop al
nodo maestro se le conoce como namenode y
a los nodos servidores como datanodes.
El nodo maestro contiene el datos asociado a sus datanodes y
mantiene el estatus de los datanodes. Los datanodes almacenan la información
procesada.
Flujo información y tareas Hadoop |
En el cluster Hadoop los nodos se organizan en racks , donde se dispone de un switch que permite conectarse con otros nodos del cluster. Al hacer uso de algoritmos muy afinados permite aprovechar los equipos commodities generando racks como estos.
Hadoop es escalable
horizontalmente y proporciona una gran
velocidad de proceso y acceso a los
datos, asi como fiabilidad por la replicación de los datos y el estado de los
procesos que los manejan .
Es efectivo en costes por la reducción de volumen aplicada
en los procesos de consolidación . También es flexible por la adaptación a
nuevos estándares de formato de datos.
Hadoop se basa en dos operaciones de manejo de datos que forman su metodología de trabajo, a las que llamamos Map y Reduce.
- Map: Extrae el dato y lo ordena
- Reduce: Consolida los datos .
MapReduce. |
Hadoop usa un modelo de BBDD llamado NoSQL. Este modelo
propone una estructura más flexible y versátil aunque con restricciones en la
integridad de los datos. Sus principales características son
- Ausencia de esquema en el modelo de datos
- Escalabilidad horizontal sencilla
- Alta velocidad
Para la gestión de los ficheros de datos sobre los que
trabajan las operaciones MapReduce, Hadoop ha implementado otro componente
central: El Hadoop Distributed File Sistem o HDFS.
Hadoop trabaja sobre ficheros de tamaños grandes (minimo de
100 MB en adelante) ,distribuidos sobre los datanodes.
Este HDFS no solo distribuye sino que además replica los
datos en varios nodos, de manera que como hemos dicho, es robusto ante fallos y
recuperable ante errores.
Tenemos que
entender que Hadoop con el HDFS no solo distribuye el dato, sino también los
procesos que lo tratan
|
Una vez desglosados los principales componentes de Hadoop
ejemplificaremos un caso de uso y daremos algunos puntos para su
monitorización, posibles utilidades para el
ámbito de la QA ,así como el concepto del "Ecosistema" asociado a Hadoop....cosa que trataremos en el siguiente artículo. BigData II: Ecosistema y casos de uso. Y por supuesto daremos algún que otro ejemplillo de "qué tiene que ver esto con QA"
Como siempre, esperamos vuestros comentarios, correcciones y preguntas.
No hay comentarios:
Publicar un comentario