Tecnología      Hadoop


¿Qué es Hadoop?


Como respuesta a las necesidades de gestión que presenta Big Data, Hadoop surgió como iniciativa open source (software libre) a raíz de la publicación de varios papers de Google sobre sus sistemas de archivo, su herramienta de mapas y el sistema BigTable Reduce. Como resultado nació un conjunto de soluciones en el entorno Apache: HDFS Apache, Apache MapReduce y Apache HBase; que se conocen como Hadoop. Hadoop es un framework o marco de trabajo para que otras aplicaciones lo utilicen.




Características
Es un proyecto “open” liderado por Apache, está escrito en Java, tiene un alto rendimiento (en lo que hace), tiene muy alta disponibilidad y se basa en hardware corriente.
Optimizado
Para manipular enormes cantidad de datos y manipular datos muy variados (estructurados y no estructurados).
No optimizado
Para OLTP (Transacciones, generalmente en tiempo real).



    ¿Para qué se puede usar Hadoop?

•

Servicios financieros: mejorar el conocimiento sobre los clientes, análisis de riesgos, detección del fraude.

•


Telecomunicaciones: prevención de baja de clientes, optimización de precios análisis de tráfico, gestión de la experiencia de los usuarios.

•


Salud: control de la calidad del servicio, desarrollo de medicamentos.

•


Internet: Uso de servicios web, detección de fraudes on-line.

•


Marketing: Análisis de hábitos de compra, gestión de promociones y campañas.
 



Arquitectura


Un sistema Hadoop está compuesto básicamente por tres elementos:
Name node (s):
Encargados de gestionar la localización de le información dentro del sistema. Puede estar redundado, coexistiendo en el sistema varios name nodes. Entre sus funciones está la administración de HDFS manteniendo varias copias de los datos distribuidas entre varias localizaciones.
Job tracker:
Es el encargado de organizar y ejecutar las tareas map/reduce siendo responsable de la cola de tareas.
Data node(s):
Son los dispositivos que almacenan los datos propiamente dichos. Pueden y deben ser varios diferentes y a veces ubicados en distintas localizaciones.

Componentes software
Existen tres capas principales de software en Hadoop (aparte del S.O.)

Hadoop propiamente dicho: HDFS + Map/reduce
Capa de aplicaciones: Pig, Hive, Impala, etc…
Capa de monitorización del cluster


HDFS – Hadoop distributed File System
Este sistema, gestionado por el/los name node(s) se encarga de mantener los ficheros repartidos y replicados entre los diferentes data nodes: El número de copias de cada archivo es configurable aunque lo más habitual son 3; en caso de fallo de un data node recupera la información en otro data node; cuando una aplicación solicita un fichero al name node, este le reenvía al data node más cercano para que sea más rápido.
    Map / Reduce

El sistema map / reduce se encarga de optimizar el almacenamiento de la información para que esta sea más accesible.

•

Map: Analiza la información y extrae los puntos comunes


•

Reduce: Reestructura los datos agrupando aquellos que son similares


El sistema map / reduce genera tareas que se envían al job tracker, que las encola y las ejecuta. Hadoop está disponible como proyecto de software libre y se puede instalar desde el sistema operativo componente por componente, pero existen distribuciones ad-hoc que proveen una instalación integrada de todas las capas de software necesarias:


Cloudera

MapR

Hortonworks

Intel-Hadoop
 
Mnemmix IT
  Presentación
  Grupo Mnemmix
  Equipo Directivo
  Mensaje del CEO

Localización
  Oficinas
  Mapa Cobertura
    Líneas de Negocio
  Productos y fabricación
  Soluciones empresariales
  Alianzas

Soporte
  Descargas
  Garantía
  RMA Online
    Sala de Prensa
  Información Corporativa
  Imagen Corporativa
  Contacto
    Soluciones Mnemmix
  Mnemmix Big Data
  Mnemmix Graphics
  Mnemmix Racks
  Mnemmix Security
  Mnemmix Storage
  Mnemmix Virtual
 
 
         Aviso Legal   |   Confidencialidad de Datos   |   Condiciones Venta
 
 

Mnemmix IT Solutions
   +34 902 403 938
   +34 902 360 919

MADRID . BARCELONA . BILBAO . SEVILLA . LEÓN . PORTUGAL . MEXICO . CHILE
Mnemmix es una marca de Mnemmix IT Solutions    © Copyright 2017  ·  Todos los derechos reservados