Síguenos ...

  • Twitter FacebbokFlickrYouTube CESGA

Servicios PYME's

  • Servicios para Empresas

díxitos Marzo

Big Data

 

1. Introducción Entorno Hadoop HDP 2.4

La nueva infraestuctura Big Data permite el procesado de grandes volúmenes de información en paralelo, utilizando la potencia de modernas herramientas que simplifican el proceso y que son utilizadas por grandes compañías como Yahoo, Facebook o Twitter.

La plataforma cuenta con dos entornos diferenciados para así poder satisfacer las necesidades de todos los usuarios:

Entorno Hadoop HDP 2.4

  • Ofrece una plataforma standard que soporta todos los componentes del ecosistema de Hadoop:YARN, MapReduce, Spark, Storm, Flume, Mahout, Pig, Hive, HBase, ...
  • Se trata de una evolución de la plataforma Hadoop que el CESGA lleva ofreciendo desde el 2013.
  • Ofrece una solución probada y estable.
  • Cubre la mayor parte de los casos de uso.    

 Software disponible en el entorno Hadoop HDP 2.4

- HDFS (Hadoop Distributed File System):

  • Es un sistema de ficheros distribuído basado en Java para el almacenamiento de grandes volúmenes de datos; conforma, junto con YARN su capa de administración de datos en Hadoop.
  • Cualquier tipo de fichero puede ser almacenado en HDFS.
  • Los datos se parten en fragmentos y se replican tan pronto como son escritos en HDFS.
  • Provee de estabilidad y alta disponibilidad.
  • Los gestiona automáticamente Hadoop.

- YARN (Yet Another Resource Negociator):

  • Gestiona los recursos asociados a los procesos del cluster Hadoop.
  • Agenda los trabajos.
  • Ejecuta los frameworks de procesamiento.

- MapReduce2

  • Framework de procesamiento distribuído.

 - Hive

  • Motor de procesamiento SQL diseñado para cargas de trabajo en batch.
  • Proporciona una capa de abstracción sobre MapReduce para la consulta de datos a través de un lenguaje tipo SQL denominado HiveQL.
  • Permite a los usuarios no tener que disponer de conocimiento o de desarrollo de aplicaciones en MapReduce o Spark.

 - Hbase

  • Base de datos NoSQL para HDFS.
  • Proporciona acceso de escritura/lectura en tiempo real a grandes volúmenes de datos.

 - Pig

  • Plataforma para el análisis de grandes conjuntos de datos basado en un lenguaje de scripting de alto nivel.
  • Permite a los usuarios no tener que disponer de conocimiento o de desarrollo de aplicaciones en MapReduce o Spark.

- Oozie

  • Aplicación web basada en Java usada como scheduler de trabajos Hadoop.
  • Integrado en Hadoop, usando YARN como su arquitectura principal.

- ZooKeeper

  • Provee un servicio de configuración centralizada y registro de nombres de código abierto para grandes sistemas distribuídos.
  • Soporta alta disponibilidad a través de servicios redundantes. Los clientes pueden preguntar a otro maestro ZooKeeper si el primero falla al responder.

 - Spark

  • Framework de procesamiento en memoria y streaming de grandes cantidades de datos.

Entorno Platform as a Service (PaaS)

  • Para casos donde se necesita ir más allá de lo que ofrece el ecosistema de Hadoop.
  • Ofrece una plataforma donde desplegar clusters Big Data basados en contenedores Docker sobre un scheduler global basado en Mesos.
  • Virtualmente esta plataforma permite desplegar cualquier tipo de servicio.
  • Permite aprovecharse completamente de los recursos hardware sin penalizaciones de rendimiento.
  • Ofrece una planificación avanzada de recursos basada en un sistema novedoso de scheduling en dos pasos que permite ofrecer una mejor localidad de los datos con respecto a los planificadores tradicionales. 
  • Incluye un avanzado servicio de descubrimiento de servicios que puede ser explotado para desplegar servicios tolerantes a fallos y para autodescubrimiento de servicios.

Software disponible en el entorno PaaS

Este entorno está en pruebas y aún no está abierto de forma pública. Los usuarios interesados en acceder a la versión beta pueden solicitarlo a través de bigdata@cesga.es

Esta es una lista inicial de los productos disponibles:

  • MongoDB: base de datos NoSQL. Guarda estructuras de datos en documentos tipo JSON con un esquema dinámico.
  • Cassandra: base de datos NoSQL distribuída y basada en un modelo de almacenamiento de clave-valor.
  • GlusterFS: sistema de archivos multiescalable. Permite agregar varios servidores de archivos sobre Ethernet o interconexiones Infiniband RDMA en un gran entorno de archivos de red en paralelo.
  • Slurm: scheduler para Linux y sistemas Unix muy usado en clusters y superordenadores.
  • MPI: estándar que define la sintaxis y la semántica de las funciones contenidas en una biblioteca de paso de mensajes diseñada para ser usada en programas en paralelo.
  • CDH: distribución de Cloudera que incluye Apache Hadoop.
  • PostgreSQL: sistema de gestión de base de datos relacional orientado a objetos.
  • Redis: motor de base de datos en memoria, basado en el almacenamiento de clave-valor pero que opcionalmente puede ser usada como una base de datos durable o persistente.

2. Descripción del hardware

El servicio Big Data se compone de un cluster dedicado de 38 nodos (4 nodos maestro y 34 nodos esclavo). Tiene una capacidad bruta de 816 TB y una capacidad de E/S agregada de más de 30 GB/s y dispone de una conexión 10 GbE entre todos los nodos del cluster.

  • 34 Nodos esclavo: Lenovo System x3650 M5

CPU: 2x Intel Xeon E5-2620 v3 @ 2.40GHz
Cores: 12 (2x6)
HyperThreading: Activo (24 threads)
Memoria total: 64GB
Red: 1x10Gbps + 2x1Gbps
Discos: 12x 2TB NL SATA 6Gbps 3.5" G2HS
Controladora: N2215 SAS/SATA HBA

  • 4 Nodos maestro: Lenovo System x3550 M5

CPU: 2x Intel Xeon E5-2620 v3 @ 2.40GHz
Cores: 12 (2x6)
HyperThreading: Activo (24 threads)
Memoria total: 64GB
Red: 1x10Gbps + 2x1Gbps
Discos: 8x 480GB SSD SATA 2.5" MLC G3HS
Controladora: ServeRAID M5210 1GB Cache FastPath

  • Switches:

2x Lenovo RackSwitch G8124E
2x Lenovo RackSwitch G8052
1x Lenovo RackSwitch G7052

3. Guia uso entorno Hadoop HDP 2.4

Acceso

Para acceder al servicio Big Data HDP nos conectaremos a los nodos de login utilizando el mismo usuario y contraseña que para los otros equipos del CESGA:

ssh login.hdp.cesga.es

Es necesario tener activa la VPN.

Sistema de ficheros HOME

El sistema dispone de un HOME con capacidad para 41TB, montado en un sistema de ficheros paralelo GlusterFS. El HOME debe utilizarse sólo para cargar los fichero de datos temporalmente mientras no se cargan en HDFS y para recoger las salidas.

No se realiza backup de este sistema de ficheros.

Sistema de ficheros HDFS

HDFS es el sistema de ficheros paralelo nativo de Hadoop que está optimizado para grandes lecturas secuenciales de ficheros y es el que utilizan todas las herramientas del ecosistema de Hadoop.

Este es el sistema de ficheros que debe usarse en los trabajos que se envíen al cluster, en donde el usuario dispone de una carpeta personal en la ruta /user/$usuario.

No se realiza backup de este sistema de ficheros.

Esta es una muestra de los comandos básicos para usar HDFS:

 
Listar:  hdfs dfs -ls
Copiar al HDFS:  hdfs dfs -put fichero_original fichero_final
Copiar al disco local:  hdfs dfs -get fichero_original fichero_final
Crear directorio:  hdfs dfs -mkdir nuevo_directorio
Leer un fichero:  hdfs dfs -cat fichero

**Si no se indica lo contrario, la ruta HDFS a la que apuntarán estos comandos es la de la carpeta personal del usuario, antes mencionada.

Gestionar trabajos

El scheduler de HDP es el servicio YARN. Los comandos básicos para gestionar trabajos son:

Lanzar trabajo: yarn jar trabajo.jar input output
Comprobar estado: yarn application -list
Matar trabajo: yarn application -kill application_ID

 

Servicios interactivos para trabajos Spark (beta)

Están disponibles dos servicios (aún en fase beta) desde donde poder lanzar aplicaciones Spark de manera interactiva: Hue y Zeppelin. Se puede acceder a ambos con los mismos credenciales de acceso que para los equipos del CESGA a través de las siguientes direcciones (es necesario estar conectado a través del túnel VPN):

HUE: hue.hdp.cesga.es:8888
ZEPPELIN: zeppelin.hdp.cesga.es:9995

 

Para obtener más detalles sobre como usar el servicio consultar el Portal Portal BD|CESGA donde encontrará información adicional así como guías de uso de las distintas herramientas.