O CESGA celebrará o do 16 ao 19 de xullo un taller Big Data onde se explicarán os conceptos básicos de Apache Spark. O taller será eminentemente práctico e os asistentes terán que resolver problemas diversos utilizando Spark.

Ao final do curso os asistentes terán os coñecementos necesarios para comezar a utilizar Spark nas súas tarefas cotiás de análises de datos.

  • Data e hora: do 16 ao 19 de xullo en horario de mañá de 10:00 h. a 14:00 h.
  • Lugar: CESGA, Avda. de Vigo s/n – Campus Vida – Santiago de compostela.
  • Destinatarios: O taller está destinado a usuarios da plataforma Big Data que desexen aprender a utilizar Spark 2.

Que aprenderei durante o taller?

Ao final do taller saberás:

  • Como transformar datos en Spark usando RDDs
  • Como transformar datos en Spark usando DataFrames e Spark SQL
  • Como transformar datos en Spark desde R usando sparklyr
  • Como preparar e lanzar un traballo de Spark
  • Como monitorar e optimizar un traballo de Spark

Que NON se ensinará durante o taller?

  • Os asistentes deben ter conceptos básicos de programación nalgún das linguaxes soportadas para uso interactivo de Spark ( Python, Scala ou R), idealmente Python.
  • Durante algunhas partes do curso resultará de utilidade ter familiaridade coa linguaxe SQL. Con todo, durante o taller non se ensinará a programar en SQL.
  • Durante o taller ensinaranse a utilizar algúns comandos básicos de Hadoop, os imprescindibles para o taller. O taller non ten por propósito ensinar a usar Hadoop.
  • Durante o taller mostrarase como usar Spark para realizar tarefas de machine learning por medio de Spark ML, con todo farase de maneira moi superficial sen entrar en detalle en todos os algoritmos de machine learning soportados.
  • Durante o taller non se cubrirán Spark Streaming nin Spark GraphX.

Prerrequisitos: O curso require coñecementos básicos de programación en Python, R, Scala ou Xava.

Durante o curso, para ensinar os conceptos de Spark, usarase principalmente a linguaxe Python, aínda que tamén se mostrará como usar Spark desde R a través de Sparklyr.

Resultarán de utilidade, aínda que non imprescindibles, coñecementos de GNU/Linux e familiaridade con SQL.

Python é unha linguaxe moi popular e que se pode aprender rapidamente, polo que aos alumnos que non estean familiarizados con esta linguaxe, recomendámoslles que realicen antes do curso algún numerosos titoriais de Python 2 existentes, por exemplo:

http://www.learnpython.org/

https://docs.python.org/2/tutorial/

É aconsellable para todos os participantes realizar o seguinte test de Python antes do curso:

http://www.mypythonquiz.com

En xeral, o uso de Spark desde Scala é moi similar ao de Python así que os alumnos que o desexen poderán resolver os exercicios usando Scala.

 Contidos

1. Ferramentas necesarias

  • Jupyter
  • HDFS
  • YARN

2. Conceptos básicos de Spark

3. Programando con RDDs

4. Programando con PairRDDs

5. Programando con Spark SQL e DataFrames

6. Lanzando aplicacións

7. Monitorando, optimizando e depurando a execución de aplicacións

8. Usando Spark desde R: SparklyR

Registro cerrado