Suscribete

  • Suscribete a Novas CESGA

HPC User Portal

  • HPC User Portal

Estado dos sistemas

  • Solo visible desde Firefox o Chrome.

Compromisso com a igualdade

  • Igualdad CESGA

6º Foro Transfiere 2017

Curso Big Data

 0 voto(s)

quarta-feira 25/10/2017 10:10

Las tecnologías de Big Data y analítica de grandes volúmenes de datos son fundamentales para el desarrollo de proyectos de Investigación, Desarrollo e Innovación, tanto en Universidades como en Centros de Investigación y Empresas. El CESGA dispone de una plataforma de Big Data que permite explorar esos grandes volúmenes de datos o hacer pruebas de concepto. En este curso, complementario a la introducción ya dada anteriormente (aunque no es necesario haber hecho el curso anterior), se explorarán las capacidades de análisis estadísticos y de Machine Learning de la plataforma de Big Data del CESGA y en general de la plataforma Spark. Este curso está especialmente indicado para investigadores y profesionales de las Universidades, Centros de Investigación y PYMEs que quieran extraer el máximo partido a sus grandes volúmenes de datos. Para realizar el curso, es necesario tener unos conceptos básicos de Python.

REGISTRO DEL CURSO CERRADO

TEMARIO para los días 21, 22, 23 y 24 de Noviembre de 2017 en horario de 10:00h a 14:00h.

Día 1

1. Trabajando con DataFrames en PySpark

  • Creación de DataFrames
  • Operaciones básicas
  • Filtrado, ordenación y agrupamiento
  • Funciones escalares, agregados y de ventana
  • Funciones definidas por el usuario
  • Uso de SQL

2. Análisis Exploratorio de Datos y Visualización con DataFrames

  • Preparación de datos
  • Extracción de características
  • Características derivadas y textuales
  • Normalización de características

Día 2:

3. Estadística computacional para análisis de datos

  • Estimadores puntuales
  • Distribuciones de datos
  • Valores extremos
  • Riesgo relativo
  • Probabilidad condicional
  • Estimación

Día 3:

4. Inferencia Estadística

  • Variabilidad de los estimadores
  • Intervalos de confianza
  • Contraste de hipótesis

5. Visualización con Matplotlib

  • Tipos de gráficas
  • Histogramas
  • Diagramas de cajas
  • Gráficos de superficies
  • Gráficos de puntos dispersos y hexagonales
  • Gráficos de tartas
  • Otras herramientas

Día 4:

6. Introducción a Machine Learning

  • Aprendizaje supervisado
  • Aprendizaje no supervisado
  • Regresión lineal
  • Modelos de clasificación en Spark
  • Regresión logística, SVMs lineales, Naive Bayes, Árboles de decisión
  • Spark MLib: Extracción, transformación y selección de características, análisis de componentes principales, clasificación y regresión, árboles de decisión, random forest, clasificación 1 vs Rest, Naive Bayes, regresión lineal, aprendizaje no supervisado

DOCENTE: Fernández Pena

El Dr. Tomás Fernández Pena es, desde 1994, Profesor Titular de Universidad del área de Arquitectura y Tecnología de Computadores en el Departamento de Electrónica y Computación de la Universidad de Santiago de Compostela. Desde 2010 es investigador adscrito al Centro de Investigación en Tecnologías de la Información de la USC (CITIUS), integrado en la Red de Centros Singulares de Investigación del Campus Vida de Excelencia Internacional.

Sus principales líneas de interés incluyen la computación de altas prestaciones, la arquitectura de sistemas paralelos, el desarrollo de algoritmos paralelos para clusters y supercomputadores, la optimización de rendimiento en problemas irregulares y con matrices dispersas, la predicción y mejora del rendimiento de aplicaciones paralelas en general, el desarrollo de aplicaciones y middleware para sistemas grid y cloud y las tecnologías Big Data aplicadas al procesamiento del lenguage natural, la bioinformática, la chemioinformática y aplicaciones científicas en general. Actualmente es Senior Member del IEEE y editor asociado de la revista IEEE Transactions on Computers.

DOCENTE: Losada Carril

El Dr. David E. Losada es Profesor Titular de Universidad del área de Ciencias de la Computación e Inteligencia Artificial en el departamento de Electrónica y Computación de la Universidad de Santiago de Compostela (USC). Además, es investigador adscrito al Centro de Investigación enTecnologías de la Información de la USC (CITIUS), integrado en la Red de Centros Singulares de Investigación del Campus Vida de ExcelenciaInternacional. Desde su creación en 2015, Losada es coordinador del Máster Universitario en Tecnologías de Análisis de Datos Masivos (Big Data).

El Dr. Losada es doctor en Informática por la Univ. de A Coruña (2001), fue profesor contratado en la Univ. San Pablo-CEU y en el año 2003 se incorporó a la USC como investigador “Ramón y Cajal”. Su investigación se centra en Recuperación de información (RI) y Minería de Textos, áreas en las que aplica regularmente técnicas y modelos de Aprendizaje Automático, Procesamiento de Lenguaje Natural y Búsqueda sobre grandes repositorios de información no estructurada (web, medios sociales, texto plano, etc.).

En su equipo abordan tareas y retos tales como la construcción automática de resúmenes, detección de novedad, clasificación automática de documentos, detección temprana de riesgos en Internet, búsqueda de patentes y minería de opiniones.Losada es un miembro activo de la comunidad internacional de RI, participando regularmente en comités científicos de conferencias internacionales, liderando proyectos y contratos relacionados con las tecnologías de búsqueda y clasificación, y promoviendo redes de investigación a nivel europeo. En 2011, Losada fue reconocido como "senior member" por ACM.

Valorar: