Ya está disponible Spark 2 en la plataforma Big Data.

Esta nueva versión aporta numerosas novedades entre las que destacan las mejoras en el rendimiento. Además esta nueva versión incluye algoritmos adicionales en la librería de Machine Learning MLlib, así como una nueva API de streaming denominada Structured Streaming.

Las versiones que están disponibles actualmente son las versiones correspondientes a las dos ramas principales: 2.1.2 (Octubre 2017) y 2.2.1 (Diciembre 2017). A medida que vayan saliendo versiones nuevas se irán incorporando a la lista de versiones soportadas.

Para poder usarlo basta con cargar el módulo correspondiente a la versión deseada, por ejemplo:

module load spark/2.2.1

Y a partir de ahí se pueden usar los comandos habituales como spark-submit o start_jupyter, utilizando la versión 2 de spark en vez de la 1.6.