Estoy ejecutando una instancia de EMR. Estaba funcionando bien, pero de repente comenzó a dar el siguiente error cuando intento acceder a los archivos S3 desde un script de Python Spark:
py4j.protocol.Py4JJavaError: An error occurred while calling o36.json.:
java.lang.RuntimeException:
java.lang.ClassNotFoundException:
Class org.apache.hadoop.fs.s3a.S3AFileSystem not found
¿Cómo podemos resolver esto?
Gracias por adelantado.
Solución del problema
Era un problema con las dependencias de Spark. Tuve que agregar jars config en park-defaults.conf.
spark.jars.packages com.amazonaws:aws-java-sdk:1.7.4,org.apache.hadoop:hadoop-aws:2.7.2
Siga el siguiente enlace:
https://gist.github.com/eddies/f37d696567f15b33029277ee9084c4a0
No hay comentarios.:
Publicar un comentario