Spark: Błąd po wykonaniu df.show()

2-mar-2025

W świeżej instalacji Apache Spark po wykonaniu polecenia df.show() dla prostego data frame pojawiał się bład:
Py4JJavaError: An error occurred while calling o160.showString.
Instalacja nowa, robiona zgodnie z 1000 instrukcji dostępnych na necie.

Bez owijania w bawełnę – chodziło o wersje aplikacji. Tak więc krótko:

Instalacja dotyczy Spark 3.5.5 (FEB 27 2025) z wbudowanym Apache Hadoop 3.3

Java (JDK) – najnowsza jaką można wybrać to 17, bo na tej stronie https://spark.apache.org/docs/latest/index.html piszą, że Spark runs on Java 8/11/17,

WinUtils.exe – dopasowany numerem wesji do wersji Hadoop pobrany stąd: https://github.com/cdarlint/winutils

Python – piszą w dokumentacji, że wersja to ma być 3.8 i wyższe, ale uwaga… W momencie publikowania Sparka, na świecie nie było jeszcze Pythona 3.12. Dlatego nie wybieraj 3.12. Zostań maksymalnie przy 3.11. To ważne. Nawet jak instalacja sie uda, to potem można się spodziewać pułapek już podczas uruchamiania programów.

Co więcej – instalując wszystkie wymienione powyżej komponenty, zainstaluj je do katalogu, który w nazwie całej ścieżki nie ma spacji, ani znaków narodowych.

I co najśmieszniejsze – w świecie Linux/McOS, kiedy chcesz uruchomić pythona w wersji 3 piszesz python3. Ta reguła nie działa w świecie WIndows. Dlatego przejdź do katalogu z instalacją pythona i skopiuj plik python.exe zamieniając mu nazwę na python3.exe.

Pr

Komentarze są wyłączone

Autor: Rafał Kraik