Apache Spark ist ein verteiltes Open-Source-Computing-Framework, das erstellt wurde, um schnellere Rechenergebnisse zu liefern. Es handelt sich um eine In-Memory-Computing-Engine, was bedeutet, dass die Daten im Speicher verarbeitet werden.
Funke unterstützt verschiedene APIs für Streaming, Graphverarbeitung, SQL, MLLib. Es unterstützt auch Java, Python, Scala und R als bevorzugte Sprachen. Spark ist meistens installiert in Hadoop-Cluster Sie können Spark aber auch im Standalone-Modus installieren und konfigurieren.
In diesem Artikel werden wir sehen, wie man es installiert Apache Spark In Debian und Ubuntu-basierte Verteilungen.
Installieren Apache Spark in Ubuntu müssen Sie haben Java und Scala auf Ihrem Rechner installiert. Bei den meisten modernen Distributionen ist Java standardmäßig installiert und Sie können es mit dem folgenden Befehl überprüfen.
$ Java-Version.
Wenn keine Ausgabe erfolgt, können Sie Java mithilfe unseres Artikels über. installieren
So installieren Sie Java unter Ubuntu oder führen Sie einfach die folgenden Befehle aus, um Java auf Ubuntu- und Debian-basierten Distributionen zu installieren.$ sudo apt-Update. $ sudo apt install default-jre. $ Java-Version.
Als nächstes können Sie installieren Scala aus dem apt-Repository, indem Sie die folgenden Befehle ausführen, um nach scala zu suchen und es zu installieren.
$ sudo apt search scala ⇒ Suchen Sie nach dem Paket. $ sudo apt install scala ⇒ Installieren Sie das Paket.
So überprüfen Sie die Installation von Scala, führen Sie den folgenden Befehl aus.
$ scala-Version Scala Code Runner Version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL
Jetzt geh zum Beamten Apache Spark-Downloadseite und holen Sie sich die neueste Version (d. h. 3.1.1) zum Zeitpunkt des Schreibens dieses Artikels. Alternativ können Sie die wget-Befehl um die Datei direkt im Terminal herunterzuladen.
$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz.
Öffnen Sie nun Ihr Terminal und wechseln Sie zu dem Ort, an dem sich Ihre heruntergeladene Datei befindet, und führen Sie den folgenden Befehl aus, um die Apache Spark-Tar-Datei zu extrahieren.
$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz.
Verschieben Sie schließlich das extrahierte Funke Verzeichnis zu /opt Verzeichnis.
$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark.
Jetzt müssen Sie ein paar Umgebungsvariablen in Ihrem .Profil Datei, bevor Sie den Funken starten.
$ echo "SPARK_HOME exportieren=/opt/spark" >> ~/.profile. $ echo "Export-PFAD=$PFAD:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile. $ echo "PYSPARK_PYTHON=/usr/bin/python3 exportieren" >> ~/.profile.
Um sicherzustellen, dass diese neuen Umgebungsvariablen innerhalb der Shell erreichbar und für Apache Spark verfügbar sind, ist es außerdem zwingend erforderlich, den folgenden Befehl auszuführen, damit die letzten Änderungen wirksam werden.
$ source ~/.profile.
Alle Spark-bezogenen Binärdateien zum Starten und Stoppen der Dienste befinden sich unter dem sbin Mappe.
$ls -l /opt/spark.
Führen Sie den folgenden Befehl aus, um die Funke Master-Dienst und Slave-Dienst.
$ start-master.sh. $ start-workers.sh spark://localhost: 7077.
Sobald der Dienst gestartet wurde, gehen Sie zum Browser und geben Sie die folgende URL-Zugriffsseite ein. Auf der Seite können Sie sehen, dass mein Master- und Slave-Dienst gestartet wurde.
http://localhost: 8080/ ODER. http://127.0.0.1:8080.
Sie können auch überprüfen, ob Funkenschale funktioniert gut, indem Sie das starten Funkenschale Befehl.
$ Funkenschale.
Das war's für diesen Artikel. Wir werden Sie sehr bald mit einem weiteren interessanten Artikel erwischen.