Apache Spark é uma estrutura computacional distribuída de código aberto criada para fornecer resultados computacionais mais rápidos. É um motor computacional in-memory, o que significa que os dados serão processados na memória.
Fagulha suporta várias APIs para streaming, processamento gráfico, SQL, MLLib. Ele também oferece suporte a Java, Python, Scala e R como as linguagens preferidas. O Spark é instalado principalmente em Clusters Hadoop mas você também pode instalar e configurar o Spark no modo autônomo.
Neste artigo, veremos como instalar Apache Spark em Debian e Ubuntucom base em distribuições.
Para instalar Apache Spark no Ubuntu, você precisa ter Java e Scala instalado em sua máquina. A maioria das distribuições modernas vem com o Java instalado por padrão e você pode verificá-lo usando o seguinte comando.
$ java -version.
Se não houver saída, você pode instalar o Java usando nosso artigo sobre como instalar o Java no Ubuntu
ou simplesmente execute os seguintes comandos para instalar o Java em distribuições baseadas no Ubuntu e Debian.$ sudo apt update. $ sudo apt install default-jre. $ java -version.
Em seguida, você pode instalar Scala do repositório apt executando os seguintes comandos para pesquisar scala e instalá-lo.
$ sudo apt search scala ⇒ Procure o pacote. $ sudo apt install scala ⇒ Instale o pacote.
Para verificar a instalação de Scala, execute o seguinte comando.
$ scala -version Scala code runner versão 2.11.12 - Copyright 2002-2017, LAMP / EPFL
Agora vá para o oficial Página de download do Apache Spark e pegue a versão mais recente (ou seja, 3.1.1) no momento da redação deste artigo. Alternativamente, você pode usar o comando wget para baixar o arquivo diretamente no terminal.
$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz.
Agora abra seu terminal e mude para onde seu arquivo baixado está colocado e execute o seguinte comando para extrair o arquivo tar do Apache Spark.
$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz.
Finalmente, mova o extraído Fagulha diretório para /opt diretório.
$ sudo mv spark-3.1.1-bin-hadoop2.7 / opt / spark.
Agora você deve definir algumas variáveis ambientais em seu .perfil antes de iniciar o Spark.
$ echo "export SPARK_HOME = / opt / spark" >> ~ / .profile. $ echo "export PATH = $ PATH: / opt / spark / bin: / opt / spark / sbin" >> ~ / .profile. $ echo "export PYSPARK_PYTHON = / usr / bin / python3" >> ~ / .profile.
Para garantir que essas novas variáveis de ambiente sejam alcançáveis dentro do shell e disponíveis para o Apache Spark, também é obrigatório executar o seguinte comando para que as alterações recentes entrem em vigor.
$ source ~ / .profile.
Todos os binários relacionados a faíscas para iniciar e parar os serviços estão sob o sbin pasta.
$ ls -l / opt / spark.
Execute o seguinte comando para iniciar o Fagulha serviço mestre e serviço escravo.
$ start-master.sh. $ start-workers.sh spark: // localhost: 7077.
Assim que o serviço for iniciado, vá para o navegador e digite a seguinte página inicial de acesso ao URL. Na página, você pode ver que meu serviço mestre e escravo foi iniciado.
http://localhost: 8080/ OU. http://127.0.0.1:8080.
Você também pode verificar se faísca funciona bem ao iniciar o faísca comando.
$ spark-shell.
É isso para este artigo. Nós vamos pegar você com outro artigo interessante em breve.