Zainstaluj wielowęzłowy klaster Hadoop przy użyciu CDH4 w RHEL/CentOS 6.5

Hadoop to platforma programistyczna typu open source opracowana przez apache do przetwarzania dużych zbiorów danych. To używa HDFS (Rozproszony system plików Hadoop) do przechowywania danych we wszystkich węzłach danych w klastrze w sposób dystrybucyjny i mapreduce model do przetwarzania danych.

Zainstaluj wielowęzłowy klaster Hadoop w CentOS — Zainstaluj wielowęzłowy klaster Hadoop

Nazwanode (NN) to główny demon, który kontroluje HDFS oraz Jobtracker (JT) jest głównym demonem silnika mapreduce.

Wymagania

W tym samouczku używam dwóch CentOS 6,3 Maszyny wirtualnegospodarz' oraz 'węzełmianowicie. (master i node to moje nazwy hostów). „Nadrzędny” adres IP to 172.21.17.175 a IP węzła to „172.21.17.188‘. Poniższe instrukcje również działają na RHEL/CentOS 6.x wersje.

Na Mistrzu

[[e-mail chroniony] ~]# nazwa hosta gospodarz

[[e-mail chroniony] ~]# ifconfig|grep 'inet addr'|head -1 inet addr:172.21.17.175 Obsada: 172.21.19.255 Maska: 255.255.252.0

W węźle

[[e-mail chroniony] ~]# nazwa hosta węzeł

[[e-mail chroniony] ~]# ifconfig|grep 'inet addr'|head -1 inet addr:172.21.17.188 Obsada: 172.21.19.255 Maska: 255.255.252.0

Najpierw upewnij się, że wszystkie hosty klastra są tam w „/itp/hosty‘ plik (na każdym węźle), jeśli nie masz skonfigurowanego DNS.

Na Mistrzu

[[e-mail chroniony] ~]# cat /etc/hosts 172.21.17.175 master. 172.21.17.188 węzeł

W węźle

[[e-mail chroniony] ~]# kot /etc/hosts 172.21.17.197 qabox. 172.21.17.176 ansibl-ziemia

Instalowanie klastra wielowęzłowego Hadoop w CentOS

Używamy oficjalnych CDH repozytorium do zainstalowania CDH4 na wszystkich hostach (głównym i węźle) w klastrze.

Krok 1: Pobierz Zainstaluj repozytorium CDH

Przejdź do oficjalnego Pobierz CDH stronę i weź CDH4 (tj. 4.6) wersja lub możesz użyć następujących wget polecenie, aby pobrać repozytorium i zainstalować je.

W systemie RHEL/CentOS 32-bitowym

# wget http://archive.cloudera.com/cdh4/one-click-install/redhat/6/i386/cloudera-cdh-4-0.i386.rpm. # mniam --nogpgcheck localinstall cloudera-cdh-4-0.i386.rpm

W systemie RHEL/CentOS 64-bitowym

# wget http://archive.cloudera.com/cdh4/one-click-install/redhat/6/x86_64/cloudera-cdh-4-0.x86_64.rpm. # mniam --nogpgcheck localinstall cloudera-cdh-4-0.x86_64.rpm

Przed zainstalowaniem Hadoop Multinode Cluster dodaj publiczny klucz GPG Cloudera do swojego repozytorium, uruchamiając jedno z następujących poleceń zgodnie z architekturą systemu.

## w systemie 32-bitowym ## # rpm --import http://archive.cloudera.com/cdh4/redhat/6/i386/cdh/RPM-GPG-KEY-cloudera

## w systemie 64-bitowym ## # rpm --import http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera

Krok 2: Skonfiguruj JobTracker i NameNode

Następnie uruchom następujące polecenie, aby zainstalować i skonfigurować JobTracker i NameNode na serwerze głównym.

[[e-mail chroniony] ~]# mniam wyczyść wszystko [[e-mail chroniony] ~]# mniam zainstaluj hadoop-0.20-mapreduce-jobtracker

[[e-mail chroniony] ~]# mniam wyczyść wszystko. [[e-mail chroniony] ~]# mniam zainstaluj hadoop-hdfs-namenode

Krok 3: Skonfiguruj węzeł z nazwą drugorzędną

Ponownie uruchom następujące polecenia na serwerze głównym, aby skonfigurować dodatkowy węzeł nazwy.

[[e-mail chroniony] ~]# mniam wyczyść wszystko [[e-mail chroniony] ~]# mniam zainstaluj hadoop-hdfs-secondarynam

Krok 4: Skonfiguruj Tasktracker i Datanode

Następnie skonfiguruj narzędzie do śledzenia zadań i datanode na wszystkich hostach klastra (Node) z wyjątkiem hostów JobTracker, NameNode i Secondary (lub Standby) NameNode (w tym przypadku na węźle).

[[e-mail chroniony] ~]# mniam wyczyść wszystko. [[e-mail chroniony] ~]# mniam zainstaluj hadoop-0.20-mapreduce-tasktracker hadoop-hdfs-datanode

Krok 5: Skonfiguruj klienta Hadoop

Możesz zainstalować klienta Hadoop na osobnym komputerze (w tym przypadku zainstalowałem go na węźle danych, możesz zainstalować go na dowolnym komputerze).

[[e-mail chroniony] ~]# mniam zainstaluj klienta hadoop

Krok 6: Wdróż HDFS na węzłach

Teraz, jeśli skończyliśmy z powyższymi krokami, przejdźmy do wdrożenia hdfs (do zrobienia na wszystkich węzłach).

Skopiuj domyślną konfigurację do /etc/hadoop katalog ( na każdym węźle w klastrze ).

[[e-mail chroniony] ~]# cp -r /etc/hadoop/conf.dist /etc/hadoop/conf.my_cluster

[[e-mail chroniony] ~]# cp -r /etc/hadoop/conf.dist /etc/hadoop/conf.my_cluster

Posługiwać się alternatywy polecenie, aby ustawić katalog niestandardowy w następujący sposób (na każdym węźle w klastrze).

[[e-mail chroniony] ~]# alternatywy --verbose --install /etc/hadoop/conf hadoop-conf /etc/hadoop/conf.my_cluster 50. czytanie /var/lib/alternatives/hadoop-conf [[e-mail chroniony] ~]# alternatywy --set hadoop-conf /etc/hadoop/conf.my_cluster

[[e-mail chroniony] ~]# alternatywy --verbose --install /etc/hadoop/conf hadoop-conf /etc/hadoop/conf.my_cluster 50. czytanie /var/lib/alternatives/hadoop-conf [[e-mail chroniony] ~]# alternatywy --set hadoop-conf /etc/hadoop/conf.my_cluster

Krok 7: Dostosowywanie plików konfiguracyjnych

Teraz otwarte 'core-site.xml„ złóż i zaktualizuj”fs.defaultFS” na każdym węźle w klastrze.

[[e-mail chroniony] conf]# kot /etc/hadoop/conf/core-site.xml

1.0tekst/xslkonfiguracja.xslfs.defaultFShdfs://główny/

[[e-mail chroniony] conf]# kot /etc/hadoop/conf/core-site.xml

1.0tekst/xslkonfiguracja.xslfs.defaultFShdfs://główny/

Następna aktualizacja”dfs.permissions.superusergroup" w hdfs-site.xml na każdym węźle w klastrze.

[[e-mail chroniony] conf]# kot /etc/hadoop/conf/hdfs-site.xml

1.0tekst/xslkonfiguracja.xsldfs.nazwa.katalog/var/lib/hadoop-hdfs/cache/hdfs/dfs/namedfs.permissions.superusergrouphadoop

[[e-mail chroniony] conf]# kot /etc/hadoop/conf/hdfs-site.xml

1.0tekst/xslkonfiguracja.xsldfs.nazwa.katalog/var/lib/hadoop-hdfs/cache/hdfs/dfs/namedfs.permissions.superusergrouphadoop

Notatka: Upewnij się, że powyższa konfiguracja jest obecna na wszystkich węzłach (zrób na jednym węźle i uruchom scp skopiować na pozostałe węzły ).

Krok 8: Konfiguracja lokalnych katalogów pamięci

Zaktualizuj „dfs.name.dir lub dfs.namenode.name.dir” w „hdfs-site.xml” na NameNode (na Master i Node). Zmień podświetloną wartość.

[[e-mail chroniony] conf]# kot /etc/hadoop/conf/hdfs-site.xml

dfs.namenode.name.dirfile:///data/1/dfs/nn,/nfsmount/dfs/nn

[[e-mail chroniony] conf]# kot /etc/hadoop/conf/hdfs-site.xml

dfs.datanode.data.dirplik:///data/1/dfs/dn,/data/2/dfs/dn,/data/3/dfs/dn

Krok 9: Twórz katalogi i zarządzaj uprawnieniami

Wykonaj poniższe polecenia, aby utworzyć strukturę katalogów i zarządzać uprawnieniami użytkowników na maszynie Namenode (Master) i Datanode (Node).

[[e-mail chroniony]]# mkdir -p /data/1/dfs/nn /nfsmount/dfs/nn. [[e-mail chroniony]]# chmod 700 /data/1/dfs/nn /nfsmount/dfs/nn

[[e-mail chroniony]]# mkdir -p /data/1/dfs/dn /data/2/dfs/dn /data/3/dfs/dn /data/4/dfs/dn. [[e-mail chroniony]]# chown -R hdfs: hdfs /data/1/dfs/nn /nfsmount/dfs/nn /data/1/dfs/dn /data/2/dfs/dn /data/3/dfs/dn /data/4 /dfs/dn

Sformatuj Namenode (na Master), wydając następujące polecenie.

[[e-mail chroniony] conf]# sudo -u hdfs hdfs nazwanode -format

Krok 10: Konfiguracja drugorzędnego węzła NameNode

Dodaj następującą właściwość do hdfs-site.xml plik i zamień wartość, jak pokazano na Master.

dfs.namenode.http-adres172.21.17.175:50070 Adres i port, na którym będzie nasłuchiwać interfejs użytkownika NameNode.

Notatka: W naszym przypadku wartością powinien być adres ip głównej maszyny wirtualnej.

Teraz wdróżmy MRv1 (Map-reduce version 1 ). Otwarty 'mapred-site.xml‘ plik z następującymi wartościami, jak pokazano.

[[e-mail chroniony] conf]# cp hdfs-site.xml mapred-site.xml. [[e-mail chroniony] conf]# vi mapred-site.xml. [[e-mail chroniony] conf]# cat mapred-site.xml

1.0tekst/xslkonfiguracja.xslmapred.job.trackermistrz: 8021

Następnie skopiuj „mapred-site.xml‘ plik do maszyny węzła za pomocą następującego polecenia scp.

[[e-mail chroniony]conf]# scp /etc/hadoop/conf/mapred-site.xml node:/etc/hadoop/conf/ mapred-site.xml 100% 200 0.2KB/s 00:00

Teraz skonfiguruj lokalne katalogi magazynu do użycia przez demony MRv1. Znowu otwarte ‘mapred-site.xmli wprowadź zmiany, jak pokazano poniżej dla każdego TaskTrackera.


Â mapred.lokalny.dir
Â /data/1/mapred/local,/data/2/mapred/local,/data/3/mapred/local

Po określeniu tych katalogów w „mapred-site.xml„, musisz utworzyć katalogi i przypisać im odpowiednie uprawnienia do plików w każdym węźle w klastrze.

mkdir -p /data/1/mapred/local /data/2/mapred/local /data/3/mapred/local /data/4/mapred/local. chown -R mapred: hadoop /data/1/mapred/local /data/2/mapred/local /data/3/mapred/local /data/4/mapred/local

Krok 10: Uruchom HDFS

Teraz uruchom następujące polecenie, aby uruchomić system HDFS na każdym węźle w klastrze.

[[e-mail chroniony] conf]# for x w `cd /etc/init.d; ls hadoop-hdfs-*`; czy usługa sudo $x start; zrobione

[[e-mail chroniony] conf]# for x w `cd /etc/init.d; ls hadoop-hdfs-*`; czy usługa sudo $x start; zrobione

Krok 11: Utwórz katalogi HDFS /tmp i MapReduce /var

Wymagane jest stworzenie /tmp z odpowiednimi uprawnieniami dokładnie tak, jak wspomniano poniżej.

[[e-mail chroniony] conf]# sudo -u hdfs hadoop fs -mkdir /tmp. [[e-mail chroniony] conf]# sudo -u hdfs hadoop fs -chmod -R 1777 /tmp

[[e-mail chroniony] conf]# sudo -u hdfs hadoop fs -mkdir -p /var/lib/hadoop-hdfs/cache/mapred/mapred/staging. [[e-mail chroniony] conf]# sudo -u hdfs hadoop fs -chmod 1777 /var/lib/hadoop-hdfs/cache/mapred/mapred/staging. [[e-mail chroniony] conf]# sudo -u hdfs hadoop fs -chown -R mapred /var/lib/hadoop-hdfs/cache/mapred

Teraz sprawdź strukturę plików HDFS.

[[e-mail chroniony] conf]# sudo -u hdfs hadoop fs -ls -R / drwxrwxrwt - hdfs hadoop 0 2014-05-29 09:58 /tmp. drwxr-xr-x - hdfs hadoop 0 2014-05-29 09:59 /var. drwxr-xr-x - hdfs hadoop 0 2014-05-29 09:59 /var/lib. drwxr-xr-x - hdfs hadoop 0 2014-05-29 09:59 /var/lib/hadoop-hdfs. drwxr-xr-x - hdfs hadoop 0 2014-05-29 09:59 /var/lib/hadoop-hdfs/cache. drwxr-xr-x - mapred hadoop 0 2014-05-29 09:59 /var/lib/hadoop-hdfs/cache/mapred. drwxr-xr-x - mapred hadoop 0 2014-05-29 09:59 /var/lib/hadoop-hdfs/cache/mapred/mapred. drwxrwxrwt - mapred hadoop 0 2014-05-29 09:59 /var/lib/hadoop-hdfs/cache/mapred/mapred/staging

Po uruchomieniu HDFS i utworzeniu ‘/tmp„, ale przed uruchomieniem JobTrackera utwórz katalog HDFS określony przez parametr „mapred.system.dir” (domyślnie ${hadoop.tmp.dir}/mapred/system i zmień właściciela na mapred).

[[e-mail chroniony] conf]# sudo -u hdfs hadoop fs -mkdir /tmp/mapred/system. [[e-mail chroniony] conf]# sudo -u hdfs hadoop fs -chown mapred: hadoop /tmp/mapred/system

Krok 12: Uruchom MapReduce

Aby uruchomić MapReduce: uruchom usługi TT i JT.

W każdym systemie TaskTracker

[[e-mail chroniony]conf]# service hadoop-0.20-mapreduce-tasktracker start Uruchamianie Tasktrackera: [ OK ] uruchamianie Tasktrackera, logowanie do /var/log/hadoop-0.20-mapreduce/hadoop-hadoop-tasktracker-node.out

W systemie JobTracker

[[e-mail chroniony] conf]# service hadoop-0.20-mapreduce-jobtracker start Uruchamianie Jobtrackera: [ OK ] uruchamianie Jobtrackera, logowanie do /var/log/hadoop-0.20-mapreduce/hadoop-hadoop-jobtracker-master.out

Następnie utwórz katalog domowy dla każdego użytkownika hadoop. zalecane jest zrobienie tego na NameNode; na przykład.

[[e-mail chroniony] conf]# sudo -u hdfs hadoop fs -mkdir /użytkownik/
[[e-mail chroniony] conf]# sudo -u hdfs hadoop fs -chown  /user/

Notatka: gdzie jest nazwą użytkownika Linuksa każdego użytkownika.

Alternatywnie możesz utworzyć katalog domowy w następujący sposób.

[[e-mail chroniony] conf]# sudo -u hdfs hadoop fs -mkdir /user/$USER. [[e-mail chroniony] conf]# sudo -u hdfs hadoop fs -chown $USER /user/$USER

Krok 13: Otwórz JT, NN UI z przeglądarki

Otwórz przeglądarkę i wpisz adres URL jako http://ip_address_of_namenode: 50070 aby uzyskać dostęp do Namenode.

Otwórz kolejną kartę w przeglądarce i wpisz adres URL jakohttp://ip_address_of_jobtracker: 50030 aby uzyskać dostęp do JobTrackera.

Ta procedura została pomyślnie przetestowana na RHEL/CentOS 5.X/6.X. Proszę o komentarz poniżej, jeśli napotkasz jakiekolwiek problemy z instalacją, pomogę Ci z rozwiązaniami.

Recenzja Lernida, wydanie 1.0 w przyszłym tygodniu

on Jul 26, 2023

Zainstaluj wielowęzłowy klaster Hadoop przy użyciu CDH4 w RHEL/CentOS 6.5

Wymagania

Na Mistrzu

W węźle

Na Mistrzu

W węźle

Instalowanie klastra wielowęzłowego Hadoop w CentOS

Krok 1: Pobierz Zainstaluj repozytorium CDH

W systemie RHEL/CentOS 32-bitowym

W systemie RHEL/CentOS 64-bitowym

Krok 2: Skonfiguruj JobTracker i NameNode

Krok 3: Skonfiguruj węzeł z nazwą drugorzędną

Krok 4: Skonfiguruj Tasktracker i Datanode

Krok 5: Skonfiguruj klienta Hadoop

Krok 6: Wdróż HDFS na węzłach

Krok 7: Dostosowywanie plików konfiguracyjnych

Krok 8: Konfiguracja lokalnych katalogów pamięci

Krok 9: Twórz katalogi i zarządzaj uprawnieniami

Krok 10: Konfiguracja drugorzędnego węzła NameNode

Krok 10: Uruchom HDFS

Krok 11: Utwórz katalogi HDFS /tmp i MapReduce /var

Krok 12: Uruchom MapReduce

W każdym systemie TaskTracker

W systemie JobTracker

Krok 13: Otwórz JT, NN UI z przeglądarki

Ubuntu Devs Demo Obsługa aplikacji GTK+ dla Mir

Ubuntu 15.04 zawiera GNOME 3.14, aktualizacje domyślnych aplikacji

Recenzja Lernida, wydanie 1.0 w przyszłym tygodniu