هادوب هو إطار مفتوح المصدر يستخدم على نطاق واسع للتعامل معه البيانات الكبيرة. أكثر من Bigdata / تحليلات البيانات يتم بناء المشاريع فوق نظام Hadoop البيئي. يتكون من طبقتين ، واحدة من أجل تخزين البيانات وآخر من أجل معالجة البيانات.
تخزين سيتم العناية به من خلال نظام الملفات الخاص به المسمى HDFS (نظام الملفات الموزعة Hadoop) و معالجة سيتم العناية بها غزل (بعد مفاوض موارد آخر). مابريدس هو محرك المعالجة الافتراضي لبرنامج نظام Hadoop البيئي.
توضح هذه المقالة عملية تثبيت الكاذب تركيب هادوب، حيث كل شياطين (JVMs) سيتم تشغيله عقدة واحدة الكتلة على CentOS 7.
هذا بشكل أساسي للمبتدئين لتعلم Hadoop. في الوقت الحقيقي، هادوب سيتم تثبيتها كمجموعة متعددة الرموز حيث سيتم توزيع البيانات بين الخوادم على شكل كتل وسيتم تنفيذ المهمة بطريقة موازية.
1.هادوب هو نظام بيئي يتكون من جافا. نحن نحتاج جافا مثبتة في نظامنا إلزاميًا للتثبيت هادوب.
# yum قم بتثبيت java-1.8.0-openjdk.
2. بعد ذلك ، تحقق من الإصدار المثبت من جافا على النظام.
# إصدار جافا.
نحتاج إلى تكوين ssh في أجهزتنا ، هادوب سيدير العقد باستخدام SSH. يستخدم العقدة الرئيسية SSH الاتصال لتوصيل العقد التابعة لها وإجراء عملية مثل البدء والإيقاف.
نحتاج إلى إعداد ssh بدون كلمة مرور حتى يتمكن السيد من التواصل مع العبيد باستخدام ssh بدون كلمة مرور. خلاف ذلك لكل مؤسسة اتصال ، تحتاج إلى إدخال كلمة المرور.
في هذه العقدة المفردة ، رئيس خدمات (نامينود, Namenode الثانوي & مدير موارد) و عبد خدمات (داتانود & Nodemanager) سيتم تشغيله بشكل منفصل JVMs. على الرغم من أنها عقدة مفردة ، إلا أننا نحتاج إلى وجود ssh بدون كلمة مرور رئيس للتواصل عبد بدون مصادقة.
3. قم بإعداد تسجيل دخول SSH بدون كلمة مرور باستخدام الأوامر التالية على الخادم.
# ssh-keygen. # ssh-copy-id -i localhost.
4. بعد تكوين تسجيل الدخول إلى SSH بدون كلمة مرور ، حاول تسجيل الدخول مرة أخرى ، وسوف تكون متصلاً بدون كلمة مرور.
# ssh المضيف المحلي.
5. انتقل إلى موقع ويب Apache Hadoop وقم بتنزيل الإصدار الثابت من Hadoop باستخدام ما يلي أمر wget.
# wget https://archive.apache.org/dist/hadoop/core/hadoop-2.10.1/hadoop-2.10.1.tar.gz. # tar xvpzf hadoop-2.10.1.tar.gz.
6. بعد ذلك ، أضف ملف هادوب متغيرات البيئة في ~ / .باشرك
الملف كما هو موضح.
HADOOP_PREFIX = / root / hadoop-2.10.1. PATH = $ PATH: $ HADOOP_PREFIX / bin. تصدير PATH JAVA_HOME HADOOP_PREFIX.
7. بعد اضافة متغيرات البيئة الى ~ / .باشرك
الملف ، مصدر الملف وتحقق من Hadoop عن طريق تشغيل الأوامر التالية.
# المصدر ~ /. # cd $ HADOOP_PREFIX. # بن / نسخة هادوب.
نحتاج إلى تكوين ملفات تكوين Hadoop أدناه لكي نلائم جهازك. في هادوب ، كل خدمة لها رقم منفذ خاص بها ودليل خاص بها لتخزين البيانات.
8. أولا ، نحن بحاجة إلى التحديث JAVA_HOME
و هادوب المسار في hadoop-env.sh الملف كما هو موضح.
# cd $ HADOOP_PREFIX / etc / hadoop. # vi hadoop-env.sh.
أدخل السطر التالي في بداية الملف.
تصدير JAVA_HOME = / usr / lib / jvm / java-1.8.0 / jre. تصدير HADOOP_PREFIX = / root / hadoop-2.10.1.
9. بعد ذلك ، قم بتعديل ملف core-site.xml
ملف.
# cd $ HADOOP_PREFIX / etc / hadoop. # vi core-site.xml.
لصق التالي بين العلامات كما هو موضح.
fs.defaultFS hdfs: // المضيف المحلي: 9000
10. قم بإنشاء الدلائل أدناه النعناع
دليل المستخدم الرئيسي ، والذي سيتم استخدامه لـ NN و DN تخزين.
# mkdir -p / home / tecmint / hdata / # mkdir -p / home / tecmint / hdata / data. # mkdir -p / home / tecmint / hdata / name.
10. بعد ذلك ، قم بتعديل ملف hdfs- site.xml
ملف.
# cd $ HADOOP_PREFIX / etc / hadoop. # vi hdfs-site.xml.
لصق التالي بين العلامات كما هو موضح.
dfs النسخ المتماثل 1 dfs.namenode.name.dir /home/tecmint/hdata/name dfs .datanode.data.dir الصفحة الرئيسية / tecmint / hdata / data
11. مرة أخرى ، قم بتعديل ملف mapred-site.xml
ملف.
# cd $ HADOOP_PREFIX / etc / hadoop. # cp mapred-site.xml.template mapred-site.xml. # vi mapred-site.xml.
لصق التالي بين العلامات كما هو موضح.
mapreduce.framework.name غزل
12. أخيرًا ، قم بتعديل ملف موقع الغزل .xml
ملف.
# cd $ HADOOP_PREFIX / etc / hadoop. # vi yarn-site.xml.
لصق التالي بين العلامات كما هو موضح.
yarn.nodemanager.aux-services mapreduce_shuffle
13. قبل البدء في العنقودية، نحتاج إلى تنسيق ملف هادوب NN في نظامنا المحلي حيث تم تثبيته. عادة ، سيتم ذلك في المرحلة الأولية قبل بدء الكتلة في المرة الأولى.
تنسيق ملف NN سيتسبب في فقد البيانات في NN metastore ، لذلك علينا أن نكون أكثر حذراً ، لا ينبغي لنا التنسيق NN أثناء تشغيل الكتلة ما لم يكن مطلوبًا عن قصد.
# cd $ HADOOP_PREFIX. # bin / hadoop namenode -format.
14. يبدأ NameNode الخفي و داتاينود الشيطان: (port 50070).
# cd $ HADOOP_PREFIX. # sbin / start-dfs.sh.
15. يبدأ مدير موارد الخفي و NodeManager الشيطان: (port 8088).
# sbin / start-yarn.sh.
16. لوقف جميع الخدمات.
# sbin / stop-dfs.sh. # sbin / stop-dfs.sh.
ملخص
في هذه المقالة ، مررنا بعملية خطوة بخطوة للإعداد Hadoop Pseudonode (عقدة واحدة) العنقودية. إذا كانت لديك معرفة أساسية بنظام Linux واتبعت هذه الخطوات ، فسيتم تشغيل الكتلة خلال 40 دقيقة.
قد يكون هذا مفيدًا جدًا للمبتدئين لبدء التعلم والممارسة هادوب أو هذه النسخة الفانيليا من هادوب يمكن استخدامها لأغراض التنمية. إذا أردنا الحصول على مجموعة في الوقت الفعلي ، فإما أننا بحاجة إلى ما لا يقل عن 3 خوادم فعلية في متناول اليد أو يتعين علينا توفير Cloud لامتلاك خوادم متعددة.