ข้อมูลขนาดใหญ่ใช้บริการของ Apache Hadoop ได้สำเร็จมาระยะหนึ่งแล้ว แต่ข้อมูลขาเข้าก็มีขนาดใหญ่ขึ้นเช่นกัน ซึ่งส่งผลต่อประสิทธิภาพการทำงาน
ดังนั้น Apache ได้จัดเตรียมเฟรมเวิร์กใหม่ที่ใช้ความสามารถในหน่วยความจำเพื่อส่งมอบการประมวลผลที่รวดเร็วในชื่อ Spark ซึ่งกำลังถูกใช้งานมากขึ้นเรื่อยๆ
Apache Spark เป็นเอ็นจิ้นที่รวดเร็วสำหรับการประมวลผลข้อมูลซึ่งเหมาะสำหรับแอปพลิเคชันการวิเคราะห์ตามข้อมูลขนาดใหญ่ สิ่งสำคัญคือ Spark สามารถใช้ได้กับสภาพแวดล้อม Hadoop แบบสแตนด์อโลนหรือในระบบคลาวด์ นอกจากนี้ยังเป็นผลิตภัณฑ์ที่คุ้มค่ามาก
ยังอ่าน: ผลกระทบของเทคโนโลยี Hadoop ต่อหน้าที่หลักของธุรกิจ
นักพัฒนาพบว่าการจัดการนั้นง่ายเพราะให้นักพัฒนาด้วยกรอบงานแอปพลิเคชันที่ทำงานรอบโครงสร้างข้อมูลที่อยู่ตรงกลาง Spark สามารถประมวลผลข้อมูลจำนวนมหาศาลได้ในระยะเวลาอันสั้น
มีการประมวลผลเร็วกว่า MapReduce ของ Hadoop ประมาณ 100 เท่าสำหรับข้อมูลจำนวนเท่ากัน นอกจากนี้ยังใช้ทรัพยากรน้อยลงและสามารถทำงานร่วมกับผู้จัดการทรัพยากรอื่น ๆ เช่น YARN ได้อีกด้วย
Spark มีอินเทอร์เฟซโปรแกรมแอปพลิเคชัน (API) สำหรับหลายภาษา เช่น Scala, Java, Python และ Spark SQL API ช่วยให้โปรแกรมซอฟต์แวร์สองโปรแกรมสามารถสื่อสารกันได้ กลายเป็นเรื่องง่ายที่จะเขียนฟังก์ชันที่ผู้ใช้กำหนดเอง นอกจากนี้ยังสามารถทำงานเป็นโหมดโต้ตอบสำหรับการรันคำสั่งได้อีกด้วย Hadoop มีเครื่องมือที่ช่วยในกระบวนการ แต่การเขียนโปรแกรมใน Java เป็นเรื่องยากมาก
Spark โหลดข้อมูลทั้งหมดลงในหน่วยความจำภายในของระบบแล้วยกเลิกการโหลดลงในดิสก์ในภายหลัง ดังนั้นผู้ใช้สามารถบันทึกส่วนหนึ่งของข้อมูลที่ประมวลผลในหน่วยความจำภายในและปล่อยให้ส่วนที่เหลืออยู่บนดิสก์ นี้ทำให้มันเร็วมาก
แกนกลางของ Spark สามารถกำหนดงานและการโต้ตอบ รวมทั้งสามารถสร้างการดำเนินการอินพุต/เอาต์พุตได้ เรียกว่าชุดข้อมูลกระจายความยืดหยุ่น เป็นที่รวบรวมวัตถุมงคล ชุดข้อมูลแต่ละชุดแบ่งออกเป็นโลจิคัลพาร์ติชัน ซึ่งอาจคำนวณได้บนโหนดต่างๆ ของคลัสเตอร์ โดยทั่วไป ข้อมูลนี้จะกระจายไปทั่วหลายเครื่องผ่านเครือข่าย มันถูกสร้างขึ้นโดยการทำแผนที่ การเรียงลำดับ ลดขนาด และการรวมข้อมูล RDD รุ่นนี้ทำได้โดยได้รับการสนับสนุนจาก API API นี้เป็นการผสมผสานระหว่างภาษา Scala, Java และ Python
SQL ของ Apache Spark จัดเรียงข้อมูลในหลายระดับและยังสามารถสืบค้นข้อมูลผ่านภาษาเฉพาะได้อีกด้วย
Spark สามารถประมวลผลกราฟและข้อมูลกราฟิก ซึ่งช่วยให้วิเคราะห์ได้ง่ายและมีความแม่นยำสูง
ขั้นตอนนี้ทำให้แพ็กเก็ตข้อมูลขนาดใหญ่ที่มีขนาดเล็กลงด้วยความช่วยเหลือจากคอร์และแปลงเพื่อเร่งการสร้าง RDD
Spark มีไลบรารีการเรียนรู้ของเครื่องที่ใช้งานได้เร็วกว่า Hadoop สามารถแก้ปัญหาได้หลายอย่าง เช่น การอ่านทางสถิติ การสุ่มตัวอย่างข้อมูล และการทดสอบสมมติฐาน
Spark ได้จัดเตรียมแพลตฟอร์มที่ค่อนข้างใหม่และยังไม่ได้รับการทดสอบ ดังนั้นจึงต้องใช้เวลาพอสมควรในการสร้างชื่อเสียง
Apache Spark ถูกว่าจ้างโดยบริษัทจำนวนมากที่เหมาะสมกับความต้องการในการประมวลผลข้อมูล บางส่วน ได้แก่ Shopify, Pinterest และ TripAdvisor พวกเขาสามารถระบุแนวโน้มการพัฒนาแล้วใช้เพื่อทำความเข้าใจพฤติกรรมของผู้ใช้
Apache Spark's มีพลังการประมวลผล ความเร็ว และความเข้ากันได้ที่กำหนดเสียงสำหรับหลายสิ่งหลายอย่างที่จะเกิดขึ้น อย่างไรก็ตาม จำเป็นต้องปรับปรุงเพื่อให้เกิดศักยภาพสูงสุด Apache Spark ให้ Hadoop ต่อสู้อย่างหนักและถือเป็นแพลตฟอร์มในอนาคตสำหรับความต้องการในการประมวลผลข้อมูล