Apache: Hadoop

From OnnoWiki
Jump to navigation Jump to search

Sumber: https://en.wikipedia.org/wiki/Apache_Hadoop


Apache Hadoop adalah kerangka kerja perangkat lunak open source yang ditulis di Java untuk penyimpanan terdistribusi dan pengolahan terdistribusi data set yang sangat besar pada cluster komputer dibangun dari hardware komoditas. Semua modul di Hadoop dirancang dengan asumsi dasar bahwa kegagalan hardware (mesin individu, atau rak mesin) yang biasa dan dengan demikian harus ditangani secara otomatis dalam perangkat lunak oleh framework.

Inti dari Apache Hadoop terdiri dari bagian penyimpanan (Hadoop Distributed File System (HDFS)) dan bagian pengolahan (MapReduce). Hadoop membagi file ke dalam blok besar dan mendistribusikan mereka di antara node di cluster. Untuk mengolah data, Hadoop MapReduce mentransfer kode ke node untuk memproses secara paralel, berdasarkan data yang perlu di proses di setiap node. Pendekatan ini mengambil keuntungan dari lokalitas data-node memanipulasi data yang mereka miliki di tangan-untuk memungkinkan data yang akan diproses lebih cepat dan lebih efisien daripada arsitektur superkomputer yang lebih konvensional yang mengandalkan sistem file paralel di mana perhitungan dan data terhubung melalui jaringan berkecepatan tinggi.

Dasar kerangka Apache Hadoop terdiri dari modul-modul berikut:

  • Hadoop Common - berisi perpustakaan dan utilitas yang dibutuhkan oleh modul lain Hadoop;
  • Hadoop Distributed File System (HDFS) - file-sistem terdistribusi yang menyimpan data pada mesin komoditas, menyediakan bandwidth yang agregat sangat tinggi di cluster;
  • Hadoop YARN - platform sumber daya manajemen yang bertanggung jawab untuk mengelola sumber daya komputasi dalam kelompok dan menggunakan mereka untuk penjadwalan aplikasi pengguna; dan
  • Hadoop MapReduce - model pemrograman untuk pengolahan data skala besar.

Istilah "Hadoop" telah datang untuk merujuk tidak hanya untuk modul dasar di atas, tetapi juga untuk "ekosistem", atau koleksi paket perangkat lunak tambahan yang dapat diinstal di atas atau di samping Hadoop, seperti Apache Pig, Apache Hive, Apache HBase, Apache Phoenix, Apache Spark, Apache Zookeeper, Impala, Apache Flume, Apache Sqoop, Apache Oozie, Apache Storm dan lain-lain.

MapReduce dan HDFS komponen Apache Hadoop ini terinspirasi oleh makalah Google pada MapReduce dan Google File System.

The Hadoop kerangka itu sendiri sebagian besar ditulis dalam bahasa pemrograman Java, dengan beberapa kode asli di C dan baris perintah utilitas ditulis sebagai script Shell. Untuk pengguna akhir, meskipun kode MapReduce Java adalah umum, bahasa pemrograman dapat digunakan dengan "Hadoop Streaming" untuk menerapkan "map" dan "reduce" bagian dari program pengguna. Proyek terkait lainnya mengekspos antarmuka pengguna tingkat tinggi lainnya.

Pengguna korporat terkemuka Hadoop termasuk Facebook dan Yahoo. Hal ini dapat digunakan di pusat data tradisional di tempat tetapi juga telah diterapkan di cloud ruang publik seperti Microsoft Azure, Amazon Web Services, Google Compute, dan IBM Bluemix.

Apache Hadoop adalah merek dagang terdaftar dari Apache Software Foundation.




Referensi

Pranala Menarik