Difference between revisions of "Apache: Hadoop"

From OnnoWiki
Jump to navigation Jump to search
 
(30 intermediate revisions by the same user not shown)
Line 2: Line 2:
  
  
Apache Hadoop is an open-source software framework written in Java for distributed storage and distributed processing of very large data sets on computer clusters built from commodity hardware. All the modules in Hadoop are designed with a fundamental assumption that hardware failures (of individual machines, or racks of machines) are commonplace and thus should be automatically handled in software by the framework.
+
Apache Hadoop adalah kerangka kerja perangkat lunak open source yang ditulis di Java untuk penyimpanan terdistribusi dan pengolahan terdistribusi data set yang sangat besar pada cluster komputer dibangun dari hardware komoditas. Semua modul di Hadoop dirancang dengan asumsi dasar bahwa kegagalan hardware (mesin individu, atau rak mesin) yang biasa dan dengan demikian harus ditangani secara otomatis dalam perangkat lunak oleh framework.
  
The core of Apache Hadoop consists of a storage part (Hadoop Distributed File System (HDFS)) and a processing part (MapReduce). Hadoop splits files into large blocks and distributes them amongst the nodes in the cluster. To process the data, Hadoop MapReduce transfers packaged code for nodes to process in parallel, based on the data each node needs to process. This approach takes advantage of data locality—nodes manipulating the data that they have on hand—to allow the data to be processed faster and more efficiently than it would be in a more conventional supercomputer architecture that relies on a parallel file system where computation and data are connected via high-speed networking.
+
Inti dari Apache Hadoop terdiri dari bagian penyimpanan (Hadoop Distributed File System (HDFS)) dan bagian pengolahan (MapReduce). Hadoop membagi file ke dalam blok besar dan mendistribusikan mereka di antara node di cluster. Untuk mengolah data, Hadoop MapReduce mentransfer kode ke node untuk memproses secara paralel, berdasarkan data yang perlu di proses di setiap node. Pendekatan ini mengambil keuntungan dari lokalitas data-node memanipulasi data yang mereka miliki di tangan-untuk memungkinkan data yang akan diproses lebih cepat dan lebih efisien daripada arsitektur superkomputer yang lebih konvensional yang mengandalkan sistem file paralel di mana perhitungan dan data terhubung melalui jaringan berkecepatan tinggi.
  
The base Apache Hadoop framework is composed of the following modules:
+
Dasar kerangka Apache Hadoop terdiri dari modul-modul berikut:
  
* Hadoop Common – contains libraries and utilities needed by other Hadoop modules;
+
* Hadoop Common - berisi perpustakaan dan utilitas yang dibutuhkan oleh modul lain Hadoop;
* Hadoop Distributed File System (HDFS) – a distributed file-system that stores data on commodity machines, providing very high aggregate bandwidth across the cluster;
+
* Hadoop Distributed File System (HDFS) - file-sistem terdistribusi yang menyimpan data pada mesin komoditas, menyediakan bandwidth yang agregat sangat tinggi di cluster;
* Hadoop YARN – a resource-management platform responsible for managing computing resources in clusters and using them for scheduling of users' applications; and
+
* Hadoop YARN - platform sumber daya manajemen yang bertanggung jawab untuk mengelola sumber daya komputasi dalam kelompok dan menggunakan mereka untuk penjadwalan aplikasi pengguna; dan
* Hadoop MapReduce – a programming model for large scale data processing.
+
* Hadoop MapReduce - model pemrograman untuk pengolahan data skala besar.
  
The term "Hadoop" has come to refer not just to the base modules above, but also to the "ecosystem", or collection of additional software packages that can be installed on top of or alongside Hadoop, such as Apache Pig, Apache Hive, Apache HBase, Apache Phoenix, Apache Spark, Apache Zookeeper, Impala, Apache Flume, Apache Sqoop, Apache Oozie, Apache Storm and others.
+
Istilah "Hadoop" telah datang untuk merujuk tidak hanya untuk modul dasar di atas, tetapi juga untuk "ekosistem", atau koleksi paket perangkat lunak tambahan yang dapat diinstal di atas atau di samping Hadoop, seperti Apache Pig, Apache Hive, Apache HBase, Apache Phoenix, Apache Spark, Apache Zookeeper, Impala, Apache Flume, Apache Sqoop, Apache Oozie, Apache Storm dan lain-lain.
  
Apache Hadoop's MapReduce and HDFS components were inspired by Google papers on their MapReduce and Google File System.
+
MapReduce dan HDFS komponen Apache Hadoop ini terinspirasi oleh makalah Google pada MapReduce dan Google File System.
  
The Hadoop framework itself is mostly written in the Java programming language, with some native code in C and command line utilities written as Shell script. For end-users, though MapReduce Java code is common, any programming language can be used with "Hadoop Streaming" to implement the "map" and "reduce" parts of the user's program. Other related projects expose other higher-level user interfaces.
+
The Hadoop kerangka itu sendiri sebagian besar ditulis dalam bahasa pemrograman Java, dengan beberapa kode asli di C dan baris perintah utilitas ditulis sebagai script Shell. Untuk pengguna akhir, meskipun kode MapReduce Java adalah umum, bahasa pemrograman dapat digunakan dengan "Hadoop Streaming" untuk menerapkan "map" dan "reduce" bagian dari program pengguna. Proyek terkait lainnya mengekspos antarmuka pengguna tingkat tinggi lainnya.
  
Prominent corporate users of Hadoop include Facebook and Yahoo. It can be deployed in traditional on-site datacenters but has also been implemented in public cloud spaces such as Microsoft Azure, Amazon Web Services, Google Compute Engine, and IBM Bluemix.
+
Pengguna korporat terkemuka Hadoop termasuk Facebook dan Yahoo. Hal ini dapat digunakan di pusat data tradisional di tempat tetapi juga telah diterapkan di cloud ruang publik seperti Microsoft Azure, Amazon Web Services, Google Compute, dan IBM Bluemix.
  
Apache Hadoop is a registered trademark of the Apache Software Foundation.
+
Apache Hadoop adalah merek dagang terdaftar dari Apache Software Foundation.
  
  
Line 33: Line 33:
 
* https://en.wikipedia.org/wiki/Apache_Hadoop
 
* https://en.wikipedia.org/wiki/Apache_Hadoop
 
* http://jawdat.com/id/video-material-hackathon/
 
* http://jawdat.com/id/video-material-hackathon/
 +
* http://www.bogotobogo.com/Hadoop/
 +
 +
==Pranala Menarik==
 +
 +
* [[Hadoop: Ecosystem]]
 +
* [[Hadoop: Instal di Ubuntu 14.04]]
 +
* [[Hadoop: Instal Hadoop Native Library di Ubuntu 14.04]]
 +
* [[Hadoop: Instal di Ubuntu]]
 +
* [[Hadoop: Setup Single Node Cluster]]
 +
* [[Hadoop: Menjalankan MapReduce Job]]
 +
* [[Hadoop: Menjalankan MapReduce Job -WordCount]]
 +
* [[Hadoop: Perintah Shell]]
 +
* [[Hadoop: Sampel Dataset untuk test Hadoop]]
 +
* [[Hadoop: Programming MapReduce]]
 +
* [[Hadoop: Contoh Program Sederhana]]
 +
* [[Hadoop: Pemrogramman dengan Python]]
 +
* [[Hadoop: Python Framework untuk Hadoop]]
 +
* [[Hadoop: Python Map Reduce untuk Hadoop]]
 +
* [[Hadoop: Python Map Reduce]]
 +
* [[Hadoop: Berbagai Contoh Source Code Hadoop]]
 +
* [[Hadoop: R Statistik Analysis]]
 +
* [[Hadoop: Giraph - Langkah Pertama]]
 +
* [[Hadoop: Giraph - Graph Analysis]]
 +
* [[Hadoop: Giraph - PageRank]]
 +
* [[Hadoop: Giraph - Shortest Path]]
 +
* [[Hadoop: Hive untuk Query SQL]]
 +
* [[Hadoop: Hive Instalasi]]
 +
* [[Hadoop: Hive contekan SQL]]
 +
* [[Hadoop: Sqoop untuk Import Export Hive ke MySQL]]
 +
* [[Hadoop: Sqoop Contoh Import dari MySQL ke Hadoop]]
 +
 +
* [[Hadoop: Python]]

Latest revision as of 16:54, 13 February 2017

Sumber: https://en.wikipedia.org/wiki/Apache_Hadoop


Apache Hadoop adalah kerangka kerja perangkat lunak open source yang ditulis di Java untuk penyimpanan terdistribusi dan pengolahan terdistribusi data set yang sangat besar pada cluster komputer dibangun dari hardware komoditas. Semua modul di Hadoop dirancang dengan asumsi dasar bahwa kegagalan hardware (mesin individu, atau rak mesin) yang biasa dan dengan demikian harus ditangani secara otomatis dalam perangkat lunak oleh framework.

Inti dari Apache Hadoop terdiri dari bagian penyimpanan (Hadoop Distributed File System (HDFS)) dan bagian pengolahan (MapReduce). Hadoop membagi file ke dalam blok besar dan mendistribusikan mereka di antara node di cluster. Untuk mengolah data, Hadoop MapReduce mentransfer kode ke node untuk memproses secara paralel, berdasarkan data yang perlu di proses di setiap node. Pendekatan ini mengambil keuntungan dari lokalitas data-node memanipulasi data yang mereka miliki di tangan-untuk memungkinkan data yang akan diproses lebih cepat dan lebih efisien daripada arsitektur superkomputer yang lebih konvensional yang mengandalkan sistem file paralel di mana perhitungan dan data terhubung melalui jaringan berkecepatan tinggi.

Dasar kerangka Apache Hadoop terdiri dari modul-modul berikut:

  • Hadoop Common - berisi perpustakaan dan utilitas yang dibutuhkan oleh modul lain Hadoop;
  • Hadoop Distributed File System (HDFS) - file-sistem terdistribusi yang menyimpan data pada mesin komoditas, menyediakan bandwidth yang agregat sangat tinggi di cluster;
  • Hadoop YARN - platform sumber daya manajemen yang bertanggung jawab untuk mengelola sumber daya komputasi dalam kelompok dan menggunakan mereka untuk penjadwalan aplikasi pengguna; dan
  • Hadoop MapReduce - model pemrograman untuk pengolahan data skala besar.

Istilah "Hadoop" telah datang untuk merujuk tidak hanya untuk modul dasar di atas, tetapi juga untuk "ekosistem", atau koleksi paket perangkat lunak tambahan yang dapat diinstal di atas atau di samping Hadoop, seperti Apache Pig, Apache Hive, Apache HBase, Apache Phoenix, Apache Spark, Apache Zookeeper, Impala, Apache Flume, Apache Sqoop, Apache Oozie, Apache Storm dan lain-lain.

MapReduce dan HDFS komponen Apache Hadoop ini terinspirasi oleh makalah Google pada MapReduce dan Google File System.

The Hadoop kerangka itu sendiri sebagian besar ditulis dalam bahasa pemrograman Java, dengan beberapa kode asli di C dan baris perintah utilitas ditulis sebagai script Shell. Untuk pengguna akhir, meskipun kode MapReduce Java adalah umum, bahasa pemrograman dapat digunakan dengan "Hadoop Streaming" untuk menerapkan "map" dan "reduce" bagian dari program pengguna. Proyek terkait lainnya mengekspos antarmuka pengguna tingkat tinggi lainnya.

Pengguna korporat terkemuka Hadoop termasuk Facebook dan Yahoo. Hal ini dapat digunakan di pusat data tradisional di tempat tetapi juga telah diterapkan di cloud ruang publik seperti Microsoft Azure, Amazon Web Services, Google Compute, dan IBM Bluemix.

Apache Hadoop adalah merek dagang terdaftar dari Apache Software Foundation.




Referensi

Pranala Menarik