Difference between revisions of "Apache: Hadoop"
Onnowpurbo (talk | contribs) (New page: Sumber: https://en.wikipedia.org/wiki/Apache_Hadoop Apache Hadoop is an open-source software framework written in Java for distributed storage and distributed processing of very large da...) |
Onnowpurbo (talk | contribs) |
||
(31 intermediate revisions by the same user not shown) | |||
Line 2: | Line 2: | ||
− | Apache Hadoop | + | Apache Hadoop adalah kerangka kerja perangkat lunak open source yang ditulis di Java untuk penyimpanan terdistribusi dan pengolahan terdistribusi data set yang sangat besar pada cluster komputer dibangun dari hardware komoditas. Semua modul di Hadoop dirancang dengan asumsi dasar bahwa kegagalan hardware (mesin individu, atau rak mesin) yang biasa dan dengan demikian harus ditangani secara otomatis dalam perangkat lunak oleh framework. |
− | + | Inti dari Apache Hadoop terdiri dari bagian penyimpanan (Hadoop Distributed File System (HDFS)) dan bagian pengolahan (MapReduce). Hadoop membagi file ke dalam blok besar dan mendistribusikan mereka di antara node di cluster. Untuk mengolah data, Hadoop MapReduce mentransfer kode ke node untuk memproses secara paralel, berdasarkan data yang perlu di proses di setiap node. Pendekatan ini mengambil keuntungan dari lokalitas data-node memanipulasi data yang mereka miliki di tangan-untuk memungkinkan data yang akan diproses lebih cepat dan lebih efisien daripada arsitektur superkomputer yang lebih konvensional yang mengandalkan sistem file paralel di mana perhitungan dan data terhubung melalui jaringan berkecepatan tinggi. | |
− | + | Dasar kerangka Apache Hadoop terdiri dari modul-modul berikut: | |
− | * Hadoop Common | + | * Hadoop Common - berisi perpustakaan dan utilitas yang dibutuhkan oleh modul lain Hadoop; |
− | * Hadoop Distributed File System (HDFS) | + | * Hadoop Distributed File System (HDFS) - file-sistem terdistribusi yang menyimpan data pada mesin komoditas, menyediakan bandwidth yang agregat sangat tinggi di cluster; |
− | * Hadoop YARN | + | * Hadoop YARN - platform sumber daya manajemen yang bertanggung jawab untuk mengelola sumber daya komputasi dalam kelompok dan menggunakan mereka untuk penjadwalan aplikasi pengguna; dan |
− | * Hadoop MapReduce | + | * Hadoop MapReduce - model pemrograman untuk pengolahan data skala besar. |
− | + | Istilah "Hadoop" telah datang untuk merujuk tidak hanya untuk modul dasar di atas, tetapi juga untuk "ekosistem", atau koleksi paket perangkat lunak tambahan yang dapat diinstal di atas atau di samping Hadoop, seperti Apache Pig, Apache Hive, Apache HBase, Apache Phoenix, Apache Spark, Apache Zookeeper, Impala, Apache Flume, Apache Sqoop, Apache Oozie, Apache Storm dan lain-lain. | |
− | Apache Hadoop | + | MapReduce dan HDFS komponen Apache Hadoop ini terinspirasi oleh makalah Google pada MapReduce dan Google File System. |
− | The Hadoop | + | The Hadoop kerangka itu sendiri sebagian besar ditulis dalam bahasa pemrograman Java, dengan beberapa kode asli di C dan baris perintah utilitas ditulis sebagai script Shell. Untuk pengguna akhir, meskipun kode MapReduce Java adalah umum, bahasa pemrograman dapat digunakan dengan "Hadoop Streaming" untuk menerapkan "map" dan "reduce" bagian dari program pengguna. Proyek terkait lainnya mengekspos antarmuka pengguna tingkat tinggi lainnya. |
− | + | Pengguna korporat terkemuka Hadoop termasuk Facebook dan Yahoo. Hal ini dapat digunakan di pusat data tradisional di tempat tetapi juga telah diterapkan di cloud ruang publik seperti Microsoft Azure, Amazon Web Services, Google Compute, dan IBM Bluemix. | |
− | Apache Hadoop | + | Apache Hadoop adalah merek dagang terdaftar dari Apache Software Foundation. |
Line 32: | Line 32: | ||
* https://en.wikipedia.org/wiki/Apache_Hadoop | * https://en.wikipedia.org/wiki/Apache_Hadoop | ||
+ | * http://jawdat.com/id/video-material-hackathon/ | ||
+ | * http://www.bogotobogo.com/Hadoop/ | ||
+ | |||
+ | ==Pranala Menarik== | ||
+ | |||
+ | * [[Hadoop: Ecosystem]] | ||
+ | * [[Hadoop: Instal di Ubuntu 14.04]] | ||
+ | * [[Hadoop: Instal Hadoop Native Library di Ubuntu 14.04]] | ||
+ | * [[Hadoop: Instal di Ubuntu]] | ||
+ | * [[Hadoop: Setup Single Node Cluster]] | ||
+ | * [[Hadoop: Menjalankan MapReduce Job]] | ||
+ | * [[Hadoop: Menjalankan MapReduce Job -WordCount]] | ||
+ | * [[Hadoop: Perintah Shell]] | ||
+ | * [[Hadoop: Sampel Dataset untuk test Hadoop]] | ||
+ | * [[Hadoop: Programming MapReduce]] | ||
+ | * [[Hadoop: Contoh Program Sederhana]] | ||
+ | * [[Hadoop: Pemrogramman dengan Python]] | ||
+ | * [[Hadoop: Python Framework untuk Hadoop]] | ||
+ | * [[Hadoop: Python Map Reduce untuk Hadoop]] | ||
+ | * [[Hadoop: Python Map Reduce]] | ||
+ | * [[Hadoop: Berbagai Contoh Source Code Hadoop]] | ||
+ | * [[Hadoop: R Statistik Analysis]] | ||
+ | * [[Hadoop: Giraph - Langkah Pertama]] | ||
+ | * [[Hadoop: Giraph - Graph Analysis]] | ||
+ | * [[Hadoop: Giraph - PageRank]] | ||
+ | * [[Hadoop: Giraph - Shortest Path]] | ||
+ | * [[Hadoop: Hive untuk Query SQL]] | ||
+ | * [[Hadoop: Hive Instalasi]] | ||
+ | * [[Hadoop: Hive contekan SQL]] | ||
+ | * [[Hadoop: Sqoop untuk Import Export Hive ke MySQL]] | ||
+ | * [[Hadoop: Sqoop Contoh Import dari MySQL ke Hadoop]] | ||
+ | |||
+ | * [[Hadoop: Python]] |
Latest revision as of 16:54, 13 February 2017
Sumber: https://en.wikipedia.org/wiki/Apache_Hadoop
Apache Hadoop adalah kerangka kerja perangkat lunak open source yang ditulis di Java untuk penyimpanan terdistribusi dan pengolahan terdistribusi data set yang sangat besar pada cluster komputer dibangun dari hardware komoditas. Semua modul di Hadoop dirancang dengan asumsi dasar bahwa kegagalan hardware (mesin individu, atau rak mesin) yang biasa dan dengan demikian harus ditangani secara otomatis dalam perangkat lunak oleh framework.
Inti dari Apache Hadoop terdiri dari bagian penyimpanan (Hadoop Distributed File System (HDFS)) dan bagian pengolahan (MapReduce). Hadoop membagi file ke dalam blok besar dan mendistribusikan mereka di antara node di cluster. Untuk mengolah data, Hadoop MapReduce mentransfer kode ke node untuk memproses secara paralel, berdasarkan data yang perlu di proses di setiap node. Pendekatan ini mengambil keuntungan dari lokalitas data-node memanipulasi data yang mereka miliki di tangan-untuk memungkinkan data yang akan diproses lebih cepat dan lebih efisien daripada arsitektur superkomputer yang lebih konvensional yang mengandalkan sistem file paralel di mana perhitungan dan data terhubung melalui jaringan berkecepatan tinggi.
Dasar kerangka Apache Hadoop terdiri dari modul-modul berikut:
- Hadoop Common - berisi perpustakaan dan utilitas yang dibutuhkan oleh modul lain Hadoop;
- Hadoop Distributed File System (HDFS) - file-sistem terdistribusi yang menyimpan data pada mesin komoditas, menyediakan bandwidth yang agregat sangat tinggi di cluster;
- Hadoop YARN - platform sumber daya manajemen yang bertanggung jawab untuk mengelola sumber daya komputasi dalam kelompok dan menggunakan mereka untuk penjadwalan aplikasi pengguna; dan
- Hadoop MapReduce - model pemrograman untuk pengolahan data skala besar.
Istilah "Hadoop" telah datang untuk merujuk tidak hanya untuk modul dasar di atas, tetapi juga untuk "ekosistem", atau koleksi paket perangkat lunak tambahan yang dapat diinstal di atas atau di samping Hadoop, seperti Apache Pig, Apache Hive, Apache HBase, Apache Phoenix, Apache Spark, Apache Zookeeper, Impala, Apache Flume, Apache Sqoop, Apache Oozie, Apache Storm dan lain-lain.
MapReduce dan HDFS komponen Apache Hadoop ini terinspirasi oleh makalah Google pada MapReduce dan Google File System.
The Hadoop kerangka itu sendiri sebagian besar ditulis dalam bahasa pemrograman Java, dengan beberapa kode asli di C dan baris perintah utilitas ditulis sebagai script Shell. Untuk pengguna akhir, meskipun kode MapReduce Java adalah umum, bahasa pemrograman dapat digunakan dengan "Hadoop Streaming" untuk menerapkan "map" dan "reduce" bagian dari program pengguna. Proyek terkait lainnya mengekspos antarmuka pengguna tingkat tinggi lainnya.
Pengguna korporat terkemuka Hadoop termasuk Facebook dan Yahoo. Hal ini dapat digunakan di pusat data tradisional di tempat tetapi juga telah diterapkan di cloud ruang publik seperti Microsoft Azure, Amazon Web Services, Google Compute, dan IBM Bluemix.
Apache Hadoop adalah merek dagang terdaftar dari Apache Software Foundation.
Referensi
- https://en.wikipedia.org/wiki/Apache_Hadoop
- http://jawdat.com/id/video-material-hackathon/
- http://www.bogotobogo.com/Hadoop/
Pranala Menarik
- Hadoop: Ecosystem
- Hadoop: Instal di Ubuntu 14.04
- Hadoop: Instal Hadoop Native Library di Ubuntu 14.04
- Hadoop: Instal di Ubuntu
- Hadoop: Setup Single Node Cluster
- Hadoop: Menjalankan MapReduce Job
- Hadoop: Menjalankan MapReduce Job -WordCount
- Hadoop: Perintah Shell
- Hadoop: Sampel Dataset untuk test Hadoop
- Hadoop: Programming MapReduce
- Hadoop: Contoh Program Sederhana
- Hadoop: Pemrogramman dengan Python
- Hadoop: Python Framework untuk Hadoop
- Hadoop: Python Map Reduce untuk Hadoop
- Hadoop: Python Map Reduce
- Hadoop: Berbagai Contoh Source Code Hadoop
- Hadoop: R Statistik Analysis
- Hadoop: Giraph - Langkah Pertama
- Hadoop: Giraph - Graph Analysis
- Hadoop: Giraph - PageRank
- Hadoop: Giraph - Shortest Path
- Hadoop: Hive untuk Query SQL
- Hadoop: Hive Instalasi
- Hadoop: Hive contekan SQL
- Hadoop: Sqoop untuk Import Export Hive ke MySQL
- Hadoop: Sqoop Contoh Import dari MySQL ke Hadoop