Difference between revisions of "Hadoop: Hive untuk Query SQL"
Onnowpurbo (talk | contribs) |
Onnowpurbo (talk | contribs) |
||
(One intermediate revision by the same user not shown) | |||
Line 14: | Line 14: | ||
|- | |- | ||
| Familiar | | Familiar | ||
− | | Query data | + | | Query data dengan bahasa berbasis SQL |
|- | |- | ||
− | | | + | | Cepat |
− | | | + | | Waktu responds interaktif yang cepat, walaupun dengan dataset yang besar |
|- | |- | ||
− | | Scalable | + | | Scalable dan Extensible |
− | | | + | | Karena variasi data dan volume data akan berkembang, mesin (komoditas) dapat di tambah, tanpa pengurangan performance. |
|} | |} | ||
− | == | + | ==Bagaimana Hive Bekerja?== |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
+ | Tabel di Hive mirip dengan tabel dalam database relasional, dan unit data yang diatur dalam taksonomi dari yang lebih besar untuk unit yang lebih rinci. Database terdiri dari tabel, yang dibangun dari partisi. Data dapat diakses melalui bahasa query sederhana dan Hive mendukung overwriting atau menambahkan data. | ||
+ | Dalam database tertentu, data dalam tabel di-serial-kan dan masing-masing tabel memiliki direktori yang sesuai Hadoop Distributed File System (HDFS). Setiap tabel dapat dibagi menjadi partisi yang menentukan bagaimana data didistribusikan dalam sub-direktori dari direktori tabel. Data dalam partisi dapat lebih lanjut dipecah menjadi bucket. | ||
+ | Hive mendukung semua format umum data primitif seperti BIGINT, BINARY, BOOLEAN, CHAR, DECIMAL, DOUBLE, FLOAT, INT, SMALLINT, STRING, TIMESTAMP, dan TINYINT. Selain itu, analis dapat menggabungkan tipe data primitif untuk membentuk tipe data yang kompleks, seperti struct, maps dan array. | ||
==Referensi== | ==Referensi== | ||
* http://hortonworks.com/hadoop/hive/ | * http://hortonworks.com/hadoop/hive/ |
Latest revision as of 08:01, 14 November 2015
Sumber: http://hortonworks.com/hadoop/hive/
Apakah Hive
Hadoop dibangun untuk mengatur dan menyimpan sejumlah besar data dari berbagai bentuk, ukuran dan format. Karena arsitektur Hadoop "schema on read" arsitektur, cluster Hadoop adalah reservoir sempurna data-terstruktur dan tidak terstruktur-dari banyak sumber yang heterogen.
Analis data yang menggunakan Hive untuk mengeksplorasi, struktur dan menganalisis data itu, lalu mengubahnya menjadi wawasan bisnis yang dapat ditindaklanjuti.
Keuntungan menggunakan Hive untuk enterprise SQL di Hadoop:
Fitur | Penjelasan |
---|---|
Familiar | Query data dengan bahasa berbasis SQL |
Cepat | Waktu responds interaktif yang cepat, walaupun dengan dataset yang besar |
Scalable dan Extensible | Karena variasi data dan volume data akan berkembang, mesin (komoditas) dapat di tambah, tanpa pengurangan performance. |
Bagaimana Hive Bekerja?
Tabel di Hive mirip dengan tabel dalam database relasional, dan unit data yang diatur dalam taksonomi dari yang lebih besar untuk unit yang lebih rinci. Database terdiri dari tabel, yang dibangun dari partisi. Data dapat diakses melalui bahasa query sederhana dan Hive mendukung overwriting atau menambahkan data. Dalam database tertentu, data dalam tabel di-serial-kan dan masing-masing tabel memiliki direktori yang sesuai Hadoop Distributed File System (HDFS). Setiap tabel dapat dibagi menjadi partisi yang menentukan bagaimana data didistribusikan dalam sub-direktori dari direktori tabel. Data dalam partisi dapat lebih lanjut dipecah menjadi bucket.
Hive mendukung semua format umum data primitif seperti BIGINT, BINARY, BOOLEAN, CHAR, DECIMAL, DOUBLE, FLOAT, INT, SMALLINT, STRING, TIMESTAMP, dan TINYINT. Selain itu, analis dapat menggabungkan tipe data primitif untuk membentuk tipe data yang kompleks, seperti struct, maps dan array.