Big Data: 8 Trend

From OnnoWiki
Jump to navigation Jump to search

Sumber: http://www.cio.com/article/2838172/data-analytics/8-big-trends-in-big-data-analytics.html


Big data analytics in the cloud

Hadoop, framework dan tool untuk memproses set data yang sangat besar, pada awalnya dirancang untuk bekerja pada kluster mesin fisik. Sekarang semakin banyak teknologi yang tersedia untuk pengolahan data di Cloud. Lebih murah untuk memperluas pada mesin virtual dari membeli mesin sendiri secara fisik dan mengelolanya sendiri.


Hadoop: The new enterprise data operating system

Distributed analytic frameworks, seperti MapReduce, berevolusi menjadi distributed resource manager yang perlahan akan membuat Hadoop menjadi general-purpose data operating system. Kita dapat melakukan berbagai manipulasi data maupun operasi analitik dengan memasukan data ke Hadoop sebagai distributed file storage system.

Artinya untuk sebuah perusahaan? Karena SQL, MapReduce, in-memory, stream processing, graph analytics dan berbagai beban akan dapat di jalankan oleh Hadoop dengan kinerja yang baik, semakin banyak usaha yang akan menggunakan Hadoop sebagai enterprise data hub.

Big data lakes

Teori database tradisional men-dikte agar kita mendisain data set sebelum memasukan daya. Dalam sebuah data lake (danau daya), kita memutar balikan cara ini. Artinya, kita akan mengambil semua sumber daya dan memasukan semua ke repository Hadoop yang besar, dan kita tidak men-disain data model sebelumnya.

Kita memberikan tool untuk orang melakukan analisa data, dengan definisi high-level akan data yang ada di lake (danau) tersebut. Orang akan membuat penerawangan terhadap data sambil jalan, jadi sangat perlahan, model organik untuk membuat database skala besar. Kesulitannya, orang yang melalukan ini harus sangat cakap / pandai.


More predictive analytics

Dengan big data, analis akan mempunyai lebih banyak data untuk bekerja, juga processing power untuk menangani record yang besar dengan banyak atribut. Mesin learning tradisional menggunakan analisa statistik berbasis pada sample dari total data set. Sekarang kita mempunyai kemampuan menganalisa record yang sangat besar dengan banyak atribut per record.


SQL on Hadoop: Faster, better

Jika anda seorang coder yang pandai dan ahli matematika, anda dapat memasukan semua data dan melakukan analisa di Hadoop. Agar memudahkan orang maka dikembangkan SQL untuk Hadoop. Apache Hive memberikan kemungkinan untuk menggunakan SQL-like query untuk Hadoop.

More, better NoSQL

Berbagai alternatif dari SQL-based relational database, di sebut NoSQL (kependekan dari “Not Only SQL”) database, saat ini memperoleh popularitas sebagai tool untuk aplikasi analitik yang spesifik.

Deep learning

Deep learning, sebuah teknik machine-learning berbasis pada neural networking, yang masih berkembang dan memperlihatkan potensi yang sangat besar untuk menyelesaikan banyak masalah di bisnis. Dalam Deep learning membuka kemungkinan komputer untuk mengetahui hal yang menarik dalam jumlah besar dari sebuah data binary yang tidak terstruktur, untuk me-reduksi hubungan yang ada tanpa membutuhkan model yang spesifik atau instruksi pemrograman.

Contoh, algoritma deep learning akan dapay menganalisa data dari Wikipedia dan mengetahui bahwa Aceh dan Bali adalah sebuah propinsi di Indonesia tanpa perlu mengetahui konsep dan model sebuah negara dan propinsi.

In-memory analytics

The use of in-memory databases to speed up analytic processing is increasingly popular and highly beneficial in the right setting, says Beyer. In fact, many businesses are already leveraging hybrid transaction/analytical processing (HTAP) — allowing transactions and analytic processing to reside in the same in-memory database.

But there’s a lot of hype around HTAP, and businesses have been overusing it, Beyer says. For systems where the user needs to see the same data in the same way many times during the day — and there’s no significant change in the data — in-memory is a waste of money.

And while you can perform analytics faster with HTAP, all of the transactions must reside within the same database. The problem, says Beyer, is that most analytics efforts today are about putting transactions from many different systems together. “Just putting it all on one database goes back to this disproven belief that if you want to use HTAP for all of your analytics, it requires all of your transactions to be in one place,” he says. “You still have to integrate diverse data.”

Moreover, bringing in an in-memory database means there’s another product to manage, secure, and figure out how to integrate and scale.

For Intuit, the use of Spark has taken away some of the urge to embrace in-memory databases. “If we can solve 70% of our use cases with Spark infrastructure and an in-memory system could solve 100%, we’ll go with the 70% in our analytic cloud,” Loconzolo says. “So we will prototype, see if it’s ready and pause on in-memory systems internally right now.” Staying one step ahead

With so many emerging trends around big data and analytics, IT organizations need to create conditions that will allow analysts and data scientists to experiment. “You need a way to evaluate, prototype and eventually integrate some of these technologies into the business,” says Curran.

“IT managers and implementers cannot use lack of maturity as an excuse to halt experimentation,” says Beyer. Initially, only a few people — the most skilled analysts and data scientists — need to experiment. Then those advanced users and IT should jointly determine when to deliver new resources to the rest of the organization. And IT shouldn’t necessarily rein in analysts who want to move ahead full-throttle. Rather, Beyer says, IT needs to work with analysts to “put a variable-speed throttle on these new high-powered tools.”



Referensi