Data science
Data Science adalah bidang interdisiplin yang menggunakan metode, proses, algoritma dan sistem ilmiah untuk mengekstraksi pengetahuan dan insights dari data dalam berbagai bentuk, baik terstruktur maupun tidak terstruktur, mirip dengan data mining.
Data science adalah "konsep untuk menyatukan statistik, analisis data, pembelajaran mesin dan metode terkait" untuk "memahami dan menganalisis fenomena aktual" dengan data.Ini menggunakan teknik dan teori yang diambil dari banyak bidang dalam konteks matematika, statistik, infformation science, dan ilmu komputer.
Pemenang Turing award Jim Gray membayangkan data science sebagai "fourth paradigm" dari science,
- empirical
- theoretical
- computational
- data-driven
dan menambahkan bahwa "everything about science is changing because of the impact of information technology" dan adanya data deluge.
Pada tahun 2012, saat Harvard Business Review menyebutnya "The Sexiest Job of the 21st Century", istilah "data science" menjadi buzzword. Data Science sering bertukar dengan konsep-konsep sebelumnya seperti business analytics, business intelligence, predictive modeling, dan statistics. Beberapa bahkan menyebut data science adalah sexy seperti dikatakan oleh Hans Rosling, ditayangkan dalam 2011 BBC documentary dengan quote, "Statistics is now the sexiest subject around." Nate Silver menyebut data science sebagai istilah sexed up dari statistik. Dalam banyak hal, pendekatan-pendekatan sebelumnya secara sederhana di re-branding sebagai "data science" supaya lebih menarik, yang pada akhirnya menyebabkan istilah tersebut menjadi "dilute[d] beyond usefulness."
Pada saat ini banyak program di universitas memberikan gelar di bidang data science, padahal belum ada konsensus akan definisi maupun kurikulum yang cocok. Dari sisi yang men-diskredit-kan, sayangnya, banyak proyek data-science dan big-data gagal menyampaikan hasil yang baik, sering kali karena manajemen dan penggunaan sumber daya / resource yang tidak baik.
Sejarah
Istilah "data science" muncul dalam berbagai konteks pada tiga puluh tahun belakangan akan tetapi tidak menjadi istilah yang menyakinkan sampai belakangan ini. Pada penggunaan awalnya, digunakan sebagai pengganti untuk computer science oleh Peter Naur tahun 1960. Naur kemudian mengajukan istilah "datalogy". Pada tahun 1974, Naur mempublikasikan Concise Survey of Computer Methods, yang secara bebas menggunakan istilah data science dalam survey-nya pada metoda kontemporer data processing yang digunakan dalam aplikasi yang sangat banyak.
Pada tahun 1996, anggota International Federation of Classification Societies (IFCS) bertemu di Kobe untuk conference dua tahunan. Disini, untuk pertama kali, istilah data science dimasukan dalam judul conference ("Data Science, classification, and related methods"), setelah istilah tersebut di perkenalkan di diskusi roundtable oleh Chikio Hayashi.
Pada bulan November 1997, C.F. Jeff Wu memberikan pidato pengukuhan berjudul "Statistics = Data Science?" untuk posisi H. C. Carver Professorship di University of Michigan.
Dalam pidato tersebut, dia meng-karakterisasi pekerjaan statistik sebagai trilogi dari
- data collection
- data modeling & analysis
- decision making
Pada kesimpulannya, dia mengusulkan untuk penggunaan istilah "data science" untuk keperluan modern dan non-computer science, dan mengadvokasi agar statistik di rename menjadi data science dan ahli statistik sebagai data scientist.
Selanjutnya, dia mempresentasi kuliah berjudul "Statistics = Data Science?" sebagai pertama kali dari kuliah P.C. Mahalanobis Memorial Lectures 1998. Kuliah ini untuk menghormati Prasanta Chandra Mahalanobis, seorang ilmuwan dan ahli statistik india dan founder of the Indian Statistical Institute.
Pada tahun 2001, William S. Cleveland memperkenalkan data science sebagai disiplin ilmu tersendiri, extending ilmu statistik dan memasukan "advances in computing with data" dalam tulisannya "Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics," yang di publikasikan di Volume 69, No. 1, edisi April 2001 dari International Statistical Review / Revue Internationale de Statistique. Dalam tulisannya, Cleveland menyebutkan enam wilayah keahlian teknis yang perlu di kuasasi dalam data science, yaitu:
- multidisciplinary investigation
- model
- method for data
- computing with data
- pedagogy
- tool evaluation
- theory.
Pada bulan April 2002, International Council for Science (ICSU): Committee on Data for Science and Technology (CODATA) mulai Data Science Journal, sebuah publikasi yang fokus pada isu seperti deskripsi dari data system, yang di publikasi di Internet, dengan berbagai aplikasinya dan isu legal. Tidak lama sesudah itu, pada bulan Januari 2003, Columbia University mulai mempublikasikan The Journal of Data Science, yang menjadi platform bagi semua data worker untuk mempresentasikan pandangan mereka dan bertukar fikiran. Jurnal ini sebagian besar dikhususkan untuk penerapan metode statistik dan penelitian kuantitatif. Pada tahun 2005, National Science Board mempublikasikan "Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century" dan mendefinisikan data scientist sebagai "the information and computer scientists, database and software and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection" yang aktifitas utamanya adalah untuk "conduct creative inquiry and analysis."
Sekitar 2007, Turing award winner Jim Gray membayangkan "data-driven science" sebagai "fourth paradigm" dari pengetahuan yang menggunakan computational analysis dari data yang besar sebagai primary scientific method dan "to have a world in which all of the science literature is online, all of the science data is online, and they interoperate with each other."
Pada tahun 2012 Harvard Business Review dalam artikel "Data Scientist: The Sexiest Job of the 21st Century", DJ Patil meng-claim telah menggunakan istilah ini pada tahun 2008 dengan Jeff Hammerbacher untuk mendefinisikan pekerjaan mereka di LinkedIn dan Facebook. Dia menambahkan bahwa data scientist adalah "a new breed", dan "shortage of data scientists is becoming a serious constraint in some sectors", tapi menjelaskan role yang lebih business-oriented.
Pada tahun 2013, IEEE Task Force on Data Science and Advanced Analytics di luncurkan. Pada tahun 2013, pertama kali "European Conference on Data Analysis (ECDA)" di organized di Luxembourg, establishing the European Association for Data Science (EuADS). Untuk pertama kalinya international conference: IEEE International Conference on Data Science and Advanced Analytics di luncurkan pada 2014. Pada 2014, General Assembly meluncurkan student-paid bootcamp dan The Data Incubator meluncurkan competitive free data science fellowship. Pada tahun 2014, American Statistical Association bagian Statistical Learning and Data Mining mengganti nama jurnalnya menjadi "Statistical Analysis and Data Mining: The ASA Data Science Journal" dan pada 2016 mengubah nama section-nya menjadi "Statistical Learning and Data Science". Pada tahun 2015, International Journal on Data Science and Analytics diluncurkan oleh Springer untuk mempublikasikan original work pada data science dan big data analytics. Paa bulan September 2015 Gesellschaft für Klassifikation (GfKl) menamahkan nama dari society "Data Science Society" pada ECDA conference ke tiga di University of Essex, Colchester, UK.
Hubungan dengan Statistik
Popularitas istilah "data science" telah meledak di lingkungan bisnis dan akademik, terlihat dari jumlah lowongan yang ada. Akan tetapi banyak akademis dan jurnalis yang mengkritik karena tidak ada bedanya antara data science dan statistics. Seperti ditulis di Forbes, Gil Press membantah bahwa data science hanyalah buzzword tanpa definisi yang jelas dan hanya menggantikan “business analytics” dalam konteks program paska sarjana dalam question-and-answer section saat dia memberikan keynote address di Joint Statistical Meetings of American Statistical Association, catatan tambahan dari applied statistician Nate Silver mengatakan, “I think data-scientist is a sexed up term for a statistician....Statistics is a branch of science. Data scientist is slightly redundant in some way and people shouldn’t berate the term statistician." Sama halnya, di dunia bisnis, banyak peneliti dan analis menyatakan bahwa data scientist saja masih jauh bagi perusahan untuk memperoleh keuntungan kompetitif karena data scientist hanya satu dari empat pekerjaan besar di perusahaan agar bisa memanfaatkan big data secara effektif, yaitu:
- data analysts
- data scientists
- big data developers
- big data engineers.
Di sisi lain, responds terhadap kritik sangat besar sekali. Pada tahun 2014 sebuah artikel Wall Street Journal, Irving Wladawsky-Berger membandingkan mereka yang antusias terhadap data science seperti awalnya computer science. Dia berargumentasi bahwa data science, seperti bidang interdisciplinary, menggunakan methodologies dan praktek dari berbagai academia dan industry, kemudian berubah bentuk menjadi discipline baru. Dia mengingatkan kritik pada computer science pada awalnya, sekarang telah menjadi disiplin ilmu yang di hargai. Senada, NYU Stern's Vasant Dhar, seperti juga data science akademisi yang terkenal, membantah secara spesifik pada Desember 2013 bahwa data science berbeda dengan praktek data analysis yang dilakukan di semua disciplines, yang lebih banyak fokus pada penjelasan akan data set. Data science mencari actionable dan consistent pattern untuk predictive uses. Dengan tujuan engineering yang praktis ini membawa data science jauh keluar dari pola tradisional analytics. Pada saat ini data di berbagai disiplin dan applied fields banyak yang kesulitan karena kurangnya theories yang solid, seperti di health science dan social science, saat ini bisa di peroleh karena menggunakan model prediktif yang powerfull.
Melalui usaha yang sama dengan Dhar, Stanford professor David Donoho, pada bulan September 2015, mengambil posisi yang lebih jauh dengan menolak tiga definisi data science yang di sederhanakan dan misleadig dalam kritisi lie:
- Menurut Donoho, data science tidak sama dengan big data, oleh karenanya banyaknya data bukan kriteria untuk membedakan antara data science dan statistics.
- Data science tidak di definisikan dengan skill computing untuk sorting big data set, skill semacam itu saat ini umum digunakan untuk melakukan analisa di berbagai disiplin ilmu.
- Data science adalah ilmu terapan dimana academic programs saat ini tidak memberikan bekal yang cukup untuk data scientist untuk bekerja, dimana banyak graduate programs misleading mengiklankan training analytic and statistik mereka sebagai inti dari program data science. Sebagai seorang statistician, Donoho, di ikuti oleh banyak rekannya di lapangan, mempromosikan scope learning yang lebih lebar dalam data science, seperti John Chambers yang mengusulkan untuk mengadopsi konsep yang inclusif untuk belajar dari data, atau seperti William Cleveland yang mengusulkan untuk memprioritaskan ekstrasi dari data yang bisa digunakan di predictive tools melalui explanatory theories. Secara bersama, para statistician ini melihat berkembangnya ilmu terapan yang inclusive yang berkembang jauh di luar dari statistik yang tradisional.
Untuk data science di masa mendatang, Donoho membayangkan lingkungan yang terus berkembang untuk open science dimana data set yang digunakan untuk academic publications akan terbuka bagi semua peneliti. US National Institute of Health bahkan telah mengumumkan rencana untuk memperbaiki reproducibility dan transparency dari research data.
Beberapa journals besar tampaknya suka dengan arah yang ada. Melalui jalur ini, masa depan data science tidak hanya melebihi batas-batas statistical theories dari sisi skala maupun metodologi, tapi data science akan merevolusi akademia saaat ini dan research paradigms. Seperti yang di simpulkan Donoho, "the scope and impact of data science will continue to expand enormously in coming decades as scientific data and data about science itself become ubiquitously available."
Youtube
- YOUTUBE: Data Science & Data Engineering
- YOUTUBE: Big Data & Data Science
- YOUTUBE: Society 5.0
- YOUTUBE: Kuliah Data Engineering
- YOUTUBE: AI
Referensi
- https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/Index.ipynb RECOMMENDED
- https://probability4datascience.com/ RECOMMENDED Buku
- https://www.geeksforgeeks.org/machine-learning/ RECOMMENDED
- https://teachablemachine.withgoogle.com/ - TEACHABLE Machine dari Google
- Data Science: Data Mining MindMap
- https://www.raspberrypi.org/blog/ai-education-ai4k12-big-ideas-ai-thinking/ AI for K12
- https://miro.com/app/board/o9J_lo9ED10=/ IMPORTANT: AI Lifecycle
Datasets
- https://www.kaggle.com/discussions/general/217267
- https://www.kaggle.com/
- https://archive.ics.uci.edu/datasets
- https://openml.org/
- https://catalog.data.gov/dataset
- https://research.google.com/youtube8m/
- https://www.opendatani.gov.uk/
- https://registry.opendata.aws/
- https://cloud.google.com/datasets
- https://research.google/resources/datasets/
- https://datasets.imdbws.com/
Dataset Indonesia
- https://data.go.id/home
- https://data.jakarta.go.id/
- https://data.jabarprov.go.id/id
- https://satudata.bantenprov.go.id/home/
- https://data.jatengprov.go.id/
- https://opendata.jatimprov.go.id/
- https://data.sumbarprov.go.id/id/
- https://data.tangerangselatankota.go.id/
- http://data.bandung.go.id/
- https://cilegonkota.bps.go.id/
Pranala Menarik
- Data Science: Data Skill
- Data Science: Practical Tips
- Data Science: Implementasi Tanpa Programming
- Data Science: Machine Learning MindMap
- Data Science: Statistician vs Data Scientist
- Data Science: Data Science vs Data Engineer vs Data Analyst
- Data Science: Sejarah
- Data Science: Visualisasi
- Data Science: Membuat Model Machine Learning
- Data Science: Main Formulas for Machine Learning
- Data Science: Machine Learning Reasoning Cheatsheet
- Data Science: Top Machine Learning Algorithms for Prediction
- Data Science: 3 Type Machine Learning
- Data Science: Mindset Shift
- Data Science: Type of Data
- Data Science: Type of Data Structures
- Data Science: Workflow
- Data Science: Components & Tools
- Data Science: Algorithm Cheat Sheet
- Data Science: Most Popular Machine Learning Frameworks and Tools
- Data Science: Handling Missing Data
- Data Science: Data Engineer
- Data Science: Time Series Methods
Data Science Strategy
- Data Science Strategy: Membangun Narasi
- Data Science Strategy: Memilah Konsep Data-driven Organization
- Data Science Strategy: Memilah Konsep Machine Learning
- Data Science Strategy: Definisi & Scope
- Data Science Strategy: Memperoleh Data
- Data Science Strategy: Memanaged Konsistensi Data
- Data Science Strategy: Explainabily di AI
- Data Science Strategy: Antara Machine Learning dan Traditional Programming
- Data Science Strategy: Mengatasi Perkembangan AI yang cepat
- Data Science Strategy: Memahami Change Management di Data Science
- Data Science Strategy: Pendekatan pada Perubahan di Data Science
- Data Science Strategy: Memahami pendorong perubahan di Data Science
- Data Science Strategy: Penggunaan Teknik Data Science untuk Mendorong Perubahan
- Data Science Strategy: Memulai Rencana Data Driven Transformation
Model
- Model: Linear Regression
- Model: Logistik Regression
- Model: Tree
- Model: Random Forrest
- Model: Naive Bayes
- Model: C4.5 vs. Tree vs. Random Forrest vs. Logistik