Difference between revisions of "Data science"

From OnnoWiki
Jump to navigation Jump to search
Line 156: Line 156:
 
* [[Model: Tree]]
 
* [[Model: Tree]]
 
* [[Model: Random Forrest]]
 
* [[Model: Random Forrest]]
 +
* [[Model: Naive Bayes]]
  
 
===Process Mining===
 
===Process Mining===

Revision as of 09:35, 8 June 2023


Data Science TANPA PROGRAMMING
Statistician vs Data Scientist

Data Science adalah bidang interdisiplin yang menggunakan metode, proses, algoritma dan sistem ilmiah untuk mengekstraksi pengetahuan dan insights dari data dalam berbagai bentuk, baik terstruktur maupun tidak terstruktur, mirip dengan data mining.


Data science adalah "konsep untuk menyatukan statistik, analisis data, pembelajaran mesin dan metode terkait" untuk "memahami dan menganalisis fenomena aktual" dengan data.Ini menggunakan teknik dan teori yang diambil dari banyak bidang dalam konteks matematika, statistik, infformation science, dan ilmu komputer.

Pemenang Turing award Jim Gray membayangkan data science sebagai "fourth paradigm" dari science,

  1. empirical
  2. theoretical
  3. computational
  4. data-driven

dan menambahkan bahwa "everything about science is changing because of the impact of information technology" dan adanya data deluge.

Pada tahun 2012, saat Harvard Business Review menyebutnya "The Sexiest Job of the 21st Century", istilah "data science" menjadi buzzword. Data Science sering bertukar dengan konsep-konsep sebelumnya seperti business analytics, business intelligence, predictive modeling, dan statistics. Beberapa bahkan menyebut data science adalah sexy seperti dikatakan oleh Hans Rosling, ditayangkan dalam 2011 BBC documentary dengan quote, "Statistics is now the sexiest subject around." Nate Silver menyebut data science sebagai istilah sexed up dari statistik. Dalam banyak hal, pendekatan-pendekatan sebelumnya secara sederhana di re-branding sebagai "data science" supaya lebih menarik, yang pada akhirnya menyebabkan istilah tersebut menjadi "dilute[d] beyond usefulness."

Pada saat ini banyak program di universitas memberikan gelar di bidang data science, padahal belum ada konsensus akan definisi maupun kurikulum yang cocok. Dari sisi yang men-diskredit-kan, sayangnya, banyak proyek data-science dan big-data gagal menyampaikan hasil yang baik, sering kali karena manajemen dan penggunaan sumber daya / resource yang tidak baik.


Sejarah

Sejarah Data Science

Istilah "data science" muncul dalam berbagai konteks pada tiga puluh tahun belakangan akan tetapi tidak menjadi istilah yang menyakinkan sampai belakangan ini. Pada penggunaan awalnya, digunakan sebagai pengganti untuk computer science oleh Peter Naur tahun 1960. Naur kemudian mengajukan istilah "datalogy". Pada tahun 1974, Naur mempublikasikan Concise Survey of Computer Methods, yang secara bebas menggunakan istilah data science dalam survey-nya pada metoda kontemporer data processing yang digunakan dalam aplikasi yang sangat banyak.

Pada tahun 1996, anggota International Federation of Classification Societies (IFCS) bertemu di Kobe untuk conference dua tahunan. Disini, untuk pertama kali, istilah data science dimasukan dalam judul conference ("Data Science, classification, and related methods"), setelah istilah tersebut di perkenalkan di diskusi roundtable oleh Chikio Hayashi.

Pada bulan November 1997, C.F. Jeff Wu memberikan pidato pengukuhan berjudul "Statistics = Data Science?" untuk posisi H. C. Carver Professorship di University of Michigan.

Dalam pidato tersebut, dia meng-karakterisasi pekerjaan statistik sebagai trilogi dari

  • data collection
  • data modeling & analysis
  • decision making

Pada kesimpulannya, dia mengusulkan untuk penggunaan istilah "data science" untuk keperluan modern dan non-computer science, dan mengadvokasi agar statistik di rename menjadi data science dan ahli statistik sebagai data scientist.

Selanjutnya, dia mempresentasi kuliah berjudul "Statistics = Data Science?" sebagai pertama kali dari kuliah P.C. Mahalanobis Memorial Lectures 1998. Kuliah ini untuk menghormati Prasanta Chandra Mahalanobis, seorang ilmuwan dan ahli statistik india dan founder of the Indian Statistical Institute.

Pada tahun 2001, William S. Cleveland memperkenalkan data science sebagai disiplin ilmu tersendiri, extending ilmu statistik dan memasukan "advances in computing with data" dalam tulisannya "Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics," yang di publikasikan di Volume 69, No. 1, edisi April 2001 dari International Statistical Review / Revue Internationale de Statistique. Dalam tulisannya, Cleveland menyebutkan enam wilayah keahlian teknis yang perlu di kuasasi dalam data science, yaitu:

  • multidisciplinary investigation
  • model
  • method for data
  • computing with data
  • pedagogy
  • tool evaluation
  • theory.

Pada bulan April 2002, International Council for Science (ICSU): Committee on Data for Science and Technology (CODATA) mulai Data Science Journal, sebuah publikasi yang fokus pada isu seperti deskripsi dari data system, yang di publikasi di Internet, dengan berbagai aplikasinya dan isu legal. Tidak lama sesudah itu, pada bulan Januari 2003, Columbia University mulai mempublikasikan The Journal of Data Science, yang menjadi platform bagi semua data worker untuk mempresentasikan pandangan mereka dan bertukar fikiran. Jurnal ini sebagian besar dikhususkan untuk penerapan metode statistik dan penelitian kuantitatif. Pada tahun 2005, National Science Board mempublikasikan "Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century" dan mendefinisikan data scientist sebagai "the information and computer scientists, database and software and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection" yang aktifitas utamanya adalah untuk "conduct creative inquiry and analysis."

Sekitar 2007, Turing award winner Jim Gray membayangkan "data-driven science" sebagai "fourth paradigm" dari pengetahuan yang menggunakan computational analysis dari data yang besar sebagai primary scientific method dan "to have a world in which all of the science literature is online, all of the science data is online, and they interoperate with each other."

Pada tahun 2012 Harvard Business Review dalam artikel "Data Scientist: The Sexiest Job of the 21st Century", DJ Patil meng-claim telah menggunakan istilah ini pada tahun 2008 dengan Jeff Hammerbacher untuk mendefinisikan pekerjaan mereka di LinkedIn dan Facebook. Dia menambahkan bahwa data scientist adalah "a new breed", dan "shortage of data scientists is becoming a serious constraint in some sectors", tapi menjelaskan role yang lebih business-oriented.

Pada tahun 2013, IEEE Task Force on Data Science and Advanced Analytics di luncurkan. Pada tahun 2013, pertama kali "European Conference on Data Analysis (ECDA)" di organized di Luxembourg, establishing the European Association for Data Science (EuADS). Untuk pertama kalinya international conference: IEEE International Conference on Data Science and Advanced Analytics di luncurkan pada 2014. Pada 2014, General Assembly meluncurkan student-paid bootcamp dan The Data Incubator meluncurkan competitive free data science fellowship. Pada tahun 2014, American Statistical Association bagian Statistical Learning and Data Mining mengganti nama jurnalnya menjadi "Statistical Analysis and Data Mining: The ASA Data Science Journal" dan pada 2016 mengubah nama section-nya menjadi "Statistical Learning and Data Science". Pada tahun 2015, International Journal on Data Science and Analytics diluncurkan oleh Springer untuk mempublikasikan original work pada data science dan big data analytics. Paa bulan September 2015 Gesellschaft für Klassifikation (GfKl) menamahkan nama dari society "Data Science Society" pada ECDA conference ke tiga di University of Essex, Colchester, UK.

Hubungan dengan Statistik

Image 4f5f7868-ed17-4214-a252-bbeec114101a20200113 083746.jpg
Membuat Model Machine Learning

Popularitas istilah "data science" telah meledak di lingkungan bisnis dan akademik, terlihat dari jumlah lowongan yang ada. Akan tetapi banyak akademis dan jurnalis yang mengkritik karena tidak ada bedanya antara data science dan statistics. Seperti ditulis di Forbes, Gil Press membantah bahwa data science hanyalah buzzword tanpa definisi yang jelas dan hanya menggantikan “business analytics” dalam konteks program paska sarjana dalam question-and-answer section saat dia memberikan keynote address di Joint Statistical Meetings of American Statistical Association, catatan tambahan dari applied statistician Nate Silver mengatakan, “I think data-scientist is a sexed up term for a statistician....Statistics is a branch of science. Data scientist is slightly redundant in some way and people shouldn’t berate the term statistician." Sama halnya, di dunia bisnis, banyak peneliti dan analis menyatakan bahwa data scientist saja masih jauh bagi perusahan untuk memperoleh keuntungan kompetitif karena data scientist hanya satu dari empat pekerjaan besar di perusahaan agar bisa memanfaatkan big data secara effektif, yaitu:

Di sisi lain, responds terhadap kritik sangat besar sekali. Pada tahun 2014 sebuah artikel Wall Street Journal, Irving Wladawsky-Berger membandingkan mereka yang antusias terhadap data science seperti awalnya computer science. Dia berargumentasi bahwa data science, seperti bidang interdisciplinary, menggunakan methodologies dan praktek dari berbagai academia dan industry, kemudian berubah bentuk menjadi discipline baru. Dia mengingatkan kritik pada computer science pada awalnya, sekarang telah menjadi disiplin ilmu yang di hargai. Senada, NYU Stern's Vasant Dhar, seperti juga data science akademisi yang terkenal, membantah secara spesifik pada Desember 2013 bahwa data science berbeda dengan praktek data analysis yang dilakukan di semua disciplines, yang lebih banyak fokus pada penjelasan akan data set. Data science mencari actionable dan consistent pattern untuk predictive uses. Dengan tujuan engineering yang praktis ini membawa data science jauh keluar dari pola tradisional analytics. Pada saat ini data di berbagai disiplin dan applied fields banyak yang kesulitan karena kurangnya theories yang solid, seperti di health science dan social science, saat ini bisa di peroleh karena menggunakan model prediktif yang powerfull.

Melalui usaha yang sama dengan Dhar, Stanford professor David Donoho, pada bulan September 2015, mengambil posisi yang lebih jauh dengan menolak tiga definisi data science yang di sederhanakan dan misleadig dalam kritisi lie:

  1. Menurut Donoho, data science tidak sama dengan big data, oleh karenanya banyaknya data bukan kriteria untuk membedakan antara data science dan statistics.
  2. Data science tidak di definisikan dengan skill computing untuk sorting big data set, skill semacam itu saat ini umum digunakan untuk melakukan analisa di berbagai disiplin ilmu.
  3. Data science adalah ilmu terapan dimana academic programs saat ini tidak memberikan bekal yang cukup untuk data scientist untuk bekerja, dimana banyak graduate programs misleading mengiklankan training analytic and statistik mereka sebagai inti dari program data science. Sebagai seorang statistician, Donoho, di ikuti oleh banyak rekannya di lapangan, mempromosikan scope learning yang lebih lebar dalam data science, seperti John Chambers yang mengusulkan untuk mengadopsi konsep yang inclusif untuk belajar dari data, atau seperti William Cleveland yang mengusulkan untuk memprioritaskan ekstrasi dari data yang bisa digunakan di predictive tools melalui explanatory theories. Secara bersama, para statistician ini melihat berkembangnya ilmu terapan yang inclusive yang berkembang jauh di luar dari statistik yang tradisional.

Untuk data science di masa mendatang, Donoho membayangkan lingkungan yang terus berkembang untuk open science dimana data set yang digunakan untuk academic publications akan terbuka bagi semua peneliti. US National Institute of Health bahkan telah mengumumkan rencana untuk memperbaiki reproducibility dan transparency dari research data.

Beberapa journals besar tampaknya suka dengan arah yang ada. Melalui jalur ini, masa depan data science tidak hanya melebihi batas-batas statistical theories dari sisi skala maupun metodologi, tapi data science akan merevolusi akademia saaat ini dan research paradigms. Seperti yang di simpulkan Donoho, "the scope and impact of data science will continue to expand enormously in coming decades as scientific data and data about science itself become ubiquitously available."

Youtube

Referensi

Pranala Menarik


Data Science Strategy


Model

Process Mining