Difference between revisions of "Data science"

From OnnoWiki
Jump to navigation Jump to search
 
(82 intermediate revisions by the same user not shown)
Line 1: Line 1:
  
  
[[File:Data-science-from-zero.jpg|center|700px|thumb|Data Science TANPA PROGRAMMING]]
+
[[File:Data-science-from-zero.jpg|right|200px|thumb|Data Science TANPA PROGRAMMING]]
  
 +
[[File:Image bc1fdaa7-c81d-4c41-a313-b1236e4c847720191203 114823.jpg|left|200px|thumb|Statistician vs Data Scientist]]
  
 +
''Data Science'' adalah bidang [[interdisiplin]] yang menggunakan metode, proses, algoritma dan sistem ilmiah untuk mengekstraksi [[pengetahuan]] dan insights dari [[data]] dalam berbagai bentuk, baik terstruktur maupun tidak terstruktur, mirip dengan [[data mining]].
 +
 +
 +
Data science adalah "konsep untuk menyatukan statistik, analisis data, pembelajaran mesin dan metode terkait" untuk "memahami dan menganalisis fenomena aktual" dengan data.Ini menggunakan teknik dan teori yang diambil dari banyak bidang dalam konteks [[matematika]], [[statistik]], [[infformation science]], dan [[ilmu komputer]].
  
 +
Pemenang [[Turing award]] [[Jim Gray (computer scientist)|Jim Gray]] membayangkan data science sebagai "fourth paradigm" dari science,
  
[[File:Image bc1fdaa7-c81d-4c41-a313-b1236e4c847720191203 114823.jpg|center|700px|thumb|Statistician vs Data Scientist]]
+
# [[Empirical research|empirical]]
 +
# [[Basic research|theoretical]]
 +
# [[computational science|computational]]
 +
# data-driven
  
 +
dan menambahkan bahwa "everything about science is changing because of the impact of information technology" dan adanya [[information explosion|data deluge]].
  
 +
Pada tahun 2012, saat [[Harvard Business Review]] menyebutnya "The Sexiest Job of the 21st Century", istilah "data science" menjadi [[buzzword]].  Data Science sering bertukar dengan konsep-konsep sebelumnya seperti [[business analytics]], [[business intelligence]], [[Predictive modelling|predictive modeling]], dan [[statistics]].  Beberapa bahkan menyebut data science adalah sexy seperti dikatakan oleh [[Hans Rosling]], ditayangkan dalam [https://www.bbc.co.uk/programmes/b00wgq0l 2011 BBC documentary] dengan quote, "Statistics is now the sexiest subject around." [[Nate Silver]] menyebut data science sebagai istilah sexed up dari statistik. Dalam banyak hal, pendekatan-pendekatan sebelumnya secara sederhana di re-branding sebagai "data science" supaya lebih menarik, yang pada akhirnya menyebabkan istilah tersebut menjadi "dilute[d] beyond usefulness."
  
''Data Science'' adalah bidang [[interdisiplin]] yang menggunakan metode, proses, algoritma dan sistem ilmiah untuk mengekstraksi [[pengetahuan]] dan insights dari [[data]] dalam berbagai bentuk, baik terstruktur maupun tidak terstruktur, mirip dengan [[data mining]].
+
Pada saat ini banyak program di universitas memberikan gelar di bidang data science, padahal belum ada konsensus akan definisi maupun kurikulum yang cocok. Dari sisi yang men-diskredit-kan, sayangnya, banyak proyek data-science dan [[big data|big-data]] gagal menyampaikan hasil yang baik, sering kali karena manajemen dan penggunaan sumber daya / resource yang tidak baik.
 +
 
 +
 
 +
==Sejarah==
 +
 
 +
[[File:History-data-science.jpg|right|200px|thumb|Sejarah Data Science]]
 +
 
 +
Istilah "data science" muncul dalam berbagai konteks pada tiga puluh tahun belakangan akan tetapi tidak menjadi istilah yang menyakinkan sampai belakangan ini. Pada penggunaan awalnya, digunakan sebagai pengganti untuk [[computer science]] oleh [[Peter Naur]] tahun 1960. Naur kemudian mengajukan istilah "[[datalogy]]". Pada tahun 1974, Naur mempublikasikan ''Concise Survey of Computer Methods'', yang secara bebas menggunakan istilah data science dalam survey-nya pada metoda kontemporer data processing yang digunakan dalam aplikasi yang sangat banyak.
 +
 
 +
Pada tahun 1996, anggota International Federation of Classification Societies (IFCS) bertemu di Kobe untuk conference dua tahunan. Disini, untuk pertama kali, istilah data science dimasukan dalam judul conference ("Data Science, classification, and related methods"), setelah istilah tersebut di perkenalkan di diskusi roundtable oleh Chikio Hayashi.
  
 +
Pada bulan November 1997, [[C.F. Jeff Wu]] memberikan pidato pengukuhan berjudul "Statistics = Data Science?" untuk posisi H. C. Carver Professorship di [[University of Michigan]].
  
Data science adalah "konsep untuk menyatukan statistik, analisis data, pembelajaran mesin dan metode terkait" untuk "memahami dan menganalisis fenomena aktual" dengan data.Ini menggunakan teknik dan teori yang diambil dari banyak bidang dalam konteks [[matematika]], [[statistik]], [[infformation science]], dan [[ilmu komputer]].
+
Dalam pidato tersebut, dia meng-karakterisasi pekerjaan statistik sebagai trilogi dari
  
[[Turing award]] winner [[Jim Gray (computer scientist)|Jim Gray]] imagined data science as a "fourth paradigm" of science ([[Empirical research|empirical]], [[Basic research|theoretical]], [[computational science|computational]] and now data-driven) and asserted that "everything about science is changing because of the impact of information technology" and the [[information explosion|data deluge]].
+
* data collection
 +
* data modeling & analysis
 +
* decision making
  
In 2012, when [[Harvard Business Review]] called it "The Sexiest Job of the 21st Century", the term "data science" became a [[buzzword]].  It is now often used interchangeably with earlier concepts like [[business analytics]], [[business intelligence]], [[Predictive modelling|predictive modeling]], and [[statistics]].  Even the suggestion that data science is sexy was paraphrasing [[Hans Rosling]], featured in a [https://www.bbc.co.uk/programmes/b00wgq0l 2011 BBC documentary] with the quote, "Statistics is now the sexiest subject around." [[Nate Silver]] referred to data science as a sexed up term for statistics.  In many cases, earlier approaches and solutions are now simply rebranded as "data science" to be more attractive, which can cause the term to become "dilute[d] beyond usefulness."
+
Pada kesimpulannya, dia mengusulkan untuk penggunaan istilah "data science" untuk keperluan modern dan non-computer science, dan mengadvokasi agar statistik di rename menjadi data science dan ahli statistik sebagai data scientist.
  
While many university programs now offer a data science degree, there exists no consensus on a definition or suitable curriculum contents. To its discredit, however, many data-science and [[big data|big-data]] projects fail to deliver useful results, often as a result of poor management and utilization of resources.
+
Selanjutnya, dia mempresentasi kuliah berjudul "Statistics = Data Science?" sebagai pertama kali dari  kuliah P.C. Mahalanobis Memorial Lectures 1998. Kuliah ini untuk menghormati [[Prasanta Chandra Mahalanobis]], seorang ilmuwan dan ahli statistik india dan founder of the [[Indian Statistical Institute]].
  
==History==
+
Pada tahun 2001, William S. Cleveland memperkenalkan data science sebagai disiplin ilmu tersendiri, extending ilmu statistik dan memasukan "advances in computing with data" dalam tulisannya "Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics," yang di publikasikan di Volume 69, No. 1, edisi April 2001 dari International Statistical Review / Revue Internationale de Statistique. Dalam tulisannya, Cleveland menyebutkan enam wilayah keahlian teknis yang perlu di kuasasi dalam data science, yaitu:
  
 +
* multidisciplinary investigation
 +
* model
 +
* method for data
 +
* computing with data
 +
* pedagogy
 +
* tool evaluation
 +
* theory.
  
[[File:History-data-science.jpg|center|600px|thumb|Sejarah Data Science]]
+
Pada bulan April 2002, International Council for Science (ICSU): Committee on Data for Science and Technology (CODATA) mulai ''Data Science Journal'', sebuah publikasi yang fokus pada isu seperti deskripsi dari data system, yang di publikasi di Internet, dengan berbagai aplikasinya dan isu legal. Tidak lama sesudah itu, pada bulan Januari 2003, Columbia University mulai mempublikasikan ''The Journal of Data Science'', yang menjadi platform bagi semua data worker untuk mempresentasikan pandangan mereka dan bertukar fikiran. Jurnal ini sebagian besar dikhususkan untuk penerapan metode statistik dan penelitian kuantitatif. Pada tahun 2005, National Science Board mempublikasikan "Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century" dan mendefinisikan data scientist sebagai "the information and computer scientists, database and software and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection" yang aktifitas utamanya adalah untuk "conduct creative inquiry and analysis."
  
The term "data science" has appeared in various contexts over the past thirty years but did not become an established term until recently. In an early usage, it was used as a substitute for [[computer science]] by [[Peter Naur]] in 1960. Naur later introduced the term "[[datalogy]]". In 1974, Naur published ''Concise Survey of Computer Methods'', which freely used the term data science in its survey of the contemporary data processing methods that are used in a wide range of applications.
+
Sekitar 2007, Turing award winner [[Jim Gray (computer scientist)|Jim Gray]] membayangkan "data-driven science" sebagai "fourth paradigm" dari pengetahuan yang menggunakan computational analysis dari data yang besar sebagai primary scientific method dan "to have a world in which all of the science literature is online, all of the science data is online, and they interoperate with each other."
  
In 1996, members of the International Federation of Classification Societies (IFCS) met in Kobe for their biennial conference. Here, for the first time, the term data science is included in the title of the conference ("Data Science, classification, and related methods"), after the term was introduced in a roundtable discussion by Chikio Hayashi.
+
Pada tahun 2012 [[Harvard Business Review]] dalam artikel "Data Scientist: The Sexiest Job of the 21st Century", [[DJ Patil]] meng-claim telah menggunakan istilah ini pada tahun 2008 dengan  [[Jeff Hammerbacher]] untuk mendefinisikan pekerjaan mereka di LinkedIn dan Facebook. Dia menambahkan bahwa data scientist adalah "a new breed", dan "shortage of data scientists is becoming a serious constraint in some sectors", tapi menjelaskan role yang lebih business-oriented.
  
In November 1997, [[C.F. Jeff Wu]] gave the inaugural lecture entitled "Statistics = Data Science?" for his appointment to the H. C. Carver Professorship at the [[University of Michigan]].
+
Pada tahun 2013, IEEE Task Force on Data Science and Advanced Analytics di luncurkan. Pada tahun 2013, pertama kali "European Conference on Data Analysis (ECDA)" di organized di Luxembourg, establishing the [http://euads.org European Association for Data Science (EuADS)]. Untuk pertama kalinya international conference: IEEE International Conference on Data Science and Advanced Analytics di luncurkan pada 2014. Pada 2014, [[General Assembly (school)|General Assembly]] meluncurkan student-paid bootcamp dan [[The Data Incubator]] meluncurkan competitive free data science fellowship. Pada tahun 2014, [[American Statistical Association]] bagian Statistical Learning and Data Mining mengganti nama jurnalnya menjadi "Statistical Analysis and Data Mining: The ASA Data Science Journal" dan pada 2016 mengubah nama section-nya menjadi "Statistical Learning and Data Science". Pada tahun 2015, International Journal on Data Science and Analytics diluncurkan oleh Springer untuk mempublikasikan original work pada data science dan big data analytics. Paa bulan September 2015 [http://www.gfkl.org/welcome/ Gesellschaft für Klassifikation (GfKl)] menamahkan nama dari society "Data Science Society" pada ECDA conference ke tiga di [[University of Essex]], Colchester, UK.
  
In this lecture, he characterized statistical work as a trilogy of data collection, data modeling and analysis, and decision making. In his conclusion,
+
==Hubungan dengan Statistik==
he initiated the modern, non-computer science, usage of the term "data science" and advocated that statistics be renamed data science and statisticians data scientists.
 
Later, he presented his lecture entitled "Statistics = Data Science?" as the first of his 1998 P.C. Mahalanobis Memorial Lectures. These lectures honor [[Prasanta Chandra Mahalanobis]], an Indian scientist and statistician and founder of the [[Indian Statistical Institute]].
 
  
In 2001, William S. Cleveland introduced data science as an independent discipline, extending the field of statistics to incorporate "advances in computing with data" in his article "Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics," which was published in Volume 69, No. 1, of the April 2001 edition of the International Statistical Review / Revue Internationale de Statistique. In his report, Cleveland establishes six technical areas which he believed to encompass the field of data science: multidisciplinary investigations, models and methods for data, computing with data, pedagogy, tool evaluation, and theory.
+
[[File:Image 4f5f7868-ed17-4214-a252-bbeec114101a20200113 083746.jpg|right|200px|thumb]]
  
In April 2002, the International Council for Science (ICSU): Committee on Data for Science and Technology (CODATA) started the ''Data Science Journal'', a publication focused on issues such as the description of data systems, their publication on the internet, applications and legal issues. Shortly thereafter, in January 2003, Columbia University began publishing ''The Journal of Data Science'', which provided a platform for all data workers to present their views and exchange ideas. The journal was largely devoted to the application of statistical methods and quantitative research. In 2005, The National Science Board published "Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century" defining data scientists as "the information and computer scientists, database and software and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection" whose primary activity is to "conduct creative inquiry and analysis."
+
[[File:Image e4a257c0-1b12-49e8-9af1-07a01b892e5820200115 040958.jpg|left|200px|thumb|Membuat Model Machine Learning]]
  
Around 2007, Turing award winner [[Jim Gray (computer scientist)|Jim Gray]] envisioned "data-driven science" as a "fourth paradigm" of science that uses the computational analysis of large data as primary scientific method and "to have a world in which all of the science literature is online, all of the science data is online, and they interoperate with each other."
+
Popularitas istilah "data science" telah meledak di lingkungan bisnis dan akademik, terlihat dari jumlah lowongan yang ada. Akan tetapi banyak akademis dan jurnalis yang mengkritik karena tidak ada bedanya antara data science dan [[statistics]]. Seperti ditulis di [[Forbes]], Gil Press membantah bahwa data science hanyalah [[buzzword]] tanpa definisi yang jelas dan hanya menggantikan “[[business analytics]]” dalam konteks program paska sarjana dalam question-and-answer section saat dia memberikan keynote address di Joint Statistical Meetings of [[American Statistical Association]], catatan tambahan dari applied statistician [[Nate Silver]] mengatakan, “I think data-scientist is a sexed up term for a statistician....Statistics is a branch of science. Data scientist is slightly redundant in some way and people shouldn’t berate the term statistician." Sama halnya, di dunia bisnis, banyak peneliti dan analis menyatakan bahwa data scientist saja masih jauh bagi perusahan untuk memperoleh keuntungan kompetitif karena data scientist hanya satu dari empat pekerjaan besar di perusahaan agar bisa memanfaatkan big data secara effektif, yaitu:
  
In the 2012 [[Harvard Business Review]] article "Data Scientist: The Sexiest Job of the 21st Century", [[DJ Patil]] claims to have coined this term in 2008 with [[Jeff Hammerbacher]] to define their jobs at LinkedIn and Facebook, respectively. He asserts that a data scientist is "a new breed", and that a "shortage of data scientists is becoming a serious constraint in some sectors", but describes a much more business-oriented role.
+
* data analysts
 +
* data scientists
 +
* big data [[Software Developer|developers]]
 +
* big data [[Software engineer|engineers]].
  
In 2013, the IEEE Task Force on Data Science and Advanced Analytics was launched. In 2013, the first "European Conference on Data Analysis (ECDA)" was organised in Luxembourg, establishing the [http://euads.org European Association for Data Science (EuADS)]. The first international conference: IEEE International Conference on Data Science and Advanced Analytics was launched in 2014. In 2014, [[General Assembly (school)|General Assembly]] launched student-paid bootcamp and [[The Data Incubator]] launched a competitive free data science fellowship. In 2014, the [[American Statistical Association]] section on Statistical Learning and Data Mining renamed its journal to "Statistical Analysis and Data Mining: The ASA Data Science Journal" and in 2016 changed its section name to "Statistical Learning and Data Science". In 2015, the International Journal on Data Science and Analytics was launched by Springer to publish original work on data science and big data analytics. In September 2015 the [http://www.gfkl.org/welcome/ Gesellschaft für Klassifikation (GfKl)] added to the name of the Society "Data Science Society" at the third ECDA conference at the [[University of Essex]], Colchester, UK.
+
Di sisi lain, responds terhadap kritik sangat besar sekali. Pada tahun 2014 sebuah artikel [[The Wall Street Journal|Wall Street Journal]], Irving Wladawsky-Berger membandingkan mereka yang antusias terhadap data science seperti awalnya [[computer science]]. Dia berargumentasi bahwa data science, seperti bidang [[Interdisciplinarity|interdisciplinary]], menggunakan [[Methodology|methodologies]] dan praktek dari berbagai [[Academy|academia]] dan [[industry]], kemudian berubah bentuk menjadi [[Discipline (academia)|discipline]] baru. Dia mengingatkan kritik pada computer science pada awalnya, sekarang telah menjadi disiplin ilmu yang di hargai. Senada, [[New York University|NYU]] [[NYU Stern Center for Business and Human Rights|Stern's]] Vasant Dhar, seperti juga data science akademisi yang terkenal, membantah secara spesifik pada Desember 2013 bahwa data science berbeda dengan praktek data analysis yang dilakukan di semua [[Discipline (academia)|disciplines]], yang lebih banyak fokus pada penjelasan akan [[data set]]. Data science mencari actionable dan consistent [[Pattern recognition|pattern]] untuk [[Predictive modelling|predictive uses]]. Dengan tujuan engineering yang praktis ini membawa data science jauh keluar dari pola tradisional [[analytics]]. Pada saat ini data di berbagai disiplin dan [[Applied science|applied fields]] banyak yang kesulitan karena kurangnya [[Theory|theories]] yang solid, seperti di [[health science]] dan [[social science]], saat ini bisa di peroleh karena menggunakan model prediktif yang powerfull.
  
==Relationship to statistics==
+
Melalui usaha yang sama dengan Dhar, Stanford professor [[David Donoho]], pada bulan September 2015, mengambil posisi yang lebih jauh dengan menolak tiga definisi data science yang di sederhanakan dan misleadig dalam kritisi lie:
  
The popularity of the term "data science" has exploded in business environments and academia, as indicated by a jump in job openings. However, many critical academics and journalists see no distinction between data science and [[statistics]]. Writing in [[Forbes]], Gil Press argues that data science is a [[buzzword]] without a clear definition and has simply replaced “[[business analytics]]” in contexts such as graduate degree programs In the question-and-answer section of his keynote address at the Joint Statistical Meetings of [[American Statistical Association]], noted applied statistician [[Nate Silver]] said, “I think data-scientist is a sexed up term for a statistician....Statistics is a branch of science. Data scientist is slightly redundant in some way and people shouldn’t berate the term statistician." Similarly, in business sector, multiple researchers and analysts state that data scientists alone are far from being sufficient in granting companies a real competitive advantage and consider data scientists as only one of the four greater job families companies require to leverage big data effectively, namely: data analysts, data scientists, big data [[Software Developer|developers]] and big data [[Software engineer|engineers]].
+
# Menurut Donoho, data science tidak sama dengan [[big data]], oleh karenanya banyaknya data bukan kriteria untuk membedakan antara data science dan statistics.
 +
# Data science tidak di definisikan dengan skill [[computing]] untuk sorting big data set, skill semacam itu saat ini umum digunakan untuk melakukan analisa di berbagai disiplin ilmu.
 +
# Data science adalah ilmu terapan dimana [[Graduate school|academic programs]] saat ini tidak memberikan bekal yang cukup untuk data scientist untuk bekerja, dimana banyak [[Graduate school|graduate programs]] misleading mengiklankan training analytic and statistik mereka sebagai inti dari program data science. Sebagai seorang [[statistician]], [[David Donoho|Donoho]], di ikuti oleh banyak rekannya di lapangan, mempromosikan scope learning yang lebih lebar dalam data science, seperti John Chambers yang mengusulkan untuk mengadopsi konsep yang inclusif untuk belajar dari data, atau seperti William Cleveland yang mengusulkan untuk memprioritaskan ekstrasi dari data yang bisa digunakan di [[Predictive modelling|predictive tools]] melalui [[Explanatory model|explanatory theories.]] Secara bersama, para [[statistician]] ini melihat berkembangnya ilmu terapan yang inclusive yang berkembang jauh di luar dari statistik yang tradisional.
  
On the other hand, responses to criticism are as numerous. In a 2014 [[The Wall Street Journal|Wall Street Journal]] article, Irving Wladawsky-Berger compares the data science enthusiasm with the dawn of [[computer science]]. He argues data science, like any other [[Interdisciplinarity|interdisciplinary]] field, employs [[Methodology|methodologies]] and practices from across the [[Academy|academia]] and [[industry]], but then it will morph them into a new [[Discipline (academia)|discipline]]. He brings to attention the sharp criticisms computer science, now a well respected academic discipline, had to once face. Likewise, [[New York University|NYU]] [[NYU Stern Center for Business and Human Rights|Stern's]] Vasant Dhar, as do many other academic proponents of data science, argues more specifically in December 2013 that data science is different from the existing practice of data analysis across all [[Discipline (academia)|disciplines]], which focuses only on explaining [[data set]]s. Data science seeks actionable and consistent [[Pattern recognition|pattern]] for [[Predictive modelling|predictive uses]]. This practical engineering goal takes data science beyond traditional [[analytics]]. Now the data in those disciplines and [[Applied science|applied fields]] that lacked solid [[Theory|theories]], like [[health science]] and [[social science]], could be sought and utilized to generate powerful predictive models.
+
Untuk data science di masa mendatang, Donoho membayangkan lingkungan yang terus berkembang untuk [[open science]] dimana data set yang digunakan untuk [[Academic publishing|academic publications]] akan terbuka bagi semua peneliti. [[National Institutes of Health|US National Institute of Health]] bahkan telah mengumumkan rencana untuk memperbaiki reproducibility dan transparency dari research data.
  
In an effort similar to Dhar's, Stanford professor [[David Donoho]], in September 2015, takes the proposition further by rejecting three simplistic and misleading definitions of data science in lieu of criticisms. First, for Donoho, data science does not equate to [[big data]], in that the size of the data set is not a criterion to distinguish data science and statistics. Second, data science is not defined by the [[computing]] skills of sorting big data sets, in that these skills are already generally used for analyses across all disciplines. Third, data science is a heavily applied field where [[Graduate school|academic programs]] right now do not sufficiently prepare data scientists for the jobs, in that many [[Graduate school|graduate programs]] misleadingly advertise their analytics and statistics training as the essence of a data science program. As a [[statistician]], [[David Donoho|Donoho]], following many in his field, champions the broadening of learning scope in the form of data science, like John Chambers who urges statisticians to adopt an inclusive concept of learning from data, or like William Cleveland who urges to prioritize extracting from data applicable [[Predictive modelling|predictive tools]] over [[Explanatory model|explanatory theories.]] Together, these [[statistician]]s envision an increasingly inclusive applied field that grows out of traditional [[statistics]] and beyond.
+
Beberapa [[Academic journal|journals]] besar tampaknya suka dengan arah yang ada. Melalui jalur ini, masa depan data science tidak hanya melebihi batas-batas [[Statistical theory|statistical theories]] dari sisi skala maupun metodologi, tapi data science akan merevolusi akademia saaat ini dan [[Paradigm|research paradigms]]. Seperti yang di simpulkan Donoho, "the scope and impact of data science will continue to expand enormously in coming decades as scientific data and data about science itself become ubiquitously available."
  
For the future of data science, Donoho projects an ever-growing environment for [[open science]] where data sets used for [[Academic publishing|academic publications]] are accessible to all researchers. [[National Institutes of Health|US National Institute of Health]] has already announced plans to enhance reproducibility and transparency of research data.
+
==Youtube==
  
Other big [[Academic journal|journals]] are likewise following suit. This way, the future of data science not only exceeds the boundary of [[Statistical theory|statistical theories]] in scale and methodology, but data science will revolutionize current academia and [[Paradigm|research paradigms]]. As Donoho concludes, "the scope and impact of data science will continue to expand enormously in coming decades as scientific data and data about science itself become ubiquitously available."
+
* [https://www.youtube.com/watch?v=_cj0P3GrWFk YOUTUBE: Data Science & Data Engineering]
 +
* [https://www.youtube.com/watch?v=JTpDz0EtkK0 YOUTUBE: Big Data & Data Science]
 +
* [https://www.youtube.com/watch?v=Bsk4_5cYmFw YOUTUBE: Society 5.0]
 +
* [https://www.youtube.com/watch?v=mtowSEA7NW8 YOUTUBE: Kuliah Data Engineering]
 +
* [https://www.youtube.com/watch?v=zAjS8pjkXIo YOUTUBE: AI]
  
 +
==Referensi==
  
[[File:Image 4f5f7868-ed17-4214-a252-bbeec114101a20200113 083746.jpg|center|400px|thumb]]
+
* https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/Index.ipynb '''RECOMMENDED'''
 +
* https://probability4datascience.com/ '''RECOMMENDED Buku'''
 +
* https://www.geeksforgeeks.org/machine-learning/ '''RECOMMENDED'''
 +
* https://teachablemachine.withgoogle.com/ - '''TEACHABLE Machine dari Google'''
 +
* [http://www.saedsayad.com/data_mining_map.htm Data Science: Data Mining MindMap]
 +
* https://www.raspberrypi.org/blog/ai-education-ai4k12-big-ideas-ai-thinking/ '''AI for K12'''
 +
* https://miro.com/app/board/o9J_lo9ED10=/ '''IMPORTANT: AI Lifecycle'''
  
[[File:Image e4a257c0-1b12-49e8-9af1-07a01b892e5820200115 040958.jpg|center|400px|thumb|Membuat Model Machine Learning]]
+
==Datasets==
  
 +
* https://www.kaggle.com/discussions/general/217267
 +
* https://www.kaggle.com/
 +
* https://archive.ics.uci.edu/datasets
 +
* https://openml.org/
 +
* https://catalog.data.gov/dataset
 +
* https://research.google.com/youtube8m/
 +
* https://www.opendatani.gov.uk/
 +
* https://registry.opendata.aws/
 +
* https://cloud.google.com/datasets
 +
* https://research.google/resources/datasets/
 +
* https://datasets.imdbws.com/
  
  
 +
===Dataset Indonesia===
  
==See also==
+
* https://data.go.id/home
* [[Information engineering (field)|Information engineering]]
+
* https://data.jakarta.go.id/
 +
* https://data.jabarprov.go.id/id
 +
* https://satudata.bantenprov.go.id/home/
 +
* https://data.jatengprov.go.id/
 +
* https://opendata.jatimprov.go.id/
 +
* https://data.sumbarprov.go.id/id/
 +
* https://data.tangerangselatankota.go.id/
 +
* http://data.bandung.go.id/
 +
* https://cilegonkota.bps.go.id/
  
 
==Pranala Menarik==
 
==Pranala Menarik==
  
 +
* [[Data Science: Data Skill]]
 +
* [[Data Science: Practical Tips]]
 
* [[Data Science: Implementasi Tanpa Programming]]
 
* [[Data Science: Implementasi Tanpa Programming]]
 +
* [[Data Science: Machine Learning MindMap]]
 
* [[Data Science: Statistician vs Data Scientist]]
 
* [[Data Science: Statistician vs Data Scientist]]
 +
* [[Data Science: Data Science vs Data Engineer vs Data Analyst]]
 
* [[Data Science: Sejarah]]
 
* [[Data Science: Sejarah]]
 
* [[Data Science: Visualisasi]]
 
* [[Data Science: Visualisasi]]
 
* [[Data Science: Membuat Model Machine Learning]]
 
* [[Data Science: Membuat Model Machine Learning]]
 +
* [[Data Science: Main Formulas for Machine Learning]]
 +
* [[Data Science: Machine Learning Reasoning Cheatsheet]]
 +
* [[Data Science: Top Machine Learning Algorithms for Prediction]]
 +
* [[Data Science: 3 Type Machine Learning]]
 +
* [[Data Science: Mindset Shift]]
 +
* [[Data Science: Type of Data]]
 +
* [[Data Science: Type of Data Structures]]
 +
* [[Data Science: Workflow]]
 +
* [[Data Science: Components & Tools]]
 +
* [[Data Science: Algorithm Cheat Sheet]]
 +
* [[Data Science: Most Popular Machine Learning Frameworks and Tools]]
 +
* [[Data Science: Handling Missing Data]]
 +
* [[Data Science: Data Engineer]]
 +
* [[Data Science: Time Series Methods]]
 +
 +
 +
===Data Science Strategy===
 +
 +
* [[Data Science Strategy: Membangun Narasi]]
 +
* [[Data Science Strategy: Memilah Konsep Data-driven Organization]]
 +
* [[Data Science Strategy: Memilah Konsep Machine Learning]]
 +
* [[Data Science Strategy: Definisi & Scope]]
 +
 +
* [[Data Science Strategy: Memperoleh Data]]
 +
* [[Data Science Strategy: Memanaged Konsistensi Data]]
 +
* [[Data Science Strategy: Explainabily di AI]]
 +
* [[Data Science Strategy: Antara Machine Learning dan Traditional Programming]]
 +
* [[Data Science Strategy: Mengatasi Perkembangan AI yang cepat]]
 +
* [[Data Science Strategy: Memahami Change Management di Data Science]]
 +
* [[Data Science Strategy: Pendekatan pada Perubahan di Data Science]]
 +
* [[Data Science Strategy: Memahami pendorong perubahan di Data Science]]
 +
* [[Data Science Strategy: Penggunaan Teknik Data Science untuk Mendorong Perubahan]]
 +
* [[Data Science Strategy: Memulai Rencana Data Driven Transformation]]
 +
 +
 +
===Model===
 +
 +
* [[Model: Linear Regression]]
 +
* [[Model: Logistik Regression]]
 +
* [[Model: Tree]]
 +
* [[Model: Random Forrest]]
 +
* [[Model: Naive Bayes]]
 +
* [[Model: C4.5 vs. Tree vs. Random Forrest vs. Logistik]]
 +
 +
===Process Mining===
 +
 +
* [[Process Mining]]
  
  
Line 83: Line 198:
 
[[Category:Computational fields of study]]
 
[[Category:Computational fields of study]]
 
[[Category:Data analysis]]
 
[[Category:Data analysis]]
 +
 +
==Visualization==
 +
 +
* [[Data Science: Visualization]]

Latest revision as of 06:49, 7 October 2024


Data Science TANPA PROGRAMMING
Statistician vs Data Scientist

Data Science adalah bidang interdisiplin yang menggunakan metode, proses, algoritma dan sistem ilmiah untuk mengekstraksi pengetahuan dan insights dari data dalam berbagai bentuk, baik terstruktur maupun tidak terstruktur, mirip dengan data mining.


Data science adalah "konsep untuk menyatukan statistik, analisis data, pembelajaran mesin dan metode terkait" untuk "memahami dan menganalisis fenomena aktual" dengan data.Ini menggunakan teknik dan teori yang diambil dari banyak bidang dalam konteks matematika, statistik, infformation science, dan ilmu komputer.

Pemenang Turing award Jim Gray membayangkan data science sebagai "fourth paradigm" dari science,

  1. empirical
  2. theoretical
  3. computational
  4. data-driven

dan menambahkan bahwa "everything about science is changing because of the impact of information technology" dan adanya data deluge.

Pada tahun 2012, saat Harvard Business Review menyebutnya "The Sexiest Job of the 21st Century", istilah "data science" menjadi buzzword. Data Science sering bertukar dengan konsep-konsep sebelumnya seperti business analytics, business intelligence, predictive modeling, dan statistics. Beberapa bahkan menyebut data science adalah sexy seperti dikatakan oleh Hans Rosling, ditayangkan dalam 2011 BBC documentary dengan quote, "Statistics is now the sexiest subject around." Nate Silver menyebut data science sebagai istilah sexed up dari statistik. Dalam banyak hal, pendekatan-pendekatan sebelumnya secara sederhana di re-branding sebagai "data science" supaya lebih menarik, yang pada akhirnya menyebabkan istilah tersebut menjadi "dilute[d] beyond usefulness."

Pada saat ini banyak program di universitas memberikan gelar di bidang data science, padahal belum ada konsensus akan definisi maupun kurikulum yang cocok. Dari sisi yang men-diskredit-kan, sayangnya, banyak proyek data-science dan big-data gagal menyampaikan hasil yang baik, sering kali karena manajemen dan penggunaan sumber daya / resource yang tidak baik.


Sejarah

Sejarah Data Science

Istilah "data science" muncul dalam berbagai konteks pada tiga puluh tahun belakangan akan tetapi tidak menjadi istilah yang menyakinkan sampai belakangan ini. Pada penggunaan awalnya, digunakan sebagai pengganti untuk computer science oleh Peter Naur tahun 1960. Naur kemudian mengajukan istilah "datalogy". Pada tahun 1974, Naur mempublikasikan Concise Survey of Computer Methods, yang secara bebas menggunakan istilah data science dalam survey-nya pada metoda kontemporer data processing yang digunakan dalam aplikasi yang sangat banyak.

Pada tahun 1996, anggota International Federation of Classification Societies (IFCS) bertemu di Kobe untuk conference dua tahunan. Disini, untuk pertama kali, istilah data science dimasukan dalam judul conference ("Data Science, classification, and related methods"), setelah istilah tersebut di perkenalkan di diskusi roundtable oleh Chikio Hayashi.

Pada bulan November 1997, C.F. Jeff Wu memberikan pidato pengukuhan berjudul "Statistics = Data Science?" untuk posisi H. C. Carver Professorship di University of Michigan.

Dalam pidato tersebut, dia meng-karakterisasi pekerjaan statistik sebagai trilogi dari

  • data collection
  • data modeling & analysis
  • decision making

Pada kesimpulannya, dia mengusulkan untuk penggunaan istilah "data science" untuk keperluan modern dan non-computer science, dan mengadvokasi agar statistik di rename menjadi data science dan ahli statistik sebagai data scientist.

Selanjutnya, dia mempresentasi kuliah berjudul "Statistics = Data Science?" sebagai pertama kali dari kuliah P.C. Mahalanobis Memorial Lectures 1998. Kuliah ini untuk menghormati Prasanta Chandra Mahalanobis, seorang ilmuwan dan ahli statistik india dan founder of the Indian Statistical Institute.

Pada tahun 2001, William S. Cleveland memperkenalkan data science sebagai disiplin ilmu tersendiri, extending ilmu statistik dan memasukan "advances in computing with data" dalam tulisannya "Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics," yang di publikasikan di Volume 69, No. 1, edisi April 2001 dari International Statistical Review / Revue Internationale de Statistique. Dalam tulisannya, Cleveland menyebutkan enam wilayah keahlian teknis yang perlu di kuasasi dalam data science, yaitu:

  • multidisciplinary investigation
  • model
  • method for data
  • computing with data
  • pedagogy
  • tool evaluation
  • theory.

Pada bulan April 2002, International Council for Science (ICSU): Committee on Data for Science and Technology (CODATA) mulai Data Science Journal, sebuah publikasi yang fokus pada isu seperti deskripsi dari data system, yang di publikasi di Internet, dengan berbagai aplikasinya dan isu legal. Tidak lama sesudah itu, pada bulan Januari 2003, Columbia University mulai mempublikasikan The Journal of Data Science, yang menjadi platform bagi semua data worker untuk mempresentasikan pandangan mereka dan bertukar fikiran. Jurnal ini sebagian besar dikhususkan untuk penerapan metode statistik dan penelitian kuantitatif. Pada tahun 2005, National Science Board mempublikasikan "Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century" dan mendefinisikan data scientist sebagai "the information and computer scientists, database and software and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection" yang aktifitas utamanya adalah untuk "conduct creative inquiry and analysis."

Sekitar 2007, Turing award winner Jim Gray membayangkan "data-driven science" sebagai "fourth paradigm" dari pengetahuan yang menggunakan computational analysis dari data yang besar sebagai primary scientific method dan "to have a world in which all of the science literature is online, all of the science data is online, and they interoperate with each other."

Pada tahun 2012 Harvard Business Review dalam artikel "Data Scientist: The Sexiest Job of the 21st Century", DJ Patil meng-claim telah menggunakan istilah ini pada tahun 2008 dengan Jeff Hammerbacher untuk mendefinisikan pekerjaan mereka di LinkedIn dan Facebook. Dia menambahkan bahwa data scientist adalah "a new breed", dan "shortage of data scientists is becoming a serious constraint in some sectors", tapi menjelaskan role yang lebih business-oriented.

Pada tahun 2013, IEEE Task Force on Data Science and Advanced Analytics di luncurkan. Pada tahun 2013, pertama kali "European Conference on Data Analysis (ECDA)" di organized di Luxembourg, establishing the European Association for Data Science (EuADS). Untuk pertama kalinya international conference: IEEE International Conference on Data Science and Advanced Analytics di luncurkan pada 2014. Pada 2014, General Assembly meluncurkan student-paid bootcamp dan The Data Incubator meluncurkan competitive free data science fellowship. Pada tahun 2014, American Statistical Association bagian Statistical Learning and Data Mining mengganti nama jurnalnya menjadi "Statistical Analysis and Data Mining: The ASA Data Science Journal" dan pada 2016 mengubah nama section-nya menjadi "Statistical Learning and Data Science". Pada tahun 2015, International Journal on Data Science and Analytics diluncurkan oleh Springer untuk mempublikasikan original work pada data science dan big data analytics. Paa bulan September 2015 Gesellschaft für Klassifikation (GfKl) menamahkan nama dari society "Data Science Society" pada ECDA conference ke tiga di University of Essex, Colchester, UK.

Hubungan dengan Statistik

Image 4f5f7868-ed17-4214-a252-bbeec114101a20200113 083746.jpg
Membuat Model Machine Learning

Popularitas istilah "data science" telah meledak di lingkungan bisnis dan akademik, terlihat dari jumlah lowongan yang ada. Akan tetapi banyak akademis dan jurnalis yang mengkritik karena tidak ada bedanya antara data science dan statistics. Seperti ditulis di Forbes, Gil Press membantah bahwa data science hanyalah buzzword tanpa definisi yang jelas dan hanya menggantikan “business analytics” dalam konteks program paska sarjana dalam question-and-answer section saat dia memberikan keynote address di Joint Statistical Meetings of American Statistical Association, catatan tambahan dari applied statistician Nate Silver mengatakan, “I think data-scientist is a sexed up term for a statistician....Statistics is a branch of science. Data scientist is slightly redundant in some way and people shouldn’t berate the term statistician." Sama halnya, di dunia bisnis, banyak peneliti dan analis menyatakan bahwa data scientist saja masih jauh bagi perusahan untuk memperoleh keuntungan kompetitif karena data scientist hanya satu dari empat pekerjaan besar di perusahaan agar bisa memanfaatkan big data secara effektif, yaitu:

Di sisi lain, responds terhadap kritik sangat besar sekali. Pada tahun 2014 sebuah artikel Wall Street Journal, Irving Wladawsky-Berger membandingkan mereka yang antusias terhadap data science seperti awalnya computer science. Dia berargumentasi bahwa data science, seperti bidang interdisciplinary, menggunakan methodologies dan praktek dari berbagai academia dan industry, kemudian berubah bentuk menjadi discipline baru. Dia mengingatkan kritik pada computer science pada awalnya, sekarang telah menjadi disiplin ilmu yang di hargai. Senada, NYU Stern's Vasant Dhar, seperti juga data science akademisi yang terkenal, membantah secara spesifik pada Desember 2013 bahwa data science berbeda dengan praktek data analysis yang dilakukan di semua disciplines, yang lebih banyak fokus pada penjelasan akan data set. Data science mencari actionable dan consistent pattern untuk predictive uses. Dengan tujuan engineering yang praktis ini membawa data science jauh keluar dari pola tradisional analytics. Pada saat ini data di berbagai disiplin dan applied fields banyak yang kesulitan karena kurangnya theories yang solid, seperti di health science dan social science, saat ini bisa di peroleh karena menggunakan model prediktif yang powerfull.

Melalui usaha yang sama dengan Dhar, Stanford professor David Donoho, pada bulan September 2015, mengambil posisi yang lebih jauh dengan menolak tiga definisi data science yang di sederhanakan dan misleadig dalam kritisi lie:

  1. Menurut Donoho, data science tidak sama dengan big data, oleh karenanya banyaknya data bukan kriteria untuk membedakan antara data science dan statistics.
  2. Data science tidak di definisikan dengan skill computing untuk sorting big data set, skill semacam itu saat ini umum digunakan untuk melakukan analisa di berbagai disiplin ilmu.
  3. Data science adalah ilmu terapan dimana academic programs saat ini tidak memberikan bekal yang cukup untuk data scientist untuk bekerja, dimana banyak graduate programs misleading mengiklankan training analytic and statistik mereka sebagai inti dari program data science. Sebagai seorang statistician, Donoho, di ikuti oleh banyak rekannya di lapangan, mempromosikan scope learning yang lebih lebar dalam data science, seperti John Chambers yang mengusulkan untuk mengadopsi konsep yang inclusif untuk belajar dari data, atau seperti William Cleveland yang mengusulkan untuk memprioritaskan ekstrasi dari data yang bisa digunakan di predictive tools melalui explanatory theories. Secara bersama, para statistician ini melihat berkembangnya ilmu terapan yang inclusive yang berkembang jauh di luar dari statistik yang tradisional.

Untuk data science di masa mendatang, Donoho membayangkan lingkungan yang terus berkembang untuk open science dimana data set yang digunakan untuk academic publications akan terbuka bagi semua peneliti. US National Institute of Health bahkan telah mengumumkan rencana untuk memperbaiki reproducibility dan transparency dari research data.

Beberapa journals besar tampaknya suka dengan arah yang ada. Melalui jalur ini, masa depan data science tidak hanya melebihi batas-batas statistical theories dari sisi skala maupun metodologi, tapi data science akan merevolusi akademia saaat ini dan research paradigms. Seperti yang di simpulkan Donoho, "the scope and impact of data science will continue to expand enormously in coming decades as scientific data and data about science itself become ubiquitously available."

Youtube

Referensi

Datasets


Dataset Indonesia

Pranala Menarik


Data Science Strategy


Model

Process Mining

Visualization