Keras: Introduction to Learning Curves for Diagnosing Model Performance
Learning Curve (Kurva Pembelajaran) adalah plot model kinerja belajar terhadap experience atau waktu.
Kurva pembelajaran adalah alat diagnostik yang banyak digunakan dalam machine learning untuk algoritma yang belajar dari set data training secara bertahap. Model dapat dievaluasi pada dataset training dan pada dataset validasi setelah setiap update selama training dan plot kinerja yang diukur dapat dibuat untuk menunjukkan kurva pembelajaran.Reviewing learning curves of models during training can be used to diagnose problems with learning, such as an underfit or overfit model, as well as whether the training and validation datasets are suitably representative.
Dalam tulisan ini, anda akan menemukan kurva pembelajaran dan bagaimana kurva tersebut dapat digunakan untuk mendiagnosis perilaku pembelajaran dan generalisasi model machine learning, dengan contoh plot yang menunjukkan masalah pembelajaran umum.
Sesudah membaca tulisan ini, anda akan mengetahui tentang:
- Kurva pembelajaran adalah plot yang menunjukkan perubahan dalam kinerja pembelajaran dari waktu ke waktu dalam hal experience.
- Kurva pembelajaran kinerja model pada dataset train dan dataset validasi dapat digunakan untuk mendiagnosis model apakah underfit, overfit, atau well-fit (cocok)..
- Kurva pembelajaran kinerja model dapat digunakan untuk mendiagnosis apakah set data train atau validasi relatif tidak mewakili domain masalah.
Overview
Tutorial ini di bagi menjadi tiga (3) bagian, yaitu:
- Kurva Pembelajaran (Learning Curve)
- Mendiagnosa Perilaku Model (Diagnosing Model Behavior)
- Mendiagnosa Dataset yang tidak representatif.
Kurva Pembejaran (Learning Curve) di Machine Learning
Umumnya, kurva belajar adalah plot yang menunjukkan waktu atau pengalaman (experience) pada sumbu x dan pembelajaran atau peningkatan pada sumbu y.
Learning curves (LCs) are deemed effective tools for monitoring the performance of workers exposed to a new task. LCs provide a mathematical representation of the learning process that takes place as task repetition occurs. — Learning curve models and applications: Literature review and research directions, 2011.
Misalnya, jika anda mempelajari alat musik, kemahiran anda pada instrumen tersebut dapat dievaluasi dan diberi skor numerik setiap minggu selama satu tahun. Plot skor selama 52 minggu adalah kurva belajar dan akan menunjukkan bagaimana pembelajaran Anda terhadap instrumen telah berubah seiring waktu.
- Learning Curve: Line plot dari learning (y-axis) terhadap experience (x-axis).
Kurva pembelajaran banyak digunakan dalam machine learning untuk algoritma yang belajar (mengoptimalkan parameter internal mereka) secara bertahap, seperti deep learning neural network.
Metrik yang digunakan untuk mengevaluasi pembelajaran dapat dimaksimalkan, artinya skor yang lebih baik (angka yang lebih besar) menunjukkan lebih banyak pembelajaran. Contohnya adalah akurasi klasifikasi.
Lebih umum menggunakan skor yang diminimalkan, seperti loss atau error di mana skor yang lebih baik (angka lebih kecil) menunjukkan lebih banyak pembelajaran dan nilai 0,0 menunjukkan bahwa dataset training dipelajari dengan sempurna dan tidak ada error yang dibuat.
Selama training model machine learning, kondisi model saat ini pada setiap langkah algoritma training dapat dievaluasi. Hal ini dapat dievaluasi pada set data training untuk memberikan gambaran seberapa baik model tersebut “belajar.” Model ini juga dapat dievaluasi pada set data validasi yang bukan bagian dari set data training. Evaluasi pada dataset validasi memberikan gambaran tentang seberapa baik model tersebut untuk bisa “digeneralisasi.”
- Train Learning Curve: Kurva pembelajaran dihitung dari dataset training yang memberikan gambaran seberapa baik model tersebut dipelajari.
- Validation Learning Curve: Kurva pembelajaran dihitung dari set data validasi yang memberikan gambaran seberapa baik model tersebut digeneralisasi.
Adalah umum untuk membuat dua kurva belajar untuk model machine learning selama training baik pada data training maupun validasi.
Dalam beberapa kasus, juga umum untuk membuat kurva belajar untuk banyak metrik, seperti dalam kasus masalah pemodelan prediktif klasifikasi, di mana model dapat dioptimalkan sesuai dengan cross-entropy loss dan kinerja model dievaluasi menggunakan akurasi klasifikasi. Dalam hal ini, dua plot dibuat, satu untuk kurva belajar setiap metrik, dan setiap plot dapat menunjukkan dua kurva belajar, satu untuk masing-masing set data training dan validasi.
- Optimization Learning Curves: Kurva pembelajaran dihitung pada metrik dimana parameter model dioptimalkan, mis. loss.
- Performance Learning Curves: Kurva pembelajaran dihitung berdasarkan metrik yang digunakan model untuk dievaluasi dan dipilih, mis. accuracy.
Sekarang kita sudah terbiasa dengan penggunaan kurva belajar dalam machine learning, mari kita lihat beberapa bentuk umum yang diamati dalam plot pembelajaran kurva.
Diagnosa Perilaku Model
Bentuk dan dinamika kurva pembelajaran dapat digunakan untuk mendiagnosis perilaku model machine learning dan pada akhirnya mungkin menyarankan pada jenis perubahan konfigurasi yang dapat dilakukan untuk meningkatkan pembelajaran dan / atau kinerja.
Ada tiga dinamika umum yang cenderung anda amati dalam kurva pembelajaran, yaitu:
- Underfit.
- Overfit.
- Good Fit.
Kita akan melihat lebih dekat masing-masing dengan contoh. Contoh-contoh akan mengasumsikan bahwa kita sedang melihat metrik meminimalkan, yang berarti bahwa skor relatif yang lebih kecil pada sumbu y menunjukkan pembelajaran yang lebih banyak atau lebih baik.
Underfit Learning Curves
Underfitting mengacu pada model yang tidak dapat mempelajari dataset training.
Underfitting occurs when the model is not able to obtain a sufficiently low error value on the training set. — Page 111, Deep Learning, 2016.
Model underfit dalam dapat diidentifikasi dari kurva belajar dari hanya training loss saja.
Ini mungkin menunjukkan garis datar atau nilai berisik dari loss yang relatif tinggi, menunjukkan bahwa model tidak dapat mempelajari set data training sama sekali.
Contoh dari ini disediakan di bawah ini dan umum ketika model tidak memiliki kapasitas yang sesuai untuk kompleksitas dataset.
Model underfit dalam juga dapat diidentifikasi dengan training loss yang menurun dan terus menurun pada akhir plot.
Ini menunjukkan bahwa model ini mampu belajar lebih lanjut dan kemungkinan peningkatan lebih lanjut dan bahwa proses pelatihan dihentikan sebelum waktunya.
Plot learning curves menunjukan underfitting jika:
- Training loss tetap datar walaupun telah melalui proses training.
- Training loss terus menurun hingga akhir training.
Overfit Learning Curves
Overfitting mengacu pada model yang telah mempelajari dataset training terlalu baik, termasuk noise statistik atau fluktuasi acak dalam dataset training.
… fitting a more flexible model requires estimating a greater number of parameters. These more complex models can lead to a phenomenon known as overfitting the data, which essentially means they follow the errors, or noise, too closely. — Page 22, An Introduction to Statistical Learning: with Applications in R, 2013.
Masalah dengan overfitting, adalah bahwa semakin terspesialisasi model pada training data, semakin kurang baik untuk bisa digeneralisasikan ke data baru, menghasilkan peningkatan error generalisasi. Peningkatan error generalisasi ini dapat diukur dengan kinerja model pada dataset validasi.
This is an example of overfitting the data, […]. It is an undesirable situation because the fit obtained will not yield accurate estimates of the response on new observations that were not part of the original training data set. — Page 24, An Introduction to Statistical Learning: with Applications in R, 2013.
Ini sering terjadi jika model memiliki kapasitas lebih dari yang diperlukan untuk masalah, dan, pada akhirnya, terlalu banyak fleksibilitas. Itu juga bisa terjadi jika modelnya dilatih terlalu lama.
Plot dari kurva pembelajaran menunjukkan overfitting jika:
- Plot training loss terus berkurang dengan pengalaman.
- Plot loss validasi berkurang ke suatu titik dan mulai meningkat lagi.
Titik belok dalam loss validasi mungkin merupakan titik di mana training dapat dihentikan karena experience setelah titik itu menunjukkan dinamika overfitting.
Contoh plot di bawah ini menunjukkan kasus overfitting.
Good Fit Learning Curve
Good fit adalah tujuan dari algoritma pembelajaran dan ada antara model overfit dan underfit.
Good fit diidentifikasi oleh loss training dan validasi yang menurun ke titik stabilitas dengan kesenjangan minimal antara dua nilai loss akhir.
Loss dari model hampir selalu lebih rendah pada dataset training daripada dataset validasi. Ini berarti bahwa kita harus mengharapkan beberapa celah antara loss kurva pembelajaran antara training dan validasi. Kesenjangan ini disebut sebagai "generalization gap."
Plot kurva pembelajaran menunjukkan good fit jika:
- Plot loss pelatihan menurun ke titik stabilitas.
- Plot loss validasi berkurang ke titik stabilitas dan memiliki sedikit celah dengan loss pelatihan.
Pelatihan lanjutan setelah melewati good fit mungkin akan mengarah pada overfit.
Contoh plot di bawah ini menunjukkan kasus yang good fit.
Diagnosa Unrepresentative Dataset
Kurva pembelajaran juga dapat digunakan untuk mendiagnosis properti dataset dan apakah cukup representatif.
Dataset yang tidak representatif berarti dataset yang mungkin tidak menangkap karakteristik statistik relatif terhadap dataset lain yang diambil dari domain yang sama, seperti antara dataset training dan validasi. Ini biasanya dapat terjadi jika jumlah sampel dalam dataset terlalu kecil, relatif terhadap dataset lain.
Ada dua kasus umum yang bisa diamati; yaitu:
- Dataset training relatif tidak representatif.
- Dataset validasi relatif tidak representatif.
Unrepresentative Train Dataset
Dataset training yang tidak representatif berarti bahwa dataset training tidak memberikan informasi yang cukup untuk mempelajari masalahnya, relatif terhadap dataset validasi yang digunakan untuk mengevaluasinya.
Ini dapat terjadi jika dataset training memiliki terlalu sedikit contoh dibandingkan dengan dataset validasi.
Situasi ini dapat diidentifikasi dengan kurva belajar untuk training loss yang menunjukkan peningkatan dan juga kurva belajar untuk validasi loss yang menunjukkan peningkatan, tetapi ada celah besar di antara kedua kurva.
Unrepresentative Validation Dataset
Dataset validasi yang tidak representatif berarti bahwa dataset validasi tidak memberikan informasi yang cukup untuk mengevaluasi kemampuan model saat dilakukan generalisasi.
Ini dapat terjadi jika dataset validasi memiliki terlalu sedikit contoh dibandingkan dengan dataset training.
Kasus ini dapat diidentifikasi dengan kurva belajar untuk training loss yang terlihat seperti good fit (atau fit lainnya) dan kurva belajar untuk validasi loss yang menunjukkan plot yang noisy di sekitar training loss.
Ini juga dapat diidentifikasi dengan loss validasi yang lebih rendah dari loss training. Dalam kasus ini, ini menunjukkan bahwa dataset validasi mungkin lebih mudah bagi model untuk diprediksi daripada dataset training.
Further Reading
This section provides more resources on the topic if you are looking to go deeper. Books
Deep Learning, 2016. An Introduction to Statistical Learning: with Applications in R, 2013.
Papers
Learning curve models and applications: Literature review and research directions, 2011.
Posts
How to Diagnose Overfitting and Underfitting of LSTM Models Overfitting and Underfitting With Machine Learning Algorithms
Articles
Learning curve, Wikipedia. Overfitting, Wikipedia.
Summary
Dalam posting ini, anda melihat kurva belajar dan bagaimana kurva tersebut dapat digunakan untuk mendiagnosis perilaku pembelajaran dan generalisasi model machine learning.
Secara khusus, anda belajar:
- Kurva pembelajaran adalah plot yang menunjukkan perubahan dalam kinerja pembelajaran dari waktu ke waktu dalam hal experience.
- Kurva pembelajaran kinerja model di kereta dan set data validasi dapat digunakan untuk mendiagnosis model underfit, overfit, atau well-fit.
- Kurva pembelajaran kinerja model dapat digunakan untuk mendiagnosis apakah set data train atau validasi relatif tidak mewakili domain masalah.
Referensi