Keras: Gradient Descent For Machine Learning

Sumber: https://machinelearningmastery.com/gradient-descent-for-machine-learning/

Optimalisasi adalah bagian utama dari machine learning. Hampir setiap algoritma pembelajaran mesin memiliki algoritma pengoptimalan pada intinya.

Dalam posting ini anda akan menemukan algoritma optimasi sederhana yang dapat anda gunakan dengan algoritma machine learning apa pun. Mudah dimengerti dan mudah diterapkan. Setelah membaca posting ini anda akan tahu:

Apakah gradient descent?
Bagaimana gradient descent digunakan sebagai algoritma seperti linear regression?
Bagaimana gradient descent digunakan untuk dataset yang sangat besar?
Apa tip untuk memaksimalkan gradient descent?

Gradient Descent

Gradient descent adalah algoritma optimasi yang digunakan untuk menemukan nilai-nilai parameter (koefisien) dari suatu fungsi (f) yang meminimalkan fungsi cost.

Gradient descent paling baik digunakan ketika parameter tidak dapat dihitung secara analitik (mis. Menggunakan aljabar linier) dan harus dicari dengan algoritma optimalisasi.

Intuisi untuk Gradient Descent

Bayangkan sebuah mangkuk besar seperti saat anda makan mie. Mangkuk ini adalah sebidang fungsi cost (f).

Posisi acak pada permukaan mangkuk adalah cost dari nilai saat ini dari koefisien (cost).

Bagian bawah mangkuk adalah cost untuk set koefisien terbaik, merupakan titik minimum dari fungsi.

Tujuannya adalah untuk terus mencoba nilai koefisien yang berbeda, mengevaluasi cost dan memilih koefisien baru yang memiliki cost yang sedikit lebih baik (lebih rendah).

Mengulangi proses ini cukup waktu akan mengarah ke dasar mangkuk dan anda akan tahu nilai-nilai koefisien yang menghasilkan cost minimum.

Prosedur Gradient Descent

Prosedur dimulai dengan nilai awal untuk koefisien atau koefisien untuk fungsi. Ini bisa 0,0 atau nilai acak yang kecil.

coefficient = 0.0

Cost dari koefisien dievaluasi dengan memasukkannya ke dalam fungsi dan menghitung cost.

cost = f(coefficient)

atau

cost = evaluate(f(coefficient))

Turunan dari cost dihitung. Turunan adalah konsep dari kalkulus dan mengacu pada kemiringan fungsi pada titik tertentu. Kita perlu mengetahui kemiringan sehingga kita tahu arah (tanda) untuk memindahkan nilai-nilai koefisien untuk mendapatkan cost yang lebih rendah pada iterasi berikutnya.

delta = derivative(cost)

Sekarang kita tahu dari turunan akan arah mana yang menurun, kita sekarang dapat memperbarui nilai koefisien. Parameter laju pembelajaran (alfa) harus ditentukan yang mengontrol seberapa banyak koefisien dapat berubah pada setiap update.

coefficient = coefficient – (alpha * delta)

Proses ini diulangi sampai cost dari koefisien (cost) adalah 0,0 atau cukup dekat dengan nol agar cukup baik.

Kita dapat melihat bagaimana sederhananya gradient descent. Itu memang mengharuskan kita untuk mengetahui gradien dari fungsi cost kita atau fungsi yang kita optimalkan, tetapi selain itu, itu sangat mudah. Selanjutnya kita akan melihat bagaimana kita dapat menggunakan ini dalam algoritma machine learning.

Batch Gradient Descent untuk Machine Learning

Tujuan dari semua algoritma supervised machine learning adalah untuk memperkirakan fungsi target (f) terbaik yang memetakan data input (X) ke variabel output (Y). Ini menjelaskan semua masalah klasifikasi dan regresi.

Beberapa algoritma machine learning memiliki koefisien yang mencirikan estimasi algoritma untuk fungsi target (f). Algoritma yang berbeda memiliki representasi yang berbeda dan koefisien yang berbeda, tetapi banyak dari mereka memerlukan proses optimasi untuk menemukan set koefisien yang menghasilkan estimasi terbaik dari fungsi target.

Contoh umum dari algoritma dengan koefisien yang dapat dioptimalkan menggunakan gradient descent adalah Linear Regression dan Logistic Regression.

Evaluasi seberapa dekat model machine learning memperkirakan fungsi target dapat dihitung dengan berbagai cara, seringkali khusus untuk algoritma machine learning. Fungsi cost melibatkan evaluasi koefisien dalam model machine learning dengan menghitung prediksi untuk model untuk setiap contoh training instance dalam dataset dan membandingkan prediksi dengan nilai output aktual dan menghitung jumlah atau kesalahan rata-rata (seperti Sum of Squared Residuals atau SSR dalam hal linear regression).

Dari fungsi cost, turunan dapat dihitung untuk setiap koefisien sehingga dapat di update menggunakan persamaan update yang dijelaskan di atas.

Cost dihitung untuk algoritma machine learning atas seluruh dataset training untuk setiap iterasi dari algoritma gradient descent. Satu iterasi dari algoritma ini disebut satu batch dan bentuk gradient descent ini disebut sebagai batch gradient descent.

Batch gradient descent adalah bentuk paling umum dari gradient descent yang dijelaskan dalam machine learning.

Stochastic Gradient Descent untuk Machine Learning

Gradient descent bisa berjalan lambat pada dataset yang sangat besar.

Karena satu iterasi dari algoritma gradient descent memerlukan prediksi untuk setiap instance dalam dataset training, ini bisa memakan waktu lama ketika kita memiliki jutaan instance.

Pada saat kita memiliki data yang besar, kita dapat menggunakan variasi gradient descent yang disebut stochastic gradient descent.

Dalam variasi ini, prosedur gradient descent yang dijelaskan di atas dijalankan tetapi update koefisien dilakukan untuk setiap instance training, bukan pada akhir batch instance.

Langkah pertama dari prosedur ini mensyaratkan bahwa urutan dataset training di acak. Ini untuk mengacak urutan update untuk koefisien. Karena koefisien di update setelah setiap training instance, update merupakan melompat acak di semua tempat, dan demikian pula fungsi cost yang sesuai. Dengan mengacak urutan update untuk koefisien, ini akan mengacak jalan dan menghindari akan gangguan atau macet.

Prosedur update untuk koefisien sama dengan yang di atas, kecuali cost tidak dijumlahkan pada semua pola training, tetapi dihitung untuk satu pola training.

Proses learning bisa jauh lebih cepat dengan stochastic gradient descent untuk dataset training yang sangat besar dan seringkali kita hanya perlu sejumlah kecil lintasan melalui dataset untuk mencapai set koefisien yang baik atau cukup baik, mis. 1-sampai-10 pass melewati dataset.

Tips untuk Gradient Descent

Bagian ini mencantumkan beberapa tip dan trik untuk mendapatkan hasil maksimal dari algoritma gradient descent untuk machine learning.

Plot Cost vs Time: Kumpulkan dan plot nilai cost yang dihitung oleh algoritma setiap iterasi. Berharap untuk menjalankan gradient descent yang berkinerja baik adalah penurunan cost setiap iterasi. Jika tidak berkurang, coba kurangi learning rate.
Learning Rate: Nilai learning rate adalah nilai real kecil seperti 0,1, 0,001 atau 0,0001. Coba nilai yang berbeda untuk masalah anda dan lihat mana yang paling berhasil.
Rescale Input: Algoritma akan mencapai cost minimum lebih cepat jika bentuk fungsi cost tidak skewed dan terdistorsi. Kita dapat mencapai ini dengan mengubah skala semua variabel input (X) ke rentang yang sama, seperti [0, 1] atau [-1, 1].
Sedikit saja Pass: Stochastic gradient descent sering tidak membutuhkan lebih dari 1 hingga 10 pass pada dataset training untuk bertemu pada koefisien yang baik atau cukup baik.
Plot Mean Cost: Pembaruan untuk setiap instance dataset pelatihan dapat menghasilkan plot cost yang noisy dari waktu ke waktu saat menggunakan stochastic gradient descent. Mengambil rata-rata lebih dari 10, 100, atau 1000 update dapat memberi anda ide yang lebih baik dari learning trend untuk algoritma tersebut.

Summary

Dalam tulisan ini anda mempelajari tentang gradient descent untuk machine learning. Anda belajar bahwa:

Optimisasi adalah bagian terbesar dari machine learning.
Gradient descent adalah prosedur sederhana dari optimisasi that you can use with many machine learning algorithms.
Batch gradient descent refers to calculating the derivative from all training data before calculating an update.
Stochastic gradient descent refers to calculating the derivative from each training data instance and calculating the update immediately.

Referensi

https://machinelearningmastery.com/gradient-descent-for-machine-learning/

Pranala Menarik

Keras