Difference between revisions of "Keras: Introduction to Mini-Batch Gradient Descent"

From OnnoWiki
Jump to navigation Jump to search
 
(23 intermediate revisions by the same user not shown)
Line 16: Line 16:
 
==Tutorial Overview==
 
==Tutorial Overview==
  
This tutorial is divided into 3 parts; they are:
+
Tutorial dibagi dalam tiga (3) bagian, yaitu:
  
* What is Gradient Descent?
+
* Apakah Gradient Descent?
* Contrasting the 3 Types of Gradient Descent
+
* Perbandingan antara 3 Type Gradient Descent
* How to Configure Mini-Batch Gradient Descent
+
* Care mengkonfigurasi Mini-Batch Gradient Descent
  
==What is Gradient Descent?==
+
==Apakah Gradient Descent?==
  
Gradient descent is an optimization algorithm often used for finding the weights or coefficients of machine learning algorithms, such as artificial neural networks and logistic regression.
+
Gradient descent adalah algoritma optimasi yang sering digunakan untuk menemukan weight atau koefisien algoritma machine learning, seperti artificial neural networks dan logistic regression.
  
It works by having the model make predictions on training data and using the error on the predictions to update the model in such a way as to reduce the error.
+
Ini bekerja dengan meminta model membuat prediksi pada data training dan menggunakan kesalahan pada prediksi untuk memperbarui model sedemikian rupa agar bisa mengurangi kesalahan.
  
The goal of the algorithm is to find model parameters (e.g. coefficients or weights) that minimize the error of the model on the training dataset. It does this by making changes to the model that move it along a gradient or slope of errors down toward a minimum error value. This gives the algorithm its name of “gradient descent.
+
Tujuan algoritma adalah untuk menemukan parameter model (mis. Koefisien atau weight) yang meminimalkan kesalahan model pada dataset training. Algoritma melakukan ini dengan membuat perubahan pada model yang memindahkannya sepanjang gradien atau kemiringan kesalahan ke bawah menuju nilai kesalahan minimum. Hal ini menyebabkan nama algoritma "gradient descent."
  
The pseudocode sketch below summarizes the gradient descent algorithm:
+
Pseudocode di bawah ini merangkum algoritma gradient descent:
  
 
  model = initialization(...)
 
  model = initialization(...)
Line 42: Line 42:
 
  model = update_model(model, error)
 
  model = update_model(model, error)
  
For more information see the posts:
+
Untuk informasi lebih lanjut bisa membaca:
  
    Gradient Descent For Machine Learning
+
* [[Keras: Gradient Descent For Machine Learning]]
    How to Implement Linear Regression with Stochastic Gradient Descent from Scratch with Python
+
* [[Keras: How to Implement Linear Regression with Stochastic Gradient Descent from Scratch with Python]]
 
 
Contrasting the 3 Types of Gradient Descent
 
 
 
Gradient descent can vary in terms of the number of training patterns used to calculate error; that is in turn used to update the model.
 
  
The number of patterns used to calculate the error includes how stable the gradient is that is used to update the model. We will see that there is a tension in gradient descent configurations of computational efficiency and the fidelity of the error gradient.
+
==Membandingkan 3 Type Gradient Descent==
  
The three main flavors of gradient descent are batch, stochastic, and mini-batch.
+
Gradient descent dapat bervariasi dalam hal jumlah pola training yang digunakan untuk menghitung kesalahan; yang nantinya digunakan untuk memperbarui model.
  
Let’s take a closer look at each.
+
Jumlah pola yang digunakan untuk menghitung kesalahan termasuk seberapa stabil gradien yang digunakan untuk memperbarui model. Kita akan melihat bahwa ada tarik ulur dalam konfigurasi gradient descent akan efisiensi komputasi dengan ketepatan dari gradien error.
  
==What is Stochastic Gradient Descent?==
+
Tiga variasi utama dari gradient descent adalah batch, stochastic, dan mini-batch.
  
Stochastic gradient descent, often abbreviated SGD, is a variation of the gradient descent algorithm that calculates the error and updates the model for each example in the training dataset.
+
Mari kita melihat lebih dekat pada masing-masing.
  
The update of the model for each training example means that stochastic gradient descent is often called an online machine learning algorithm.
+
===Apakah Stochastic Gradient Descent?===
  
Upsides
+
Stochastic gradient descent, kadang di singkat SGD, adalah varian dari algoritma gradient descent yang menghitung error dan memperbarui model untuk setiap contoh dalam dataset training.
  
* The frequent updates immediately give an insight into the performance of the model and the rate of improvement.
+
Update model untuk setiap contoh training berarti bahwa stochastic gradient descent disebut online machine learning algorithm.
* This variant of gradient descent may be the simplest to understand and implement, especially for beginners.
 
* The increased model update frequency can result in faster learning on some problems.
 
* The noisy update process can allow the model to avoid local minima (e.g. premature convergence).
 
  
Downsides
+
====Sisi Baik====
  
* Updating the model so frequently is more computationally expensive than other configurations of gradient descent, taking significantly longer to train models on large datasets.
+
* Update yang sering akan segera memberi gambaran tentang kinerja model dan tingkat perbaikan.
* The frequent updates can result in a noisy gradient signal, which may cause the model parameters and in turn the model error to jump around (have a higher variance over training epochs).
+
* Varian gradient descent ini mungkin paling sederhana untuk dipahami dan diterapkan, terutama untuk pemula.
* The noisy learning process down the error gradient can also make it hard for the algorithm to settle on an error minimum for the model.
+
* Peningkatan frekuensi update model dapat menghasilkan pembelajaran yang lebih cepat pada beberapa masalah.
 +
* Proses pembaruan yang noisy akan memungkinkan model untuk menghindari minimum lokal (mis. konvergensi prematur).
  
 +
====Sisi Buruk====
  
==What is Batch Gradient Descent?==
+
* Updating model sering dilakukan mengakibatkan lebih mahal secara komputasi daripada konfigurasi gradient descent lainnya, membutuhkan waktu lebih lama untuk melatih model pada dataset besar.
 +
* Update yang sering dapat menghasilkan sinyal gradien yang noisy, yang dapat menyebabkan parameter model dan pada gilirannya kesalahan model untuk melompat-lompat (memiliki varians yang lebih tinggi selama training epoch).
 +
* Proses learning yang noisy pada error gradient juga dapat mempersulit algoritma untuk menyelesaikan error minimum untuk model.
  
Batch gradient descent is a variation of the gradient descent algorithm that calculates the error for each example in the training dataset, but only updates the model after all training examples have been evaluated.
+
===Apakah Batch Gradient Descent?===
  
One cycle through the entire training dataset is called a training epoch. Therefore, it is often said that batch gradient descent performs model updates at the end of each training epoch.
+
Batch gradient descent adalah variasi dari algoritma gradient descent yang menghitung error untuk setiap contoh dalam dataset training, tetapi hanya mengupdate model setelah semua contoh training telah dievaluasi.
  
Upsides
+
Satu siklus yang melalui seluruh dataset training disebut training epoch. Oleh karena itu, sering dikatakan bahwa batch gradient descent melakukan update model pada akhir setiap periode training.
  
* Fewer updates to the model means this variant of gradient descent is more computationally efficient than stochastic gradient descent.
+
====Sisi Baik====
* The decreased update frequency results in a more stable error gradient and may result in a more stable convergence on some problems.
 
* The separation of the calculation of prediction errors and the model update lends the algorithm to parallel processing based implementations.
 
  
Downsides
+
* Lebih sedikit update pada model berarti varian gradient descent ini lebih efisien secara komputasi daripada stochastic gradient descent.
 +
* Frekuensi update yang berkurang menghasilkan gradien error yang lebih stabil dan dapat menghasilkan konvergensi yang lebih stabil pada beberapa masalah.
 +
* Pemisahan perhitungan prediksi error dan update model memberikan algoritma untuk implementasi berbasis pemrosesan paralel.
  
* The more stable error gradient may result in premature convergence of the model to a less optimal set of parameters.
+
====Sisi Buruk====
* The updates at the end of the training epoch require the additional complexity of accumulating prediction errors across all training examples.
 
* Commonly, batch gradient descent is implemented in such a way that it requires the entire training dataset in memory and available to the algorithm.
 
* Model updates, and in turn training speed, may become very slow for large datasets.
 
  
==What is Mini-Batch Gradient Descent?==
+
* Gradien error yang lebih stabil dapat mengakibatkan konvergensi prematur model ke set parameter yang kurang optimal.
 +
* Update di akhir training epoch membutuhkan kompleksitas tambahan dari akumulasi prediksi error di semua contoh training.
 +
* Umumnya, batch gradient descent diimplementasikan sedemikian rupa sehingga membutuhkan seluruh dataset training dalam memori dan tersedia untuk algoritma.
 +
* Update model, dan pada akhirnya kecepatan training, mungkin menjadi sangat lambat untuk kumpulan data besar.
  
Mini-batch gradient descent is a variation of the gradient descent algorithm that splits the training dataset into small batches that are used to calculate model error and update model coefficients.
+
===Apakah Mini-Batch Gradient Descent?===
  
Implementations may choose to sum the gradient over the mini-batch which further reduces the variance of the gradient.
+
Mini-batch gradient descent adalah variasi dari algoritma gradient descent yang membagi dataset training menjadi kelompok-kelompok kecil yang digunakan untuk menghitung error model dan update koefisien model.
  
Mini-batch gradient descent seeks to find a balance between the robustness of stochastic gradient descent and the efficiency of batch gradient descent. It is the most common implementation of gradient descent used in the field of deep learning.
+
Saat implementasi dapat memilih untuk menjumlahkan gradien atas mini-batch yang selanjutnya mengurangi varian dari gradien.
  
Upsides
+
Mini-batch gradient descent berupaya menemukan keseimbangan antara kekokohan stochastic gradient descent dan efisiensi batch gradient descent. Ini adalah implementasi paling umum dari gradient descent yang digunakan dalam bidang deep learning.
  
* The model update frequency is higher than batch gradient descent which allows for a more robust convergence, avoiding local minima.
+
====Sisi Baik====
* The batched updates provide a computationally more efficient process than stochastic gradient descent.
 
* The batching allows both the efficiency of not having all training data in memory and algorithm implementations.
 
  
Downsides
+
* Frekuensi update model lebih tinggi daripada batch gradient descent  yang memungkinkan untuk konvergensi yang lebih kuat, menghindari minimum lokal.
 +
* Update batch memberikan proses komputasi yang lebih efisien daripada stochastic gradient descent.
 +
* Batch memungkinkan efisiensi untuk tidak memiliki semua data training dalam memori dan implementasi algoritma.
  
* Mini-batch requires the configuration of an additional “mini-batch size” hyperparameter for the learning algorithm.
+
====Sisi Buruk====
* Error information must be accumulated across mini-batches of training examples like batch gradient descent.
 
  
==How to Configure Mini-Batch Gradient Descent==
+
* Mini-batch membutuhkan konfigurasi hyperparameter "mini-batch size" tambahan untuk algoritma pembelajaran.
 +
* Informasi error harus diakumulasikan melalui mini-batch contoh training seperti batch gradient descent.
  
Mini-batch gradient descent is the recommended variant of gradient descent for most applications, especially in deep learning.
+
==Cara Mengkonfigurasi Mini-Batch Gradient Descent==
  
Mini-batch sizes, commonly called “batch sizes” for brevity, are often tuned to an aspect of the computational architecture on which the implementation is being executed. Such as a power of two that fits the memory requirements of the GPU or CPU hardware like 32, 64, 128, 256, and so on.
+
Mini-batch gradient descent adalah varian yang direkomendasikan dari gradient descent untuk sebagian besar aplikasi, terutama dalam deep learning.
  
Batch size is a slider on the learning process.
+
Ukuran mini-batch, biasa disebut "batch size" untuk singkatnya, sering disesuaikan dengan aspek arsitektur komputasi di mana implementasi sedang dieksekusi. Seperti kekuatan dua yang sesuai dengan kebutuhan memori GPU atau perangkat keras CPU seperti 32, 64, 128, 256, dan sebagainya.
 +
'
 +
Ukuran batch adalah slider pada proses pembelajaran.
  
* Small values give a learning process that converges quickly at the cost of noise in the training process.
+
* Nilai kecil memberikan proses pembelajaran yang konvergen dengan cepat pada cost of noise dalam proses training.
* Large values give a learning process that converges slowly with accurate estimates of the error gradient.
+
* Nilai besar memberikan proses training yang konvergen lambat dengan estimasi akurat dari gradien error.
  
 
===Tip 1: A good default for batch size might be 32.===
 
===Tip 1: A good default for batch size might be 32.===
Line 138: Line 137:
 
'' … it can be optimized separately of the other hyperparameters, by comparing training curves (training and validation error vs amount of training time), after the other hyper-parameters (except learning rate) have been selected.''
 
'' … it can be optimized separately of the other hyperparameters, by comparing training curves (training and validation error vs amount of training time), after the other hyper-parameters (except learning rate) have been selected.''
  
==Tip 3: Tune batch size and learning rate after tuning all other hyperparameters.==
+
===Tip 3: Tune batch size and learning rate after tuning all other hyperparameters.===
  
 
''… [batch size] and [learning rate] may slightly interact with other hyper-parameters so both should be re-optimized at the end. Once [batch size] is selected, it can generally be fixed while the other hyper-parameters can be further optimized (except for a momentum hyper-parameter, if one is used).''
 
''… [batch size] and [learning rate] may slightly interact with other hyper-parameters so both should be re-optimized at the end. Once [batch size] is selected, it can generally be fixed while the other hyper-parameters can be further optimized (except for a momentum hyper-parameter, if one is used).''
  
Further Reading
+
==Further Reading==
  
 
This section provides more resources on the topic if you are looking go deeper.
 
This section provides more resources on the topic if you are looking go deeper.
Line 150: Line 149:
 
     How to Implement Linear Regression with Stochastic Gradient Descent from Scratch with Python
 
     How to Implement Linear Regression with Stochastic Gradient Descent from Scratch with Python
  
Additional Reading
+
==Additional Reading==
  
 
     Stochastic gradient descent on Wikipedia
 
     Stochastic gradient descent on Wikipedia
Line 162: Line 161:
 
==Summary==
 
==Summary==
  
In this post, you discovered the gradient descent algorithm and the version that you should use in practice.
+
Dalam tulisan ini, kita menemukan algoritma gradient descent dan versi yang harus anda gunakan dalam praktek.
 
 
Specifically, you learned:
 
 
 
* What gradient descent is and how it works from a high level.
 
* What batch, stochastic, and mini-batch gradient descent are and the benefits and limitations of each method.
 
* That mini-batch gradient descent is the go-to method and how to configure it on your applications.
 
 
 
 
 
  
 +
Secara khusus, anda belajar:
  
 +
* Apa itu gradient descent dan bagaimana kerjanya dari tingkat tinggi.
 +
* Apakah batch, stochastic, dan mini-batch gradient descent serta manfaat dan keterbatasan masing-masing metode.
 +
* Itu mini-batch gradient descent adalah metode yang terbaik dan cara mengkonfigurasinya pada aplikasi anda.
  
 
==Referensi==
 
==Referensi==

Latest revision as of 11:31, 10 September 2019

Sumber: https://machinelearningmastery.com/gentle-introduction-mini-batch-gradient-descent-configure-batch-size/



Stochastic gradient descent adalah metoda yang banyak digunakan untuk train deep learning model.

Ada tiga varian utama gradient descent dan bisa membingungkan mana yang akan digunakan. Dalam tulisan ini, anda akan menemukan satu jenis gradient descent yang harus anda gunakan secara umum dan cara mengkonfigurasinya.

Setelah selesai membaca tulisan ini, anda akan tahu:

  • Apa itu gradient descent dan bagaimana kerjanya pada tingkat tinggi.
  • Apakah batch, stochastic, dan mini-batch gradient descent serta manfaat dan keterbatasan masing-masing metode.
  • Mini-batch gradient descent adalah metode yang relatif paling aman dan cara mengkonfigurasinya pada aplikasi anda.

Tutorial Overview

Tutorial dibagi dalam tiga (3) bagian, yaitu:

  • Apakah Gradient Descent?
  • Perbandingan antara 3 Type Gradient Descent
  • Care mengkonfigurasi Mini-Batch Gradient Descent

Apakah Gradient Descent?

Gradient descent adalah algoritma optimasi yang sering digunakan untuk menemukan weight atau koefisien algoritma machine learning, seperti artificial neural networks dan logistic regression.

Ini bekerja dengan meminta model membuat prediksi pada data training dan menggunakan kesalahan pada prediksi untuk memperbarui model sedemikian rupa agar bisa mengurangi kesalahan.

Tujuan algoritma adalah untuk menemukan parameter model (mis. Koefisien atau weight) yang meminimalkan kesalahan model pada dataset training. Algoritma melakukan ini dengan membuat perubahan pada model yang memindahkannya sepanjang gradien atau kemiringan kesalahan ke bawah menuju nilai kesalahan minimum. Hal ini menyebabkan nama algoritma "gradient descent."

Pseudocode di bawah ini merangkum algoritma gradient descent:

model = initialization(...)
n_epochs = ...
train_data = ...
for i in n_epochs:
	train_data = shuffle(train_data)
	X, y = split(train_data)
	predictions = predict(X, model)
	error = calculate_error(y, predictions)
	model = update_model(model, error)

Untuk informasi lebih lanjut bisa membaca:

Membandingkan 3 Type Gradient Descent

Gradient descent dapat bervariasi dalam hal jumlah pola training yang digunakan untuk menghitung kesalahan; yang nantinya digunakan untuk memperbarui model.

Jumlah pola yang digunakan untuk menghitung kesalahan termasuk seberapa stabil gradien yang digunakan untuk memperbarui model. Kita akan melihat bahwa ada tarik ulur dalam konfigurasi gradient descent akan efisiensi komputasi dengan ketepatan dari gradien error.

Tiga variasi utama dari gradient descent adalah batch, stochastic, dan mini-batch.

Mari kita melihat lebih dekat pada masing-masing.

Apakah Stochastic Gradient Descent?

Stochastic gradient descent, kadang di singkat SGD, adalah varian dari algoritma gradient descent yang menghitung error dan memperbarui model untuk setiap contoh dalam dataset training.

Update model untuk setiap contoh training berarti bahwa stochastic gradient descent disebut online machine learning algorithm.

Sisi Baik

  • Update yang sering akan segera memberi gambaran tentang kinerja model dan tingkat perbaikan.
  • Varian gradient descent ini mungkin paling sederhana untuk dipahami dan diterapkan, terutama untuk pemula.
  • Peningkatan frekuensi update model dapat menghasilkan pembelajaran yang lebih cepat pada beberapa masalah.
  • Proses pembaruan yang noisy akan memungkinkan model untuk menghindari minimum lokal (mis. konvergensi prematur).

Sisi Buruk

  • Updating model sering dilakukan mengakibatkan lebih mahal secara komputasi daripada konfigurasi gradient descent lainnya, membutuhkan waktu lebih lama untuk melatih model pada dataset besar.
  • Update yang sering dapat menghasilkan sinyal gradien yang noisy, yang dapat menyebabkan parameter model dan pada gilirannya kesalahan model untuk melompat-lompat (memiliki varians yang lebih tinggi selama training epoch).
  • Proses learning yang noisy pada error gradient juga dapat mempersulit algoritma untuk menyelesaikan error minimum untuk model.

Apakah Batch Gradient Descent?

Batch gradient descent adalah variasi dari algoritma gradient descent yang menghitung error untuk setiap contoh dalam dataset training, tetapi hanya mengupdate model setelah semua contoh training telah dievaluasi.

Satu siklus yang melalui seluruh dataset training disebut training epoch. Oleh karena itu, sering dikatakan bahwa batch gradient descent melakukan update model pada akhir setiap periode training.

Sisi Baik

  • Lebih sedikit update pada model berarti varian gradient descent ini lebih efisien secara komputasi daripada stochastic gradient descent.
  • Frekuensi update yang berkurang menghasilkan gradien error yang lebih stabil dan dapat menghasilkan konvergensi yang lebih stabil pada beberapa masalah.
  • Pemisahan perhitungan prediksi error dan update model memberikan algoritma untuk implementasi berbasis pemrosesan paralel.

Sisi Buruk

  • Gradien error yang lebih stabil dapat mengakibatkan konvergensi prematur model ke set parameter yang kurang optimal.
  • Update di akhir training epoch membutuhkan kompleksitas tambahan dari akumulasi prediksi error di semua contoh training.
  • Umumnya, batch gradient descent diimplementasikan sedemikian rupa sehingga membutuhkan seluruh dataset training dalam memori dan tersedia untuk algoritma.
  • Update model, dan pada akhirnya kecepatan training, mungkin menjadi sangat lambat untuk kumpulan data besar.

Apakah Mini-Batch Gradient Descent?

Mini-batch gradient descent adalah variasi dari algoritma gradient descent yang membagi dataset training menjadi kelompok-kelompok kecil yang digunakan untuk menghitung error model dan update koefisien model.

Saat implementasi dapat memilih untuk menjumlahkan gradien atas mini-batch yang selanjutnya mengurangi varian dari gradien.

Mini-batch gradient descent berupaya menemukan keseimbangan antara kekokohan stochastic gradient descent dan efisiensi batch gradient descent. Ini adalah implementasi paling umum dari gradient descent yang digunakan dalam bidang deep learning.

Sisi Baik

  • Frekuensi update model lebih tinggi daripada batch gradient descent yang memungkinkan untuk konvergensi yang lebih kuat, menghindari minimum lokal.
  • Update batch memberikan proses komputasi yang lebih efisien daripada stochastic gradient descent.
  • Batch memungkinkan efisiensi untuk tidak memiliki semua data training dalam memori dan implementasi algoritma.

Sisi Buruk

  • Mini-batch membutuhkan konfigurasi hyperparameter "mini-batch size" tambahan untuk algoritma pembelajaran.
  • Informasi error harus diakumulasikan melalui mini-batch contoh training seperti batch gradient descent.

Cara Mengkonfigurasi Mini-Batch Gradient Descent

Mini-batch gradient descent adalah varian yang direkomendasikan dari gradient descent untuk sebagian besar aplikasi, terutama dalam deep learning.

Ukuran mini-batch, biasa disebut "batch size" untuk singkatnya, sering disesuaikan dengan aspek arsitektur komputasi di mana implementasi sedang dieksekusi. Seperti kekuatan dua yang sesuai dengan kebutuhan memori GPU atau perangkat keras CPU seperti 32, 64, 128, 256, dan sebagainya. ' Ukuran batch adalah slider pada proses pembelajaran.

  • Nilai kecil memberikan proses pembelajaran yang konvergen dengan cepat pada cost of noise dalam proses training.
  • Nilai besar memberikan proses training yang konvergen lambat dengan estimasi akurat dari gradien error.

Tip 1: A good default for batch size might be 32.

… [batch size] is typically chosen between 1 and a few hundreds, e.g. [batch size] = 32 is a good default value, with values above 10 taking advantage of the speedup of matrix-matrix products over matrix-vector products. — Practical recommendations for gradient-based training of deep architectures, 2012

Update 2018: here is another paper supporting a batch size of 32, here’s the quote (m is batch size):

The presented results confirm that using small batch sizes achieves the best training stability and generalization performance, for a given computational cost, across a wide range of experiments. In all cases the best results have been obtained with batch sizes m = 32 or smaller, often as small as m = 2 or m = 4. — Revisiting Small Batch Training for Deep Neural Networks, 2018.

Tip 2: It is a good idea to review learning curves of model validation error against training time with different batch sizes when tuning the batch size.

… it can be optimized separately of the other hyperparameters, by comparing training curves (training and validation error vs amount of training time), after the other hyper-parameters (except learning rate) have been selected.

Tip 3: Tune batch size and learning rate after tuning all other hyperparameters.

… [batch size] and [learning rate] may slightly interact with other hyper-parameters so both should be re-optimized at the end. Once [batch size] is selected, it can generally be fixed while the other hyper-parameters can be further optimized (except for a momentum hyper-parameter, if one is used).

Further Reading

This section provides more resources on the topic if you are looking go deeper. Related Posts

   Gradient Descent for Machine Learning
   How to Implement Linear Regression with Stochastic Gradient Descent from Scratch with Python

Additional Reading

   Stochastic gradient descent on Wikipedia
   Online machine learning on Wikipedia
   An overview of gradient descent optimization algorithms
   Practical recommendations for gradient-based training of deep architectures, 2012
   Efficient Mini-batch Training for Stochastic Optimization, 2014
   In deep learning, why don’t we use the whole training set to compute the gradient? on Quora
   Optimization Methods for Large-Scale Machine Learning, 2016

Summary

Dalam tulisan ini, kita menemukan algoritma gradient descent dan versi yang harus anda gunakan dalam praktek.

Secara khusus, anda belajar:

  • Apa itu gradient descent dan bagaimana kerjanya dari tingkat tinggi.
  • Apakah batch, stochastic, dan mini-batch gradient descent serta manfaat dan keterbatasan masing-masing metode.
  • Itu mini-batch gradient descent adalah metode yang terbaik dan cara mengkonfigurasinya pada aplikasi anda.

Referensi


Pranala Menarik