Mesin yang over-fitting dan under-fitting

Apa yang akan terjadi bila mesin belajar terlalu mendalam? Dengan kata lain, apa yang akan terjadi bila rancangan arsitektur deep learning-nya terlalu deep? Hasilnya mesin hanya akan menghafalkan perilaku (pola) yang ada di data, bukan belajar untuk menemukan rules. Istilah untuk ini adalah over-fitting seperti yang diperlihatkan oleh gambar paling kanan.

Dalam hal ini mesin tidak mampu lagi belajar membedakan signal dan noise yang ada di data. Dua buah data yang dikategorikan sebagai x kemungkinan data itu didominasi oleh noise sehingga sepatutnya tidak terlalu dipaksakan untuk diberi label x seperti yang telah dilakukan mesin di gambar tengah. Gambar tengah memperlihatkan mesin yang belajar dengan baik, appropriate-fitting.

Sebaliknya, gambar kiri memperlihatkan mesin kurang mampu belajar atau under-fitting. Ini kemungkinan karena rancangan arsitektur deep learning-nya terlalu shallow (dangkal): banyak hal yang akan dipelajari tapi fasiltas belajar tidak mendukung.

Sebagai ilustrasi, misalkan mula-mula mesin bertugas menemukan aturan (rules) kapan ia akan memutuskan untuk membeli saham (titik x) dan kapan akan memenjual saham (titik o). Caranya dengan menarik garis pemisah yang akan memisahkan x dan o. Kelak garis pemisah itu bisa digantikan dengan hyperplanes.

Disini diperlihatkan fenomena mesin yang hanya menghafal (over-fitting) perilaku di data saham dan mesin yang kurang mampu mempelajarinya (under-fitting). Keduanya merupakan fenomena mesin gagal belajar untuk menemukan rules tentang perilaku (pola) di dalam data saham.

Terlalu banyak menghafal memang kurang bagus, namun adakalanya fenomena hafalan/ingatan di jangka pendek (short-term memory) sengaja dimunculkan di model jaringan saraf tiruan sehingga muncul model LSTM (Long Short-Term Memory): model jaringan saraf tiruan dengan ingatan jangka pendek yang berkelanjutan (sambung menyambung). Artinya, keputusan membeli atau menjual saham boleh dipengaruhi oleh pola/perilaku harga saham yang terjadi di beberapa hari sebelumnya.

Ide munculnya model LSTM karena sinyal listrik di saraf otak yang menempuh perjalanan yang panjang akan kehilangan dayanya sehingga padam di tengah jalan. Proses learning tidak bisa dilanjutkan. Model LSTM mencegah sinyal listrik akan kehilangan dayanya. Setelah sinyal listrik menempuh perjalanan yang belum jauh (short-term), dayanya dipulihkan. Model LSTM cocok untuk data time series.

Untuk kasus lain yang bukan tentang saham, titik x bisa menggambarkan peristiwa anomali (misalnya ada krisis ekonomi) dan titik o sebagai peristiwa biasa yang wajar (tidak ada krisis ekonomi). Dalam hal ini model deep learning bisa dijadikan sebagai alat early warning system bagi perekonomian.

Untuk kasus lain lagi, setelah mesin belajar dengan baik untuk memperoleh rules tentang pola atau perilaku yang ada di dalam data, suatu ketika titik-titik anomali perlu dikoreksi menjadi titik-titik biasa yang wajar.

Sumber gambar:
https://medium.com/greyatom/what-is-underfitting-and-overfitting-in-machine-learning-and-how-to-deal-with-it-6803a989c76

Leave a comment