Artikel Labkom99 ini akan memperkenalkan beberapa algoritma machine learning paling populer. Ada banyak algoritma machine learning sekarang dan kesulitannya adalah mengklasifikasikan metode.
Di sini Labkom99 memperkenalkan dua metode untuk berpikir dan mengklasifikasikan algoritma ini. Kelompok algoritma pertama adalah gaya belajar dan kelompok kedua serupa dalam bentuk dan fungsi. Sebelumnya silahkan baca Pembelajaran Mesin Adalah? Bagaimana Cara Kerja Machine Learning?. Bagi yang belum paham.
Gaya Belajar
Ada berbagai pendekatan untuk memodelkan suatu algoritma berdasarkan suatu masalah, apakah masalah itu didasarkan pada pengalaman atau interaksi dengan lingkungan, atau berdasarkan data yang perlu kita input, gaya belajar adalah hal pertama yang harus diperhatikan dalam machine learning.
Di bawah ini kita melihat beberapa gaya belajar utama atau model pembelajaran algoritma Machine Learning.
1. Supervised Learning atau pembelajaran terawasi
Data input disebut data pelatihan. Sebuah model perlu melalui proses pelatihan. Selama proses ini, penilaian yang diharapkan dibuat. Jika kesalahan dibuat, koreksi dilakukan. Proses pelatihan berlanjut hingga hasil yang diharapkan dicapai berdasarkan data pelatihan presisi. Metode kuncinya adalah klasifikasi dan regresi dan algoritmanya adalah Logistic Regression dan Back Propagation Neural Network.
2. Unsupervised Learning atau Pembelajaran Tanpa Pengawasan
Tanpa data pelatihan apa pun, ia mengadopsi model struktur deduksi berdasarkan data input yang tidak berlabel. Metode kuncinya adalah pembelajaran aturan asosiasi dan agregasi. Algoritmanya termasuk algoritma Apriori dan k-means.
3. Semi-Supervised Learning atau Pembelajaran Semi Pengawasan
Data input adalah campuran kasus berlabel dan tidak berlabel, dan model harus mempelajari struktur dan mengatur data seperti yang diharapkan. Metode kuncinya adalah klasifikasi dan regresi.
4. Reinforcement Learning
Model harus mampu merespon dan merespon stimulus lingkungan. Umpan balik tidak akan digunakan sebagai bentuk proses pengajaran, tetapi dapat diganjar atau dihukum oleh lingkungan. Pendekatan utamanya adalah sistem dan kontrol robot. Algoritma yang digunakan adalah Q-learning dan temporal difference learning.
Saat memproses data untuk pemodelan keputusan bisnis, Anda biasanya menggunakan metode pembelajaran terawasi dan tidak terawasi. Topik hangat saat ini adalah pembelajaran semi-diawasi di berbagai bidang seperti klasifikasi gambar, dengan beberapa metode untuk kumpulan data besar dari contoh berlabel. Pembelajaran penguatan lebih cenderung memiliki aplikasi di bidang-bidang seperti kontrol robot dan sistem kontrol lainnya.
Algoritma Klasifikasi Machine Learning
Klasifikasi adalah untuk mengetahui karakteristik umum dari sekelompok objek data dalam database dan membaginya ke dalam kelas yang berbeda sesuai dengan mode klasifikasi. Tujuannya adalah untuk memetakan item data dalam database ke kategori tertentu melalui model klasifikasi. Ini dapat diterapkan pada klasifikasi aplikasi dan prediksi tren. Misalnya, toko e-commerce membagi pembelian pengguna ke dalam kategori yang berbeda dalam jangka waktu tertentu dan merekomendasikan produk terkait kepada pengguna sesuai dengan situasi. Sehingga meningkatkan volume penjualan toko.
- Spatial Covering Algorithm- Partisi Spasial Berdasarkan Spherical Neighborhood
- Space Covering Algorithm – Pengenalan Pola Bionic
- Spatial Covering Algorithm – Metode Klasifikasi Visual
- VCA menganggap data sebagai gambar,dan intinya didasarkan pada teori ruang skala, memilih skala yang sesuai untuk membuat wilayah sampel yang sama menyatu.
Klasifikasi Algoritma Hypersurface HSC Machine Learning
Menetapkan ruang di mana sampel latih ditempatkan sebagai area kubus berdimensi tertutup. Membagi area ini menjadi beberapa area kecil menurut aturan pembagian tertentu. Sehingga setiap area kecil hanya berisi jenis titik sampel yang sama, dan gunakan kategori titik sampel untuk membatasi area. Menggabungkan Adjacent ke batas wilayah yang sama, diperoleh klasifikasi hypersurface yang terdiri dari beberapa patch hyperplane. Memasukkan titik sampel baru dan mententukan kategori titik sampel sesuai dengan teorema klasifikasi dan diskriminasi.
Fitur:
- Masalah klasifikasi nonlinier langsung diselesaikan dengan penyempurnaan wilayah fitur, yang tidak perlu mempertimbangkan fungsi mana yang akan digunakan dan tidak perlu menambah dimensi.
- Metode konstruksi hypersurface klasifikasi yang umum dan dapat dioperasikan, berdasarkan metode klasifikasi hypersurface. Klasifikasi hypersurface diperoleh melalui perhitungan penggabungan area untuk membagi ruang
- Metode klasifikasi dan penilaian yang unik, sederhana dan mudah, metode berdasarkan klasifikasi hypersurface adalah algoritma penilaian klasifikasi berdasarkan teorema Jordan, yang membuat klasifikasi dan penilaian berdasarkan hypersurface non-cembung menjadi sederhana dan layak.
Minimal Covering Subset
Minimal Covering Subset dari algoritma klasifikasi cakupan – untuk set sampel pelatihan tertentu. Jika model klasifikasi yang diperoleh setelah pelatihan pada set sampel subset sama dengan model klasifikasi yang diperoleh setelah pelatihan pada set sampel asli. Set sampel subset adalah disebut set sampel asli. Sebuah overlay dari set sampel. Di antara semua cakupan dari kumpulan sampel, cakupan yang berisi jumlah sampel paling sedikit disebut subset cakupan minimal dari kumpulan sampel.
Langkah-langkah dasar untuk menghitung Minimal Covering Subset
Mencakup semua titik sampel dengan luas persegi; membagi area menjadi serangkaian area kecil (sel) sampai titik sampel yang terdapat di setiap area kecil termasuk dalam kategori yang sama. Pilih dan hanya pilih titik sampel yang termasuk dalam area kecil yang sama A sampel merupakan subset cakupan minimal.
Pengambilan sampel dibatasi oleh subset penutup yang sangat kecil
Ruang sampel penuh harus berisi subset cakupan minimal, dan set data apa pun mungkin tidak berisi subset cakupan minimal yang lengkap. Dalam lingkungan big data, sampel dalam subset cakupan minimal lebih banyak termasuk dalam data besar. Lebih banyak data dapat mengalahkan algoritma yang lebih baik, dan tidak ada jumlah data yang akan melebihi keterwakilan dari subset cakupan minimal. Peningkatan yang baik juga tidak akan melebihi akurasi ditentukan oleh himpunan bagian penutup yang sangat kecil.
Algoritma Kesamaan (Similarity Algorithm) Machine Learning
Algoritma biasanya menunjukkan beberapa tingkat kesamaan dalam fungsi atau bentuk. Misalnya, metode berbasis pohon dan inspirasi dari metode jaringan saraf. Ini adalah metode pengelompokan yang berguna, tetapi tidak sempurna. Masih ada algoritma yang mudah masuk ke dalam beberapa kategori. Seperti Learning Vector Quantization yang merupakan heuristik jaringan saraf dan algoritme berbasis instance.
Ada juga algoritma dengan nama yang sama yang menjelaskan domain masalah dan kategori algoritma, seperti analisis regresi dan agregasi. Jadi, seperti algoritma machine learning itu sendiri, tidak ada model yang sempurna, hanya model yang cocok.
Di bawah ini kami menyajikan beberapa algoritma machine learning yang populer.
1. Regresi (Regression)
Regresi berkaitan dengan pemodelan hubungan antar variabel, dan secara iteratif disempurnakan menggunakan ukuran kesalahan prediksi model. Metode regresi adalah pekerjaan statistik yang telah dimasukkan ke dalam machine learning statistik. Ini bisa membingungkan karena kita bisa menggunakan regresi untuk merujuk pada semua jenis masalah dan semua jenis algoritma. Regresi sebenarnya adalah sebuah proses.
Dalam pemasaran, analisis regresi dapat diterapkan pada berbagai aspek. Misalnya, melalui analisis regresi penjualan kuartal saat ini, meramalkan tren penjualan kuartal berikutnya dan membuat perubahan pemasaran yang ditargetkan.
Beberapa contoh algoritma adalah:
- Ordinary Least Squares – Kuadrat Terkecil Biasa
- Logistic Regression – Regresi Logistik
- Stepwise Regression – Regresi bertahap
- Multivariate Adaptive Regression Splines (MARS)
- Locally Estimated Scatterplot Smoothing (LOESS)
2. Instance-Based Approach
Model pembelajaran berbasis instance menggunakan data pelatihan yang penting bagi model. Metode ini biasanya menggunakan database berdasarkan data contoh. Menggunakan data baru dan data database untuk menemukan kecocokan terbaik dengan cara kesamaan untuk membuat prediksi. Untuk alasan ini, metode berbasis contoh juga dikenal sebagai metode pemenang-ambil-semua dan pembelajaran berbasis memori. Penekanan ditempatkan pada kesamaan ukuran kinerja antara contoh penyimpanan.
- k-Nearest Neighbour (kNN)
- Learning Vector Quantization (LVQ)
- Self-Organizing Map (SOM)
3. Regularization Metode Regularisasi
Metode regularisasi merupakan perluasan dari algoritma lain (algoritma regresi). Algoritma tersebut disesuaikan dengan kompleksitas algoritma tersebut. Metode regularisasi biasanya menghargai model sederhana dan menghukum algoritma yang kompleks. Ekstensi berdasarkan metode regularisasi (biasanya berdasarkan metode regresi regresi) mungkin lebih kompleks, dan semakin sederhana metodenya, semakin mudah untuk digeneralisasi.Metode regularisasi yang tercantum di bawah ini adalah karena lebih populer, kuat, dan sederhana.
- Ridge Regression
- Least Absolute Shrinkage and Selection Operator (LASSO)
- Elastic Net
4. Decision – Pembelajaran Pohon Keputusan
Metode pohon keputusan adalah membangun model keputusan berdasarkan nilai atribut sebenarnya dari data. Keputusan menggunakan struktur pohon sampai keputusan yang diprediksi berdasarkan catatan yang diberikan diperoleh. Pohon keputusan dilatih pada kedua klasifikasi dan data regresi.
- Classification and Regression Tree (CART)
- Iterative Dichotomiser 3 (ID3)
- C4.5
- Chi-squared Automatic Interaction Detection (CHAID)
- Decision Stump
- Random Forest
- Multivariate Adaptive Regression Splines (MARS)
- Gradient Boosting Machines (GBM)
5. Bayesian – Algoritma Machine Learning
Pendekatan Bayesian adalah dengan secara eksplisit menggunakan teorema Bayes untuk klasifikasi dan regresi:
- Naive Bayes
- Averaged One-Dependence Estimators (AODE)
- Bayesian Belief Network (BBN)
6. Kernel Methods – Metode Kernel Algoritma Machine Learning
Metode Kernel Metode mesin vektor pendukung yang paling terkenal. Metode Kernel lebih memperhatikan pemetaan data ke vektor ruang dimensi tinggi, di mana beberapa masalah klasifikasi atau regresi dapat dimodelkan.
- Support Vector Machines (SVM)
- Radial Basis Function (RBF)
- Linear Discriminate Analysis (LDA)
7. Clustering – Metode Pengelompokan
Clustering Metode Pengelompokan, mirip dengan regresi. Termasuk dalam kategori deskripsi masalah dan metode Metode clustering sering dimodelkan dalam sistem seperti berbasis centroid dan organisasi hirarkis. Semua metode adalah tentang menggunakan struktur yang melekat pada data sehingga data dapat diatur dengan lebih baik ke dalam pengelompokan dengan kesamaan terbesar.
Clustering mirip dengan klasifikasi, tetapi tidak seperti klasifikasi. Tujuannya adalah untuk membagi sekumpulan data ke dalam kategori berdasarkan persamaan dan perbedaan data. Kesamaan antara data yang termasuk dalam kategori yang sama besar, tetapi kesamaan data antara kategori yang berbeda kecil, dan korelasi data lintas kategori sangat rendah.
- k-Means
- Expectation Maximisation (EM)
8. Association Rule Learning – Pembelajaran aturan asosiasi
Aturan asosiasi dipelajari dengan mengekstraksi aturan-aturan yang menjelaskan hubungan data antara variabel yang diamati. Aturan-aturan ini dapat digunakan dalam kubus besar untuk menemukan asosiasi penting dan berguna secara komersial untuk sebuah organisasi atau perusahaan.
Proses penambangan aturan asosiasi terutama mencakup dua tahap:
- Tahap pertama adalah menemukan semua grup item frekuensi tinggi dari data asli yang masif.
- Kedua adalah menghasilkan aturan asosiasi dari grup item frekuensi tinggi ini.
Teknologi penambangan aturan asosiasi telah banyak digunakan di perusahaan industri keuangan untuk memprediksi kebutuhan pelanggan. Bank meningkatkan pemasaran mereka sendiri dengan menggabungkan informasi yang mungkin diminati pelanggan di mesin ATM mereka agar pengguna dapat memahami dan memperoleh informasi yang relevan.
- Apriori
- Eclat
9. Jaringan Saraf Tiruan
Model jaringan saraf tiruan terinspirasi oleh struktur dan fungsi jaringan saraf biologis. Mereka adalah kelas pencocokan pola yang biasa digunakan dalam masalah regresi dan klasifikasi.
Sebagai teknologi kecerdasan buatan yang canggih, jaringan syaraf tiruan sangat cocok untuk menangani masalah nonlinier dan pemrosesan yang ditandai dengan pengetahuan atau data yang kabur. Tidak lengkap dan tidak tepat karena karakteristiknya sendiri seperti pemrosesan sendiri, penyimpanan terdistribusi, dan toleransi kesalahan yang tinggi.
Sangat cocok untuk memecahkan masalah data mining. Model jaringan saraf tipikal terutama dibagi menjadi tiga kategori:
- Tipe pertama adalah model jaringan saraf maju yang digunakan untuk prediksi klasifikasi dan pengenalan pola, yang terutama diwakili oleh jaringan fungsional dan perceptron.
- Tipe kedua digunakan untuk asosiasi. untuk memori dan algoritma optimasi, diwakili oleh model diskrit dan kontinu Hopfield.
- Kategori ketiga adalah metode pemetaan self-organizing untuk pengelompokan, yang diwakili oleh model ART. Meskipun ada banyak model dan algoritme untuk jaringan saraf, tidak ada aturan terpadu untuk model dan algoritme mana yang digunakan dalam penambangan data di bidang tertentu, dan sulit bagi orang untuk memahami proses pembelajaran dan pengambilan keputusan jaringan.
Karena ada ratusan Algoritma Machine Learning percabangan untuk berbagai jenis masalah. Beberapa metode populer klasik:
- Perceptron
- Back-Propagation
- Hopfield Network(Hopfield)
- Self-Organizing Map (SOM)
- Learning Vector Quantization (LVQ)
10. Deep Learning – Pembelajaran Mendalam
Metode pembelajaran mendalam adalah versi yang ditingkatkan dari metode jaringan saraf tiruan modern. Memanfaatkan komputasi yang melimpah dan murah untuk membangun jaringan saraf yang lebih besar dan lebih kompleks. Banyak di antaranya melibatkan pembelajaran semi-diawasi (data besar berisi data yang jarang diberi label.
- Restricted Boltzmann Machine (RBM)
- Deep Belief Networks (DBN)
- Convolutional Network
- Stacked Auto-encoders
11. Dimensionality Reduction – Metode pengurangan dimensi
Mirip dengan metode pengelompokan, pengurangan dimensi mencari dan mengeksploitasi struktur yang melekat pada data, tetapi dalam kasus ini, menggunakan cara yang tidak diawasi hanya dapat meringkas atau menggambarkan data dengan lebih sedikit informasi. Hal ini berguna untuk digunakan dengan cara yang diawasi untuk membuat visualisasi data 3D atau untuk menyederhanakan data.
- Principal Component Analysis (PCA)
- Partial Least Squares Regression (PLS)
- Sammon Mapping
- Multidimensional Scaling (MDS)
- Projection Pursuit
12. Ensemble – Metode integrasi ensemble Algoritma Machine Learning
Pendekatan ensemble terdiri dari beberapa model lemah yang dilatih secara independen yang digabungkan dalam beberapa cara untuk membuat prediksi keseluruhan. Banyak upaya perlu dilakukan untuk mempelajari apa itu tipe lemah dan bagaimana mereka digabungkan. Ini adalah kategori teknologi yang sangat kuat dan populer:
- Boosting
- Bootstrapped Aggregation (Bagging)
- AdaBoost
- Stacked Generalization (blending)
- Gradient Boosting Machines (GBM)
- Random Forest
Underdog berwarna abu-abu dan perkiraan gabungan berwarna merah. Secara khusus, data suhu / ozon ditampilkan.