Sebagai bahasa yang ditafsirkan dalam Machine Learning, filosofi desain Python menekankan keterbacaan kode dan sintaksis ringkas (terutama penggunaan lekukan spasi putih untuk membatasi blok kode, daripada kurung kurawal atau kata kunci).
Python memungkinkan pengembang untuk mengekspresikan ide dengan kode lebih sedikit daripada C++ atau Java. Baik itu program kecil atau besar, bahasa mencoba membuat struktur program tidak ambigu.
Labkom99 memperkenalkan untuk Anda hari ini 12 jenis tolkit machine learning dan penambangan data Python.
1. PyBrain
PyBrain adalah modularisasi untuk Perpustakaan Python dan machine learning. Tujuannya adalah untuk tugas machine learning dan berbagai lingkungan yang telah ditentukan menyediakan algoritme yang fleksibel, mudah digunakan, dan kuat untuk menguji dan membandingkan algoritme Anda.
PyBrain berisi algoritma Jaringan Saraf dengan pembelajaran penguatan dan kombinasi keduanya untuk pembelajaran yang diawasi dan evolusi. Karena sebagian besar masalah saat ini melibatkan keadaan kontinu dan ruang aksi, fungsi aproksimator (seperti Jaringan Saraf) untuk menangani dimensi besar.
Perpustakaan kami dibangun di sekitar kernel Jaringan Saraf dibangun, dan semua metode pelatihan menerima Jaringan Saraf sebagai contoh untuk dilatih. Ini menjadikan PyBrain alat yang ampuh untuk tugas-tugas praktis.
Situs resmi: http://www.pybrain.org/
2. Theano
Theano adalah pustaka Python yang memungkinkan Anda untuk secara efisien mendefinisikan, mengoptimalkan dan mengevaluasi ekspresi matematika yang melibatkan array multidimensi.
Fitur Theano:
- Terintegrasi erat dengan NumPy – gunakan numpy.ndarray dalam fungsi yang dikompilasi Theano.
- Penggunaan GPU secara transparan – melakukan perhitungan intensif data lebih cepat daripada CPU.
- Perbedaan simbolis yang efektif – Theano menggunakan turunan Anda untuk fungsi dengan satu atau lebih input.
- Pengoptimalan kecepatan dan stabilitas – log(1+x) mendapatkan jawaban yang benar meskipun x sangat kecil.
- Pembuatan Kode C Dinamis – Evaluasi ekspresi lebih cepat.
- Pengujian unit ekstensif dan validasi diri – mendeteksi dan mendiagnosis banyak jenis kesalahan.
Situs resmi: http://deeplearning.net/software/theano/
3. Pylearn2
Pylearn2 berbasis di Theano machine learning Library, sebagian besar fungsinya diimplementasikan di atas Theano. Ini berarti bahwa pengguna dapat menggunakan ekspresi matematika untuk menulis plugin Pylearn2 (model baru, algoritme, dll.), dan Theano tidak hanya akan membantu pengguna mengoptimalkan ekspresi ini, tetapi juga mengompilasi ekspresi ini ke CPU atau GPU.
Situs resmi: http://scikit-learn.org/
4. Pyrallel
Pyrallel Analisis data paralel dengan Python untuk penelitian machine learning dan tugas analisis data semi-interaktif lainnya. Bisa juga untuk Komputasi Terdistribusi Proyek eksperimental mode.
5. PyMVPA
PyMVPA adalah paket Python yang dirancang untuk menyederhanakan analisis pembelajaran statistik dari kumpulan data besar. Ini menyediakan kerangka kerja yang dapat diperluas dengan antarmuka tingkat tinggi untuk klasifikasi, regresi, Pilihan fitur, berbagai algoritme seperti impor dan ekspor data.
Dirancang untuk terintegrasi dengan baik dengan paket terkait seperti scikit-learn, shogun, MDP, dll. Meskipun tidak terbatas pada bidang neuroimaging, ini sangat cocok untuk kumpulan data seperti ini. PyMVPA adalah perangkat lunak gratis, Anda hanya perlu menjalankan perangkat lunak.
Situs resmi: http://www.pymvpa.org/
6. Milk
Milk ada di Python machine learning Toolkit yang berfokus pada klasifikasi terawasi dengan beberapa pengklasifikasi seperti SVM (berdasarkan libsvm), k-NN, Random Forest, tree decision. Dan juga dapat melakukan pemilihan fitur. Pengklasifikasi ini dapat digabungkan dengan berbagai cara untuk membentuk sistem klasifikasi yang berbeda.
Situs resmi: http://www.luispedro.org/software/milk
7. Monte
Monte adalah kerangka kerja Python untuk membangun machine laerning berbasis gradien, seperti Jaringan Saraf, regresi logistik dan lain-lain. Monte berisi modul (berisi parameter, fungsi biaya, dan fungsi gradien dan panduan yang dapat menyesuaikan parameter modul dengan meminimalkan fungsi biayanya pada data pelatihan.
Modul biasanya terdiri dari modul lain yang pada gilirannya dapat berisi modul lain. Gradien dari sistem yang dapat didekomposisi seperti ini dapat dihitung dengan propagasi balik.
Situs resmi: http://montepython.sourceforge.net/
8. Python scikit-learn Machine Learning
scikit-learn adalah toolkit open source untuk bahasa pemrograman Python machine learning. Memiliki berbagai fitur klasifikasi, regresi, dan algoritma pengelompokan, termasuk mesin vektor dukungan, regresi logistik, naive Bayes,hutan acak, Gradient Boosting, k-means dan DBSCAN. Dirancang untuk beroperasi dengan pustaka numerik dan ilmiah Python NumPy dan SciPy.
Situs resmi: http://scikit-learn.org/stable/
9. Pandas
Pandas adalah perpustakaan open-source, berlisensi BSD yang menyediakan struktur data dan alat analisis data berkinerja tinggi dan mudah digunakan untuk bahasa pemrograman Python.
Situs resmi: http://pandas.pydata.org/
10. Python mlpy Machine Learning
mlpy adalah perpustakaan berdasarkan NumPy/SciPy dan Perpustakaan Ilmiah GNU machine learning dengan modul Python. mlpy menyediakan ekstensif state-of-the-art untuk pendekatan masalah yang diawasi dan tidak diawasi machine learning. Bertujuan untuk menemukan data yang masuk akal antara modularitas, rawatan, pengulangan, kegunaan, dan efisiensi.
mlpy adalah multiplatform dan bekerja dengan Python 2 dan 3. Ini adalah toolkit open source dan dirilis di bawah GNU General Public License versi 3.
Situs resmi: http://mlpy.sourceforge.net/
11. Python MDP Machine Learning
MDPadalah kerangka kerja pemrosesan data Python. Dari sudut pandang pengguna, MDP diawasi menggunakan algoritme dan unit pemrosesan data lainnya yang dapat digabungkan ke dalam urutan pemrosesan data dan arsitektur jaringan feed forward yang lebih kompleks.
Dari perspektif pengembang ilmiah, MDP adalah kerangka kerja modular yang dapat dengan mudah diperluas. Implementasi algoritma baru ini sederhana dan intuitif. Unit yang baru diimplementasikan kemudian akan secara otomatis berintegrasi dengan perpustakaan lainnya.
Basis algoritme yang tersedia terus berkembang, termasuk metode pemrosesan sinyal (analisis komponen utama, analisis komponen independen, analisis fitur lambat), metode pembelajaran manifold (penyematan linier lokal [Hessian]), beberapa pengklasifikasi, metode probabilistik (analisis faktor, RBM) metode pra-pemrosesan data, dll.
Situs resmi: http://mdp-toolkit.sourceforge.net/
12. PyML Python Machine Learning
PyML adalah program yang ditulis dengan Python machine learning dengan kerangka kerja berorientasi objek interaktif. PyML berfokus pada SVM dan metode kernel lainnya. Ini didukung di Linux dan Mac OS X.
Situs resmi: http://pyml.sourceforge.net/