Labkom99 dalam artikel ini akan membagikan 7 proyek pembelajaran mesin inovatif GitHub yang baru-baru ini dirilis. Proyek-proyek ini mencakup berbagai bidang pembelajaran mesin, termasuk pemrosesan bahasa alami (NLP), visi komputer (Computer Vision) , data besar (Big Data) dan lain-lain.
Proyek Pembelajaran Mesin Github Terpopuler
1. PyTorch-Transformers (NLP)
Kekuatan pemrosesan bahasa alami (NLP) sangat mengesankan. NLP telah mengubah cara pemrosesan teks hampir ke titik di mana teks tidak dapat dijelaskan dengan kata-kata.
Di antara rangkaian pustaka NLP paling canggih, PyTorch-Transformers muncul sebagai yang terbaru. Tetapi telah merusak semua tolok ukur yang ada dalam berbagai tugas NLP. Bagian yang paling menarik adalah mencakup implementasi PyTorch. Bobot model yang telah dilatih sebelumnya dan elemen penting lainnya yang dapat membantu pengguna memulai dengan cepat.
Menjalankan model paling canggih membutuhkan daya komputasi yang besar. PyTorch-Transformers memecahkan sebagian besar masalah ini. Sehingga dapat membantu orang-orang seperti itu membangun model NLP yang paling canggih.
2. NeuralClassifier (NLP) Proyek Pembelajaran Mesin Github
Di dunia nyata, klasifikasi multi-label dari data teks merupakan tantangan besar. Saat menghadapi masalah NLP di masa-masa awal, kita biasanya berurusan dengan tugas label tunggal. Tetapi dalam kehidupan nyata itu jauh dari sesederhana itu berbeda dalam dunia pemrograman.
Dalam masalah klasifikasi multi-label, instance atau record memiliki beberapa label dan jumlah label untuk setiap instance tidak diperbaiki.
NeuralClassifier memungkinkan mengimplementasikan model neural dengan cepat dalam tugas klasifikasi multi-layer dan multi-label. Menjadi favorit adalah NeuralClassifier, yang menyediakan berbagai encoder teks terkenal. Seperti FastText, RCNN, Transformer dan sebagainya.
Tugas klasifikasi berikut dapat dilakukan dengan NeuralClassifier:
- Klasifikasi teks lapis ganda
- Klasifikasi teks multi-layer
- Klasifikasi teks multi-label
- Klasifikasi teks multi-layer (multi-label)
3. TDEngine (Data Besar) Proyek Pembelajaran Mesin Github
Database TDEngine telah mengumpulkan hampir 10.000 bintang dalam waktu hampir kurang dari sebulan. Kita harus terus belajar tentang hal ini sehingga akan segera mengerti mengapa ini terjadi.
TDEngine adalah platform big data open source untuk:
- Internet of Things (IoT)
- Internet Kendaraan
- Industrial Internet of Things
- Infrastruktur TI
Pada dasarnya, TDEngine menyediakan satu set lengkap tugas yang terkait dengan rekayasa data. Pengguna dapat menyelesaikan semua tugas ini dengan sangat cepat. Kecepatan pemrosesan kueri akan ditingkatkan 10 kali lipat, dan tingkat penggunaan komputasi akan dikurangi menjadi 1/5.
Satu hal yang perlu diperhatikan saat ini-TDEngine hanya mendukung eksekusi di Linux. Database TDEngine berisi dokumentasi lengkap dan panduan pengantar yang berisi kode.
4. Penghapusan Objek Video (Computer Vision)
Apakah Anda pernah melihat data gambar? Visi komputer adalah teknologi yang sangat canggih untuk memanipulasi dan memproses gambar. Untuk menjadi ahli computer vision, deteksi objek gambar biasanya dianggap satu-satunya cara.
Bagaimana dengan video? Jika Anda ingin menggambar kotak pembatas untuk target di beberapa video, dengan teknologi ini anda bisa lakukan. Meskipun terlihat sederhana, tingkat kesulitan sebenarnya jauh lebih dari itu. Sifat dinamis target akan membuat tugas menjadi lebih rumit.
Jadi Penghapusan Objek Video sangat bagus, selama Anda menggambar kotak pembatas di sekitar objek dalam video, Anda dapat menghapusnya.
5. Pelengkapan Otomatis Python (Pemrograman)
Anda akan menyukai Python Autocomplete. Semua pekerjaan seorang data scientist adalah bereksperimen dengan berbagai algoritme. Python Autocomplete dapat menggunakan model LSTM sederhana untuk menulis kode Python secara otomatis.
Pada gambar di bawah ini, bagian yang berwarna abu-abu merupakan kode yang otomatis diisi oleh model LSTM hasilnya ada di bagian bawah gambar:
Pengembang menjelaskan:
Pertama, hapus komentar, string dan baris kosong dalam kode Python. Lalu lakukan pelatihan dan prediksi. Premis pelatihan model adalah untuk membuat token kode python, yang tampaknya lebih efektif daripada menggunakan pengkodean byte untuk memprediksi byte.
Jika Anda pernah menghabiskan dan menyia-nyiakan waktu menulis baris kode Python yang monoton, maka model ini mungkin persis seperti yang Anda cari. Namun, perkembangannya masih pada tahap yang sangat awal. Beberapa masalah pasti akan muncul dalam pengoperasiannya.
Baca Juga : 5 Perbedaan Antara Kode JSON Dan XML Yang Perlu Programmer Tahu
6. tfpyth-dari TensorFlow ke PyTorch ke TensorFlow (Pemrograman)
Baik TensorFlow dan PyTorch memiliki basis pengguna yang sangat besar, tetapi penggunaan yang terakhir ternyata sangat tinggi. Kemungkinan akan melampaui basis pengguna sebelumnya dalam satu atau dua tahun ke depan. Namun harap diperhatikan ini tidak akan mengenai Tensorflow, karena posisinya cukup stabil.
Jadi, jika Anda pernah menulis string kode di TensorFlow. Kemudian menulis string kode lain di PyTorch. Sekarang ingin menggabungkan keduanya untuk melatih model-maka framework tfpyth akan menjadi pilihan yang baik. Keuntungan terbesar dari Tfpyth adalah bahwa pengguna tidak perlu menulis ulang kode yang ditulis sebelumnya.
Proyek ini memberikan contoh yang tepat tentang penggunaan tfpyth, yang tidak diragukan lagi merupakan pemeriksaan ulang perdebatan antara TensorFlow dan PyTorch.
Menginstal tfpyth itu mudah:
pip instal tfpyth
7. MedicalNet
MedicalNet menyertakan proyek PyTorch yang mempraktikkan ide-ide dalam makalah “Med3D: Analisis Gambar Medis 3D dengan Pembelajaran Transfer“. Proyek pembelajaran mesin ini menggabungkan kumpulan data medis dengan berbagai modalitas, organ target dan patologi untuk membangun kumpulan data yang lebih besar.
Seperti yang kita semua tahu, model pembelajaran mendalam biasanya membutuhkan banyak data pelatihan. MedicalNet yang dirilis oleh TenCent adalah proyek open source yang sangat bagus, saya harap semua orang dapat mencobanya.