Belajar Computer Vision Untuk Pemula Dengan Mudah

Saat anda ingin belajar computer vision, tentunya tidak terlepas dari kecerdasan buatan, machine learning, deep learning yang telah menjadi era baru teknologi. Artikel Labkom99 ini akan memperkenalkan poin-poin penting ingin belajar computer vision.

Labkom99 merangkum 5 poin penting dalam memulai belajar computer vision. Ke 5 poin penting tersebut harus menjadi acuan dasar dalam belajar belajar computer vision. Berikut 5 poin penting dasar belajar computer vision yang harus diperhatikan.

Jika Anda ingin memulai belajar computer vision, pengetahuan dasar apa yang perlu Anda ketahui?
Karena Anda ingin belajar computer vision, apa saja buku referensi yang perlu Anda ketahui ? dan kursus apa saja yang bisa Anda pelajari?
Computer vision mungkin menarik bagi semua orang karena sebagai cabang dari kecerdasan buatan. Computer vision pasti dipadukan dengan deep learning. Deep learning juga dapat dikatakan diintegrasikan ke dalam computer vision dan image processing. Termasuk tentang natural language processing (NLP). Maka artikel ini juga akan memperkenalkan secara singkat kombinasi computer vision dan deep learning.
Di bidang komputer, kita pasti akan melakukan pekerjaan open source. Jadi artikel ini akan memperkenalkan Anda pada beberapa perangkat lunak open source.
Dalam belajar computer vision anda harus membaca beberapa literatur. Lalu bagaimana anda mulai membaca literatur dan perlahan menemukan arah anda sendiri di bidang computer vision.

Setelah poin penting belajar computer vision anda ketahui, mari kita jabarkan satu persatu dari 5 poin diatas.

Daftar Isi hide

Pengetahuan Dasar Computer Vision

Apa Itu Computer Vision

Contoh Aplikasi Computer Vision

Konsep Computer Vision Gambar Dan Video Yang Perlu Anda Ketahui

Kamera

CPU Dan GPU

Hubungan Antara Computer Vision Dan Disiplin Ilmu Lainnya

Buku Referensi Dan Open Course

Deep Learning Yang Perlu Anda Ketahui

Perangkat Lunak Open Source Yang Perlu Dipahami Dan Dipelajari

Pengetahuan Dasar Computer Vision

Hal berikutnya yang ingin Labkom99 perkenalkan adalah poin pertama tentang arti computer vision. Kedua adalah beberapa pengetahuan dasar tentang gambar dan video. Termasuk hardware kameranya serta kalkulasi CPU dan GPU.

Dalam computer vision, kita pasti akan melibatkan pertimbangan apakah akan menggunakan CPU atau GPU untuk komputasi. Kemudian ada interseksi dengan disiplin ilmu lain. Karena computer vision bisa bersinggungan dengan banyak disiplin ilmu.

Ketika melakukan interdisipliner maka makna dan nilai guna yang bisa dimainkannya akan semakin besar. Selain itu, bagi mereka yang sebelumnya tidak belajar kecerdasan buatan, mereka mungkin melakukan pengembangan perangkat lunak dengan mengubah ke computer vision.

Bagaimana cara mengubahnya? Bahasa pemrograman dan dasar matematika apa yang perlu dipelajari? Labkom99 akan diperkenalkan kepada Anda di bagian pertama.

Apa Itu Computer Vision

Computer vision adalah ilmu yang mempelajari bagaimana membuat mesin melihat. Selanjutnya sarana tersebut diganti dengan kamera dan komputer pengenalan sasaran mata manusia, pelacakan dan pengukuran penglihatan mesin. Baca juga Pengenalan Tentang Penelitian Computer Vision Penerapan dan Pengembangan.

Kemudian melakukan pengolahan grafis, pengolahan komputer menjadi lebih sesuai dengan mata manusia. Suatu gambar dikirimkan ke detektor secara bersama – sama sebagai Disiplin ilmu teori dan teknologi penelitian computer vision. Penglihatan untuk membangun sistem kecerdasan buatan yang dapat memperoleh informasi dari gambar atau data multi-dimensi.

Saat ini, VR (virtual reality), AR (augmented reality), pemrosesan 3D dan arah lainnya yang sangat populer adalah bagian dari computer vision.

Contoh Aplikasi Computer Vision

Auto Pilot

Face ID

Pengenalan plat nomor kendaraan

Image Serch

VR / AR

3D Model

Analisis citra medis

Drone

Setelah memahami apa itu computer vision, Labkom99 akan memberi Anda daftar beberapa aplikasi terkini di bidang computer vision,yang dapat dikatakan ada di mana-mana.

Hal ini termasuk mengemudi tanpa awak, keamanan tanpa awak, dan pengenalan wajah yang sering disebutkan. Pengenalan wajah relatif merupakan bidang aplikasi yang paling matang. Kemudian ada pengenalan teks, pengenalan pelat nomor kendaraan. Serta pencarian gambar, VR / AR, dan rekonstruksi 3D dan bidang analisis gambar medis yang menjanjikan saat ini.

Analisis citra medis diusulkan sangat awal dan telah dipelajari untuk waktu yang lama. Tetapi sekarang telah dikembangkan kembali. Peneliti di bidang medis lebih memperhatikan analisis computer vision, kecerdasan buatan dan gambar medis.

Analisis citra medis juga telah memupuk banyak startup dan prospek masa depan ke arah ini masih layak untuk dinantikan. Selain itu, ada juga drone, unmanned driving yang semuanya diterapkan pada teknologi computer vision.

Konsep Computer Vision Gambar Dan Video Yang Perlu Anda Ketahui

Gambar

gambar meliputi: dimensi, tinggi, lebar, kedalaman, jumlah saluran, format warna, alamat data pertama, alamat akhir, jumlah data dan sebagainya.

Kedalaman gambar : jumlah bit yang digunakan untuk menyimpan setiap piksel (bit)

Ketika sebuah piksel menempati lebih banyak bit, ia dapat mengekspresikan lebih banyak warna dan lebih kaya.

Berbicara Tentang Penelitian Computer Vision Penerapan Dan Pengembangan — Belajar Computer Vision

Contoh: gambar 400 * 400 8-bit, berapa volume data asli gambar ini? Jika nilai piksel adalah bilangan bulat, berapa kisaran nilainya?

1. Perhitungan jumlah data mentah: 400 * 400 * (8/8) = 160.000 Bit (kurang lebih 160K)

2. Rentang nilai: 2 pangkat 8, 0 ~ 255

Format dan kompresi gambar: format gambar umum JPEG, PNG, BMP. Pada dasarnya adalah metode pengkodean kompresi untuk gambar

Contoh: kompresi JPEG

1. Gambar asli dibagi menjadi 8 * 8 blok kecil, setiap blok memiliki 64 piksel.

2. Lakukan transformasi DCT pada setiap blok 8 * 8 pada citra (semakin kompleks citra, semakin kecil kemungkinannya untuk dikompresi)

3. Setelah citra yang berbeda disegmentasi, kompleksitas tiap blok kecil berbeda. Sehingga hasil akhir Hasil kompresinya juga berbeda

Video

Original video = urutan gambar.

Setiap gambar yang dipesan dalam video disebut “Frame“. Setelah video terkompresi, berbagai algoritma akan diadopsi untuk mengurangi kapasitas data yang mana IPB paling banyak digunakan.

Frame I : mewakili bingkai kunci yang dapat dipahami sebagai pelestarian lengkap gambar. Hanya data dari Frame ini yang diperlukan untuk decoding (karena berisi gambar lengkap)

Frame P : Ini mewakili perbedaan antara bingkai ini dan bingkai kunci sebelumnya (atau bingkai P). Saat mendekode, perbedaan yang ditentukan oleh bingkai ini perlu ditumpangkan pada gambar yang disangga sebelumnya untuk menghasilkan gambar akhir. (Artinya, perbedaan frame, frame P tidak memiliki data gambar yang lengkap, hanya data yang berbeda dari gambar frame sebelumnya)

Frame B merepresentasikan frame B dua arah. Perbedaan antara frame yang direkam dengan frame sebelumnya dan frame berikutnya (spesifikasinya lebih rumit, ada 4 kasus). Dengan kata lain, untuk memecahkan kode frame B tidak hanya frame sebelumnya. Gambar yang disimpan dalam cache harus diperoleh, tetapi gambar setelah decoding harus. Gambar akhir diperoleh dengan melapiskan gambar depan dan belakang serta data bingkai ini. Frame B memiliki tingkat kompresi yang tinggi, tetapi decoding-nya lebih merepotkan.

Code Rate : Semakin besar tingkat kode , semakin besar volumenya. Semakin kecil tingkat kode, semakin kecil volumenya.

Code rate adalah jumlah bit data yang dikirimkan per satuan waktu selama transmisi data. Umumnya satuan yang kita gunakan adalah kbps, yaitu kilobit per detik. Artinya, sampling rate (tidak setara dengan sampling rate, satuan sampling rate adalah Hz, yang berarti jumlah sampel per detik). Semakin besar sampling rate per satuan waktu, semakin tinggi akurasinya, dan semakin dekat file yang diproses adalah file asli. Tetapi volume file berbanding lurus dengan laju pengambilan sampel. Jadi hampir semua format pengkodean memperhatikan cara menggunakan laju bit terendah untuk mencapai distorsi terkecil. Di sekitar inti ini, cbr (tetap Kecepatan bit) dan vbr (kode variabel) adalah Tingkat turunan), semakin tinggi kecepatan bit, semakin jelas kecepatan bitnya. Jika tidak gambarnya kasar dan lebih banyak mozaik.

Frame Rate memengaruhi kehalusan gambar dan berbanding lurus dengan kehalusan gambar. Semakin besar Frame Rate, semakin halus gambarnya. Semakin rendah Frame Rate, gambar semakin pecah. Jika kecepatan bit bervariasi, Frame Rate

juga akan mempengaruhi volume. Semakin tinggi Frame Rate, semakin banyak gambar yang lewat per detik, semakin tinggi kecepatan bit yang diperlukan dan semakin besar volumenya.

Frame Rate adalah jumlah bingkai gambar yang dikirim dalam satu detik, dan juga dapat dipahami sebagai berapa kali prosesor grafis disegarkan per detik.

Resolusi Mempengaruhi ukuran gambar yang sebanding dengan ukuran gambar. Semakin tinggi resolusinya, semakin besar gambarnya. Semakin rendah resolusinya, semakin kecil gambarnya.

Ketajaman Dalam keadaan tertentu bit rate, resolusi dan ketajaman berbanding terbalik. Semakin tinggi resolusinya, gambar tidak jelas. Semakin rendah resolusinya, gambar lebih jelas.

Dalam keadaan tertentu resolusi, bit rate dan resolusi Hubungan proporsional. Semakin tinggi bit rate, semakin jelas gambarnya. Semakin rendah bit rate-nya, semakin kurang jelas gambarnya

Bandwidth Dan Frame Rate

Misalnya, ketika gambar ditransmisikan pada jalur ADSL. Bandwidth upstream hanya 512Kbps, tetapi 4 saluran gambar beresolusi CIF harus ditransmisikan. Menurut konvensi, kecepatan bit yang disarankan untuk resolusi CIF adalah 512 Kbps. Jadi hanya dapat dikirim satu cara menurut perhitungan ini. Menurunkan kecepatan bit pasti akan mempengaruhi kualitas gambar.

Jadi untuk memastikan kualitas gambar, frame rate harus diturunkan. Dengan cara ini, meskipun bit rate dikurangi kualitas gambar tidak akan terpengaruh. Tetapi akan berdampak pada kontinuitas gambar.

Kamera

Klasifikasi kamera:

Kamera pengintai (kamera jaringan dan kamera sentuh)

Kamera yang dibutuhkan oleh industri yang berbeda (kamera dinamis ultra lebar, kamera inframerah, kamera pencitraan termal)

Kamera pintar

Kamera industri

Perangkat keras kamera saat ini dapat dibagi menjadi kamera pengintai, kamera untuk aplikasi industri profesional, kamera pintar dan kamera industri. Di antara kamera pengintai, ada dua jenis yang saat ini lebih sering digunakan. Pertama disebut kamera jaringan dan yang kedua disebut kamera analog. Pada dasarnya memiliki prinsip pencitraan yang berbeda.

Definisi kamera jaringan umumnya lebih tinggi daripada kamera analog tradisional. Kamera analog saat ini sedang dalam keadaan ditiadakan. Hal ini dapat dipahami sebagai kamera pengintai generasi sebelumnya dan kamera jaringan saat ini merupakan kamera utama.

Kamera dalam sekitar 13 tahun mungkin 70% hingga 80% pasar adalah kamera analog, tetapi sekarang mungkin 60% hingga 70% adalah kamera jaringan.

Selain itu, industri yang berbeda akan memiliki kamera khusus. Seperti kamera dinamis ultra lebar, kamera inframerah dan kamera pencitraan termal. Semuanya dapat digunakan dalam bidang khusus gambar.

Jika Anda menggunakan image processing dan analisis computer vision, kamera jenis apa yang lebih bermanfaat bagi Anda? Jika Anda melakukan riset, Anda biasanya menggunakan kamera inframerah. Tetapi jika dalam skenario aplikasi real-time, kemungkinan kontrol ini akan sedikit lebih kecil dan lebih baik menggunakan kamera pencitraan termal.

Masih ada beberapa masalah yang mungkin tidak dapat Anda selesaikan setelah menggunakan algoritme dalam waktu lama. Bahkan efisiensi akan sangat rendah dan biayanya sangat tinggi. Namun, jika Anda mengganti perangkat keras yang sesuai, Masalah akan hilang dan semuanya terpecahkan dengan baik.

Termasuk sekarang ada kamera pintar dan kamera industri. Kamera industri umumnya lebih mahal karena dikhususkan untuk berbagai bidang industry. Biasanya digunakan untuk instrumen presisi, kamera presisi tinggi dan kamera definisi tinggi.

CPU Dan GPU

Selanjutnya akan membahas tentang CPU dan GPU. Jika Anda ingin melakukan computer vision dan image processing, Anda tidak boleh melewatkan komputasi GPU. Komputasi GPU juga bisa menjadi poin pengetahuan yang perlu Anda pelajari.

Karena dapat dilihat bahwa sebagian besar jurnal saat ini tentang computer vision, banyak di antaranya diimplementasikan dengan GPU. Terutama di bidang aplikasi, karena harga GPU relatif mahal, skenario aplikasi CPU masih menjadi mayoritas.

Apa perbedaan utama antara CPU dan GPU? Perbedaan di antara antara CPU dan GPU terutama dapat dibandingkan dalam dua aspek. Pertama disebut Performance dan yang kedua disebut throughput.

Performance, dengan kata lain kinerja akan digantikan oleh kata lain yang disebut Latency (latency rendah). Latensi rendah berarti ketika kinerja Anda lebih baik. Efisiensi analisis pemrosesan Anda lebih tinggi yang setara dengan semakin rendah latensi Anda. Inilah kinerja. Yang lainnya disebut throughput, yang berarti jumlah data yang dapat Anda proses pada waktu yang sama.

Dan apa perbedaan antara CPU dan GPU? Alasan utamanya terletak di dua tempat ini. CPU berkinerja tinggi, yaitu latensi sangat rendah. CPU dapat dengan cepat melakukan penghitungan yang rumit dan dapat mencapai persyaratan kinerja yang baik.

GPU didasarkan pada format yang disebut unit aritmatika. Jadi keunggulannya bukanlah latensi rendah. Karena sangat tidak pandai melakukan kalkulasi yang kompleks. Masing-masing prosesornya sangat kecil dan relatif lemah.

Tetapi dapat membiarkan semua prosesor lemahnya melakukannya memproses pada waktu yang sama yang setara dengan memproses data dalam jumlah besar pada saat bersamaan. Dengan demikian berarti throughputnya sangat besar. Sehingga CPU berfokus pada kinerja, dan GPU berfokus pada Throughput.

GPU akan dikaitkan dengan istilah lain yang disebut komputasi paralel yang berarti dapat melakukan banyak utas pada saat yang bersamaan. Mengapa gambar sangat cocok untuk komputasi GPU? Ini karena GPU pada awalnya dirancang sebagai unit pemrosesan grafis. Dapat membagi setiap piksel menjadi utas untuk melakukan operasi. Setiap piksel hanya melakukan beberapa operasi sederhana.

Saat melakukan rendering grafis, GPU perlu menghitung transformasi setiap piksel. Oleh karena itu, jumlah kalkulasi dari setiap transformasi piksel sangat kecil. Mungkin merupakan kalkulasi rumus dan jumlah kalkulasi yang sangat kecil. Dapat ditempatkan dalam unit kalkulasi sederhana untuk kalkulasi. Maka inilah selisih perbedaan antara CPU dan GPU.

Berdasarkan perbedaan ini, Labkom99 akan mendesain kapan menggunakan CPU dan kapan menggunakan GPU. Jika algoritme yang Anda rancang saat ini tidak terlalu paralel, ini merupakan kalkulasi yang rumit dari atas ke bawah dan tidak ada banyak kompatibilitas. Maka meskipun Anda menggunakan GPU, itu tidak akan banyak membantu Anda. Bagus untuk meningkatkan kinerja komputasi .

Jadi jangan katakan bahwa semua orang menggunakan GPU, maka Anda harus menggunakan GPU. Yang perlu kita pahami adalah mengapa GPU digunakan dan dalam keadaan apa, GPU dapat digunakan untuk mencapai efek terbaik.

Hubungan Antara Computer Vision Dan Disiplin Ilmu Lainnya

Computer vision saat ini sangat terkait dengan disiplin ilmu lain. Termasuk robotika, serta pemrosesan perawatan medis, fisika, pencitraan dan citra satelit yang baru saja disebutkan. Ini sering digunakan dalam computer vision. Baca juga Hubungan Computer Vision Dan Image Processing Pattern Recognition Pembelajaran Mesin Dan Kecerdasan Buatan.

Di sini, pertanyaan yang paling sering diajukan adalah apa-apa lebih dari Ada tiga konsep. Satu disebut computer vision yang satu disebut visi mesin dan yang lainnya disebut image processing. Apa perbedaan antara ketiga hal ini?

Perbedaan antara ketiga hal ini sangat berbeda dari orang ke orang. Dan setiap peneliti memiliki pemahaman yang berbeda tentangnya.

Pertama-tama, Image Processing lebih merupakan pemrosesan grafik dan gambar. Beberapa pemrosesan level piksel gambar, termasuk pemrosesan 3D, akan lebih dipahami sebagai image processing. Sedangkan untuk machine vision lebih sering digabungkan dengan ketika itu datang ke pemrosesan di tingkat perangkat keras.

Hal ini adalah kemampuan komputasi grafis yang dikombinasikan dengan perangkat keras dan perangkat lunak. Kemampuan grafis untuk menjadi cerdas, umumnya kita memahaminya sebagai apa yang disebut visi mesin.

Computer vision yang kita bicarakan saat ini lebih cenderung ke pemrosesan komputer pada tingkat perangkat lunak. Tidak sesederhana pengenalan gambar. Hal ini juga mencakup pemahaman gambar dan bahkan beberapa pemrosesan transformasi gambar.

Oleh karena itu computer vision itu sendiri juga merupakan mata pelajaran yang sangat mendasaryang dapat bersinggungan dengan berbagai disiplin ilmu. Kedepan juga akan terbagi menjadi internal yang lebih detil diantaranya adalah machine vision dan image processing.

Buku Referensi Dan Open Course

Buku referensi

pertama berjudul “ Computer Vision: Model, Learning and Inference ” yang ditulis oleh pangeran Simon JD. Buku ini lebih cocok untuk entry level, karena buku ini mengandung banyak sekali kode, kode Matlab, kode C Ada banyak pembelajaran kode. Serta bahan referensi dan dokumen, yang semuanya sangat rinci, sehingga sangat cocok untuk dilihat oleh siswa tingkat pemula.

” Computer vision: Algoritma dan Aplikasi ” kedua yang ditulis oleh Richard Szeliski, ini adalah bahan referensi yang sangat klasik dan sangat berwibawa. Buku ini bukan untuk dibaca, ini untuk memeriksa, mirip dengan buku referensi. Ini adalah referensi yang paling luas buku. Sehingga secara umum dapat dibaca dan dikonsultasikan sebagai buku referensi.

Open Course

Stanford CS223B

lebih cocok untuk dasar-dasar dan cocok untuk siswa yang baru memulai. Secara relatif, kombinasi dengan pembelajaran yang dalam akan kurang. Ini tidak akan fokus pada pembelajaran yang mendalam di seluruh kursus, tetapi terutama fokus pada computer visoion,yang akan mencakup semua aspek.

Stanford CS231N

Tidak perlu diperkenalkan. Umumnya, banyak orang tahu bahwa ini adalah kursus yang menggabungkan computer vision dan deep learning. Kita dapat melihat di YouTube bahwa Anda bisa mengecek, jika Anda belajar computer vision, panduan ini bisa dikatakan sebagai yang “terdepan” di industri dan akademisi.

Deep Learning Yang Perlu Anda Ketahui

Tidak banyak yang bisa dibicarakan dalam deep learning. Apalagi isinya tidak banyak, di sini hanya satu buku yang direkomendasikan untuk semua orang. Buku ini diterbitkan akhir tahun lalu, ini yang terbaru Buku deep learning ini sangat lengkap. Mulai dari matematika dasar hingga poin pengetahuan tentang probabilitas, statistik, machine learning, kalkulus, dan geometri linier yang baru saja disebutkan.

Perangkat Lunak Open Source Yang Perlu Dipahami Dan Dipelajari

Baca artikel labkom99 sebelumnya Penjelasan Computer Vision Serta Teknologi Yang Digunakan

OpenCV

Adalah pustaka computer vision yang sangat klasik, yang menerapkan banyak algoritme computer vision umum. Dapat membantu semua orang memulai dengan cepat.

Caffe

Untuk penglihatan komputer, Caffe lebih disarankan. Caffe lebih baik dalam melakukan jaringan saraf konvolusional yang paling banyak digunakan dalam computer vision.

Jadi apa pun perangkat lunak sumber terbuka lain yang Anda pelajari nanti, Caffe tidak dapat dihindari. Karena setelah mempelajari Caffe Anda akan menemukan bahwa jika Anda memahami Caffe. Anda akan menggunakan Caffe dan bahkan memiliki kemampuan untuk mengubah kode sumbernya. Anda akan menemukan bahwa Anda memiliki lompatan kualitatif dalam memahami pembelajaran yang mendalam.

TensorFlow

TensorFlow sangat populer akhir-akhir ini, tetapi penghalang masuknya tidak rendah. Perlu lebih banyak waktu untuk mempelajari cara menggunakannya daripada semua perangkat lunak lain. Saat ini TensorFlow tidak terlalu matang dan stabil, jadi pembaruan iterasi antar versi Ada banyak. Kompatibilitasnya tidak baik dan masih banyak ruang untuk peningkatan efisiensi pengoperasian.

Bagaimana Membaca Literatur Terkait

Kenali proses pengembangan arahan Anda terlebih dahulu, lalu baca dokumen penting secara intensif dalam prosesnya.

Misalnya: deep learning untuk deteksi target, RCNN, Fast RCNN, Faster RCNN, SPPNET, SSD dan model YOLO harus diketahui. Untuk contoh lain, deep learning untuk pelacakan target, DLT, SO-DLT.

Computer Vision

ICCV: Konferensi Internasional Tentang Computer vision, Majelis Computer vision Internasional.

CVPR: Konferensi Internasional tentang Computer vision dan Pengenalan Pola, Computer vision Internasional dan Majelis Pengenalan Pola

ECCV: Konferensi Eropa tentang Computer vision, Seperti PAMI dan IJCV ini adalah jurnal teratas yang mewakili arah penelitian paling mutakhir di bidang ini.

Post Views: 388