Dalam beberapa tahun terakhir, bidang pengenalan dan pencarian gambar menggunakan teknologi Computer Vision telah sangat berkembang. Banyak perusahaan baru telah muncul di kemudian hari, dan perusahaan besar juga telah menghabiskan banyak upaya di bidang ini.
Melakukan pencarian visual sebenarnya adalah salah satu topik penelitian terpenting di bidang pembelajaran mendalam atau kecerdasan buatan. Teknologi ini memiliki cakupan aplikasi yang sangat luas dalam kehidupan nyata.
Biasanya, pencarian visual melibatkan tugas dua langkah: pertama, deteksi dan lokalisasi objek yang akan dicari. Kedua, mencari objek dari perpustakaan grafik pengetahuan, perpustakaan gambar, perpustakaan informasi atau menanyakan hal-hal terkait tempat kejadian.
Misalnya, dari pencarian gambar sederhana, pengenalan plat nomor, pengenalan wajah, pengenalan tanaman atau hewan peliharaan, pelacakan tubuh atau kendaraan, mengemudi drone secara otonom, kendaraan tak berawak, robot cerdas, dan bidang lainnya.
Semuanya tidak dapat dipisahkan dari komputer Teknologi pencarian visual yang juga merupakan arti penting dari kode deteksi objek berbasis TensorFlow open source Google.
Selain algoritme deteksi R-CNN, R-FCN dan SSD Lebih Cepat yang telah diterapkan Google dalam versi open source ini masih banyak algoritme deteksi lain. Seperti, selain SSD, algoritme deteksi ujung ke ujung lainnya. YOLO (You Only Look Once), akurasinya mungkin sedikit lebih rendah dari Faster R-CNN (tidak mutlak, data dan desain jaringan yang berbeda akan menyebabkan perbedaan), tetapi kecepatan pendeteksiannya lebih cepat.
Tindak lanjut YOLO 9000 (versi upgrade YOLO), dalam sebuah artikel menyebutkan bahwa ia dapat mendeteksi dan mengenali objek lebih dari 9000 kategori dan deteksi lebih cepat dan lebih akurat.
Komputer dapat mengenali gambar lebih cepat dan lebih akurat daripada sebelumnya, tetapi mereka membutuhkan banyak data. Jadi ImageNet dan Pascal VOC telah membangun kumpulan data besar dan gratis yang berisi jutaan gambar selama bertahun-tahun. Melabeli gambar dengan kata kunci yang menjelaskan konten gambar, termasuk kucing, gunung, pizza, dan aktivitas olahraga. Kumpulan data open source ini adalah dasar untuk pengenalan gambar menggunakan pembelajaran mesin.
ImageNet Tantangan Pengenalan Gambar Tahunan Seperti yang kita ketahui, ImageNet diluncurkan pada tahun 2009 oleh ilmuwan komputer di Universitas Stanford dan Universitas Princeton. Saat itu, ada 80.000 gambar berlabel. Hari ini, data ini meningkat menjadi 1,4 juta yang dapat digunakan di setiap saat digunakan untuk pelatihan mesin.
Pascal VOC didukung oleh beberapa universitas di Inggris yang memiliki jumlah gambar yang lebih sedikit tetapi penjelasan per gambar yang lebih kaya. Ini meningkatkan akurasi dan cakupan pembelajaran mesin, mempercepat seluruh proses karena dapat menghilangkan beberapa subtugas berat.
Saat ini, raksasa teknologi seperti Google, Facebook, perusahaan rintisan, universitas menggunakan koleksi gambar sumber terbuka ini untuk memberi pembelajaran mesin mereka. Tetapi raksasa teknologi juga menikmati keuntungan lain, Google dan Facebook dapat memperoleh data dari jejaring sosial Foto Google. Jutaan gambar yang diberi tag pengguna.
Pernahkah Anda bertanya-tanya mengapa Google dan Facebook mengizinkan Anda mengunggah begitu banyak gambar secara gratis? Pasalnya, gambar-gambar tersebut dapat melatih jaringan deep learning mereka agar lebih akurat.