Teknologi Pengenalan Gambar
Teknologi pengenalan citra merupakan produk dari kombinasi pengolahan citra digital dan teknologi pengenalan pola. Pengolahan citra digital adalah perilaku dasar menggunakan komputer atau peralatan digital lainnya untuk memproses dan memproses informasi citra untuk memenuhi kebutuhan pengenalan target.
Pengenalan pola mempelajari cara menggunakan mesin untuk mencapai kemampuan orang untuk mempelajari, mengenali dan menilai sesuatu. Sehingga merupakan perilaku penilaian untuk memenuhi pengenalan target.
Untuk mensimulasikan aktivitas pengenalan citra manusia, model pengenalan citra yang berbeda telah diusulkan. Misalnya, model pencocokan template. Model ini percaya bahwa untuk mengenali suatu objek dalam suatu gambar, harus ada pola memori dari pasangan gambar untuk objek di pengalaman masa lalu, disebut juga template. Jika stimulus saat ini dapat menandingi template di otak, objek akan diidentifikasi.
Proses dasar pengenalan gambar adalah mengekstrak ekspresi penting yang mewakili pola sampel yang tidak diketahui (seperti berbagai fitur) dan mencocokkannya dengan satu set ekspresi pola standar (disebut kamus) yang telah disimpan sebelumnya di mesin satu per satu dan menggunakan kriteria tertentu.
Untuk mendiskriminasi Dari kumpulan bentuk ekspresi pola standar yang disimpan oleh mesin. Temukan bentuk ekspresi yang paling dekat dengan subpola sampel input dan kategori yang sesuai dengan pola ekspresi adalah hasil pengenalan.
Oleh karena itu, teknologi pengenalan citra merupakan suatu proses yang dimulai dari sejumlah besar informasi dan data. Serta menggunakan metode penalaran komputer dan matematis untuk secara otomatis menyelesaikan proses identifikasi dan evaluasi objek dalam citra berdasarkan pengalaman dan pengetahuan yang ada.
Proses pengenalan citra meliputi empat langkah: akuisisi citra (analisis fitur), prapemrosesan citra, ekstraksi fitur dan pencocokan pola.
Pertama, informasi mentah dari gambar ditangkap oleh kamera definisi tinggi, pemindai, atau instrumen pengambilan gambar lainnya. Metode representasi fitur global tradisional, seperti warna, bentuk, tekstur, dan fitur lainnya, sederhana dan intuitif, tetapi mudah dipengaruhi oleh faktor-faktor seperti pencahayaan, pemotongan, rotasi, kebisingan, dll., dan saat ini hanya digunakan sebagai sarana bantu.
Peran pra-pemrosesan gambar dapat diringkas sebagai: menggunakan beberapa cara untuk menormalkan informasi gambar untuk memfasilitasi pemrosesan selanjutnya. Fungsi dari bagian ekstraksi fitur citra adalah untuk mengekstrak informasi fitur yang dapat mengkarakterisasi suatu objek dengan baik dan mengubahnya ke dalam bentuk vektor fitur atau matriks.
Pencocokan pola berarti bahwa sistem membandingkan fitur gambar yang akan diuji dengan informasi di perpustakaan fitur, dan mencapai tujuan pengenalan dengan memilih pengklasifikasi yang sesuai.
1. Prapemrosesan Gambar
Teknologi image preprocessing adalah serangkaian operasi yang dilakukan sebelum image diproses secara formal. Teknologi image preprocessing dibagi menjadi dua aspek utama, yaitu image enhancement dan teknologi image restorasi.
Teknologi peningkatan citra menempati sebagian besar dalam prapemrosesan citra dan merupakan langkah penting dalam prapemrosesan citra.Perbedaan antara teknologi ini dan teknologi restorasi citra adalah restorasi citra bertujuan untuk mengembalikan esensi asli citra.
Secara umum, ada dua metode untuk teknik peningkatan citra: metode domain spasial dan domain frekuensi. Aturan domain spasial terutama untuk langsung mengoperasikan gambar dalam domain spasial, yang dibagi menjadi dua aspek: operasi titik dan operasi lapangan (operasi lokal).
Diantaranya, operasi titik mencakup beberapa metode seperti transformasi citra keabuan, pemerataan histogram dan statistik lokal.
Operasi domain mencakup beberapa aspek seperti penghalusan gambar dan penajaman gambar. Aturan domain frekuensi hanya beroperasi pada nilai transformasi gambar dalam domain transformasi tertentu dari gambar.
Misalnya, kita melakukan transformasi Fourier pada gambar dan kemudian melakukan semacam perhitungan pada spektrum gambar di domain transformasi. Dan akhirnya secara terbalik mengubah gambar yang dihitung ke domain ruang.
Metode domain frekuensi biasanya dibagi menjadi penyaringan high dan low pass, frekuensi bandpass dan penyaringan bandstop. Teknologi restorasi citra adalah proses menggunakan pengetahuan awal citra untuk mengubah citra yang terdegradasi.
Teknologi restorasi citra mengharuskan kita untuk membuat model citra, kemudian membalikkan proses degradasi, dan akhirnya mendapatkan citra yang optimal sebelum degradasi.
2. Transformasi Pemrosesan Domain
Pemrosesan domain transformasi citra menggambarkan karakteristik citra dengan frekuensi spasial (bilangan gelombang) sebagai variabel independen dan dapat menguraikan perubahan spasial nilai elemen citra menjadi superposisi linier fungsi getaran sederhana dengan amplitudo, frekuensi spasial, dan fase yang berbeda.
Berbagai komponen frekuensi spasial dan distribusi pada citra disebut spektrum spasial. Jenis dekomposisi, pemrosesan, dan analisis fitur frekuensi spasial dari gambar ini disebut pemrosesan domain frekuensi spasial atau pemrosesan domain bilangan gelombang.
Di antara banyak teknik transformasi gambar, transformasi kosinus diskrit, transformasi Walsh, transformasi Fourier, transformasi Gabor dan transformasi wavelet yang umum digunakan.
Vektor basis dari matriks transformasi DCT transformasi cosinus diskrit sering dianggap sebagai transformasi terbaik untuk transformasi bahasa dan sinyal gambar karena mirip dengan vektor Tobeliz.
Meskipun sedikit lebih rendah daripada yang dengan kemampuan kompresi terbaik dalam hal efisiensi kompresi Transformasi KL. Tetapi jenis pemrosesan efisiensi tinggi tidak tertandingi oleh transformasi KL. Telah menjadi penghubung utama standar internasional seperti H.261, JPEG dan MPEG. Ini banyak digunakan dalam pengkodean gambar.
Transformasi Walsh adalah transformasi ortogonal, yang dapat menghilangkan korelasi titik sampling yang berdekatan. Sehingga energi sinyal terkonsentrasi di sudut kiri atas matriks transformasi, dan banyak nilai nol muncul di bagian lain. Atau di dalam rentang kesalahan yang diizinkan memungkinkan nilai-nilai kecil dihilangkan.
Sehingga mencapai tujuan kompresi data. Transformasi Walsh telah banyak digunakan di bidang transmisi gambar, radar, komunikasi dan biomedis.
Transformasi Fourier adalah transformasi ortogonal yang umum digunakan.Dasar teori matematika utamanya adalah deret Fourier yang diusulkan oleh matematikawan terkenal Fourier pada tahun 1822. Ide utamanya adalah memperluas fungsi periodik menjadi deret sinus. Usulan transformasi Fourier telah meletakkan dasar teoretis dari gambar.
Ini mengekstrak dan menganalisis fitur informasi gambar dengan mengalihkan gambar bolak-balik antara domain ruang-waktu dan domain frekuensi, yang menyederhanakan beban kerja komputasi dan diketahui sebagai bahasa kedua untuk mendeskripsikan informasi citra. Banyak digunakan dalam transformasi citra, pengkodean dan kompresi citra, segmentasi citra dan rekonstruksi citra.
Transformasi Gabor termasuk dalam transformasi Fourier berjendela yang merupakan kasus khusus dari transformasi Fourier waktu-pendek ketika fungsi jendela adalah fungsi Gaussian. Karena keterbatasan transformasi Fourier. Gabor mengusulkan transformasi Fourier berjendela pada tahun 1946.
Contoh khas dari metode transformasi Fourier berjendela adalah filter lolos-rendah. Fungsi Gabor dapat mengekstrak fitur yang relevan pada skala dan arah yang berbeda dalam domain frekuensi.
Transformasi Wavelet Terinspirasi oleh transformasi Fourier, Morlet mengusulkan konsep analisis wavelet pada tahun 1984. Pada tahun 1986, matematikawan terkenal Meyer dan Mallat bekerja sama untuk membangun metode terpadu fungsi gelombang gambar – analisis multi-skala. Saat ini, teori transformasi wavelet telah mencapai hasil yang sangat baik dalam penerapan denoising citra.
Denoising domain frekuensi terutama disebabkan oleh efek yang tidak memuaskan dari beberapa gambar dalam domain spasial, sehingga diperkirakan untuk dikonversi ke domain frekuensi untuk diproses. Yaitu, menggunakan satu set sistem fungsi ortogonal untuk mendekati fungsi target yang akan diproses. Sehingga untuk selanjutnya mendapatkan Koefisien deret yang sesuai.
Pemrosesan domain frekuensi terutama digunakan dalam pemrosesan yang terkait dengan frekuensi spasial citra. Seperti restorasi citra, rekonstruksi citra, transformasi radiasi, peningkatan tepi, penghalusan citra, penekanan noise, analisis spektrum, dan analisis tekstur.
3. Fitur Ekstraksi
Fitur Ekstraksi adalah konsep dalam Computer Vision dan pemrosesan gambar yang mengacu pada penggunaan komputer untuk mengekstrak informasi gambar dan menentukan apakah setiap titik gambar termasuk dalam fitur gambar.
Hasil ekstraksi ciri adalah membagi titik-titik pada citra menjadi himpunan bagian yang berbeda yang sering kali merupakan titik-titik terisolasi, kurva kontinu atau daerah kontinu.
(1) Pemilihan fitur
Jumlah fitur asli sangat besar, atau sampel asli berada dalam ruang dimensi tinggi, dan beberapa fitur paling efektif dipilih dari serangkaian fitur untuk mencapai tujuan pengurangan dimensi ruang fitur. Proses ini disebut seleksi fitur.
Artinya, fitur yang berkontribusi sedikit atau tidak sama sekali untuk pemisahan kelas diabaikan begitu saja. Pemilihan fitur adalah masalah utama dalam pengenalan gambar.
(2) Transformasi Fitur
Melalui metode pemetaan atau transformasi, pendeskripsian ciri pada ruang berdimensi tinggi dapat dideskripsikan oleh ciri pada ruang berdimensi rendah, dan proses ini disebut transformasi ciri.
Fitur yang diperoleh dengan transformasi fitur adalah kombinasi tertentu dari kumpulan fitur asli, dan fitur baru berisi informasi dari keseluruhan fitur asli. Analisis komponen utama adalah metode transformasi fitur yang paling umum digunakan.
Seleksi dan ekstraksi fitur sangat penting dan pemilihan fitur adalah masalah utama dalam pengenalan pola. Karena seringkali sulit untuk menemukan fitur yang paling penting dalam banyak masalah praktis atau tidak dapat diukur karena kondisi. Ini memperumit tugas pemilihan dan ekstraksi fitur dan menjadi salah satu tugas yang paling sulit dalam membangun sistem pengenalan pola.
Tugas dasar seleksi dan ekstraksi fitur adalah bagaimana menemukan fitur yang paling efektif dari banyak fitur. Untuk mengatasi masalah pemilihan fitur dan ekstraksi fitur, konten inti adalah bagaimana mengevaluasi fitur yang ada dan bagaimana menghasilkan fitur yang lebih baik melalui fitur yang ada.
Metode fitur ekstraksi dan deskripsi citra yang umum seperti fitur warna, fitur tekstur dan ekstraksi fitur bentuk geometris dan metode deskripsi.
Algoritma fitur ekstraksi:
Deteksi fitur gumpalan, algoritma representatif adalah: LOG atau Deteksi operator Gaussian Laplacian, DOH menggunakan matriks Hessian diferensial orde kedua dari titik gambar dan determinannya.
Deteksi fitur sudut, algoritme representatif termasuk deteksi sudut Harris, deteksi sudut Shi-Tomasi, deteksi sudut fast.
Deteksi fitur SIFT (Scale Invariant Feature Transformation) adalah algoritma pendeteksian fitur yang membuat zaman. Karena affine invariance yang sangat baik, invarians rotasi, dan toleransi yang tinggi terhadap cahaya, noise, dan perubahan sudut pandang, ini banyak digunakan di bidang pencarian dan pencocokan gambar, dan banyak algoritma yang ditingkatkan berdasarkan SIFT juga telah muncul di masa depan.
Deteksi fitur SURF (Accelerated Robust Feature) adalah varian efisien dari SIFT yang menyederhanakan algoritme ekstraksi fitur SIFT. Memiliki efisiensi komputasi yang lebih tinggi, dan pada dasarnya dapat mewujudkan pemrosesan waktu nyata.
Deteksi fitur ORB, terutama berdasarkan algoritma deteksi titik fitur FAST dan metode deskripsi fitur BRIEF telah melakukan beberapa optimasi dan peningkatan. Ini adalah pilihan yang baik selain SIFT dan SURF (keduanya dilindungi oleh paten).
Deteksi fitur KAZE/AKAZE (versi akselerasi KAZE) memiliki kinerja yang lebih baik dan kinerja yang lebih stabil daripada SIFT.
Selain itu, terdapat ekstraksi fitur dan deteksi berdasarkan algoritma seperti BRISK/SBRISK (Binary Robust Scale Invariant Key Points), FREAK (Fast Retina Key Points), dll.
4. Pengenalan Pola
Menurut ada tidaknya sampel standar, pengenalan pola dapat dibagi menjadi pembelajaran terawasi dan pembelajaran tak terawasi. Klasifikasi atau deskripsi pengenalan pola biasanya didasarkan pada seperangkat pola yang telah diklasifikasikan atau dijelaskan yang disebut set pelatihan dan strategi pembelajaran yang dihasilkan disebut pembelajaran terawasi.
Pembelajaran juga dapat menjadi pembelajaran tanpa pengawasan, di mana sistem yang dihasilkan tidak perlu memberikan pengetahuan sebelumnya tentang kelas pola. Tetapi belajar untuk menilai kategori pola berdasarkan keteraturan statistik pola atau kesamaan pola.
(1) Pengumpulan Data
Akuisisi data mengacu pada penggunaan berbagai sensor untuk mengubah berbagai informasi dari objek penelitian menjadi satu set nilai numerik atau simbol (string) yang dapat diterima oleh komputer. Merupakan kebiasaan untuk menyebut ruang yang terdiri dari nilai atau simbol (string) ruang pola. Kunci dari langkah ini adalah pemilihan sensor.
Tipe data yang diperoleh secara umum adalah sebagai berikut:
Parameter fisik dan nilai logika: deskripsi suhu tubuh, data laboratorium, dan apakah parameternya normal atau tidak.
Bentuk gelombang satu dimensi: EEG, EKG, bentuk gelombang getaran musiman, sinyal ucapan, dll.
Gambar 2D: teks, sidik jari, peta, foto, dll.
(2) Prapemrosesan
Untuk mengekstrak informasi yang efektif untuk identifikasi dari angka atau simbol (string), harus dilakukan preprocessing. Tujuannya adalah untuk menghilangkan noise pada input data atau informasi, mengecualikan sinyal yang tidak relevan dan hanya meninggalkan properti yang terkait dengan objek penelitian.
Fitur-fitur terkait erat dengan metode pengenalan yang digunakan (seperti mengkarakterisasi bentuk, keliling, luas, dll. dari suatu objek).
Misalnya, ketika pengenalan sidik jari dilakukan keluaran gambar sidik jari oleh perangkat pemindai sidik jari akan bervariasi menurut kontras, kecerahan atau latar belakang gambar, dan terkadang dapat berubah bentuk, dan orang hanya tertarik pada gambar tersebut.
Titik bifurkasi dan titik akhir di sidik jari tanpa bagian lain dan latar belakang sidik jari. Oleh karena itu, perlu menggunakan algoritma pemfilteran yang masuk akal. Seperti pemfilteran terarah dan pemfilteran biner berdasarkan kotak blok untuk menyaring bagian-bagian yang tidak perlu ini dalam citra sidik jari.
(3) Fitur Ekstraksi
Tukarkan data asli, temukan fitur yang paling efektif dari banyak fitur, dapatkan fitur yang paling mencerminkan esensi klasifikasi dan ubah ruang pengukuran dengan dimensi yang lebih tinggi (ruang yang terdiri dari data asli) menjadi ruang fitur dengan dimensi yang lebih rendah ( ruang di mana klasifikasi dan identifikasi dilakukan) untuk mengurangi kesulitan pemrosesan selanjutnya.
Fitur yang mudah diperoleh manusia sulit didapatkan oleh mesin. Inilah masalah pemilihan fitur dan ekstraksi dalam pengenalan pola. Seleksi dan ekstraksi fitur merupakan masalah utama dalam pengenalan pola.
Secara umum, semakin banyak jenis fitur kandidat semakin baik hasilnya. Namun, ini dapat menyebabkan bencana dimensi. Yaitu dimensi fitur terlalu tinggi dan komputer sulit untuk dipecahkan. Bagaimana menentukan ruang fitur yang tepat merupakan masalah yang sangat penting dalam merancang sistem pengenalan pola.
Ada dua pendekatan dasar untuk mengoptimalkan ruang fitur:
Yang pertama adalah pemilihan fitur. Jika ruang fitur yang dipilih dapat membuat distribusi objek serupa menjadi kompak, itu akan memberikan dasar yang baik untuk desain pengklasifikasi yang sukses.
Sebaliknya, jika sampel dari kategori yang berbeda dicampur bersama dalam ruang fitur maka Bahkan metode desain yang baik pun tidak dapat meningkatkan akurasi pengklasifikasi.
Yang kedua adalah optimasi kombinasi fitur yang mengubah ruang fitur asli melalui transformasi pemetaan untuk membangun ruang fitur baru yang disederhanakan.
(4) Keputusan Klasifikasi
Berdasarkan ruang fitur pola, bagian terakhir dari pengenalan pola dapat dibuat keputusan klasifikasi. Keluaran akhir dari tahap ini dapat berupa tipe objek yang dimiliki atau nomor pola yang paling mirip dengan objek dalam database model.
Diketahui kategori dan ciri-ciri beberapa sampel. Misalnya diskriminasi angka arab tulisan tangan, masalah klasifikasi dengan 10 kategori, mesin harus terlebih dahulu mengetahui ciri-ciri bentuk setiap angka tulisan tangan, untuk angka yang sama, orang yang berbeda memiliki cara yang berbeda.
Bahkan untuk menulisnya orang yang sama dapat menulis angka yang sama berkali-kali. Mesin tersebut harus diberi tahu termasuk dalam kategori mana. Oleh karena itu, perpustakaan sampel perlu dibuat untuk masalah klasifikasi.
Fungsi klasifikasi diskriminatif dibentuk berdasarkan perpustakaan sampel ini. Proses ini diwujudkan oleh mesin, yang disebut proses pembelajaran. Kemudian objek baru yang tidak diketahui dianalisis fitur-fiturnya untuk memutuskan kelas mana yang menjadi miliknya, yang merupakan metode klasifikasi terawasi.
Langkah-langkah spesifiknya adalah membentuk training set di feature space, mengetahui kategori setiap titik di training set, dimulai dari kondisi tersebut, mencari fungsi atau kriteria diskriminan tertentu, merancang model fungsi keputusan dan kemudian menentukan model yang sesuai. untuk sampel dalam set pelatihan.
Parameter dalam model dapat digunakan untuk diskriminasi dan fungsi diskriminan atau kriteria diskriminan dapat digunakan untuk menentukan kelas mana yang poin dari setiap kelas yang tidak diketahui harus dimiliki. Dalam mata kuliah pengenalan pola, proses ini secara umum disebut proses pelatihan dan pembelajaran.
Aturan klasifikasi ditentukan berdasarkan informasi yang diberikan oleh sampel pelatihan. Desain pengklasifikasi selesai selama proses pelatihan. Sejumlah sampel pelatihan, termasuk sampel dari berbagai kategori digunakan. Sampel ini secara kasar menguraikan keteraturan distribusi berbagai hal di ruang fitur. Parameter dalam rumus memberikan informasi.
Secara umum, memutuskan jenis fungsi klasifikasi apa yang akan digunakan adalah keputusan manusia. Pilihan parameter pengklasifikasi atau hasil yang diperoleh selama proses pembelajaran tergantung pada fungsi kriteria apa yang dipilih perancang.
Solusi optimal dari fungsi kriteria yang berbeda sesuai dengan hasil belajar yang berbeda, menghasilkan pengklasifikasi dengan kinerja yang berbeda. Parameter dalam rumus matematika sering ditentukan oleh pembelajaran.
Selama proses pembelajaran, jika ditemukan bahwa fungsi klasifikasi yang digunakan saat ini akan menyebabkan kesalahan klasifikasi. Maka menggunakan kesalahan tersebut untuk memberikan informasi tentang cara memperbaikinya dapat membuat fungsi klasifikasi bergerak ke arah yang benar yang membentuk proses berulang.
Jika fungsi klasifikasi dan parameternya membuat kesalahan semakin sedikit, maka dapat dikatakan konvergen secara bertahap. Proses pembelajaran efektif dan desain dapat diselesaikan.
Untuk keperluan aplikasi, isi dari empat bagian sistem pengenalan pola sangat berbeda, terutama pada dua bagian yaitu preprocessing data dan keputusan klasifikasi. Untuk meningkatkan keandalan hasil pengenalan.
Seringkali perlu menambahkan basis pengetahuan (aturan) untuk memperbaiki kesalahan yang mungkin terjadi. Atau untuk mengurangi ruang pencarian pola yang akan dikenali dalam basis model dengan memperkenalkan kendala untuk mengurangi jumlah komputasi yang cocok.
Dikatakan bahwa kebangkitan pembelajaran mendalam terkait erat dengan data besar. jadi apakah semakin besar kumpulan data , semakin tinggi akurasi algoritma pengenalan gambar yang dilatih ?
10 tahun terakhir telah melihat banyak keberhasilan dalam teknologi Computer Vision banyak yang dapat dikaitkan dengan penerapan model pembelajaran yang mendalam. Selain itu, kemampuan kinerja sistem tersebut telah meningkat secara signifikan sejak 2012, karena beberapa alasan termasuk:
1) Model yang lebih dalam dengan kompleksitas yang lebih tinggi
2) Peningkatan kinerja komputasi
3) Munculnya data berlabel skala besar.
Setiap tahun, kita melihat peningkatan kinerja komputasi dan kompleksitas model dari AlexNet 7-layer pada 2012 menjadi 101-layer ResNet pada 2015. Namun, ukuran kumpulan data yang tersedia belum ditingkatkan secara proporsional.
ResNet 101-layer masih dilatih pada dataset yang sama dengan AlexNet: 100.000 gambar dari ImageNet. Selama 5 tahun terakhir, kekuatan komputasi GPU dan kompleksitas model terus berkembang, tetapi ukuran set data pelatihan tidak berubah;
Misalnya, pada tahun 2017, menjelajahi hubungan antara “data dalam jumlah besar” dan pembelajaran mendalam:
1) Menggunakan algoritma saat ini, jika semakin banyak gambar dengan label bising disediakan, apakah kinerja visual masih dapat dioptimalkan
2) Untuk tugas-tugas visi standar seperti klasifikasi, deteksi objek, dan segmentasi gambar, apa hubungan antara data dan kinerja
3) Memanfaatkan teknik pembelajaran skala besar untuk mengembangkan model state-of-the-art yang mampu melakukan berbagai tugas di bidang computer vision.
Tentu saja, inti masalahnya adalah di mana menemukan kumpulan data yang 300 kali lebih besar dari ImageNet.
Google telah bekerja keras untuk membangun kumpulan data tersebut untuk mengoptimalkan algoritme Computer Vision. Dengan upaya Geoff Hinton, Francois Chollet, dan lainnya, Google secara internal membangun kumpulan data yang berisi 300 juta gambar, memberi label gambar ke dalam 18.291 kelas dan menamakannya JFT-300M.
Algoritme yang digunakan untuk penandaan gambar menggabungkan sinyal web mentah yang kompleks dengan korelasi antara halaman web dan umpan balik pengguna. Dengan cara ini, 300 juta gambar ini mendapatkan lebih dari 1 miliar label (sebuah gambar dapat memiliki banyak label).
Dari 1 miliar label ini, sekitar 375 juta dipilih secara algoritmik untuk memaksimalkan akurasi label untuk gambar yang dipilih. Namun, masih ada noise di label ini: sekitar 20% dari label gambar yang dipilih adalah noise.
Pelatihan terakhir mendapat hasil yang tidak terduga:
Pembelajaran representasi yang lebih baik dapat membantu.
Data berskala besar memfasilitasi pembelajaran representasi yang mengoptimalkan kinerja pada semua tugas penglihatan yang kami pelajari. Penting untuk membuat kumpulan data skala besar untuk pra-pelatihan.
Hal ini juga menunjukkan bahwa pembelajaran representasi unsupervised, maupun metode pembelajaran representasi semi-supervised memiliki prospek yang baik. Tampaknya ukuran data terus menekan noise yang ada di label.
Kinerja tugas meningkat secara linier seiring dengan meningkatnya urutan besaran data pelatihan. Hubungan antara kinerja tugas visi dan jumlah data pelatihan (diambil sebagai logaritma) untuk pembelajaran kinerja. Bahkan dengan 300 juta gambar pelatihan, tidak ada stagnasi dalam kinerja yang diamati.
Kapasitas model sangat penting, dan model yang lebih besar (lebih dalam) diperlukan untuk sepenuhnya memanfaatkan 300 juta kumpulan data grafik. Misalnya, dengan ResNet-50, skor deteksi objek COCO memiliki kenaikan terbatas sebesar 1,87%, sedangkan dengan ResNet-152, kenaikan ini mencapai 3%.
Selain itu, membangun kumpulan data dengan 300 juta gambar bukanlah tujuan akhir. Perlu dieksplorasi apakah model dapat terus dioptimalkan dengan kumpulan data yang lebih besar (berisi lebih dari 1 miliar gambar).