Google menjatuhkan bom baru di medan perang model AI yang baru. Gemini 1.0, sebuah model AI yang dikatakan Google telah melampaui manusia untuk pertama kalinya. Juga dalam hal kemampuan pemrosesan tugas multimodal, secara resmi dirilis.
Sebelum perilisan, ada banyak berita tentang model AI baru Google di media asing. Google pertama kali mengungkapkan keberadaan Gemini selama konferensi IO pada bulan Mei tahun ini. Tetapi bertentangan dengan apa yang diperkirakan dunia luar.
Google mengklaim bahwa perilisan Gemini tidak tertunda karena alasan internal apa pun. Dengan menyatakan bahwa penelitian dan pengembangan model AI-nya telah berlangsung sejak tahun 2012, dan telah dikembangkan selama 20 tahun terakhir. Google mengatakan bahwa pengembangan model AI-nya dimulai pada tahun 2012. Telah mempersiapkan rilis resmi Gemini sejak rilis PaLM2 dan Bard baru-baru ini pada tahun 2023.
DeepMind sudah menjadi lembaga penelitian terkemuka di bidang AI, dan jauh sebelum OpenAI menjadi sorotan. DeepMind telah menarik perhatian dunia di era AI dengan pemain AI Go – AlphaGo. Sekarang, generasi baru model AI yang disebut Gemini telah dirilis secara resmi ke publik. Juga memiliki potensi untuk mencuri perhatian di bidang model AI.
Kini, setelah generasi baru model AI yang disebut “Gemini” telah resmi dirilis ke publik. Ia juga berpotensi untuk mengambil alih kembali dominasi di bidang model AI. Gemini sendiri sesuai dengan kemampuan “berpikir cepat” dalam mitologi. Juga memiliki simbolisme sebagai sosok yang menyeluruh dan pandai dalam berkomunikasi.
1. Google Gemini Kemampuan Multimodal
Dalam hal kinerja aktual, Gemini diklaim sebagai model AI pertama yang secara native mendukung kemampuan multimodal. Dengan kata lain, ketika model AI multimodal sebelum Gemini memproses lebih dari dua jenis input pada saat yang sama.
Logikanya adalah melatih komponen yang sesuai dengan modalitas yang berbeda secara terpisah. Kemudian menggabungkan semantik pemahaman mereka. Sehingga dapat meniru respons manusia saat menghadapi masalah multimodal dalam skenario multimodal.
Solusi Google adalah mendesain Gemini untuk menjadi multimodal secara alami. Dengan melatihnya terlebih dahulu dengan modalitas yang berbeda sejak awal. Hal ini disesuaikan dengan data multimodal tambahan untuk lebih meningkatkan efektivitasnya.
Disrupsi dalam arsitektur pelatihan ini memungkinkan Gemini untuk dengan cepat memahami dan menalar berbagai macam konten manusia sejak tahap awal input. Sangat menguntungkan ketika berhadapan dengan masalah yang rumit. Baca juga Prospek Karier Peluang Dan Tantangan Untuk Sarjana Kecerdasan Buatan.
Pada saat yang sama saat merilis Gemini, Google mengumumkan bahwa Gemini Ultra. Mendapat nilai 90% dalam tolok ukur MMLU (Multi-Modal Language Understanding) standar industri. Ini bukan hanya skor terbaik yang pernah ada untuk model AI.
Ini bukan hanya pertama kalinya sebuah model AI mengungguli seorang pakar manusia. Tetapi juga melampaui hasil GPT-4 sebelumnya yang mencapai 86,5 persen dalam pengujian yang sama. Model ini juga mengalahkan sejumlah pesaing, termasuk LLAMA-2 GPT-4, dalam sembilan tolok ukur yang terpisah.
Google juga telah menyiapkan beberapa skenario demonstrasi untuk menunjukkan pemahaman multimodal Gemini. Dalam video tersebut, salah satu penguji memberikan informasi kepada Gemini dalam bentuk video sketsa. Dalam demonstrasi tersebut, Gemini dapat menafsirkan dan mendeskripsikan secara real time konten gambar terbaru sesuai dengan setiap perubahan pada sketsa.
Ada juga tindakan di mana Gemini menyarankan mainan rajut yang sesuai berdasarkan proporsi warna wol yang muncul dalam video. Memainkan permainan tebak-tebakan koin dengan Gemini, yang langsung bereaksi terhadap trik penguji setelah menebak, di tangan mana koin berada.
Kemampuan untuk menangani berbagai bentuk input secara bersamaan adalah perbedaan terbesar antara Gemini dan model AI generatif lainnya yang ada di pasaran saat ini. Bahkan lebih terlihat jelas saat berurusan dengan mata pelajaran yang rumit seperti matematika dan komputasi. Google menyoroti kemampuan Gemini dalam memahami kompleksitas bidang matematika. Dalam salah satu demo, sebuah masalah matematika diinput melalui video dan diselesaikan dengan bantuan Gemini.
Persyaratan yang tampaknya sederhana ini mencakup pemahaman yang akurat tentang semantik perintah. Pengenalan gambar tulisan tangan, sementara pada saat yang sama berurusan dengan logika kompleks dari masalah matematika. Merupakan skenario aplikasi model besar multimodal yang khas.
2. Skalabilitas
Pada paruh kedua tahun 2023, pengembangan paralel dari berbagai volume model besar telah menjadi arus utama industri. Terutama model besar sisi-akhir yang modelnya berjalan sepenuhnya secara lokal, yang merupakan prospek panas untuk aplikasi industri AI generatif. Merek ponsel termasuk vivo, Xiaomi OPPO dan lainnya. Telah meluncurkan aplikasi yang menggabungkan model besar di sisi akhir dengan model besar berbasis cloud untuk pengguna ponsel pintar biasa.
Gemini tidak kehilangan fitur ini: di Gemini 1.0. Google merilis tiga versi, di mana Gemini Ultra adalah yang paling cerdas. Tetapi pada saat yang sama membutuhkan jumlah komputasi yang lebih besar. Pro adalah yang paling seimbang dan dapat diterapkan pada sebagian besar skenario. Dan Nano adalah versi terkecil dan paling efisien, dan juga merupakan versi utama yang digunakan di ponsel Android. Nano adalah versi terkecil dan paling efisien. Juga merupakan model sisi akhir utama yang digunakan pada ponsel Android dan perangkat lainnya.
Google tidak secara langsung memperkenalkan ukuran model Gemini Nano kepada reporter. Tetapi menurut DeepMind, Gemini Nano memiliki kemampuan untuk berjalan sepenuhnya secara offline di sisi akhir. Google telah mengadaptasi Gemini untuk aplikasi perekaman yang disertakan dengan sistem Pixel.
Sehingga dapat secara otomatis menghasilkan AI berdasarkan percakapan yang direkam meskipun tidak ada koneksi internet. Bahkan tanpa koneksi internet, Gemini dapat secara otomatis menghasilkan rangkuman AI berdasarkan rekaman percakapan, wawancara, presentasi, dan banyak lagi.
Selain aplikasi sistem sendiri, kemampuan Gemini Nano juga telah diintegrasikan ke dalam Android. Memungkinkan pengembang aplikasi pihak ketiga untuk memanggil kemampuan model Gemini ponsel sendiri melalui adaptasi aplikasi. Misalnya, metode input ponsel sendiri dapat secara otomatis menghasilkan balasan pintas yang sesuai untuk Anda. Berdasarkan pesan teks yang dikirim oleh pihak lain dalam aplikasi obrolan yang disesuaikan dengan Gemini.
Staf R&D Google juga menyebutkan bahwa ada rencana untuk menghadirkan Gemini ke smartphone Android lainnya di masa mendatang. Tetapi bagian dari pekerjaan adaptasi ini melibatkan perangkat keras adaptasi aritmatika ponsel. Jadi untuk saat ini, hanya Pixel 8 Pro yang merupakan model yang diadaptasi dari Gemini.
Adapun pertanyaan yang dikhawatirkan banyak orang: dapatkah Gemini sepenuhnya melampaui GPT 4.0? Reporter juga bertanya kepada tim R&D Google DeepMind di tempat. Meskipun Google tidak menanggapi pertanyaan ini. Tetapi menekankan kembali bahwa Gemini Ultra mendapat skor lebih tinggi dari GPT-4 di MMLU. Merupakan satu-satunya model AI yang telah melampaui hasil tes para ahli manusia.
3. Perangkat Keras Dan Arsitektur
Setiap kali teknologi perangkat keras Google di bidang AI generatif disebutkan. Sering kali tidak dapat dihindari untuk memperkenalkan konten TPU (Tensor Processing Unit). Ini adalah perangkat keras khusus Google untuk pengembangan pembelajaran mesin jaringan syaraf. Sejak peluncuran TPU v1 pada tahun 2015, sejauh ini TPU telah diulang dalam lima versi utama. Gemini 1.0 yang Google tunjukkan pada tahap ini didasarkan pada susunan skala besar. Yaitu, TPU v4 dan TPU v5e yang dilatih di pusat data Google.
Susunan TPU ini tidak hanya digunakan untuk melatih Gemini. Tetapi juga telah digunakan dalam aplikasi ekologi Google seperti Gmail, YouTube, Google Play, dan sebagainya selama hampir satu dekade. Mereka juga telah terbuka untuk pelanggan pihak ketiga sejak tahun 2018.
Sejumlah startup AI juga telah memilihnya sebagai landasan perangkat keras untuk melatih model besar. Google juga menyebutkan bahwa Gemini berjalan secara signifikan lebih cepat pada TPU daripada model sebelumnya yang lebih kecil.
Parameter model AI saat ini masih terus berkembang secara eksponensial. Model AI teratas memiliki ratusan miliar atau bahkan triliunan parameter. Bahkan dengan konfigurasi GPU terbaik dan jumlah GPU yang tepat. Diperlukan waktu lebih dari beberapa bulan untuk melatih model besar seperti GPT-4.
Dapat dikatakan bahwa platform daya komputasi yang hemat biaya adalah kebutuhan paling mendesak dalam industri ini. Oleh karena itu, arsitektur perangkat keras untuk pelatihan AI generasi mendatang sudah ada di depan mata. Pada saat yang sama saat merilis Gemini 1.0, Google memamerkan seri TPU v5p terbarunya.
4. TPU v5p di Pusat Data Google
Dibandingkan dengan v4 dan v5e, basis pelatihan Gemini dan aplikasi utama TPU, v5p semakin meningkatkan skalabilitas. Sementara itu, untuk mengatasi permintaan pelatihan inferensi dan penyesuaian model yang kompleks. Ia telah merancang arsitektur perangkat keras baru yang dapat digunakan secara fleksibel sesuai dengan permintaan kinerja. Menggandakan jumlah chip di setiap Pod, yang terdiri dari total 8.960 chip yang saling terhubung.
Jumlah chip di setiap Pod telah digandakan, dengan total 8960 chip yang saling terhubung. Daya komputasi floating-point telah meningkat tiga kali lipat dibandingkan dengan v4. Kecepatan pelatihan telah ditingkatkan lebih dari 2,8 kali lipat dibandingkan dengan v4.
Bersamaan dengan TPU v5p adalah arsitektur superkomputer yang diberi kode nama AI Hypercomputer. Menurut Google, ini adalah sistem teknologi yang dioptimalkan untuk bekerja dengan perangkat keras di Pusat Komputasi Awan Google. Untuk mendukung beban kerja pengembangan model AI modern. Baca juga Gemini vs ChatGPT: Perbandingan AI Google Dan ChatGPT.
5. AlphaCode 2: Alat Pembuatan Kode Baru
AlphaCode adalah sistem pembuatan kode AI yang dirilis oleh Google dua tahun lalu. Lahir pada saat AI generatif belum membuat gelombang. Robot AI berbantuan kode masih mendominasi arus utama, dan hari ini Google telah merilis AlphaCode 2 yang didasarkan pada Gemini.
Generasi pertama Gemini memahami, menafsirkan, dan menghasilkan kode dalam beberapa bahasa pemrograman paling populer di dunia. Seperti Python, Java, C++, dan Go. Dibangun di atas fondasi ini, AlphaCode 2 sama mahirnya dalam memecahkan masalah pemrograman kompetitif. Tidak hanya membutuhkan keterampilan pengkodean tetapi juga pengetahuan tentang matematika yang kompleks dan ilmu komputer teoretis.
Ketika dievaluasi pada platform yang sama dengan AlphaCode asli, AlphaCode 2 menunjukkan peningkatan yang luar biasa. Ia menyelesaikan hampir dua kali lebih banyak masalah daripada AlphaCode dan mengungguli AlphaCode hampir 50%.
Tentu saja, ini semua hanyalah demo untuk saat ini, dan meskipun generasi pertama AlphaCode tidak pernah benar-benar dirilis. DeepMind sebenarnya telah mengungkapkan kemungkinan untuk membawa produk ini ke pasar di masa depan.
6. Waktu Rilis Google Gemini
Yang terakhir adalah waktu pembukaan Gemini, tiga ukuran model Gemini yang berbeda dalam waktu penggunaan terbuka yang spesifik. Skenario penggunaan berbeda, Gemini Pro akan menjadi yang pertama mendarat pada 13 Desember. Pengguna akan dapat merasakan bentuk Bard dengan Gemini Pro.
CEO Google Pichai bahkan mengatakan bahwa Gemini akan menjadi peningkatan komprehensif dari Bard. Terlebih, CEO Google Pichai bahkan mengatakan bahwa Gemini akan menjadi upgrade komprehensif dari Bard. Kemampuan multimodal akan memberikan Bard kemampuan untuk memasukkan dan mengeluarkan konten gambar, audio dan video.
Versi upgrade dari Bard akan menyediakan layanan bahasa Inggris berdasarkan Gemini Pro di lebih dari 170 negara/kawasan. Saat ini, versi Gemini Pro tidak mendukung lebih banyak bahasa. Google mengatakan bahwa dukungan lebih banyak bahasa sedang dalam tahap pengembangan.
Meskipun pengguna hanya dapat menggunakan perintah teks untuk menikmati Gemini dalam versi yang saat ini tersedia. Google juga mengatakan bahwa mereka akan mengizinkan pengguna untuk menggunakan interaksi audio dan gambar dalam beberapa bulan mendatang.
Gemini Nano akan tersedia di Pixel 8 Pro, dan juga akan terbuka untuk semua pengembang Android 14 mulai sekarang. Memungkinkan pengembang untuk menggunakan kemampuan Gemini dalam sistem seluler mereka. Ini dalam bentuk AICore untuk mencoba fungsi AI di aplikasi mereka sendiri.
Sedangkan untuk Gemini Ultra, yang sudah melebihi GPT-4 dalam kemampuan keseluruha. Tidak akan tersedia untuk pengujian hingga awal tahun depan. Pertama-tama akan tersedia untuk beberapa pelanggan dan pengembang untuk mendapatkan umpan balik eksperimental awal. Kemudian pengguna biasa akan merasakan model Gemini dalam bentuk Bard Advanced, iterasi generasi berikutnya dari Bard. Iterasi Bard berikutnya, Bard Advanced, akan menjadi generasi berikutnya dari Bard. Memungkinkan masyarakat umum untuk merasakan kekuatan penuh dari model AI Gemini.