Gemini 2.0: Multimodal Artificial Intelligence from Google

Article

Perkembangan AI saat ini sedang gencar-gencarnya. Update terbaru di penghujung tahun 2024 adalah Gemini 2.0 Flash dari Google. Model ini mengusung Multimodal Artificial Intelligence yang memiliki kemampuan unik diantaranya mampu berinteraksi dengan pengguna dengan beberapa cara yaitu: text prompt, suara (voice), video (mirip seperti video call tapi dengan AI) atau share screen (mirip saat menggunakan fitur share screen pada Zoom tapi dengan AI).

Gambar 1. Google aistudio

Saat ini Gemini 2.0 dapat kita coba melalui https://aistudio.google.com/ (bisa jadi tidak semua dapat akses ya.. ). Melalui aistudio kita bisa menggunakan Gemini 2.0 Flash Experimental dan kita bisa mencoba fitur-fiturnya yang menurut Saya bisa berpotensi menjadi Game Changer di dunia AI. Beberapa yang Saya coba adalah text prompt (Saya kira ini sudah umum seperti di ChatGPT), suara (ini juga mirip dengan ChatGTP mode suara), video (mirip seperti video call tapi dengan AI) atau share screen (mirip saat menggunakan fitur share screen pada Zoom tapi dengan AI).

Fitur Video (Show Gemini), fitur ini memungkinkan Gemini 2.0 mengakses webcamera dan berinteraksi dengan pengguna. Hal ini memungkinkan Gemini 2.0 berinteraksi dengan pengguna dengan lebih baik karena dapat melihat dari video camera. Kita dapat menanyakan misalnya “dimanakah kotak pensil berada” dengan mengarahkan kamera ke ruangan yang dimaksud. Karena Gemini 2.0 diberi akses kamera maka memiliki kemungkinan mengecek gambar video dengan teliti.

Fitur Share Screen, nah ini juga fitur yang sangat membantu. Kita dapat membayangkan misalnya kita sedang belajar tentang robot dan kita sedang membaca referensi tertentu, ketika kita tidak paham dengan materinya, kita bisa share screen kita dengan Gemini 2.0 kemudian menanyakan penjelasan bagian yang tidak kita mengerti kepada Gemini 2.0. Misalnya kita blok atau tandai atau warnai bagian yg tidak kita mengerti saat share screen dan kemudian langsung menanyakan “ini maksudnya apa ya ..”.

Menurut Saya fitur Video dan Share Screen ini meningkatkan user experience dengan baik dan bisa dimanfaatkan untuk membuat aplikasi-aplikasi yang lebih interaktif dan usefull.

Gambar 2. Gemini 2.0 with Spatial Understanding

Uniknya model Gemini 2.0 ini juga memiliki spatial understanding. Misal kita upload gambar maka Gemini 2.0 dapat memberikan bouding box 2D maupun 3D (masih experimental ya). Bisa juga mendeteksi object dan juga bayangan dari masing-masing object. Sisanya silahkan diexplore sendiri ya..

Demikian sharing sedikit tentang Gemini 2.0. Selamat mencoba melalui https://aistudio.google.com/ .

Keywords: Artificial Intelligence, Gemini 2.0, Google, Multimodal AI

SDG: 9 “Industry, Innovation and Infrastructure”

Referensi:

Muhammad Nurul Puji, S.SI.,M.Si. Automotive & Robotics Engineering