MobileNetV3: Revolusi Kecil dalam Dunia Convolutional Neural Network (CNN)
Perkembangan teknologi machine learning, khususnya Convolutional Neural Network (CNN), telah memberikan dampak besar di berbagai bidang, terutama dalam pengolahan gambar dan visi komputer. Meskipun CNN memiliki performa yang sangat baik, tantangan utama seperti kebutuhan komputasi yang tinggi dan konsumsi daya besar menjadi penghambat utama dalam implementasinya pada perangkat dengan sumber daya terbatas, seperti perangkat mobile atau IoT.
Untuk menjawab tantangan tersebut, berbagai model ringan dikembangkan, salah satunya adalah MobileNet yang pertama kali diperkenalkan oleh tim peneliti Google. MobileNet menjadi populer karena mampu menjalankan tugas CNN secara efektif dan efisien di perangkat mobile. MobileNetV3 sebagai generasi terbaru hadir dengan sejumlah inovasi penting yang menjadikannya pilihan utama dalam implementasi machine learning berbasis edge computing.
Mengenal Convolutional Neural Network (CNN)
Convolutional Neural Network (CNN) adalah jenis jaringan saraf tiruan yang secara khusus dirancang untuk mengolah data multidimensi seperti gambar. CNN terdiri atas beberapa lapisan seperti convolutional layer, pooling layer, dan fully connected layer yang berfungsi mengekstraksi fitur-fitur penting dari gambar dengan sangat efisien (Goodfellow et al., 2016). CNN menjadi populer karena kemampuannya dalam mendeteksi pola visual dan mengenali objek secara akurat.
Apa itu MobileNet?
MobileNet pertama kali diperkenalkan oleh Howard et al. (2017), merupakan jenis CNN yang dirancang khusus agar efisien di perangkat mobile dengan keterbatasan sumber daya komputasi. Keunggulan utama MobileNet terletak pada penggunaan teknik depthwise separable convolutions, yang secara signifikan mengurangi jumlah parameter dan operasi komputasi tanpa mengorbankan akurasi secara signifikan.
Evolusi MobileNet Hingga Versi Ketiga (MobileNetV3)
MobileNet terus mengalami evolusi hingga versi ketiga yang dikenal sebagai MobileNetV3 (Howard et al., 2019). MobileNetV3 memperkenalkan beberapa pembaruan penting seperti Neural Architecture Search (NAS) untuk optimalisasi struktur jaringan, peningkatan efisiensi dengan pemakaian squeeze-and-excitation (SE) blocks, serta peningkatan non-linear activation functions seperti h-swish.
Inovasi Utama MobileNetV3:
- Neural Architecture Search (NAS) NAS digunakan untuk mencari arsitektur CNN yang optimal secara otomatis dengan mempertimbangkan trade-off antara akurasi dan efisiensi komputasi.
- Squeeze-and-Excitation (SE) Blocks SE blocks memungkinkan jaringan memberikan bobot adaptif pada fitur-fitur yang diekstraksi, sehingga meningkatkan kualitas representasi fitur.
- H-swish Activation Fungsi aktivasi h-swish memberikan efisiensi komputasi lebih baik dibandingkan dengan fungsi ReLU biasa, terutama di perangkat mobile.
Implementasi dan Keunggulan MobileNetV3
MobileNetV3 dirancang untuk berbagai aplikasi yang membutuhkan efisiensi tinggi seperti pengenalan objek secara real-time pada smartphone, deteksi wajah, serta aplikasi IoT yang berdaya rendah. Dibandingkan versi sebelumnya, MobileNetV3 mampu memberikan performa yang lebih baik dengan waktu inferensi yang lebih cepat serta konsumsi daya yang lebih rendah (Howard et al., 2019).
Tantangan dan Peluang ke Depan
Meskipun MobileNetV3 sudah menunjukkan performa yang menjanjikan, masih ada beberapa tantangan yang perlu diatasi seperti optimasi lebih lanjut pada arsitektur jaringan dan efisiensi komputasi. Namun demikian, MobileNetV3 membuka peluang luas dalam pengembangan teknologi AI edge computing yang semakin terjangkau dan dapat diadopsi secara massal.
Referensi
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
- Howard, A. G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., ... & Adam, H. (2017). MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. arXiv preprint arXiv:1704.04861.
- Howard, A., Sandler, M., Chu, G., Chen, L. C., Chen, B., Tan, M., ... & Adam, H. (2019). Searching for MobileNetV3. arXiv preprint arXiv:1905.02244.
- Tsang, S. H. (2020). Paper MobileNetV3: Searching for MobileNetV3 (Image Classification). Medium. Diakses dari https://sh-tsang.medium.com/paper-mobilenetv3-searching-for-mobilenetv3-image-classification-5072d4d8703c
- Python in Plain English. (2021). Convolutional Neural Network (CNN) in Deep Learning. Medium. Diakses dari https://python.plainenglish.io/convolution-neural-network-cnn-in-deep-learning-77f5ab457166
SDG:
Comments :