Proyek ini mengimplementasikan dan mengevaluasi performa model multimodal CLIP dalam klasifikasi gambar-teks, khususnya untuk spesies, perilaku, lokasi, dan waktu hewan ternak. Evaluasi dilakukan pada empat varian model CLIP:
- RN50 (ResNet-50)
- ViT-B/16 (Vision Transformer - Base, Patch 16)
- ViT-B/32 (Vision Transformer - Base, Patch 32)
- ViT-L/14 (Vision Transformer - Large, Patch 14)
Studi ini menggunakan pendekatan zero-shot learning, di mana model tidak dilatih secara eksplisit pada domain ternak. Prediksi dilakukan dengan menghitung kesamaan kosinus antara fitur gambar dan teks deskripsi.
Proyek bertujuan untuk:
- Mengevaluasi performa model CLIP pada klasifikasi gambar-teks di kategori spesies, perilaku, lokasi, dan waktu.
- Membandingkan keakuratan keempat varian model CLIP.
- Mengidentifikasi kekuatan dan kelemahan masing-masing model dalam klasifikasi berbasis gambar-teks.
Dataset terdiri dari 279 gambar ternak yang mewakili tiga spesies:
- Sapi (cow): 71 gambar
- Kambing (goat): 92 gambar
- Domba (sheep): 116 gambar
Agar lebih bervariasi, dataset diproses dengan teknik augmentasi:
- Rotasi acak: -30 hingga +30 derajat.
- Penyesuaian kecerahan dan kontras: Rentang 0.5 hingga 1.5.
- Horizontal flipping: Membalik gambar secara horizontal.
Model CLIP terdiri dari dua encoder:
- Encoder Gambar: Menggunakan ResNet atau Vision Transformer untuk menghasilkan representasi visual gambar.
- Encoder Teks: Memanfaatkan arsitektur Transformer untuk menghasilkan representasi teks deskripsi.
Kombinasi teks dibuat dari empat kategori:
- Spesies (animals): cow, goat, sheep.
- Perilaku (behaviors): eating, moving, resting.
- Lokasi (places): in the field, on the hill, in the forest.
- Waktu (times): day, night.
- Gambar dan teks diubah menjadi vektor numerik oleh encoder CLIP.
- Kesamaan kosinus dihitung untuk membandingkan kemiripan antara gambar dan teks.
- Prediksi dengan nilai kesamaan tertinggi dipilih sebagai hasil akhir.
Model | Spesies (%) | Perilaku (%) | Lokasi (%) | Waktu (%) |
---|---|---|---|---|
RN50 | 77 | 52 | 62 | 33 |
ViT-B/16 | 79 | 57 | 66 | 72 |
ViT-B/32 | 73 | 51 | 68 | 56 |
ViT-L/14 | 84 | 73 | 55 | 77 |
- Model ViT-L/14 memberikan akurasi tertinggi di kategori spesies (84%) dan perilaku (73%).
- Model ViT-B/16 menunjukkan performa paling seimbang dengan akurasi konsisten di semua kategori.
- Model RN50 dan ViT-B/32 unggul di kategori tertentu, namun memiliki kelemahan pada prediksi waktu dan perilaku.
Penelitian ini merekomendasikan:
- Fine-tuning model CLIP dengan dataset ternak spesifik untuk meningkatkan akurasi.
- Penggunaan dataset yang lebih besar dan kompleks.
- Eksplorasi pendekatan few-shot learning untuk meningkatkan performa model pada domain baru.
Kontributor:
- Wahyudiyanto
- Nadilla Andhara Putri
- Yunaena Maratul Kirom
- Revaldo Dafa Fahmindo
- Shula Talitha Ardhya Putri
- Ibnu Farhan Al-Ghifari