Berikut adalah penjelasan lengkap tentang dataset-dataset populer di bidang Computer Vision (gambar & video) yang digunakan dalam riset dan pengembangan AI, terutama dalam tugas-tugas seperti klasifikasi gambar, deteksi objek, segmentasi, dan pengenalan video.
🔷 1. ImageNet
📌 Deskripsi:
-
Dataset paling berpengaruh dalam sejarah Computer Vision.
-
Berisi lebih dari 14 juta gambar yang telah diberi label dan dikelompokkan ke dalam 21.000+ kategori.
📊 Ukuran:
-
Sekitar 150 GB (ImageNet Large Scale Visual Recognition Challenge subset – ILSVRC)
🎯 Digunakan untuk:
-
Image classification
-
Object detection
-
Transfer learning (pretraining model)
💡 Kelebihan:
-
Ukuran sangat besar → cocok untuk training model deep learning.
-
Menjadi benchmark standar untuk model CNN (ResNet, AlexNet, VGG, dll).
🔷 2. COCO (Common Objects in Context)
📌 Deskripsi:
-
Dataset yang kaya dengan anotasi untuk deteksi objek, segmentasi instance, keypoint detection, dll.
-
Berisi 328.000+ gambar, dengan 1,5 juta anotasi objek dari 80 kategori.
📊 Ukuran:
-
Sekitar 25 GB+ tergantung subset yang digunakan.
🎯 Digunakan untuk:
-
Object detection
-
Image captioning
-
Instance segmentation
-
Pose estimation
💡 Kelebihan:
-
Anotasi sangat lengkap dan detail.
-
Digunakan dalam kompetisi seperti COCO Challenge dan benchmark model seperti Mask R-CNN.
🔷 3. MNIST
📌 Deskripsi:
-
Dataset gambar digit tangan (0–9) berukuran kecil (28x28 piksel).
-
Sangat populer untuk eksperimen awal pada klasifikasi gambar.
📊 Ukuran:
-
60.000 gambar untuk training, 10.000 untuk testing.
🎯 Digunakan untuk:
-
Digit recognition
-
Benchmark algoritma klasifikasi sederhana
-
Pelatihan awal model CNN
💡 Kelebihan:
-
Ringan dan mudah digunakan untuk pemula.
-
Dapat dilatih dalam hitungan detik.
🔷 4. CIFAR-10 & CIFAR-100
📌 Deskripsi:
-
Kumpulan gambar resolusi rendah (32x32 piksel).
-
CIFAR-10: 10 kelas (mobil, pesawat, anjing, dll)
-
CIFAR-100: 100 kelas lebih spesifik
📊 Ukuran:
-
60.000 gambar (50.000 training, 10.000 testing)
🎯 Digunakan untuk:
-
Image classification
-
Eksperimen awal CNN
💡 Kelebihan:
-
Cocok untuk quick testing dan benchmarking arsitektur kecil.
🔷 5. Pascal VOC
📌 Deskripsi:
-
Dataset klasik untuk object detection, segmentation, dan action recognition.
📊 Ukuran:
-
Sekitar 10.000+ gambar dengan anotasi dari 20 kategori objek umum.
🎯 Digunakan untuk:
-
Object detection
-
Semantic segmentation
💡 Kelebihan:
-
Digunakan sebagai benchmark sebelum era COCO.
-
Anotasi cukup rapi dan konsisten.
🔷 6. Open Images Dataset
📌 Deskripsi:
-
Dataset gambar skala besar dari Google, dengan anotasi bounding box, label multi-label, dan segmentasi.
📊 Ukuran:
-
Lebih dari 9 juta gambar, 600+ kategori objek.
🎯 Digunakan untuk:
-
Large-scale object detection
-
Hierarchical classification
💡 Kelebihan:
-
Anotasi bounding box lebih dari 15 juta.
-
Mewakili banyak variasi kondisi dunia nyata.
🔷 7. UCF101 (Video Dataset)
📌 Deskripsi:
-
Dataset video beranotasi untuk action recognition.
-
Berisi 13.320 video pendek dari 101 kategori aksi (berlari, berenang, menari, dsb).
📊 Ukuran:
-
Sekitar 6 GB (terkompresi)
🎯 Digunakan untuk:
-
Video classification
-
Human activity recognition
💡 Kelebihan:
-
Cocok untuk pengujian model temporal (seperti CNN+LSTM, 3D-CNN).
🔷 8. Kinetics (Video Dataset by DeepMind)
📌 Deskripsi:
-
Kumpulan video YouTube berlabel, digunakan untuk pengenalan aksi (action recognition).
📊 Ukuran:
-
Beberapa versi: Kinetics-400, Kinetics-600, Kinetics-700 (ratusan ribu klip)
🎯 Digunakan untuk:
-
Video understanding
-
Temporal modeling
-
Action recognition
💡 Kelebihan:
-
Digunakan sebagai benchmark utama untuk model video seperti I3D, SlowFast, TimeSformer.
🔷 9. LFW (Labeled Faces in the Wild)
📌 Deskripsi:
-
Dataset untuk pengenalan wajah (face recognition) dari gambar orang terkenal dalam kondisi dunia nyata.
📊 Ukuran:
-
13.000+ gambar wajah dari 5.000+ orang
🎯 Digunakan untuk:
-
Face verification
-
Face recognition
💡 Kelebihan:
-
Digunakan dalam pengujian sistem biometric.
-
Cocok untuk face embedding model (seperti FaceNet).
🔷 RINGKASAN TABEL
| Dataset | Fokus | Jumlah Data | Tugas Utama |
|---|---|---|---|
| ImageNet | Gambar umum (klasifikasi) | 14+ juta gambar | Klasifikasi, pretraining |
| COCO | Objek kontekstual | 328k gambar | Deteksi objek, segmentasi |
| MNIST | Digit tulisan tangan | 70k gambar | Klasifikasi digit |
| CIFAR-10/100 | Gambar kecil (32x32) | 60k gambar | Klasifikasi gambar |
| Pascal VOC | Objek & segmentasi | 10k+ gambar | Deteksi, segmentasi |
| Open Images | Objek dunia nyata (besar) | 9+ juta gambar | Deteksi, klasifikasi |
| UCF101 | Video aksi manusia | 13k video | Action recognition |
| Kinetics | Video YouTube | 400k+ klip | Video understanding |
| LFW | Wajah manusia | 13k gambar | Face recognition/verification |
Post a Comment
0Comments