Computer Vision (Gambar & Video)

 Berikut adalah penjelasan lengkap tentang dataset-dataset populer di bidang Computer Vision (gambar & video) yang digunakan dalam riset dan pengembangan AI, terutama dalam tugas-tugas seperti klasifikasi gambar, deteksi objek, segmentasi, dan pengenalan video.


🔷 1. ImageNet

📌 Deskripsi:

  • Dataset paling berpengaruh dalam sejarah Computer Vision.

  • Berisi lebih dari 14 juta gambar yang telah diberi label dan dikelompokkan ke dalam 21.000+ kategori.

📊 Ukuran:

  • Sekitar 150 GB (ImageNet Large Scale Visual Recognition Challenge subset – ILSVRC)

🎯 Digunakan untuk:

  • Image classification

  • Object detection

  • Transfer learning (pretraining model)

💡 Kelebihan:

  • Ukuran sangat besar → cocok untuk training model deep learning.

  • Menjadi benchmark standar untuk model CNN (ResNet, AlexNet, VGG, dll).


🔷 2. COCO (Common Objects in Context)

📌 Deskripsi:

  • Dataset yang kaya dengan anotasi untuk deteksi objek, segmentasi instance, keypoint detection, dll.

  • Berisi 328.000+ gambar, dengan 1,5 juta anotasi objek dari 80 kategori.

📊 Ukuran:

  • Sekitar 25 GB+ tergantung subset yang digunakan.

🎯 Digunakan untuk:

  • Object detection

  • Image captioning

  • Instance segmentation

  • Pose estimation

💡 Kelebihan:

  • Anotasi sangat lengkap dan detail.

  • Digunakan dalam kompetisi seperti COCO Challenge dan benchmark model seperti Mask R-CNN.


🔷 3. MNIST

📌 Deskripsi:

  • Dataset gambar digit tangan (0–9) berukuran kecil (28x28 piksel).

  • Sangat populer untuk eksperimen awal pada klasifikasi gambar.

📊 Ukuran:

  • 60.000 gambar untuk training, 10.000 untuk testing.

🎯 Digunakan untuk:

  • Digit recognition

  • Benchmark algoritma klasifikasi sederhana

  • Pelatihan awal model CNN

💡 Kelebihan:

  • Ringan dan mudah digunakan untuk pemula.

  • Dapat dilatih dalam hitungan detik.


🔷 4. CIFAR-10 & CIFAR-100

📌 Deskripsi:

  • Kumpulan gambar resolusi rendah (32x32 piksel).

  • CIFAR-10: 10 kelas (mobil, pesawat, anjing, dll)

  • CIFAR-100: 100 kelas lebih spesifik

📊 Ukuran:

  • 60.000 gambar (50.000 training, 10.000 testing)

🎯 Digunakan untuk:

  • Image classification

  • Eksperimen awal CNN

💡 Kelebihan:

  • Cocok untuk quick testing dan benchmarking arsitektur kecil.


🔷 5. Pascal VOC

📌 Deskripsi:

  • Dataset klasik untuk object detection, segmentation, dan action recognition.

📊 Ukuran:

  • Sekitar 10.000+ gambar dengan anotasi dari 20 kategori objek umum.

🎯 Digunakan untuk:

  • Object detection

  • Semantic segmentation

💡 Kelebihan:

  • Digunakan sebagai benchmark sebelum era COCO.

  • Anotasi cukup rapi dan konsisten.


🔷 6. Open Images Dataset

📌 Deskripsi:

  • Dataset gambar skala besar dari Google, dengan anotasi bounding box, label multi-label, dan segmentasi.

📊 Ukuran:

  • Lebih dari 9 juta gambar, 600+ kategori objek.

🎯 Digunakan untuk:

  • Large-scale object detection

  • Hierarchical classification

💡 Kelebihan:

  • Anotasi bounding box lebih dari 15 juta.

  • Mewakili banyak variasi kondisi dunia nyata.


🔷 7. UCF101 (Video Dataset)

📌 Deskripsi:

  • Dataset video beranotasi untuk action recognition.

  • Berisi 13.320 video pendek dari 101 kategori aksi (berlari, berenang, menari, dsb).

📊 Ukuran:

  • Sekitar 6 GB (terkompresi)

🎯 Digunakan untuk:

  • Video classification

  • Human activity recognition

💡 Kelebihan:

  • Cocok untuk pengujian model temporal (seperti CNN+LSTM, 3D-CNN).


🔷 8. Kinetics (Video Dataset by DeepMind)

📌 Deskripsi:

  • Kumpulan video YouTube berlabel, digunakan untuk pengenalan aksi (action recognition).

📊 Ukuran:

  • Beberapa versi: Kinetics-400, Kinetics-600, Kinetics-700 (ratusan ribu klip)

🎯 Digunakan untuk:

  • Video understanding

  • Temporal modeling

  • Action recognition

💡 Kelebihan:

  • Digunakan sebagai benchmark utama untuk model video seperti I3D, SlowFast, TimeSformer.


🔷 9. LFW (Labeled Faces in the Wild)

📌 Deskripsi:

  • Dataset untuk pengenalan wajah (face recognition) dari gambar orang terkenal dalam kondisi dunia nyata.

📊 Ukuran:

  • 13.000+ gambar wajah dari 5.000+ orang

🎯 Digunakan untuk:

  • Face verification

  • Face recognition

💡 Kelebihan:

  • Digunakan dalam pengujian sistem biometric.

  • Cocok untuk face embedding model (seperti FaceNet).


🔷 RINGKASAN TABEL

DatasetFokusJumlah DataTugas Utama
ImageNetGambar umum (klasifikasi)14+ juta gambarKlasifikasi, pretraining
COCOObjek kontekstual328k gambarDeteksi objek, segmentasi
MNISTDigit tulisan tangan70k gambarKlasifikasi digit
CIFAR-10/100Gambar kecil (32x32)60k gambarKlasifikasi gambar
Pascal VOCObjek & segmentasi10k+ gambarDeteksi, segmentasi
Open ImagesObjek dunia nyata (besar)9+ juta gambarDeteksi, klasifikasi
UCF101Video aksi manusia13k videoAction recognition
KineticsVideo YouTube400k+ klipVideo understanding
LFWWajah manusia13k gambarFace recognition/verification

Post a Comment

0Comments

Post a Comment (0)