🔷 APA ITU NLP (Natural Language Processing)?
NLP adalah cabang dari Artificial Intelligence (AI) yang berfokus pada interaksi antara komputer dan bahasa manusia (natural language). Tujuannya adalah membuat mesin dapat:
-
Memahami
-
Menginterpretasikan
-
Menganalisis
-
dan Menghasilkan bahasa seperti manusia.
🔷 CONTOH APLIKASI NLP
| Aplikasi | Contoh |
|---|---|
| 💬 Chatbot & asisten virtual | ChatGPT, Google Assistant |
| ✉️ Analisis Sentimen | Mengukur opini positif/negatif di media sosial |
| 📄 Summarization | Ringkasan otomatis dokumen |
| 🧠 Machine Translation | Google Translate |
| 🔍 Search Engine | Pencarian semantik |
| 📝 Text Generation | GPT-3, GPT-4, dll |
🔷 TUGAS UTAMA DALAM NLP
| Tugas | Penjelasan |
|---|---|
| Tokenization | Memecah kalimat menjadi kata/entitas kecil |
| POS Tagging | Menentukan jenis kata (kata benda, kerja, dsb) |
| Named Entity Recognition (NER) | Mengenali entitas seperti nama orang, tempat |
| Text Classification | Mengklasifikasikan teks (misalnya spam vs tidak) |
| Machine Translation | Menerjemahkan antar bahasa |
| Text Summarization | Merangkum konten panjang |
| Question Answering | Menjawab pertanyaan dari teks |
| Sentiment Analysis | Menilai emosi atau opini dari teks |
🔷 DATASET POPULER NLP (DAN DETAILNYA)
Berikut beberapa dataset yang sering digunakan dalam pelatihan & pengujian model NLP:
🔹 1. GLUE / SuperGLUE
-
📌 GLUE (General Language Understanding Evaluation): kumpulan benchmark untuk mengevaluasi kemampuan NLP model.
-
🧠 Digunakan untuk mengukur performa model seperti BERT, RoBERTa, GPT.
Berisi berbagai tugas:
-
Sentiment analysis
-
Paraphrase detection
-
Natural language inference (NLI)
🔹 2. SQuAD (Stanford Question Answering Dataset)
-
📌 Dataset untuk tugas Question Answering (QA).
-
Teks berupa artikel Wikipedia + pertanyaan, jawaban berupa span dari teks.
Versi:
-
SQuAD 1.1 (jawaban pasti dalam teks)
-
SQuAD 2.0 (termasuk pertanyaan yang tidak bisa dijawab)
🔹 3. IMDb Movie Reviews
-
📌 Dataset klasifikasi sentimen.
-
50.000 ulasan film: setengah positif, setengah negatif.
Digunakan untuk:
-
Sentiment Analysis
-
Text classification
🔹 4. AG News Corpus
-
📌 Dataset klasifikasi berita.
-
120.000 artikel berita dari 4 kategori: World, Sports, Business, Sci/Tech
🔹 5. TREC
-
📌 Dataset untuk klasifikasi pertanyaan.
-
Cocok untuk training question classification models (6 jenis jawaban).
🔹 6. CoNLL-2003
-
📌 Dataset untuk Named Entity Recognition (NER).
-
Label seperti PER (person), ORG (organization), LOC (location), MISC.
🔹 7. Common Crawl / C4 (Colossal Clean Crawled Corpus)
-
📌 Dataset masif yang dikumpulkan dari internet.
-
Digunakan untuk pelatihan model skala besar seperti T5, GPT, LLaMA.
🔹 8. Wikipedia Corpus
-
📌 Seluruh teks Wikipedia dalam berbagai bahasa.
-
Sumber umum untuk pelatihan language modeling dan ekstraksi informasi.
🔹 9. MultiNLI
-
📌 Dataset untuk Natural Language Inference (NLI).
-
Menilai apakah satu kalimat entail, contradict, atau neutral terhadap kalimat lain.
🔹 10. WMT (Workshop on Machine Translation)
-
📌 Dataset paralel untuk pelatihan dan evaluasi machine translation.
-
Bahasa: Inggris-Jerman, Inggris-Prancis, dll.
🔷 RINGKASAN TABEL
| Dataset | Fokus Utama | Ukuran/Data | Digunakan Untuk |
|---|---|---|---|
| GLUE | Benchmark NLP umum | Multi-task | Evaluasi model NLP |
| SQuAD | Question Answering | 100K+ QA pairs | QA, reading comprehension |
| IMDb | Sentiment analysis | 50K reviews | Klasifikasi teks |
| AG News | Klasifikasi berita | 120K artikel | Text classification |
| TREC | Question classification | ~6K data | Klasifikasi pertanyaan |
| CoNLL-2003 | Named Entity Recognition | 20K kalimat | NER |
| C4 / Common Crawl | Pretraining LLM | Ratusan GB | Language modeling |
| Wikipedia | Corpus umum | Seluruh artikel Wiki | Pretraining, QA, summarization |
| MultiNLI | NLI | 433K pasang teks | Logical inference |
| WMT | Machine translation | Jutaan kalimat | Penerjemahan bahasa |
🔷 PENUTUP
NLP saat ini sangat penting dalam membangun aplikasi seperti:
-
Chatbot cerdas
-
Voice assistant
-
Analisis opini
-
Pencarian semantik
-
Ringkasan dokumen otomatis
Post a Comment
0Comments