🔷 APA ITU NLP (Natural Language Processing)?
NLP adalah cabang dari Artificial Intelligence (AI) yang berfokus pada interaksi antara komputer dan bahasa manusia (natural language). Tujuannya adalah membuat mesin dapat:
- 
Memahami
 - 
Menginterpretasikan
 - 
Menganalisis
 - 
dan Menghasilkan bahasa seperti manusia.
 
🔷 CONTOH APLIKASI NLP
| Aplikasi | Contoh | 
|---|---|
| 💬 Chatbot & asisten virtual | ChatGPT, Google Assistant | 
| ✉️ Analisis Sentimen | Mengukur opini positif/negatif di media sosial | 
| 📄 Summarization | Ringkasan otomatis dokumen | 
| 🧠 Machine Translation | Google Translate | 
| 🔍 Search Engine | Pencarian semantik | 
| 📝 Text Generation | GPT-3, GPT-4, dll | 
🔷 TUGAS UTAMA DALAM NLP
| Tugas | Penjelasan | 
|---|---|
| Tokenization | Memecah kalimat menjadi kata/entitas kecil | 
| POS Tagging | Menentukan jenis kata (kata benda, kerja, dsb) | 
| Named Entity Recognition (NER) | Mengenali entitas seperti nama orang, tempat | 
| Text Classification | Mengklasifikasikan teks (misalnya spam vs tidak) | 
| Machine Translation | Menerjemahkan antar bahasa | 
| Text Summarization | Merangkum konten panjang | 
| Question Answering | Menjawab pertanyaan dari teks | 
| Sentiment Analysis | Menilai emosi atau opini dari teks | 
🔷 DATASET POPULER NLP (DAN DETAILNYA)
Berikut beberapa dataset yang sering digunakan dalam pelatihan & pengujian model NLP:
🔹 1. GLUE / SuperGLUE
- 
📌 GLUE (General Language Understanding Evaluation): kumpulan benchmark untuk mengevaluasi kemampuan NLP model.
 - 
🧠 Digunakan untuk mengukur performa model seperti BERT, RoBERTa, GPT.
 
Berisi berbagai tugas:
- 
Sentiment analysis
 - 
Paraphrase detection
 - 
Natural language inference (NLI)
 
🔹 2. SQuAD (Stanford Question Answering Dataset)
- 
📌 Dataset untuk tugas Question Answering (QA).
 - 
Teks berupa artikel Wikipedia + pertanyaan, jawaban berupa span dari teks.
 
Versi:
- 
SQuAD 1.1 (jawaban pasti dalam teks)
 - 
SQuAD 2.0 (termasuk pertanyaan yang tidak bisa dijawab)
 
🔹 3. IMDb Movie Reviews
- 
📌 Dataset klasifikasi sentimen.
 - 
50.000 ulasan film: setengah positif, setengah negatif.
 
Digunakan untuk:
- 
Sentiment Analysis
 - 
Text classification
 
🔹 4. AG News Corpus
- 
📌 Dataset klasifikasi berita.
 - 
120.000 artikel berita dari 4 kategori: World, Sports, Business, Sci/Tech
 
🔹 5. TREC
- 
📌 Dataset untuk klasifikasi pertanyaan.
 - 
Cocok untuk training question classification models (6 jenis jawaban).
 
🔹 6. CoNLL-2003
- 
📌 Dataset untuk Named Entity Recognition (NER).
 - 
Label seperti PER (person), ORG (organization), LOC (location), MISC.
 
🔹 7. Common Crawl / C4 (Colossal Clean Crawled Corpus)
- 
📌 Dataset masif yang dikumpulkan dari internet.
 - 
Digunakan untuk pelatihan model skala besar seperti T5, GPT, LLaMA.
 
🔹 8. Wikipedia Corpus
- 
📌 Seluruh teks Wikipedia dalam berbagai bahasa.
 - 
Sumber umum untuk pelatihan language modeling dan ekstraksi informasi.
 
🔹 9. MultiNLI
- 
📌 Dataset untuk Natural Language Inference (NLI).
 - 
Menilai apakah satu kalimat entail, contradict, atau neutral terhadap kalimat lain.
 
🔹 10. WMT (Workshop on Machine Translation)
- 
📌 Dataset paralel untuk pelatihan dan evaluasi machine translation.
 - 
Bahasa: Inggris-Jerman, Inggris-Prancis, dll.
 
🔷 RINGKASAN TABEL
| Dataset | Fokus Utama | Ukuran/Data | Digunakan Untuk | 
|---|---|---|---|
| GLUE | Benchmark NLP umum | Multi-task | Evaluasi model NLP | 
| SQuAD | Question Answering | 100K+ QA pairs | QA, reading comprehension | 
| IMDb | Sentiment analysis | 50K reviews | Klasifikasi teks | 
| AG News | Klasifikasi berita | 120K artikel | Text classification | 
| TREC | Question classification | ~6K data | Klasifikasi pertanyaan | 
| CoNLL-2003 | Named Entity Recognition | 20K kalimat | NER | 
| C4 / Common Crawl | Pretraining LLM | Ratusan GB | Language modeling | 
| Wikipedia | Corpus umum | Seluruh artikel Wiki | Pretraining, QA, summarization | 
| MultiNLI | NLI | 433K pasang teks | Logical inference | 
| WMT | Machine translation | Jutaan kalimat | Penerjemahan bahasa | 
🔷 PENUTUP
NLP saat ini sangat penting dalam membangun aplikasi seperti:
- 
Chatbot cerdas
 - 
Voice assistant
 - 
Analisis opini
 - 
Pencarian semantik
 - 
Ringkasan dokumen otomatis
 
Post a Comment
0Comments