NLP (Natural Language Processing)

🔷 APA ITU NLP (Natural Language Processing)?

NLP adalah cabang dari Artificial Intelligence (AI) yang berfokus pada interaksi antara komputer dan bahasa manusia (natural language). Tujuannya adalah membuat mesin dapat:

Memahami
Menginterpretasikan
Menganalisis
dan Menghasilkan bahasa seperti manusia.

🔷 CONTOH APLIKASI NLP

Aplikasi	Contoh
💬 Chatbot & asisten virtual	ChatGPT, Google Assistant
✉️ Analisis Sentimen	Mengukur opini positif/negatif di media sosial
📄 Summarization	Ringkasan otomatis dokumen
🧠 Machine Translation	Google Translate
🔍 Search Engine	Pencarian semantik
📝 Text Generation	GPT-3, GPT-4, dll

🔷 TUGAS UTAMA DALAM NLP

Tugas	Penjelasan
Tokenization	Memecah kalimat menjadi kata/entitas kecil
POS Tagging	Menentukan jenis kata (kata benda, kerja, dsb)
Named Entity Recognition (NER)	Mengenali entitas seperti nama orang, tempat
Text Classification	Mengklasifikasikan teks (misalnya spam vs tidak)
Machine Translation	Menerjemahkan antar bahasa
Text Summarization	Merangkum konten panjang
Question Answering	Menjawab pertanyaan dari teks
Sentiment Analysis	Menilai emosi atau opini dari teks

🔷 DATASET POPULER NLP (DAN DETAILNYA)

Berikut beberapa dataset yang sering digunakan dalam pelatihan & pengujian model NLP:

🔹 1. GLUE / SuperGLUE

📌 GLUE (General Language Understanding Evaluation): kumpulan benchmark untuk mengevaluasi kemampuan NLP model.
🧠 Digunakan untuk mengukur performa model seperti BERT, RoBERTa, GPT.

Berisi berbagai tugas:

Sentiment analysis
Paraphrase detection
Natural language inference (NLI)

🔹 2. SQuAD (Stanford Question Answering Dataset)

📌 Dataset untuk tugas Question Answering (QA).
Teks berupa artikel Wikipedia + pertanyaan, jawaban berupa span dari teks.

Versi:

SQuAD 1.1 (jawaban pasti dalam teks)
SQuAD 2.0 (termasuk pertanyaan yang tidak bisa dijawab)

🔹 3. IMDb Movie Reviews

📌 Dataset klasifikasi sentimen.
50.000 ulasan film: setengah positif, setengah negatif.

Digunakan untuk:

Sentiment Analysis
Text classification

🔹 4. AG News Corpus

📌 Dataset klasifikasi berita.
120.000 artikel berita dari 4 kategori: World, Sports, Business, Sci/Tech

🔹 5. TREC

📌 Dataset untuk klasifikasi pertanyaan.
Cocok untuk training question classification models (6 jenis jawaban).

🔹 6. CoNLL-2003

📌 Dataset untuk Named Entity Recognition (NER).
Label seperti PER (person), ORG (organization), LOC (location), MISC.

🔹 7. Common Crawl / C4 (Colossal Clean Crawled Corpus)

📌 Dataset masif yang dikumpulkan dari internet.
Digunakan untuk pelatihan model skala besar seperti T5, GPT, LLaMA.

🔹 8. Wikipedia Corpus

📌 Seluruh teks Wikipedia dalam berbagai bahasa.
Sumber umum untuk pelatihan language modeling dan ekstraksi informasi.

🔹 9. MultiNLI

📌 Dataset untuk Natural Language Inference (NLI).
Menilai apakah satu kalimat entail, contradict, atau neutral terhadap kalimat lain.

🔹 10. WMT (Workshop on Machine Translation)

📌 Dataset paralel untuk pelatihan dan evaluasi machine translation.
Bahasa: Inggris-Jerman, Inggris-Prancis, dll.

🔷 RINGKASAN TABEL

Dataset	Fokus Utama	Ukuran/Data	Digunakan Untuk
GLUE	Benchmark NLP umum	Multi-task	Evaluasi model NLP
SQuAD	Question Answering	100K+ QA pairs	QA, reading comprehension
IMDb	Sentiment analysis	50K reviews	Klasifikasi teks
AG News	Klasifikasi berita	120K artikel	Text classification
TREC	Question classification	~6K data	Klasifikasi pertanyaan
CoNLL-2003	Named Entity Recognition	20K kalimat	NER
C4 / Common Crawl	Pretraining LLM	Ratusan GB	Language modeling
Wikipedia	Corpus umum	Seluruh artikel Wiki	Pretraining, QA, summarization
MultiNLI	NLI	433K pasang teks	Logical inference
WMT	Machine translation	Jutaan kalimat	Penerjemahan bahasa

🔷 PENUTUP

NLP saat ini sangat penting dalam membangun aplikasi seperti:

Chatbot cerdas
Voice assistant
Analisis opini
Pencarian semantik
Ringkasan dokumen otomatis

NLP (Natural Language Processing)

🔷 APA ITU NLP (Natural Language Processing)?

🔷 CONTOH APLIKASI NLP

🔷 TUGAS UTAMA DALAM NLP

🔷 DATASET POPULER NLP (DAN DETAILNYA)

🔹 1. GLUE / SuperGLUE

🔹 2. SQuAD (Stanford Question Answering Dataset)

🔹 3. IMDb Movie Reviews

🔹 4. AG News Corpus

🔹 5. TREC

🔹 6. CoNLL-2003

🔹 7. Common Crawl / C4 (Colossal Clean Crawled Corpus)

🔹 8. Wikipedia Corpus

🔹 9. MultiNLI

🔹 10. WMT (Workshop on Machine Translation)

🔷 RINGKASAN TABEL

🔷 PENUTUP

Post a Comment

Agen AI (Agentic AI): Lompatan Besar dalam Kecerdasan Buatan yang Otonom

Hot Posts

Labels

Search This Blog

Most Recent

Agen AI (Agentic AI): Lompatan Besar dalam Kecerdasan Buatan yang Otonom

AI & Teknologi Masa Depan: Mengupas Tren Terbaru 2025

Edge AI: Kecerdasan Buatan yang Lebih Dekat ke Pengguna

Mengenal AI: Revolusi Digital yang Mengubah Dunia

Digital Twin: Kembaran Virtual untuk Mengubah Industri dan Kota

Made with Love by

Contact form