NLP (Natural Language Processing)

 

🔷 APA ITU NLP (Natural Language Processing)?

NLP adalah cabang dari Artificial Intelligence (AI) yang berfokus pada interaksi antara komputer dan bahasa manusia (natural language). Tujuannya adalah membuat mesin dapat:

  • Memahami

  • Menginterpretasikan

  • Menganalisis

  • dan Menghasilkan bahasa seperti manusia.


🔷 CONTOH APLIKASI NLP

AplikasiContoh
💬 Chatbot & asisten virtualChatGPT, Google Assistant
✉️ Analisis SentimenMengukur opini positif/negatif di media sosial
📄 SummarizationRingkasan otomatis dokumen
🧠 Machine TranslationGoogle Translate
🔍 Search EnginePencarian semantik
📝 Text GenerationGPT-3, GPT-4, dll

🔷 TUGAS UTAMA DALAM NLP

TugasPenjelasan
TokenizationMemecah kalimat menjadi kata/entitas kecil
POS TaggingMenentukan jenis kata (kata benda, kerja, dsb)
Named Entity Recognition (NER)Mengenali entitas seperti nama orang, tempat
Text ClassificationMengklasifikasikan teks (misalnya spam vs tidak)
Machine TranslationMenerjemahkan antar bahasa
Text SummarizationMerangkum konten panjang
Question AnsweringMenjawab pertanyaan dari teks
Sentiment AnalysisMenilai emosi atau opini dari teks

🔷 DATASET POPULER NLP (DAN DETAILNYA)

Berikut beberapa dataset yang sering digunakan dalam pelatihan & pengujian model NLP:


🔹 1. GLUE / SuperGLUE

  • 📌 GLUE (General Language Understanding Evaluation): kumpulan benchmark untuk mengevaluasi kemampuan NLP model.

  • 🧠 Digunakan untuk mengukur performa model seperti BERT, RoBERTa, GPT.

Berisi berbagai tugas:

  • Sentiment analysis

  • Paraphrase detection

  • Natural language inference (NLI)


🔹 2. SQuAD (Stanford Question Answering Dataset)

  • 📌 Dataset untuk tugas Question Answering (QA).

  • Teks berupa artikel Wikipedia + pertanyaan, jawaban berupa span dari teks.

Versi:

  • SQuAD 1.1 (jawaban pasti dalam teks)

  • SQuAD 2.0 (termasuk pertanyaan yang tidak bisa dijawab)


🔹 3. IMDb Movie Reviews

  • 📌 Dataset klasifikasi sentimen.

  • 50.000 ulasan film: setengah positif, setengah negatif.

Digunakan untuk:

  • Sentiment Analysis

  • Text classification


🔹 4. AG News Corpus

  • 📌 Dataset klasifikasi berita.

  • 120.000 artikel berita dari 4 kategori: World, Sports, Business, Sci/Tech


🔹 5. TREC

  • 📌 Dataset untuk klasifikasi pertanyaan.

  • Cocok untuk training question classification models (6 jenis jawaban).


🔹 6. CoNLL-2003

  • 📌 Dataset untuk Named Entity Recognition (NER).

  • Label seperti PER (person), ORG (organization), LOC (location), MISC.


🔹 7. Common Crawl / C4 (Colossal Clean Crawled Corpus)

  • 📌 Dataset masif yang dikumpulkan dari internet.

  • Digunakan untuk pelatihan model skala besar seperti T5, GPT, LLaMA.


🔹 8. Wikipedia Corpus

  • 📌 Seluruh teks Wikipedia dalam berbagai bahasa.

  • Sumber umum untuk pelatihan language modeling dan ekstraksi informasi.


🔹 9. MultiNLI

  • 📌 Dataset untuk Natural Language Inference (NLI).

  • Menilai apakah satu kalimat entail, contradict, atau neutral terhadap kalimat lain.


🔹 10. WMT (Workshop on Machine Translation)

  • 📌 Dataset paralel untuk pelatihan dan evaluasi machine translation.

  • Bahasa: Inggris-Jerman, Inggris-Prancis, dll.


🔷 RINGKASAN TABEL

DatasetFokus UtamaUkuran/DataDigunakan Untuk
GLUEBenchmark NLP umumMulti-taskEvaluasi model NLP
SQuADQuestion Answering100K+ QA pairsQA, reading comprehension
IMDbSentiment analysis50K reviewsKlasifikasi teks
AG NewsKlasifikasi berita120K artikelText classification
TRECQuestion classification~6K dataKlasifikasi pertanyaan
CoNLL-2003Named Entity Recognition20K kalimatNER
C4 / Common CrawlPretraining LLMRatusan GBLanguage modeling
WikipediaCorpus umumSeluruh artikel WikiPretraining, QA, summarization
MultiNLINLI433K pasang teksLogical inference
WMTMachine translationJutaan kalimatPenerjemahan bahasa

🔷 PENUTUP

NLP saat ini sangat penting dalam membangun aplikasi seperti:

  • Chatbot cerdas

  • Voice assistant

  • Analisis opini

  • Pencarian semantik

  • Ringkasan dokumen otomatis

Post a Comment

0Comments

Post a Comment (0)