Arsitektur Proyek

1. Data Ingestion

Memuat dataset (train, validation, test) dari CSV.

2. Preprocessing

Cleaning (NaN removal) & Label Mapping (Teks ke Angka).

3. Tokenization

Konversi teks ke token ID menggunakan AutoTokenizer.

4. Modeling & Training

Fine-tuning distilbert-base-uncased dengan Trainer API.

5. Evaluation

Mengukur performa dengan Accuracy & F1-Score.