PERBANDINGAN KINERJA NAIVE BAYES DAN RANDOM FOREST DENGAN PENANGANAN IMBALANCE DATA
Keywords:
data mining, klasifikasi, naive bayes, random forest, SMOTE, undersampling.Abstract
Data mining merupakan proses penting untuk mengekstraksi informasi berharga dari kumpulan data besar dan kompleks. Salah satu teknik utamanya adalah klasifikasi, yang digunakan untuk memprediksi kategori data berdasarkan fitur tertentu. Penelitian ini membandingkan performa algoritma Naïve Bayes dan Random Forest dalam mengatasi klasifikasi pada data tidak seimbang. Dataset yang digunakan adalah Bank Marketing dari UCI Machine Learning Repository yang memiliki distribusi kelas tidak seimbang, dengan perbandingan signifikan antara label “yes” dan “no”. Penelitian ini mengevaluasi pengaruh dua teknik penyeimbangan data, yaitu Synthetic Minority Oversampling Technique (SMOTE) dan undersampling, terhadap kinerja kedua algoritma dengan metrik akurasi, presisi, recall, dan F1-score. Pada Naïve Bayes, model default memberikan hasil terbaik (akurasi 91,78%, presisi 90,59, recall 91,78, F1-Score 90,93), sedangkan penggunaan SMOTE atau undersampling justru menurunkan seluruh metrik, dengan penurunan terbesar pada SMOTE (−9,25%). Pada Random Forest, SMOTE meningkatkan akurasi, recall, dan F1-Score secara signifikan, yaitu 5,18% pada akurasi, menghasilkan kombinasi terbaik (akurasi 93,08%, presisi 93,35, recall 93,08, F1-Score 93,07). Hal ini menunjukkan bahwa SMOTE efektif untuk algoritma berbasis pohon, sementara Naïve Bayes lebih optimal tanpa penyeimbangan data tambahan.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2025 Fortunatus Adhiethera Tuah Putra, Arif Bijaksana Putra Negara , Helen Sastypratiwi

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.