ANALISIS PERBANDINGAN ALGORITMA KNN, GAUSSIAN NAIVE BAYES, RANDOM FOREST UNTUK DATA TIDAK SEIMBANG DAN DATA YANG DISEIMBANGKAN DENGAN METODE TOMEK LINK UNDERSAMPLING PADA DATASET LCMS TANAMAN KELADI TIKUS
DOI:
https://doi.org/10.36499/psnst.v13i1.9002Keywords:
LCMS, imbalance data, oversampling/undersampling, Tomek Links Undersampling, klasifikasiAbstract
Data tidak seimbang adalah data yang mempunyai kelas mayoritas dan kelas minoritas dalam hal ini merupakan kelas target karena satu kelas melebihi jumlah kelas lain dalam dataset. Salah satu data tidak seimbang didapat pada penelitian Binanto, et. al. yang merupakan data LCMS dari tanaman Keladi Tikus hasil penelitian Sianipar et. al. Data ini tidak seimbang karena target biner yang menyatakan senyawa anti kanker dan senyawa biasa sangat kontras. Penelitian ini bertujuan untuk mengevaluasi potensi tanaman keladi tikus dalam pengobatan penyakit serta menjelaskan mekanisme yang mungkin terlibat. Untuk itu diperlukannya sebuah metode klasifikasi dokumen yang dapat mengelompokkan secara otomatis dan akurat. Terdapat banyak metode klasifikasi yang dapat digunakan. Metode yang digunakan dalam penelitian ini adalah Naive Bayes, Random Forest, dan KNN serta digunakan pula Algoritma Tomek Link Undersampling untuk menyeimbangkan data. Dari penelitian ini didapatkan bahwa Algoritma Random Forest merupakan algoritma yang paling tepat untuk menyelesaikan permasalahan Imbalanced Data maupun Balanced Data dengan menggunakan Tomek Links Undersampling karena algoritma ini memiliki nilai accuracy, precision, recall dan F1-Score yang tinggi dibanding algoritma lainnya.Downloads
Published
2023-11-06
Issue
Section
Articles