Text
Implementasi K-Nearest Neighbor untuk Klasifikasi Water Potability dengan Imputation dan Deletion sebagai Proses Penanganan Missing Data
Data merupakan kumpulan dari informasi yang terdiri dari fakta-fakta yang belum diolah.
Data perlu diolah menggunakan suatu metode, salah satu metode yang dapat mengolah data
adalah data mining. Data mining dapat menghasilkan suatu informasi yang bermanfaat
namun dibutuhkan kelengkapan data. Ketidaklengkapan data (missing data) disebabkan oleh
banyak hal, seperti kesalahan manusia, kesalahpahaman, dan kerusakan sensor. Missing data
dapat menyebabkan berkurangnya kinerja dari sebuah model. Untuk menanggulangi missing
data dalam dataset diperlukan suatu metode. Salah satu metode yang dapat menanggulangi
missing data adalah dilakukan imputation (imputasi) pemberian nilai mean dan median.
Selain metode imputasi dapat juga menggunakan metode deletion (penghapusan data). Pada
penelitian ini menggunakan model klasifikasi K-Nearest Neighbor guna mengelompokan
data berdasarkan jarak data uji terhadap data latih, dengan mencari data berdasarkan
tetangga terdekat. Model K-Nearest Neighbor mengolah data yang dibagi oleh K-Fold Cross
Validation sehingga menjadi data latih dan data uji. Pada penelitian ini menggunakan dataset
water potability, yang berjumlah 3276 data. Hasil dari penelitian ini didapatkan akurasi
tertinggi sebesar 0.63 yang didapatkan pada saat penanganan missing data menggunakan
deletion.
Kata Kunci: Klasifikasi, Imputasi, Penghapusan Data, Water Potability, Missing data
1037F2022 | 1037/F/2022 | Perpustakaan FSM Undip | Tersedia |
Tidak tersedia versi lain