Text
Klasifikasi Opini Publik pada Media Sosial Twitter mengenai Pendidikan di Indonesia Menggunakan Algoritma K-Nearest Neighbors (K-NN) dan K-Fold Cross Validation
ABSTRAK
Bangsa yang maju adalah bangsa yang memiliki cara pandang dan pemikiran yang
mencerminkan kesadarannya akan pentingnya memajukan sektor pendidikan.
Pendidikan di Indonesia masih mencari jati diri yang membuat masyarakat
memberikan respon berbeda-beda. Respon masyarakat seringkali ditemui di media
sosial, salah satunya adalah Twitter. Twitter merupakan salah satu layanan aplikasi
yang populer karena dapat digunakan untuk berinteraksi dan berkomunikasi dalam
kehidupan sehari-hari. Analisis sentimen pada media sosial Twitter dapat menjadi
pilihan untuk melihat bagaimana respon masyarakat terhadap kondisi pendidikan
di Indonesia. Respon tersebut diklasifikasikan menjadi sentimen positif dan
sentimen negatif menggunakan algoritma K-Nearest Neighbors (K-NN) dengan
evaluasi model 10-fold cross validation. K-NN memiliki beberapa keuntungan,
yaitu pelatihan cepat, sederhana dan mudah dipelajari, tahan terhadap data pelatihan
yang memiliki noise, dan efektif jika data pelatihan besar. Dalam penelitian ini,
klasifikasi sentimen menggunakan pengukuran jarak Cosine Similarity dan empat
parameter nilai k yaitu 3, 5, 7, dan 9. Pelabelan data dilakukan secara manual dan
sentiment scoring. Visualisasi sentimen positif dan negatif menggunakan Word
Cloud. Hasil pengujian memperlihatkan bahwa sentimen masyarakat terkait
pendidikan cenderung bersentimen positif di Twitter dan parameter k = 7 mendapat
nilai akurasi tertinggi pada pelabelan data secara manual dan sentiment scoring.
Pada pelabelan data secara manual diperoleh akurasi sebesar 76,93% sedangkan
pada pelabelan data dengan sentiment scoring diperoleh akurasi sebesar 77,87%.
Analisis sentimen dibuat menggunakan bahasa pemrograman RStudio sebagai
perangkat lunak pendukung.
Kata Kunci : Pendidikan, Analisis Sentimen, Twitter, K-Nearest Neighbors,
Cosine Similarity, K-Fold Cross Validation, RStudio
ABSTRACT
Developing country is a country that has perspective and idea which reflect its
awareness of the importance of advancing the education sector. The education in
Indonesia is still looking for its identity. Therefore, it makes people respond
differently. The community response is often found on social media, one of which
is Twitter. Twitter is one of the application service that is popular due to its uses to
interact and communicate with people in daily life. The sentiment analysis on
Twitter can be a choice to see the community’s responses to the condition of
education in Indonesia. The responses are classified into positive sentiments and
negative sentiments using the K-Nearest Neighbors (K-NN) algorithm with a 10-
fold cross validation model evaluation. K-NN has several advantages, they are fast
training, simple, easy to learn, resistance toward training data which has noise, and
effective if the training data is large. In this study, the sentiment classification uses
Cosine Similarity distance measurement and four k value parameters which are 3,
5, 7, and 9. Data labelling is done manually and done by scoring sentiment.
Visualization of positive and negative sentiments use Word Cloud. The test results
show that public sentiment about education tends to be positive on Twitter and the
parameter k = 7 obtained the highest accuracy value in data labelling that was done
manually and done by scoring sentiment. In labelling data manually, it obtained an
accuracy of 76.93% whereas, in labelling the data with scoring sentiment, it
obtained an accuracy of 77.87%. Sentiment analysis is made using the RStudio
programming language as the support software.
Keywords : Education, Sentiment Analysis, Twitter, K-Nearest Neighbors, Cosine
Similarity, K-Fold Cross Validation, RStudio
831E20IV | 831 E 20-iv | Perpustakaan FSM Undip (Referensi) | Tersedia |
Tidak tersedia versi lain