Text
Pengaruh Synthetic Minority Oversampling Technique (Smote), Representasi Fitur, Dan Algoritma Klasifikasi Pada Sentiment Analysis
ABSTRAK
Komentar-komentar pada layanan sewa hotel online seperti Traveloka merupakan sumber
daya sangat penting yang bisa digunakan bagi pihak penyedia layanan tersebut termasuk
pengelola hotel terkait untuk melakukan kontrol kualitas pada layanan sewa hotel mereka,
yang berakhir pada meningkatnya kepuasan pelanggan. Sentiment Analysis (SA) merupakan
tool untuk melakukan analisis terhadap komentar-komentar tersebut. Permasalahanpermasalahan yang muncul pada sentiment analysis adalah tidak seimbangnya data
komentar (imbalanced datasets) dalam hal jumlah dari masing-masing kelas, kemudian
algoritma klasifikasi serta representasi fitur yang akan digunakan. Penelitian ini akan
mencoba melihat bagaimana SMOTE (Synthetic Minority Oversampling Technique) dalam
usaha menyeimbangkan jumlah data dari masing-masing kelas, penggunaan algoritma
klasifikasi Naïve Bayes, Logistic Regression, dan Support Vector Machine, dan penggunaan
representasi fitur term presence, term occurrence, dan TF-IDF dalam pengaruhnya terhadap
hasil kinerja sentiment analysis. Penggunaan SMOTE terbilang cukup efektif dalam
memperbaiki kinerja model pada kasus klasifikasi dengan data tidak seimbang, yang
dibuktikan dengan peningkatan kinerja rata-rata model sebesar kurang lebih 12%.
Representasi fitur term occurrence menghasilkan nilai g-mean score rata-rata sebesar
81,68%, kemudian term presence sebesar 79,89%, dan terakhir TF-IDF sebesar 79,31%.
Sedangkan untuk algoritma klasifikasi, Logistic Regression menghasilkan nilai g-mean
score rata-rata sebesar 81,65%, kemudian Support Vector Machine sebesar 81,55%, dan
terakhir Naïve Bayes sebesar 77,68%.
Kata kunci: Sentiment analysis, hotel, Traveloka, imbalanced datasets, SMOTE, g-mean
score
ABSTRACT
The comments on online hotel reservation services such as Traveloka is a very important
resource that can be used by the service provider including hotel manager to quality control
their hotel reservation service, which ends in increasing customer satisfaction. Sentiment
Analysis (SA) is a tool for analyzing these comments. The problems that arise in sentiment
analysis are the unequal number of each class of the data (imbalanced datasets), and the
classification algorithm as well as the feature representation. This research will try to look
at how SMOTE (Synthetic Minority Oversampling Technique) attempts to balance the
amount of data from each class, the use of the Naïve Bayes, Logistic Regression, and Support
Vector Machine classification algorithm, and the use of term presence, term occurrence, and
TF-IDF feature representations in effect on the performance of sentiment analysis. The use
of SMOTE is quite effective in improving model’s classification performance when data is
unbalanced, as evidenced by average model performance improvement of approximately
12%. Feature representation of term occurrence resulted in average 81.68% of g-mean score,
then term presence 79.89%, and TF-IDF 79.31%. As for the classification algorithm,
Logistic Regression resulted in average score 81.65% of g-mean score, then Support Vector
Machine 81.55%, and Naïve Bayes 77.68%.
Keyword: Sentiment analysis, hotel, Traveloka, imbalanced datasets, SMOTE, g-mean score
621F18III | 621 F 18 | Perpustakaan FSM Undip (Referensi) | Tersedia |
Tidak tersedia versi lain