Text
Klasifikasi Dokumen Berita Bahasa Indonesia Menggunakan Metode Latent Dirichlet Allocation (LDA) Dan Word2vec
ABSTRAK
Perkembangan yang pesat dalam informasi digital telah menyebabkan semakin meningkat
pula volume informasi yang berbentuk teks seperti dokumen berita. Dokumen berita yang
muncul diunggah di internet sangatlah banyak dalam rentang waktu yang cepat. Oleh karena
itu diperlukan adanya pengorganisasian dokumen berita. Salah satu cara yang dapat
dilakukan dengan cepat dan dapat dipahami oleh para penerima informasi adalah dengan
melakukan klasifikasi dokumen berita berdasarkan topiknya. Penelitian yang diusulkan yaitu
penerapan klasifikasi dokumen untuk berita Bahasa Indonesia menggunakan metode Latent
Dirichlet Allocation (LDA) yang akan digabungkan dengan metode word embedding
Word2Vec dan juga k-means clustering sebagai metode pembantu melakukan klusterisasi
vektor kata. Dokumen berita Bahasa Indonesia akan diklasifikasikan ke dalam lima topik
yaitu olahraga, teknologi, ekonomi, politik, dan sosial dimana kelima kategori tersebut
merupakan kategori berita utama yang sering diakses oleh pengguna. Hasil penelitian
dengan jumlah data pelatihan sebanyak 1000 berita (200 berita per kategori) menunjukkan
bahwa metode gabungan LDA dan Word2Vec sudah cukup baik dalam melakukan
klasifikasi dengan nilai akurasi tertinggi sebesar 73,4%. Meski demikian akurasi lebih baik
didapatkan oleh metode LDA murni tanpa Word2Vec dengan nilai akurasi sebesar 87,5%
sehingga memiliki selisih akurasi sebesar 14,1%. Kedua perbandingan metode tersebut
sama-sama diperoleh pada kombinasi parameter alpha 0,1; beta 0,01; dan jumlah topik
sebanyak 300 topik.
Kata Kunci: Text Mining, Klasifikasi Berita Bahasa Indonesia, Latent Dirichlet Allocation,
Word2Vec, K-means Clustering
ABSTRACT
The rapid development of digital information has led to an over-increasing volume of textual
information such as news documents. News documents that uploaded to internet are very
massive in the short of time. Therefore it is necessary to organize news documents. One way
that can be done quickly and comprehensible by the recipients of information is to classify
news documents based on their topic. The proposed research is the application of document
classification for Indonesian news using Latent Dirichlet Allocation (LDA) method which
will be combined with Word2Vec word embedding method and also k-means clustering as
support method to cluster word’s vector. Indonesian news documents will be classified into
five topics: sports, technology, economics, politics, and social where the five categories are
major news categories that are often accessed by users. Result of the research with amount
of training data of 1000 news (200 news per category) showed that the combined method of
LDA and Word2Vec was good enough in classification with the highest accuracy value of
73,4%. However better accuracy is obtained by the pure LDA method without Word2Vec
with an accuracy value of 87,5%, thus having an accuracy difference of 14,1%. Both
comparison methods were similarly obtained on the parameter combination of alpha 0,1;
beta 0,01; and 300 number of topics.
Keywords: Text Mining, Indonesian News Document Classification, Latent Dirichlet
Allocation, Word2Vec, K-means Clustering
614F18III | 614 F 18 | Perpustakaan FSM Undip (Referensi) | Tersedia |
Tidak tersedia versi lain