Text
Peringkas Multi Dokumen Menggunakan Metode K-Means dan Latent Dirichlet Allocation (LDA) – Significance Sentences
ABSTRAK
Teknologi merupakan salah satu media yang digunakan untuk menyebarkan informasi ke khalayak
umum. Di era globalisasi ini, ilmu pengetahuan dan teknologi terus berkembang pesat dari waktu
ke waktu. Hal ini menyebabkan jumlah dokumen berita yang ada semakin banyak khususnya di
internet. Dokumen berita online dapat membantu pembaca dalam memperoleh informasi terbaru
secara cepat, dimanapun dan kapanpun. Namun, dokumen berita online mengesampingkan detail
dan akurasi berita karena tujuannya untuk memberikan informasi terkini sebanyak-banyaknya.
Banyak isi dokumen berita yang hampir sama sehingga menyebabkan redundansi dokumen berita
atau disebut yellow journalism. Yellow journalism dapat menyebabkan pembaca sulit
membedakan dokumen yang mengandung informasi fakta atau opini. Oleh sebab itu, diperlukan
penelitian mengenai peringkas multi dokumen agar pembaca lebih mudah memahami maksud dari
dokumen berita online. Peringkas multi dokumen menggunakan metode K-Means dan Latent
Dirichlet Allocation (LDA) – Significance Sentences merupakan teknologi yang dapat
diimplementasikan untuk mendapatkan hasil ringkasan dari beberapa dokumen berita yang secara
umum memiliki topik yang sama. Tujuan dari penelitian ini yaitu untuk mengetahui kinerja metode
peringkas multi dokumen menggunakan metode K-Means dan LDA – Significance Sentences.
Pengujian sistem peringkas multi dokumen dilakukan dengan menggunakan metode ROUGE-1
dan terdapat 2 skenario pengujian. Pengujian pertama dilakukan untuk mengetahui nilai parameter
terbaik pada metode LDA – Significance Sentences. Berdasarkan hasil pengujian pertama,
penelitian ini memiliki nilai alfa terbaik sebesar 0.001 dengan nilai ROUGE-1 sebesar 0.5545 dan
level peringkasan terbaik sebesar 30% dengan nilai ROUGE-1 sebesar 0.6118. Pengujian kedua
dilakukan untuk mengetahui kinerja metode K-Means yang terdiri dari 2 proses dengan berita
sebanyak 8 dokumen sehingga masing-masing proses menghasilkan 2 cluster. Proses pertama
menghasilkan cluster 1 yang terdiri dari dokumen 1, 2, 3, 4, 6 dengan niai ROUGE-1 sebesar
0.6139 dan cluster 2 terdiri dari dokumen 5, 7, 8 dengan nilai ROUGE-1 sebesar 0.6199,
sedangkan proses kedua menghasilkan cluster 1 yang terdiri dari dokumen 2 dengan nilai ROUGE-
1 sebesar 0.5833 dan cluster 2 terdiri dari dokumen 1, 3, 4, 5, 6, 7, 8 dengan nilai ROUGE-1
sebesar 0.4542. Proses pertama memiliki hasil yang cukup baik karena nilai ROUGE-1 hampir
mendekati nilai 1. Peringkas multi dokumen menggunakan metode K-Means dan LDASignificance Sentence memiliki kinerja yang baik untuk metode LDA-Significance Sentence ,
sedangkan metode K-Means belum bisa membedakan dokumen berita berdasarkan topiknya secara
khusus.
Kata kunci : Peringkas Multi Dokumen, berita online, yellow journalism, K-Means, Latent
Dirichlet Allocation, Significance Sentences, ROUGE-1
ABSTRACT
Technology is one of the media used to disseminate information to the public. In this era of
globalization, science and technology will continue to grow rapidly from time to time. This causes
the number of existing news documents grew, especially on the internet. Online news documents
can help readers to get the latest information quickly, wherever and whenever. However, online
news documents override the details and accuracy of the news because of its purpose to provide
up-to-date information as much as possible. Many of the contents news documents are almost the
same that will led to redundancy of news documents or called yellow journalism. Yellow
journalism can make it difficult for readers to distinguish documents containing fact or opinionated
information. Therefore, it is necessary to extend more research about multi-document
summarization so that readers can easily understand the intent of online news documents. Multidocument summarization using K-Means methods and Latent Dirichlet Allocation (LDA) -
Significance Sentences is a technology that can be implemented to get a summary of some news
documents that generally have the same topic. The purpose of this research is know the
performance of multi-document summarization using K-Means method and LDA-Significance
Sentences. Testing of multi-document summarization system is done using ROUGE-1 method and
there are 2 test scenarios. The first test was conducted to find out the best parameter values in the
LDA - Significance Sentences. Based on the first test result, this research has the best alpha value
of 0.001 with ROUGE-1 value of 0.5545 and the best level of 30% with ROUGE-1 value of
0.6118. The second test is done to understand the performance of K-Means method consisting of
2 processes with news of 8 documents so that each process produce 2 cluster. The first process
produces cluster 1 consisting of documents 1, 2, 3, 4, 6 with ROUGE-1 value of 0.6139 and cluster
2 consisting of 5, 7, 8 with ROUGE-1 value of 0.6199, while the second process produces cluster
1 which consists of document 2 with a ROUGE-1 value of 0.5833 and cluster 2 consists of
documents 1, 3, 4, 5, 6, 7, 8 with a ROUGE-1 value of 0.4542. The first process has a pretty good
result because the ROUGE-1 value is almost close to 1. Multi-document summarization using KMeans method and LDA-Significance Sentence has good performance for LDA-Significance
Sentence, while K-Means method can not distinguish between news document by topic in
particular.
Key Words : Multi-document summarization, online news, yellow journalism, K-Means, Latent
Dirichlet Allocation, Significance Sentences, ROUGE-1
627F18III | 627 F 18 | Perpustakaan FSM Undip (Referensi) | Tersedia |
Tidak tersedia versi lain