Text
Sistem Pencarian Dan Peringkasan Berita Online Berbahasa Indonesia Menggunakan Metode Latent Semantic Indexing (LSI)
ABSTRAK
Jumlah berita online yang tersebar di internet semakin bertambah banyak, selain itu banyaknya situs berita yang terdaftar pada www (world wide web) memungkinkan hasil pencarian berita menjadi sangat luas. Mesin pencari berita berbasis information retrieval menjadi solusi untuk mempermudah masyarakat dalam mencari informasi berita tertentu. Information retrieval menghasilkan beberapa berita yang diurutkan berdasarkan tingkat relevansi terhadap query. Relevan atau tidaknya berita akan diketahui secara jelas setelah pengguna membaca keseluruhan isi berita. Oleh karena itu mesin pencari berita disertai ringkasan berita membantu memudahkan pengguna untuk mencari informasi lebih cepat tanpa membaca keseluruhan isi berita. Peringkasan berita menggunakan peringkasan ekstraktif Cross Method dengan memilih kalimat-kalimat penting sebagai representasi ringkasan berita. Penelitian ini menerapkan metode Latent Semantic Indexing yang mampu mencari hubungan semantik tiap kata untuk mencari nilai kemiripan antar kalimat maupun query dengan dokumen. Data penelitian yang dipakai berupa korpus yang berisi 100 berita dari situs Detik, Kompas dan Tribunnews. Sistem memberikan output berupa 10 urutan teratas berita yang dicari disertai dengan ringkasannya. Berdasarkan hasil evaluasi pada peringkasan dan pencarian, nilai akurasi dipengaruhi oleh perubahan parameter nilai k-rank. Peringkasan berita yang diuji dengan ringkasan pakar menghasilkan rata-rata nilai precision 0.41, nilai recall 0.64 dan nilai F-score 0.49 pada nilai k-rank = 3. Nilai k-rank optimal untuk pencarian berita adalah 2 yang menghasilkan nilai Mean Average Precision (MAP) sebesar 0.73. Kombinasi penggunaan korpus ringkasan dan parameter k-rank untuk pencarian berita menghasilkan nilai Mean Average Precision (MAP) sebesar 0.40.
Kata kunci: information retrieval, Cross Method, Latent Semantic Indexing, k-rank
ABSTRACT
The number of online news spread over the internet was increasing, in addition to the number of news sites listed on the www (world wide web) allows the search results become very wide news. News-based search engine retrieval into a solution to facilitate the public in searching for certain news information. The information retrieval generates some news that was sorted by the relevance level to the query. Relevant or not the news will be known clearly after the user read the entire contents of the news. Therefore news search engine are accompanied by a summary of the news helps to make it easier for users to find information faster without reading the entire contents of the news. Summarizing news using extractive summarization Cross Method by selecting important sentences as a summary representation of news. This research applies Latent Semantic Indexing method which was able to find the semantic relationship of each word to find the value of similarity between sentence and query with document. The research data used was a corpus containing 100 news from Detik, Kompas and Tribunnews website. The system provides output of the top 10 searched newsletters accompanied by a summary. Based on the evaluation results on the summary and search, the accuracy value is influenced by the change of k-rank value parameter. The summary of the news tested with the expert summary resulted an average precision value of 0.41, a recall value of 0.64 and a F-score of 0.49 in k-rank value = 3. The optimal k-rank value for news search is 2 which resulted Mean Mean Precision (MAP ) Of 0.73. The combined use of summary cores and k-rank parameters for news search resulted a Mean Mean Precision (MAP) value of 0.40.
Keywords: information retrieval, Cross Method, Latent Semantic Indexing, k-rank
555F17IV | 555 F 17-iv | Perpustakaan FSM Undip (Referensi) | Tersedia |
Tidak tersedia versi lain