Text
Penerapan Metode Latent Semantic Indexing Untuk Pencarian dokumen Lintas Bahas (Indonesai-Inggris) Berbasis Web
ABSTRAK
Cross-Language Information Retrieval (CLIR) merupakan sistem temu balik informasi dari
sebuah aplikasi ke user. Perkembangan penelitian tentang CLIR di Indonesia sudah banyak
dilakukan, namun pencarian dokumen tersebut masih berdasarkan pada kata saja sehingga
perlu dikembangkan lagi dengan model pencarian dalam bentuk frasa, klausa ataupun
kalimat. Penelitian ini bertujuan untuk menerapkan metode Latent Semantic Indexing (LSI)
pada sistem pencarian dokumen lintas Bahasa yakni Bahasa Indonesia dan Bahasa Inggris.
Data penelitian yang dipakai berupa korpus yang berisi 300 dokumen, yaitu 150 dokumen
Bahasa Indonesia dan 150 dokumen Bahasa Inggris. Sistem ini menggunakan dua algoritma
stemming, yaitu algoritma Porter untuk stemming teks bahasa Inggris dan algoritma Sastrawi
untuk stemming bahasa Indonesia. Sistem memberikan output berupa 10 urutan teratas
dokumen yang dicari. Dari hasil eksperimen menunjukkan bahwa sistem pada umumnya
mengembalikan hasil pencarian dokumen yang lebih baik ketika dimasukkan query dalam
bahasa Indonesia dibandingkan dengan query dalam bahasa Inggris. Nilai k-reduce yang
optimal untuk masukan query bahasa Indonesia adalah 30 (10% dari total dokumen yang ada
di dalam korpus), sedangkan nilai k-reduce yang optimal untuk masukan query bahasa
Inggris adalah 90 (30% dari total dokumen yang ada di dalam korpus).
Kata kunci : CLIR, Penerapan LSI, Algortima Porter, Algoritma Sastrawi, k-reduce
ABSTRACT
Cross-Language Information Retrieval (CLIR) is an information retrieval system of an
application to the user. The development of research on CLIR in Indonesia has been widely
conducted, however the searching process is based on a word, so needs to be developed
further with the search model in the form of phrases, clauses or sentences. This study aims to
apply the methods of Latent Semantic Indexing (LSI) on a CLIR system for Indonesian and
English documents. The research data is a paralel corpus containing 300 documents,
including 150 documents in Indonesian and 150 documents cover its translation in English.
This system uses two stemming algorithms, i.e. which Porter algorithm for stemming process
towards the English text and Sastrawi algorithm for stemming process towards Indonesian.
The output system top 10 document. Experimental results show that the system returns better
retrieved documents when it employ Indonesian query rather than English query. The value
of k-reduce optimal for Indonesian query input is 30 ( 10% of the total documents in the
corpus), while the value of k-reduce optimal for English query input is 90 (30% of the total
documents in the corpus).
Keywords : CLIR, LSI Implementation, Porter Algorithm, Sastrawi Algorithm, k-reduce
498F17II | 005.133 RIZ p | Perpustakaan FSM Undip (Referensi) | Tersedia |
Tidak tersedia versi lain