Text
Penerapan Vector Space Model dalam Pencarian Dokumen Jurnal Berbahasa Indonesia dengan Query Berupa Ucapan
ABSTRAK
Pencarian informasi dengan keragaman dan banyaknya dokumen yang ada dapat ditangani
dengan kajian – kajian yang ada pada information retrieval, khususnya penerapan pada
mesin pencari. Mesin pencari yang berkembang sekarang kebanyakan masih menggunakan
query berupa teks dan masih jarang yang menggunakan masukan query berupa ucapan
bahasa Indonesia. Penelitian ini menerapkan vector space model dalam pencarian dokumen
jurnal berbahasa Indonesia dengan query berupa ucapan. Sebelum melakukan pencarian
dokumen, query ucapan dikenali dalam bentuk teks menggunakan metode Mel Frequency
Cepstral Coefficients (MFCC) sebagai metode ekstraksi ciri dan Hidden Markov Model
(HMM) untuk pengenalan ucapannya. Pengujian yang dilakukan meliputi pengujian
pengenalan ucapan dan pengujian keakuratan mesin pencari dengan query berupa ucapan.
Berdasarkan pengujian 10-fold cross validation dengan 1.000 data, ucapan dapat dikenali
sebagai teks dengan akurasi sebesar 89,4%. Sedangkan untuk pengujian keakuratan mesin
pencari dilakukan dengan menghitung precision recall dari 5 dokumen teratas dengan
jumlah dokumen 50 dan 8 user, didapatkan nilai Mean Average Precision (MAP) sebesar
0,904. Hasil pengujian tersebut mengindikasikan bahwa pengenalan ucapan sudah mampu
digunakan sebagai masukan query untuk mesin pencari dan mesin pencari dapat
menghasilkan dokumen ter-retrieve yang cukup relevan.
Kata kunci : mesin pencari, pengenalan ucapan, vector space model, pencarian dokumen
jurnal.
ABSTRACT
The increasing number and variety on information can be handled by the study of
information retrieval which is being implemented in search engine. Nowadays most of
developing search engines use text based query and its rare to see search engine using
voice based query specially in Indonesian language. This research apllied vector space
model to search Indonesian journals with voice based query, this research used Mel
Frequency Cepstral Coefficients (MFCC) as feature extraction process and Hidden Markov
Model (HMM) as the learning method. This research used two types of test they were
speech recognition test and the accuracy of search engine test. By using the 10-fold cross
validation with 1,000 data, the accuracy of speech recognition was 89,4%. While to get the
accuracy of search engine, the precision recall of top five document (from 50 document
and 8 users) was counted and the result was Mean Average Precision (MAP) value 0,904.
From the result of the test indicates that speech recogniton was capable to be used us the
query for search engine and the search engine can produce the relevan retrieved document.
Keyword : search engine, speech recognition, vector space model, journal speech
recognition.
493F17II | 005.133 ERS p | Perpustakaan FSM Undip (Referensi) | Tersedia |
Tidak tersedia versi lain