Text
Pengenalan Ucapan Bahasa Indonesia Menggunakan Mel-Frequency Cepstral Coefficient Dan Recurrent Neural Network
ABSTRAK
Pengenalan ucapan (speech recognition) merupakan perkembangan teknologi dalam bidang
suara. Pengenalan ucapan memungkinkan suatu perangkat lunak mengenali kata-kata yang
diucapkan oleh manusia dan ditampilkan dalam bentuk tulisan. Namun masih terdapat
masalah untuk mengenali kata-kata yang diucapkan, seperti karakteristik suara yang
berbeda, usia, kesehatan, dan jenis kelamin. Penelitian ini membahas pengenalan ucapan
bahasa Indonesia dengan menggunakan Mel-Frequency Cepstral Coefficient (MFCC)
sebagai metode ekstraksi ciri dan Recurrent Neural Network (RNN) sebagai metode
pengenalannya dengan membandingkan arsitektur Elman RNN dan arsitektur Jordan RNN.
Pembagian data latih dan data uji dilakukan dengan menggunakan metode k-fold cross
validation dengan nilai k=5. Hasil penelitian menunjukkan bahwa arsitektur Elman RNN
dengan koefisien MFCC 20 dan parameter jaringan yaitu 900 hidden neuron, target error
0.0005, learning rate 0.01, dan maksimal epoch 10000 menghasilkan akurasi terbaik sebesar
72.65%. Sedangkan hasil penelitian pada arsitektur Jordan RNN dengan koefisien MFCC
12 dan parameter jaringan yaitu 500 hidden neuron, target error 0.0005, learning rate 0.01,
dan maksimal epoch 10000 menghasilkan akurasi terbaik sebesar 73.55%. Sehingga
berdasarkan hasil penelitian yang didapat, arsitektur Jordan RNN memiliki kinerja yang
lebih baik dibandingkan dengan arsitektur Elman RNN dalam mengenali ucapan Bahasa
Indonesia berjenis continuous speech.
Kata Kunci : Pengenalan ucapan, Mel-Frequency Cepstral Coefficient, Recurrent Neural
Network, Elman RNN, Jordan RNNvi
ABSTRACT
Speech recognition is a technological development in the field of sound. Speech recognition
allows a software to recognize words spoken by a human and displayed in written form. But
there are still problems in recognizing spoken words, such as different sound characteristics,
age, health, and gender. This study discussed speech recognition in Indonesian language
using Mel-Frequency Cepstral Coefficient (MFCC) as a feature extraction method and
Recurrent Neural Network (RNN) as the recognition method by comparing the Elman RNN
architecture and Jordan RNN architecture. The division of training data and testing data was
performed by using k-fold cross validation with a value of k=5. The result showed that the
best accuracy of Elman RNN architecture (72.65%) was acquired from MFCC
coefficients=20 and network parameters with 900 hidden neurons, error targets (0.0005),
learning rate (0.01), and maximally epoch (1000), whereas the best accuracy of Jordan RNN
architecture (73.55%) was acquired from MFCC coefficients=12 and network parameters
with 500 hidden neurons, error targets (0.0005), learning rate (0.001), and maximally epoch
(1000). So based on the results, Jordan RNN architecture has performance better than Elman
RNN architecture in recognizing continuous speech of Indonesian language.
Keywords : Speech Recognition, Mel-Frequency Cepstral Coefficient, Recurrent Neural
Network, Elman RNN, Jordan RNN
0729F19III | 729 F 19-ii | Perpustakaan FSM Undip (Referensi) | Tersedia |
Tidak tersedia versi lain