Text
Klasifikasi Teks Berbahasa Indonesia Untuk Small Dataset Menggunakan Sentence Transformer Fine Tuning (Setfit)
Peningkatan pengguna Internet dan media sosial di Indonesia dalam beberapa tahun terakhir
telah mendorong perkembangan data teks digital terutama dalam Bahasa Indonesia. Hal ini
menyebabkan klasifikasi teks mendapat perhatian besar dan dituntut untuk mampu bekerja
dalam kinerja tinggi, Namun klasifikasi teks membutuhkan data dalam jumlah yang cukup
besar agar menghasilkan kinerja yang baik, sementara itu mengumpulkan data yang besar
tidaklah mudah, meskipun tersedia data digital tetapi masih harus dilakukan pembersihan
dan labelisasi serta tidak semua data tersedia untuk umum. Oleh karena itu, solusi yang
diajukan adalah penerapan few-shot learning yang mampu bekerja menggunakan data
berlabel dalam jumlah yang sedikit dan menghasilkan kinerja yang baik. Pendekatan yang
digunakan dalam penelitian ini yaitu Sentence Transformer Fine Tunning (SETFIT) yang
mendukung penerapan few-shot learning dengan menggunakan sentence transformer dan
bekerja lebih efisien dan cepat dalam fine-tuning. Penelitian ini menggunakan tiga jenis
dataset dalam teks Bahasa indonesia, dan setiap jenis dataset memilik jumlah label yang
berbeda (binary, multiclass 3 label, multiclass 10 label). Ketiga data ini akan diuji untuk
melihat pengaruh jumlah data latih perlabel pada few-shot learning dengan mevariasikan
persentase jumlah sampel data yang digunakan (2%, 3%, 4% dari jumlah data perlabel untuk
setiap labelnya). Hasil pengujian menunjukkan nilai akurasi terbaik untuk setiap jenis dataset
diperoleh ketika menggunakan 4% sampel data latih perlabel, sehingga semakin besar
persentase jumlah data latih yang digunakan maka semakin baik hasil akurasi yang didapat.
Selanjutnya, hasil terbaik dari few-shot learning akan dibandingkan dengan pengujian tanpa
few-shot learning. Kesimpulannya, few-shot learning lebih baik untuk dataset binary, dan
multiclass 3 label, tapi tidak lebih baik untuk multiclass 10 label jika dibandingkan dengan
pengujian tanpa few-shot learning.
Kata kunci : Klasifikasi teks, few-shot learning, Sentence Transformer Fine Tunning
(SETFIT)
1199F2023 | 1199 F 2023 | Perpustakaan FSM Undip | Tersedia |
Tidak tersedia versi lain