IMPLEMENTASI LONG SHORT-TERM MEMORY DALAM MENDETEKSI KESALAHAN PRONUNCIATION BAHASA INGGRIS BERBASIS AUDIO
IMPLEMENTATION OF LONG SHORT-TERM MEMORY IN DETECTING ENGLISH PRONUNCIATION ERRORS BASED ON AUDIO
Perkembangan kecerdasan buatan membuka peluang dalam mendukung pembelajaran bahasa, khususnya dalam mendeteksi dan memperbaiki kesalahan pengucapan (pronunciation). Bahasa Inggris, sebagai bahasa internasional, sering kali menimbulkan tantangan dalam pengucapan yang dapat mengubah makna pesan jika ada kesalahan. Penelitian ini mengimplementasikan model Long Short-Term Memory (LSTM) untuk mendeteksi kesalahan pengucapan bahasa Inggris berbasis audio. Data yang digunakan terdiri dari dataset TIMIT, yang mewakili penutur asli Amerika, dan Common Voice untuk penutur non-Amerika. Data diproses dengan resampling, padding zero, trimming berbasis energi, dan normalisasi untuk mengekstraksi fitur yang lebih fokus pada bagian audio yang signifikan. Pembagian data dilakukan menggunakan K-Fold Cross-Validation (k=10) dengan proporsi 80% untuk pelatihan, 10% untuk validasi, dan 10% untuk pengujian. Berbagai kombinasi hyperparameter diuji, seperti batch size (16, 32, 64), epoch (50, 75, 100), optimizer (Adam, RMSprop, SGD), dan learning rate (0.001, 0.0001), dengan evaluasi menggunakan metrik akurasi, presisi, recall, dan F1-score. Kombinasi hyperparameter yang optimal ditemukan pada optimizer SGD dengan batch size 32 dan 64, epoch 75 dan 100, serta learning rate 0.0001. Model LSTM ini menghasilkan akurasi 94% dengan loss 14%, menunjukkan performa yang stabil. Penelitian ini membuka peluang untuk pengembangan sistem yang dapat memberikan umpan balik korektif otomatis bagi pengguna.
The development of artificial intelligence opens up opportunities in supporting language learning, particularly in detecting and correcting pronunciation errors. English, as an international language, often poses challenges in pronunciation that can change the meaning of the message if there are errors. This research implements the Long Short-Term Memory (LSTM) model to detect audio-based English pronunciation errors. The data used consists of the TIMIT dataset, which represents Native American speakers, and Common Voice for non-American speakers. The data was processed by resampling, zero padding, energy-based trimming, and normalisation to extract features that focus more on significant parts of the audio. Data sharing was done using K-Fold Cross-Validation (k=10) with a proportion of 80% for training, 10% for validation, and 10% for testing. Various hyperparameter combinations were tested, such as batch size (16, 32, 64), epoch (50, 75, 100), optimiser (Adam, RMSprop, SGD), and learning rate (0.001, 0.0001), with evaluation using accuracy, precision, recall, and F1-score metrics. The optimal hyperparameter combination was found in the SGD optimiser with batch sizes 32 and 64, epochs 75 and 100, and learning rate 0.0001. This LSTM model produced 94% accuracy with 14% loss, showing stable performance. This research opens up opportunities for the development of systems that can provide automatic corrective feedback for users.