Penerapan Metode Long Short Term Memory Untuk Klasifikasi Pada Hate Speech
Application of the Long Short Term Memory Method for Classification in Hate Speech
Hate Speech atau ujaran kebencian merupakan tindakan yang dilakukan oleh suatu individu atau kelompok dalam bentuk hasutan, provokasi ataupun hinaan kepada individu atau kelompok yang lain dalam berbagai aspek seperti ras, gender, cacat, warna kulit, orientasi seksual, kewarganegaraan, agama, dan lain-lain yang dapat dilakukan dengan berbagai macam cara. Maka dilakukan penelitian dengan membentuk sistem pendeteksi Hate Speech menggunakan Metode Long Short Term Memory (LSTM). Metode LSTM merupakan suatu metode Deep Learning yang dapat mengenali informasi dari masa lalu dalam proses pembelajaran modelnya. Pada penelitian ini dataset didapat dari website kaggle dengan jumlah 13170 data berupa tweet. Dimana dataset tersebut dibagi menjadi 2 yaitu data latih dan data validasi dengan rasio perbandingan data latih dan data validasi sebesar 80% : 20%.
Hasil pengujian menunjukkan bahwa : 1) Metode LSTM dapat diterapkan pada model untuk proses klasifikasi pada hate speech menggunakan data dari situs kaggle yaitu Indonesian Abusive and Hate Speech. Model yang dibentuk terdiri dari Embedding Layer, LSTM Layer, 2 Dense Layer dengan fungsi aktivasi ReLu, Dropout Layer dan Fully Connected Layer dengan fungsi aktivasi softmax dan fungsi rugi Binary Cross Entropy, 2) Model memiliki peforma terbaik dengan menggunakan 256 neuron LSTM. Akurasi yang diperoleh pada data latih sebesar 86.23% dan akurasi pada data validasi sebesar 87.10% dengan epoch sebanyak 10.
Hate Speech is an act committed by an individual or group in the form of incitement, provocation or insult to another individual or group in various aspects such as race, gender, disability, skin color, sexual orientation, nationality, religion, etc. which can be done in various ways. So a research was carried out by establishing a Hate Speech detection system using the Long Short Term Memory (LSTM) Method. The LSTM method is a Deep Learning method that can recognize information from the past in the model learning process. In this study, the dataset was obtained from the Kaggle website with a total of 13,170 data in the form of tweets. Where the dataset is divided into 2, namely training data and validation data with a comparison ratio of training data and validation data of 80%: 20%.
The test results show that: 1) The LSTM method can be applied to the model for the classification process of hate speech using data from kaggle sites, namely Indonesian Abusive and Hate Speech. The model formed consists of an Embedding Layer, LSTM Layer, 2 Dense Layer with ReLu activation function, Dropout Layer and Fully Connected Layer with softmax activation function and Binary Cross Entropy loss function, 2) The model has the best performance using 256 LSTM neurons. The accuracy obtained on the training data is 86.23% and the accuracy on the validation data is 87.10% with 10 epochs.