Twitter merupakan salah satu media sosial yang banyak digunakan untuk analisis sentimen, atau opinion mining. Salah satu aplikasi analisis sentimen adalah deteksi ujaran kebencian. Pada penelitian ini digunakan deteksi ujaran kebencian dari data twitter. Untuk mendeteksi ujaran kebencian dilakukan dengan klasifikasi teks tweet yang diposting oleh pengguna twitter. Ujaran kebencian diklasifikasikan dengan algoritme GRLVQ. GRLVQ merupakan algoritme gabungan antara Relevance Learning Vector Quantization (RLVQ) dan Generelized Learning Vector Quantization (GLVQ). Algoritma GRLVQ mempunyai kelebihan dapat menyeleksi fitur selain dapat mengklasifikan. Data yang digunakan pada deteksi ujaran kebencian adalah data pilpres yang dianotasi oleh beberapa mahasiswa dan data pilkada yang telah dianotasi. Pra proses data dilakukan setelah data dianotasi. Pra proses yang digunakan pada penelitian ini adalah tokenizing, stemming, cleansing, filtering dan konversi string. Data telah diuji dengan berbagai rasio yaitu 7:3, 8:2, dan 9:1. Uji deteksi ujaran kebencian menggunakan algoritme GRLVQ pada data pilpres menghasilkan akurasi tertinggi sebesar 70% dengan waktu 0.02 detik dan pada data pilkada menghasilkan akurasi tertinggi sebesar 78.87% dengan waktu 0.035 detik. Sedangkan, deteksi ujaran kebencian menggunakan algoritma SVM menghasilkan akurasi pada data pilpres sebesar 61,67% dengan waktu 0,96 detik dan pada data pilkada sebesar 69,2308% dengan 1,22 detik. Hasil eksperimen menunjukkan deteksi ujaran kebencian menggunakan algoritme GRLVQ lebih baik dibanding menggunakan algoritme SVM.
Kata kunci : Ujaran Kebencian, Twitter, GRLVQ Analisis sentimen
Twitter is one of the social media which is widely used for sentiment analysis, or opinion mining. Detecting of hate speech is one kind of sentiment analysis application. In this study used hate speech detection from twitter data. Hate speech detection is done by tweet text classification posted. Hate speech is classified by the Generalized Relevance Learning Vector Quantization (GRLVQ) algorithm. GRLVQ algorithm has the advantage of being able to select features that can be classified. The data used in detection of hate speech is the presidential election data annotated by several students and annotated DKI election data. The pre-process used in this study is tokenizing, stemming, cleansing, filtering and string conversion. The hate speech detection test using the GRLVQ algorithm in the presidential election data produced the highest accuracy of 70% with a time of 0.02 seconds and in the election data, the highest accuracy was 78.87% with a time of 0.035 seconds. Meanwhile, the detection of hate speech using the SVM algorithm resulted in an accuracy of presidential data of 61.67% with a time of 0.96 seconds and in the election data at 69.2308% with 1.22 seconds. The experimental results show that detection of hate speech using the GRLVQ algorithm is better than using the SVM algorithm.
Keywords: GRLVQ, Hate speech, Sentiment Analysis, SVM, Twitter.