KLASIFIKASI BERDASARKAN QUESTION DALAM STACK OVERFLOW MENGGUNAKAN ALGORITMA NAIVE BAYES
CLASSIFICATION BASED ON QUESTION IN STACK OVERFLOW USING NAIVE BAYES ALGORITHM
Stackoverflow merupakan sebuah website yang menyediakan banyak informasi tentang pemrograman. Pengguna dapat berinteraksi dengan pengguna lainnya dalam sebuah forum diskusi yang diajukan. Pengguna dapat mengajukan sebuah pertanyaan yang kemudian akan ditanggapi oleh pengguna lain. Ketika mengajukan sebuah pertanyaan, pengguna harus memasukkan kategori yang tepat pada pertanyaan yang diajukan agar mendapatkan respons atau jawaban yang sesuai. Berdasarkan beberapa kasus yang terjadi masih banyak pengguna website mengalami kebingungan ketika memilih kategori pertanyaan yang diajukan. Akibatnya, pertanyaan yang diajukan tidak mendapat respons yang tepat atau kurang sesuai. Sehingga, penelitian ini diajukan untuk membantu proses pengkategorian pertanyaan pada website Stackoverflow. Penelitian menggunakan Algoritma Naïve Bayes untuk memprediksi kategori pertanyaan yang diajukan. Pada penelitian ini dilakukan beberapa proses, dimulai dengan proses input dataset dilanjutkan dengan pembacaan file dataset. Kemudian dataset akan melalui preprocessing yang dilanjutkan dengan pembobotan dan proses ekstraksi fitur dengan Algoritma TF-IDF. Selanjutnya, data diproses menggunakan Algoritma Naïve Bayes yang akan menghasilkan kategori pertanyaan. Selanjutnya dilakukan proses evaluasi model untuk menentukan model terbaik yang akan digunakan untuk tampilan antarmuka aplikasi. Hasil yang didapat dari tahap evaluasi model dengan 4 kali percobaan menggunakan 10.000-40.000 data menghasilkan nilai akurasi, precision, recall, dan f1-score tertinggi sebesar 75%, 75%, 75% dan 74%. Dari hasil pengujian yang telah dilakukan Algoritma Naïve Bayes dapat digunakan sebagai klasifikasi text dan menghasilkan nilai yang cukup baik.
Kata Kunci— text mining, Algoritma Naïve Bayes, stackoverflow, Algoritma TFIDF
Stackoverflow is a website that provides a lot of information about programming. Users can interact with other users in a proposed discussion forum. Users can ask a question which other users will then respond to. When asking a question, the user must enter the correct category of the question asked in order to get the appropriate response or answer. Based on several cases that occur, there are still many website users who experience confusion when choosing the category of questions asked. As a result, the questions asked did not get the right response or were not appropriate. Thus, this research was proposed to assist the process of categorizing questions on the Stackoverflow website. The research uses the Naïve Bayes Algorithm to predict the categories of questions asked. In this study, several processes were carried out, starting with the dataset input process followed by reading the dataset file. Then the dataset will go through preprocessing followed by weighting and feature extraction process with the TF-IDF Algorithm. Furthermore, the data is processed using the Naïve Bayes Algorithm which will generate question categories. Furthermore, the model evaluation process is carried out to determine the best model to be used for the application interface display. The results obtained from the model evaluation stage with 4 trials using 10,000-40,000 data resulted in the highest accuracy, precision, recall, and f1-score values of 75%, 75%, 75% and 74%. From the test results that have been carried out the Nave Bayes Algorithm can be used as a text classification and produces a fairly good value.
Keywords— text mining, Naïve Bayes Algorithm, stackoverflow, TF-IDF Algorithm