BAGGING AND ADABOOST TECHNIQUE ON DECISION TREE AND SVM CLASSIFICATION ALGORITHMS FOR CLASSIFYING INDONESIAN LANGUAGE SMS
Perkembangan teknologi di berbagai sektor yang sangat cepat selama satu decade ini, membuat kita semakin dimudahkan dalam melakukan aktivitas sehari-hari. Dari bertukar surat melalui burung merpati dengan jangkauan terbatas hingga dapat melakukan panggilan video di seluruh dunia dengan selisih waktu yang hampir secara realtime. Pada tahun 2000-an adalah masa dimana mulai ada SMS (Short Message Service). SMS dengan cepat menjadi sarana komunikasi tidak langsung yang populer, situasi ini dimanfaatkan orang tidak bertanggung jawab untuk melakukan kegiatan melanggar hukum seperti penipuan.
Untuk mengurangi korban penipuan SMS, perlu untuk menerapkan filter SMS agar tidak semua SMS masuk ke pengguna, salah satu caranya adalah dengan melakukan klasifikasi dan prediksi dari SMS yang masuk apakah SMS tersebut mengandung penipuan atau tidak. Teknik yang biasa dipakai dalam klasifikasi adalah decision tree dan SVM, pada penelitian ini juga akan digunakan teknik ensemble yang dapat meningkatkan kinerja dari algoritma yang digunakan yaitu teknik bagging, data yang digunakan adalah dataset SMS dari penelitan Rahmi dan Wibisono[1].
Penggunaan teknik bagging memiliki pengaruh yang signifikan pada peningkatan nilai akurasi algoritma decision tree dan SVM, decision tree mengalami kenaikan nilai akurasi sebanyak 5% dari 86% menjadi 91% menggunakan data unigram tanpa TF-IDF pada uji 5-fold, algoritma SVM tidak mengalami peningkatan nilai akurasi yang signifikan saat diterapkan teknik bagging. SVM + Adaboost hanya membuahkan hasil yang baik saat diterapkan data jenis unigram & bigram tanpa tf-idf dan unigram tanpa tf-idf. Algoritma SVM + Adaboost tidak cocok menggunakan tf-idf karena dapat menyebabkan penurunan nilai akurasi.
The rapid development of technology in various sectors over the past decade has made it easier for us to do our daily activities. From exchanging letters via pigeons with a limited range to being able to make video calls around the world with almost real-time time difference. In the 2000s, the era of Short Message Service (SMS) began. SMS quickly became a popular means of indirect communication, and this situation utilized by irresponsible people to carry out unlawful activities such as fraud.
To reduce SMS fraud victims, it is necessary to apply SMS filters so that not all SMS enter the user, one way to do this is to classify and predict the incoming SMS whether the SMS contains fraud or not. The techniques commonly used in classification are decision tree and SVM, in this study will also be used ensemble techniques that can improve the performance of the algorithms used, namely bagging and adaboost techniques, the data used is the SMS dataset from Rahmi and Wibisono's research [1].
The use of bagging techniques has a significant effect on increasing the accuracy value of the decision tree and SVM algorithms, the decision tree experienced a 5% increase in accuracy value from 86% to 91% using unigram data without TF-IDF in the 5-fold test, the SVM algorithm did not experience a significant increase in accuracy value when bagging techniques were applied. SVM + Adaboost only produces good results when applied to unigram & bigram data types without tf-idf and unigram without tf-idf. SVM + Adaboost algorithm is not suitable to use tf-idf because it can cause a decrease in accuracy value.