Klasifikasi Buku Menggunakan Metode Support Vector Machine pada Digital Library
Book Classification Require Support Vector Machine in Digital Library
Perpustakaan merupakan suatu tempat dimana memiliki berbagai koleksi buku hingga jurnal dan majalah. Namun dengan seiringnya perkembangan teknologi, kini perpustakaan dapat mengembangkan pelayanannya kedalam digital atau disebut dengan e-library. Hal ini sangat memudahkan pemustaka dalam pencarian data buku. Dalam penelitian ini bertujuan untuk menganalisis pada klasifikasi teks, dimana untuk mengetahui kualitas pada metode Support Vector Machine (SVM) dengan menggunakan kernel Linear. Dataset yang digunakan diambil dari https://opac.unesa.ac.id/, dimana terdiri dari sepuluh kategori buku yang disesuaikan dengan Dewey Decimal Classification (DDC). Setelah data terkumpul kemudian memasuki tahapan pre-processing, dimana data terlebih dahulu dilakukan penghapusan terhadap data ganda dan melalui case folding, tokenizing, stopwords. Pada penelitian ini menggunakan data 1.000 records sebagai uji data serta melakukan pengambilan data secara acak, hal ini dilakukan guna menyeimbangkan pada antar data. Selanjutnya dilakukan tahapan ekstraksi fitur dimana pada tahapan ini dilakukannya pengolahan teks menjadi numerik dengan menggunakan pembobotan pada Term Frequency-Inverse Document Frequency (TF-IDF). Kemudian data memasuki tahap pemodelan klasifikasi dengan menggunakan metode SVM. Dalam penggunaan metode ini terdapat empat jenis fungsi kernel, yaitu kernel Linear, RBF, Polynomial, dan Sigmoid dimana memiliki karakteristik masing-masing pada setiap fungsinya. Tujuan dari penilitian ini, yaitu untuk mengetahui pengaruh pada jumlah data latih terhadap kualitas dan efektivitas metode SVM, dimana dilakukan tiga kali pengujian pada model kombinasi data latih dan data uji, yaitu 60:40, 70:30, dan 80:20. Setelah ketiga pengujian telah memasuki tahap proses klasifikasi, maka dapat diambil kesimpulan bahwa metode SVM dalam klasifikasi teks pada digital library dapat digunakan dan menghasilkan akurasi tertinggi yang didapat dengan nilai 69,24% pada penggunaan kernel Linear dibandingkan dengan kernel lainnya, dimana memiliki nilai precision 71%, recall 61%, dan f1-score 64%.
A library is a place that has various collections of books to journals and magazines. But with the development of technology, now libraries can develop their services into digital or called e-library. This greatly facilitates the user is searching for book data. This study aims to analyze the text classification to determine the quality of the Support Vector Machine (SVM) method using the Linear kernel. The dataset used is taken from https://opac.unesa.ac.id/, which consists of ten categories of books adapted to the Dewey Decimal Classification (DDC). After the data is collected, it enters the pre-processing stage, where the data is first deleted from the duplicate data and through case folding, tokenizing, stopwords. In this study, 1000 records were used as test data and random data was collected, this was done to balance the data. The next step is the feature extraction stage where at this stage the text is processed into numeric by using weighting on the Term Frequency-Inverse Document Frequency (TF-IDF). Then the data enters the classification modeling stage using the SVM method. In the use of this method, there are four types of kernel functions, namely linear, RBF, Polynomial, and Sigmoid kernels which each have their own characteristics in each function. The purpose of this research is to determine the effect of the amount of training data on the quality and effectiveness of the SVM method, where three tests were carried out on the combination model of training data and test data, namely 60:40, 70:30, and 80:20. After the three tests have entered the classification process stage, it can be concluded that the SVM method in text classification in the digital library can be used and produces the highest accuracy obtained with a value of 69.24% in the use of the Linear kernel compared to other kernels, which has a precision value of 71 %, 61% recall, and 64% f1-score.