Semi-supervised Learning pada Pelabelan dalam Klasifikasi Multi-label Data Teks
Semi-supervised Learning for Labeling in Multi-label Text Data Classification
Penelitian ini mengimplementasikan dan mengevaluasi hasil pseudo-label dalam konteks pelabelan semi-supervised untuk klasifikasi multi-label data teks. Pendekatan ini menggunakan sebagian data yang sudah berlabel untuk melatih model yang kemudian menganotasi data yang belum berlabel. Hasil evaluasi menunjukkan peningkatan signifikan dalam efisiensi dan akurasi klasifikasi teks multi-label. Khususnya, penerapan teknik ini berhasil mengevaluasi hasil pseudo-label. Model yang dikembangkan mampu memprediksi label dengan hasil evaluasi yang tinggi, menunjukkan kesesuaian label sistem dengan pilihan label oleh responden mencapai rata-rata 89,28% keakuratan. Selain itu, kinerja model dalam mengelola dan mengklasifikasi data teks multi-label telah terbukti melalui pengujian yang dilakukan. Konsistensi tinggi antara hasil training dan testing set dengan F1-Score masing-masing sebesar 0.9944 dan 0.9888 untuk kombinasi algoritma Random forest dan teknik Label powerset menunjukkan bahwa model ini mampu mempertahankan kinerja yang sangat baik di berbagai kondisi pengujian.
This research implements and evaluates the results of pseudo-labeling in the context of semi-supervised learning for multi-label text data classification. The approach uses a portion of labeled data to train a model, which then annotates the unlabeled data. The evaluation results show a significant improvement in the efficiency and accuracy of multi-label text classification. Specifically, the application of this technique successfully evaluates the pseudo-label results. The developed model is capable of predicting labels with high evaluation results, showing a match between the system's labels and respondents' choices with an average accuracy of 89.28%. Additionally, the model's performance in managing and classifying multi-label text data has been proven through testing. The high consistency between training and testing set results, with F1-Scores of 0.9944 and 0.9888 respectively for the combination of Random Forest algorithm and Label Powerset technique, demonstrates that this model can maintain excellent performance under various testing conditions.