Pemodelan Hybrid-NLP Untuk Analisis Temuan Audit Akademik Dan Prediksi Kode Hierarki Rencana Kerja Anggaran
Hybrid-NLP Modeling for Academic Audit Findings Analysis and Budget Work Plan Hierarchy Code Prediction
Audit akademik dan perencanaan anggaran merupakan dua komponen strategis dalam Sistem Penjaminan Mutu Internal perguruan tinggi, namun masih menghadapi tantangan berupa analisis temuan berbasis teks yang tidak terstruktur serta penetapan kode hierarki Rencana Kerja Anggaran (RKA) yang kompleks. Penelitian ini mengembangkan pendekatan hybrid Natural Language Processing (NLP) untuk mengotomatisasi dua proses tersebut. Pada audit akademik, Latent Dirichlet Allocation (LDA) digunakan untuk mengekstraksi tema-tema utama dari deskripsi temuan auditor, sementara Support Vector Machine (SVM) digunakan untuk mengklasifikasikan temuan atau skor mutu berdasarkan teks. Pada prediksi RKA, penelitian ini membandingkan beberapa model NLP, meliputi baseline TF-IDF, model hybrid berbasis n-gram dan embedding, IndoBERT yang di-fine-tuning, serta hierarchical multi-output classifier untuk memetakan empat level struktur RKA. Hasil evaluasi menunjukkan bahwa model hierarchical dengan kombinasi fitur TF-IDF word–character dan IndoBERT fine-tuned memberikan performa terbaik, termasuk peningkatan akurasi mikro dan kemampuan menghasilkan Top-3 Path Prediction. Temuan ini menunjukkan bahwa NLP dapat meningkatkan objektivitas analisis audit akademik dan akurasi klasifikasi hierarki RKA, serta berpotensi mendukung transformasi digital penjaminan mutu dan perencanaan anggaran di perguruan tinggi.
Kata kunci: Natural Language Processing, audit akademik, LDA, SVM, RKA, hierarchical classification, IndoBERT.
Academic audit and budget planning are two strategic components of the Internal Quality Assurance System of higher education institutions, but they still face challenges in analyzing unstructured text-based findings and establishing complex hierarchical codes for the Budget Work Plan (RKA). This study develops a hybrid Natural Language Processing (NLP) approach to automate these two processes. In academic audits, Latent Dirichlet Allocation (LDA) is used to extract key themes from auditors' descriptions of findings, while Support Vector Machines (SVM) are used to classify findings or quality scores based on text. For RKA prediction, this study compares several NLP models, including a baseline TF-IDF model, a hybrid model based on n-grams and embeddings, fine-tuned IndoBERT, and a hierarchical multi-output classifier to map the four levels of the RKA structure. The evaluation results show that the hierarchical model with a combination of TF-IDF word-character features and fine-tuned IndoBERT provides the best performance, including improved micro-accuracy and the ability to generate Top-3 Path Predictions. These findings suggest that NLP can improve the objectivity of academic audit analysis and the accuracy of RKA hierarchical classification, and has the potential to support the digital transformation of quality assurance and budget planning in higher education.
Keywords: Natural Language Processing, academic audit, LDA, SVM, RKA, hierarchical classification, IndoBERT.