PENERAPAN ALGORITMA XGBOOST DAN CATBOOST UNTUK KLASIFIKASI HIPERTENSI LANSIA PADA DATA IFLS 5
APPLICATION OF XGBOOST AND CATBOOST ALGORITHMS FOR ELDERLY HYPERTENSION CLASSIFICATION ON IFLS 5 DATA
Hipertensi pada lansia menimbulkan tantangan klasifikasi yang kompleks, ditandai dengan fitur kategorikal yang berisik dalam dataset survei kesehatan. Penelitian ini berfokus pada penggunaan algoritma XGBoost dan CatBoost untuk mengatasi hambatan dalam mengklasifikasikan hipertensi pada lansia (≥60 tahun) menggunakan data IFLS 5. Berbeda dengan metode standar yang berfokus pada akurasi, evaluasi ini menekankan metrik Recall untuk mengurangi kesalahan False Negative, yang sangat penting untuk memastikan keamanan dalam skrining medis. Melalui penyesuaian hyperparameter yang teliti menggunakan GridSearchCV dan validasi silang 5-fold pada 2.774 peserta, model-model tersebut menunjukkan kompromi algoritmik yang jelas. CatBoost menonjol dalam stabilitas generalisasi dengan akurasi tertinggi (66,49%), sementara XGBoost menunjukkan keunggulan yang signifikan dalam sensitivitas (Recall 80,18%) dengan menerapkan regularisasi secara terampil untuk mendeteksi sinyal kelas minoritas. Evaluasi signifikansi fitur menggunakan metrik Information Gain dan PredictionValuesChange memverifikasi bahwa indikator biologis, terutama diabetes dan BMI, merupakan prediktor utama dibandingkan dengan variabel demografis. Secara ringkas, meskipun CatBoost menawarkan keandalan, XGBoost lebih cocok untuk membangun sistem dukungan keputusan klinis di mana prioritas deteksi sensitivitas sangat penting.
Hypertension in the elderly poses complex classification challenges, characterized by noisy categorical features in health survey datasets. This study focuses on using XGBoost and CatBoost algorithms to overcome barriers when classifying hypertension in the elderly (≥ 60 years) using IFLS 5 data. Unlike standard methods that focus on accuracy, this evaluation emphasizes the recall metric to reduce false negative errors, which is crucial for ensuring safety in medical screening. After carefully tuning the hyperparameters using GridSearchCV and 5-fold cross-validation on 2,774 participants, the models revealed clear algorithmic trade-offs. CatBoost demonstrated superior generalization stability and achieved the highest accuracy (66.49%), while XGBoost exhibited significant superiority in sensitivity (recall of 80.18%) by effectively applying regularization to detect minority class signals. Evaluating feature significance using the information gain and prediction values change metrics verified that biological indicators, particularly diabetes and BMI, were the main predictors compared to demographic variables. In summary, CatBoost is reliable, but XGBoost is better suited for building clinical decision support systems where the priority is detecting sensitivity.