CLUSTERING TIME SERIES ON EXTREME DATA (CASE STUDY: RAINFALL IN EAST JAVA)
Extreme Value Theory merupakan salah satu metode yang digunakan untuk memodelkan extreme data. Jika extreme data dikumpulkan berdasarkan waktu pengumpulan, maka termasuk ke dalam data time series. Untuk pengklasteran time series dapat menggunakan metode clustering time series, yang secara umum dapat dibedakan menjadi hierarki dan non-hierarki. Metode clustering non-hierarki yang sering digunakan yaitu K-Means karena efisien dalam pengklasteran. Namun, K-Means kesulitan dalam mengklaster data yang berdimensi tinggi sehingga digunakan Kernel K-Means. Kernel K-Means menggunakan fungsi kernel untuk mengubah data menjadi dimensi tinggi. Dalam penelitian ini, metode Kernel K-Means diterapkan pada extreme data yaitu pada data curah hujan. Adapun tujuan dari penelitian ini adalah untuk mengetahui penerapan clustering time series pada extreme data, dalam hal ini yaitu mengklaster daerah di Jawa Timur berdasarkan curah hujannya. Ada dua pendekatan yang digunakan dalam Extreme Value Theory, yaitu Block Maxima dan Peak Over Threshold. Dari dua pendekatan tersebut, akan dipilih model terbaik menggunakan nilai Akaike’s Information Criterion (AIC) terkecil. Diperoleh hasil bahwa pendekatan Block Maxima lebih baik dibandingkan dengan pendekatan Peak Over Threshold. Hasil estimasi parameter dari Extreme Value Theory dengan pendekatan Block Maxima, akan dilakukan pengklssteran menggunakan Kernel K-Means dengan 2 fungsi kernel, yaitu Polynomial Kernel dan Linear Kernel. Nilai Calinski Harabasz Index untuk Kernel K-Means baik dengan fungsi Polynomial Kernel maupun dengan fungsi Linear Kernel sebesar 30.00348. Sehingga pengklasteran menggunakan Kernel K-Means dengan fungsi Polynomial Kernel sama dengan pengklasteran menggunakan Kernel K-Means dengan fungsi Linear Kernel.
Kata kunci: Extreme Value Theory, Curah Hujan, Clustering
Extreme Value Theory is one of the methods used to model extreme data. If extreme data is collected based on the time of collection, it is included in the time series data. Time series clustering can use the time series clustering method, which in general can be divided into hierarchies and non-hierarchies. The non-hierarchical clustering method that is often used is K-Means because it is efficient in clustering. However, K-Means had difficulty in clustering high-dimensional data, so the Kernel K-Means was used. Kernel K-Means uses kernel functions to convert data into high dimensions. In this study, the Kernel K-Means method was applied to extreme data, namely rainfall data. The purpose of this study was to determine the application of time series clustering to extreme data, in this case, clustering areas in East Java based on rainfall. There are two approaches used in Extreme Value Theory, namely Block Maxima and Peak Over Threshold. From these two approaches, the best model will be selected using the smallest Akaike's Information Criterion (AIC) value. The results show that the Block Maxima approach is better than the Peak Over Threshold approach. The estimation results of the Extreme Value Theory with the Block Maxima approach, will be carried out by using Kernel K-Means with 2 kernel functions, namely Polynomial Kernel and Linear Kernel. The Calinski Harabasz Index value for Kernel K-Means with both the Polynomial Kernel function and the Linear Kernel function is 30.00348. So that clustering using Kernel K-Means with the Polynomial Kernel function is the same as clustering using Kernel K-Means with the Linear Kernel.
Keywords : Extreme Value Theory, Rainfall , Clustering