PERBANDINGAN KINERJA INFRASTRUKTUR PARALEL DALAM PEMROSESAN DATA DENGAN MENGGUNAKAN APACHE SPARK
Perkembangan data yang pesat memerlukan infrastruktur pemrosesan yang efektif. Apache Spark, platform komputasi data, mampu memproses data besar melalui infrastruktur paralel. Evaluasi terhadap kinerja Spark diperlukan, mengacu pada penelitian sebelumnya yang menunjukkan peningkatan efisiensi. Penelitian ini membandingkan kinerja infrastruktur paralel Spark dalam pemrosesan data besar. Apache Spark diimplementasikan dalam sebuah cluster dengan 1 master dan 2 worker nodes untuk memproses data besar secara paralel.
Penelitian ini mengevaluasi kinerja Apache Spark dalam pemrosesan data besar menggunakan cluster berkonfigurasi 1 master dan 2 worker nodes. Eksperimen menghasilkan temuan bahwa pada tahap counting, aggregation, dan filtering, cluster dengan 2 worker nodes menunjukkan peningkatan efisiensi yang signifikan, dengan waktu eksekusi lebih cepat dibandingkan dengan konfigurasi lainnya.
Analisis penggunaan CPU menjelaskan bahwa cluster dengan satu master dan dua client mencapai penggunaan CPU yang lebih efisien, terutama pada worker nodes. Ditemukan bahwa penggunaan CPU pada master node tetap rendah, sementara worker nodes, khususnya pada mode cluster dengan dua client, dapat mengoptimalkan penggunaan CPU dengan tingkat yang lebih tinggi.
Kata kunci: Apache Spark, Infrastruktur Paralel, Big Data, Dataset, Perbandingan, Kinerja, Cluster, Master, Client, Pemrosesan Data
Effective processing. Apache Spark, a data computing platform, is capable of processing big data through a parallel infrastructure. Evaluation of Spark performance is required, referring to previous research showing improved efficiency. This study compares the performance of Spark's parallel infrastructure in big data processing. Apache Spark is implemented in a cluster with 1 master and 2 worker nodes to process big data in parallel. This study evaluates Apache's performance in the processing of big data using clusters configured with 1 Master and 2 workers nodes. The experiment resulted in the finding that at the counting, aggregation, and filtering stages, clusters with 2 worker nodes showed significant efficiency improvements, with faster execution times compared to other configurations.
The analysis of CPU usage explained that clusters with one master and two clients achieved more efficient CPU use, especially on worker nodes. It was found that CPU use on master nodes remained low, while worker Nodes, especially in cluster modes with two clients, could optimize CPU use at a higher level.
Keywords: Apache Spark, Parallel Infrastructure, Big Data, Dataset, Comparison, Performance, Cluster, Master, Client, Data Processing