Digilib | Universitas Negeri Surabaya

Jenis Dokumen

Disertasi
Karya Akhir S1
Karya Akhir S2
Karya Akhir S3
Skripsi
Tesis
Tugas Akhir D3
Tugas Akhir D4

Fakultas

Ilmu Pendidikan
Bahasa & Seni
Matematika dan Ilmu Pengetahuan Alam
Ilmu Sosial & Politik
Hukum
Psikologi
Teknik
Ekonomika dan Bisnis
Ilmu Keolahragaan dan Kesehatan
Vokasi
Pascasarjana

PERBANDINGAN KINERJA INFRASTRUKTUR PARALEL DALAM PEMROSESAN DATA DENGAN MENGGUNAKAN APACHE SPARK

Kode Dokumen : 0005/FT-TI/2024

Penulis Utama : Prayogi Kardani

NIM Penulis Utama: 19051204055

Tahun : 2024

Judul ID :

PERBANDINGAN KINERJA INFRASTRUKTUR PARALEL DALAM PEMROSESAN DATA DENGAN MENGGUNAKAN APACHE SPARK

Judul EN : COMPARISON OF INFRASTRUCTURE PERFORMANCE PARALLEL IN DATA PROCESSING USING APACHE SPARK

Sumber : UNESA - Fakultas Teknik - Jurusan S1 Teknik Informatika - 19051204055 - 2024

Jenis Dokumen : Skripsi

Abstrak ID :

Perkembangan data yang pesat memerlukan infrastruktur pemrosesan yang efektif. Apache Spark, platform komputasi data, mampu memproses data besar melalui infrastruktur paralel. Evaluasi terhadap kinerja Spark diperlukan, mengacu pada penelitian sebelumnya yang menunjukkan peningkatan efisiensi. Penelitian ini membandingkan kinerja infrastruktur paralel Spark dalam pemrosesan data besar. Apache Spark diimplementasikan dalam sebuah cluster dengan 1 master dan 2 worker nodes untuk memproses data besar secara paralel.

Penelitian ini mengevaluasi kinerja Apache Spark dalam pemrosesan data besar menggunakan cluster berkonfigurasi 1 master dan 2 worker nodes. Eksperimen menghasilkan temuan bahwa pada tahap counting, aggregation, dan filtering, cluster dengan 2 worker nodes menunjukkan peningkatan efisiensi yang signifikan, dengan waktu eksekusi lebih cepat dibandingkan dengan konfigurasi lainnya.

Analisis penggunaan CPU menjelaskan bahwa cluster dengan satu master dan dua client mencapai penggunaan CPU yang lebih efisien, terutama pada worker nodes. Ditemukan bahwa penggunaan CPU pada master node tetap rendah, sementara worker nodes, khususnya pada mode cluster dengan dua client, dapat mengoptimalkan penggunaan CPU dengan tingkat yang lebih tinggi.

Kata kunci: Apache Spark, Infrastruktur Paralel, Big Data, Dataset, Perbandingan, Kinerja, Cluster, Master, Client, Pemrosesan Data

Abstrak EN :

Effective processing. Apache Spark, a data computing platform, is capable of processing big data through a parallel infrastructure. Evaluation of Spark performance is required, referring to previous research showing improved efficiency. This study compares the performance of Spark's parallel infrastructure in big data processing. Apache Spark is implemented in a cluster with 1 master and 2 worker nodes to process big data in parallel. This study evaluates Apache's performance in the processing of big data using clusters configured with 1 Master and 2 workers nodes. The experiment resulted in the finding that at the counting, aggregation, and filtering stages, clusters with 2 worker nodes showed significant efficiency improvements, with faster execution times compared to other configurations.

The analysis of CPU usage explained that clusters with one master and two clients achieved more efficient CPU use, especially on worker nodes. It was found that CPU use on master nodes remained low, while worker Nodes, especially in cluster modes with two clients, could optimize CPU use at a higher level.

Keywords: Apache Spark, Parallel Infrastructure, Big Data, Dataset, Comparison, Performance, Cluster, Master, Client, Data Processing

Link Artikel

File Abstrak

File Lampiran