Pembuatan Aplikasi Untuk Mengklasifikasikan Citra Digital Wajah Anime Menggunakan Metode Prototypical Networks Pada Anime Hunter X Hunter
Development of an Application to Classify Digital Anime Face Images Using Prototypical Networks Method on Hunter X Hunter Anime
Kecerdasan buatan adalah salah satu cabang dari ilmu komputer yang dapat mereplika kecerdasan alami yaitu manusia. Salah satu cabang dari kecerdasan buatan adalah machine learning yaitu suatu keilmuan yang memungkinkan komputer untuk membaca pola dari sebuah data, untuk mendapatkan sebuah hasil yang dibutuhkan seperti contoh deteksi objek, pengenalan gambar, sistem rekomendasi, dll. Salah satu metode yang terkenal pada machine learning adalah artificial neural networks, yaitu sebuah metode yang cara kerjanya meniru cara kerja neuron pada otak manusia. Artificial neural networks biasanya memiliki beberapa lapisan, tetapi jika memiliki lapisan yang sangat dalam disebut deep artificial neural networks atau biasa disebut deep learning.
Tetapi dalam penerapannya menggunakan deep learning sendiri memiliki beberapa kelemahan, yaitu salah satunya adalah membutuhkan banyak sekali data untuk belajar. Maka dari itu penulis menggunakan metode prototypical networks yang memungkinkan artificial neural networks belajar hanya dengan menggunakan beberapa data saja. Prototypical networks belajar dengan cara membandingkan sebuah vector embeddings yang didapatkan dari artificial neural networks dengan setiap vector embeddings rata-rata yang disimpan pada sebuah file JSON yang juga didapatkan dari artificial neural networks yang sama sebagai pusat dari setiap label, setelah itu diukur jarak semua vector embeddings tersebut. Jarak yang terpendek adalah hasil label yang dibutuhkan.
Disini penulis membandingkan beberapa metode yang ada dengan pendekatan prototypical networks untuk mendapatkan hasil yang terbaik pada studi kasus klasifikasi citra digital wajah anime Hunter X Hunter, dikarenakan wajah anime memiliki banyak ragam jenis gaya, seni, dan pola tergantung dari siapa pembuatnya. Dari hasil penelitian yang penulis lakukan dengan membandingkan metode densenet121, efficientnet_b4, inception_v4, mobilenetv3_large_100, resnet50, vgg16, dan vit_base_patch16_224_dino dengan menggunakan pendekatan prototypical networks, hasil yang terbaik adalah menggunakan metode vit_base_patch16_224_dino total 3 data mendapatkan hasil accuracy 0.6600, precision 0.6642, recall 0.6600, dan f1-score 0.6584.
Artificial intelligence is one branch of computer science that aims to replicate natural intelligence, such as human intelligence. Machine learning is a subfield of artificial intelligence that enables computers to learn patterns from data to achieve desired outcomes, such as object detection, image recognition, recommendation systems, and more. One famous method in machine learning is artificial neural networks, which mimic the functioning of neurons in the human brain. Artificial neural networks typically consist of multiple layers, but when they have a very deep structure, they are called deep artificial neural networks or simply deep learning.
However, deep learning has some drawbacks in its implementation, one of which is the need for a large amount of data for training. Therefore, the author utilizes the prototypical networks method, which allows artificial neural networks to learn using only a few data points. Prototypical networks learn by comparing vector embeddings obtained from artificial neural networks with each vector embedding stored in a JSON file, which are also obtained from the same artificial neural networks, serving as centers for each label. Then, the distances between all vector embeddings are measured, and the shortest distance represents the desired label.
In this study, the author compares various methods, including densenet121, efficientnet_b4, inception_v4, mobilenetv3_large_100, resnet50, vgg16, and vit_base_patch16_224_dino, using the prototypical networks approach to achieve the best results in classifying digital images of Hunter X Hunter anime characters' faces. Anime faces exhibit a wide variety of styles, art, and patterns depending on the artist. Through the research conducted by the author, the best results were obtained using the vit_base_patch16_224_dino method, achieving an accuracy of 0.6600, precision of 0.6642, recall of 0.6600, and an f1-score of 0.6584 with only three data points.