Analisis Perbandingan Metode Burkhard Keller Tree dan SymSpell dalam Spell Correction Bahasa Indonesia
Comparison of Burkhard Keller Tree and SymSpell Methods in Indonesian Spell Correction
Dalam pembuatan sistem spell correction banyak faktor yang perlu diperhatikan untuk membuat sistem yang efektif dan berkualitas, salah satunya adalah kecepatan dan kebutuhan sistem. Beberapa metode dapat diterapkan untuk membuat sistem ini. Salah satu metode yang sering ditemui adalah Burkhar Keller Tree atau BK Tree. BK Tree merupakan metode populer yang digunakan dalam sistem spell correction karena kemudahannya, kemudian ada metode Symmetric Delete Spelling Correction atau SymSpell yang dikatakan memiliki kinerja yang sangat baik. Penelitian ini dilakukan untuk menguji dan menganalisa kinerja dari kedua metode tersebut sebagai sistem spell correction untuk Bahasa Indonesia. Hasil penelitian dengan kamus berisi 1.597.416 kosakata membuktikan metode BK Tree memiliki kinerja kecepatan yang lebih rendah dimana dalam pengujian catatan waktu tertinggi metode ini menyentuh 52 detik, namun metode memiliki kebutuhan sistem yang lebih kecil. Sedangkan metode SymSpell memiliki kinerja kecapatan yang jauh lebih cepat dengan nilai catatan waktu dalam pengujian tertinggi adalah 0.05 detik, namun kebutuhan sistem yang lebih besar. Pada pengujian akurasi didapatkan bahwa kedua metode memiliki hasil yang sama dengan rata-rata nilai accuracy, precision, dan recall secara berurutan sebesar 0,95, 0,89, dan 0,73. Dalam penelitian juga diketahui pentingnya sumber corpus yang digunakan untuk menyusun kamus, dimana penggunaan corpus yang bersumber dari Wikipedia Indonesia yang digunakan dalam penelitian ini masih kurang tepat karena masih ditemukannya kata-kata yang salah dalam penulisan dalam corpus tersebut.
In the making of a spell correction system, there are many factors that need to be considered to create an effective and high quality system, one of which is speed and system requirements. Several methods can be applied to create this system. One method that is often encountered is the Burkhar Keller Tree or BK Tree. BK Tree is a popular method used in spell correction systems because of its simplicity, and then there is Symmetric Delete Spelling Correction method or SymSpell which is said to have very good performance. This research was conducted to test and analyze the performance of both methods as an Spell Correction system for Indonesian Language. The results of the study with a dictionary containing 1.597.416 vocabularies prove that the BK Tree method has lower speed performance where in the test the highest record time for this method touches 52 seconds, but the method has smaller system requirements. Meanwhile, the SymSpell method has much faster speed performance with the highest recorded time value in testing being 0.05 seconds, but the system requirements are higher. In accuracy testing obtained that both methods have the same results with an average value of accuracy, precision, and recall respectivelly of 0.95, 0.89, and 0.73. In this study it was also known that the importance of the corpus source used to compile the dictionary, where the use of the corpus sourced from Wikipedia Indonesia used in this research is still not quite right because there are still found words with typographical error in the corpus.