Alim, Evan Kurnia
(2017)
Analisis Algoritma Pemenggalan Suku Kata Bahasa Indonesia = Indonesian Syllabification Algorithm Analysis.
Bachelor thesis, Universitas Pelita Harapan.
Full text not available from this repository.
Abstract
Bahasa Indonesia terdiri dari banyak kata. Salah satu algoritma dari Pemrosesan Bahasa Alami yang dapat dilakukan adalah pemenggalan suku kata, yaitu memenggal sebuah kata berdasarkan suku katanya. Salah satu algoritma dari pemenggalan suku kata Bahasa Indonesia akan dikembangkan dalam Tugas Akhir ini untuk menggunakan analisis fonem untuk mencari batas-batas suku kata dari setiap kata yang akan dimasukkan. Analisis fonem digunakan untuk mencari permulaan, nukleus, dan koda dari setiap kata lalu batas suku kata dicari dengan menggunakan prinsip sonoritas dan legalitas. Algoritma lain yang akan digunakan dalam Tugas
Akhir ini adalah algoritma Hunspell, yang menggunakan angka ganjil dan genap untuk mencari batas-batas suku kata dari setiap kata masukan. Selain itu ada algoritma morfem, yaitu algoritma yang memenggal suku kata berdasarkan imbuhannya.
Data yang digunakan dan dimasukkan dalam Tugas Akhir adalah kata-kata yang terdapat dalam Kamus Besar Bahasa Indonesia (KBBI) edisi keempat, dengan sampel sebanyak 546 kata dan data pelatihan untuk algoritma legalitas sebanyak 54 kata.
Hal yang akan dibahas dalam Tugas Akhir ini adalah seberapa efisien dan akurat algoritma-algoritma yang telah dibuat, yaitu algoritma fonem, sonoritas, legalitas, morfem, dan Hunspell. Data statistika untuk setiap algoritma pemenggalan suku kata juga akan dicantumkan dalam Tugas Akhir ini, termasuk akurasi terhadap acuan pemenggalan suku kata pada KBBI (dalam persen) dan efisiensi, yaitu waktu berjalan setiap algoritma dan perbandingan antar algoritma. Tampak bahwa yang paling akurat adalah algoritma Hunspell dengan akurasi sekitar 98% dan yang paling efisien adalah algoritma Fonem dengan efisiensi 5 kali algoritma Hunspell.
/
Indonesian has a vast amount of words. One of the algoritms of Natural Language Processing that can be done is syllabification, that is, separating a word by its syllables. One of the algoritms of Indonesian syllabification which will be developed in this Final Project is using phoneme analysis to search for syllable boundaries in each input word. Phoneme analysis is used to find onset, nucleus, and coda from each word and syllable boundaries are found using Sonority and Legality principle.
Another algorithm which will be used in this Final Project is Hunspell Algorithm, which uses odd and even numbers to find syllable boundaries from the input word. There is also morpheme algorithm, which syllabifies a word according to the affixes. The data which will be used and inputted in this Final Project are words that exists in the fourth edition of Indonesian Unabridged Dictionary, with sample size of 546 words and training data of 54 words for the legality algorithm. The eficiency and accuracy of each algorithm, which consists of phoneme, sonority, legality,
morpheme, and Hunspell algorithm, will be explained in this Final Project. Each syllabification algorithm’s statistical data will also be included in this Final Project, which includes the accuracy of each algorithm using Indonesian Unabridged Dictionary syllabification as the reference (in percentage), and efficiency, which is the time taken for each of the algoritms and compares between the algorithms. It seems that the most accurate algorithm is Hunspell algorithm and the most efficient algorithm with 98% accuracy is Phoneme algorithm is the most efficient with around
around 5 times faster than Hunspell.
Actions (login required)
|
View Item |