Deskripsi
Basis data “Korpus Teks Silabifikasi Grafemis Kata Formal 50k” berisi 50 ribuan (tepatnya 50.569) kata beserta titik-titik silabifikasinya, yang dikumpulkan dari Kamus Besar Bahasa Indonesia (KBBI) Edisi 3. Korpus 50 ribuan kata tersebut dibagi ke dalam Trainset (data latih) dan Testset (data uji) menggunakan skema 5-fold cross-validation. Sebuah Trainset berisi 40 ribuan kata sedangkan sebuah Testset berisi 10 ribuan kata.