Deskripsi
Basis data “Korpus Teks Silabifikasi Grafemis Entitas Nama 103k” berisi 103.371 entitas nama (nama orang, nama perusahaan, nama tempat, dan lain-lain) beserta titik-titik silabifikasinya, yang dikumpulkan dari Yellow Pages dan berbagai sumber lainnya. Korpus 103.371 entitas nama tersebut dibagi ke dalam Trainset (data latih) dan Testset (data uji) menggunakan skema 5-fold cross-validation. Sebuah Trainset berisi sekitar 82.696 entitas nama sedangkan sebuah Testset berisi sekitar 20.675 entitas nama.