Deskripsi
Karya tulis ini membahas tentang teknik preprocessing seperti: 1. Untuk menangani nilai kosong pada baris data dengan cara mengganti nilai tersebut menggunakan nilai median. 2. Untuk menangani data yang tidak seimbang antara penderita diabetes dan bukan penderita diabetes menggunakan teknik random oversampling. 3. Untuk mengetahui urutan atribut yang berpengaruh terhadap kelas diabetes atau tidak diabetes menggunakan teknik gini index. 4. Selain menggunakan teknik random oversampling pada permasalahan data tidak seimbang, pada karya tulis ini dilakukan pendekatan lain yaitu data augmentation dengan menggunakan distribusi posterior. Setelah melakukan teknik preprocessing di atas, maka selanjutnya dilakukan klasfikasi data diabetes menggunakan model random forest untuk melihat hasil akurasi terhadap penerapan model-model preprocessing.