Deskripsi
Dataset ini merupakan kumpulan terstruktur URL phishing dan legitimate dengan karakteristik spesifik Indonesia yang dikembangkan untuk mendukung penelitian dan pengembangan sistem deteksi phishing berbasis analisis karakter, leksikal, dan distribusi pola URL. Dataset ini dirancang untuk merepresentasikan pola serangan phishing yang menargetkan pengguna di Indonesia, termasuk manipulasi bahasa lokal, penggunaan domain nasional, serta teknik obfuscation berbasis struktur URL. Tujuan utama pengembangan dataset ini adalah menyediakan sumber data yang valid, terkurasi, dan relevan secara kontekstual untuk pengujian model deteksi phishing, baik berbasis rule-based, similarity analysis, maupun machine learning. Dataset ini dapat digunakan sebagai benchmark nasional dalam penelitian keamanan siber, pengembangan algoritma adaptif, serta penguatan sistem proteksi infrastruktur digital. Nilai keunikan dataset ini terletak pada fokusnya terhadap karakteristik lokal (low-resource language context), pendekatan kurasi berbasis distribusi fitur, serta struktur data yang mendukung analisis entropy, cosine similarity, dan fitur leksikal URL secara sistematis. Dataset ini berkontribusi pada penguatan ketahanan siber nasional dan pencegahan kejahatan digital.