Tezin Türü: Doktora
Tezin Yürütüldüğü Kurum: Eskişehir Osmangazi Üniversitesi, Fen Bilimleri Enstitüsü, Uygulamalı İstatistik Bilim Dalı, Türkiye
Tezin Onay Tarihi: 2022
Tezin Dili: Türkçe
Öğrenci: MOHAMMED I. S. SOBOH
Danışman: Zeki Yıldız
Özet:
Kümeleme analizi, veri noktalarını bu noktaların özelliklerine göre belirli gruplara ayırmak için kullanılır. Klasik ve bulanık kümeleme olmak üzere iki tür kümeleme vardır. Klasik kümeleme analizinde, her veri noktasına bir veya sıfır üyeliği verilir, yani veri noktası yalnızca bir kümeye ait olabilirken, bulanık kümeleme analizinde veri noktaları aynı anda birden fazla kümeye ait olabilir. Sıfır ile bir arasında bir üyelik ağırlığına sahip olmaktadır. Kümeleme analizinde en çok bilinen ve yaygın olarak kullanılan algoritmalardan biri Gauss karışımı dayalı EM algoritmasıdır. Bu algoritma beklenti kısmı ve maksimizasyon kısmı olmak üzere iki ana kısımdan oluşmaktadır. Beklenti adımında, her bir kümeye ait olduğunu gösteren her noktanın ağırlığı hesaplanır, daha sonra maksimizasyon adımı bu ağırlıklarını kullanarak olabilirlik tahmin edicilerini maksimize ederek her küme için ortalama ve kovaryans matrisini güncellemek için bu ağırlıkları kullanır. Daha sonra bu yeni değerler beklenti adımına geçirilir ve yeni ağırlıkların hesaplanmasında kullanılır. Bu yinelemeli süreç, algoritma yakınsayana ve ortalama ile kovaryans matrisindeki değişiklik çok küçük olana kadar devam eder. Bu tezin amacı, bulanık C-ortalamalar algoritmasından elde edilen sonuçları EM algoritması için başlangıç değerlerini kullanarak Bulanık C-ortalamalar algoritmasından elde edilen sonuçlarda daha yüksek doğru sınıflandırma yüzdesi elde etmek için EM algoritmasını kullanmaktır. Önerilen algoritma (BCOEM), iris ve wine veri setlerine uygulanmış ve tek başına bulanık C-ortalamalar algoritmasının uygulanmasından elde edilen sonuçlarla karşılaştırıldığında daha iyi kümeleme analizi sonuçları verdiği ortaya konulmuştur. Ayrıca BCOEM ve Bulanık C-ortalamalar algoritmalarına ek olarak, simülasyon çalışmasında oluşturulan çeşitli veri setleri üzerinde Gustafson-Kessel ve Gath-Geva kümeleme algoritmaları uygulanmış ve çoğu durumda BCOEM'den elde edilen sınıflandırma yüzdesi, özellikle 500'den büyük birim içeren veri setleri için en iyisi olarak bulunmuştur.