YSA SINIFLANDIRMA MODELLERİNDE KORELASYON-HİPOTEZ TESTİ TABANLI FİLTRELEME YOLUYLA GİRDİ SEÇİMİ

Uluskan, MERYEM; ŞENLİ, Halil

doi:10.51541/nicel.1372774

YSA SINIFLANDIRMA MODELLERİNDE KORELASYON-HİPOTEZ TESTİ TABANLI FİLTRELEME YOLUYLA GİRDİ SEÇİMİ

Uluskan M., ŞENLİ H. D.

Nicel bilimler dergisi (Online), cilt.6, sa.1, ss.68-102, 2024 (TRDizin)

Yayın Türü: Makale / Tam Makale
Cilt numarası: 6 Sayı: 1
Basım Tarihi: 2024
Doi Numarası: 10.51541/nicel.1372774
Dergi Adı: Nicel bilimler dergisi (Online)
Derginin Tarandığı İndeksler: TR DİZİN (ULAKBİM)
Sayfa Sayıları: ss.68-102
Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu
Eskişehir Osmangazi Üniversitesi Adresli: Evet

Bu çalışmada başlıca amaç, yüksek miktardaki olası girdi değişken sayısını, bu değişkenler arasındaki korelasyonları göz önünde bulundurarak azaltarak sınıflandırma performansı yüksek Yapay Sinir Ağı (YSA) modelleri elde etmektir. Bunu gerçekleştirmek için 30 adet olası girdi değişkeni olan bir meme kanseri teşhis problemi ele alınmış ve önerilen korelasyon-hipotez testi tabanlı bir filtreleme yöntemi ile girdi değişken sayısı azaltılarak YSA modeli oluşturulmuştur. Önerilen modelin etkinliği farklı girdi değişken setlerini içeren altı YSA modeli ile karşılaştırılmıştır. Bu altı model, tüm girdi değişkenlerini içeren modelle, model tabanlı seçim yöntemlerinden aşamalı regresyon, ileri doğru seçim ve geriye doğru eleme yöntemleri ile seçilmiş girdi değişkenleriyle elde edilmiş olan modelleri kapsamaktadır. Modeller oluşturulurken veri seti farklı eğitim-test yüzdelerine bölünmüş ve gizli katmanda farklı nöron sayıları denenmiştir. Modellerin sınıflandırma performanslarını karşılaştırmak için doğruluk, duyarlılık, kesinlik ve F1-skoru ölçütleri kullanılmıştır. Sonuç olarak, önerilen korelasyon tabanlı filtreleme yöntemi ile seçilen dokuz girdi değişkenli modeller için doğruluk değeri 0,93-0,95 arasında bulunmuş olup bu değer belirgin şekilde iyidir. Duyarlılık değeri modelimiz için 0,85-0,88 aralığında ve yeterli düzeyde elde edilmiştir. Kesinlik değerinin önerilen modelimiz için 0,98-0,988 aralığında ve çok yüksek olduğu belirlenmiştir. Bu çalışmada önerilen modelin F1-skoru 0,907-0,931 arasında olup yeterince yüksek bir değere sahiptir. Karşılaştırılan modeller içinde önerilen dokuz girdi değişkenli modelin değişken sayısının en düşük olduğu, yani en sade model olduğu ve gizli katmanda sadece 10 nöronla bile iyi bir sınıflandırma performansına sahip olduğu göz önüne alındığında bu yöntemin özellikle model tabanlı yöntemlere kıyasla kısa sürede ve düşük maliyetlerle anlaşılır sınıflandırma modelleri oluşturmada verimli olacağı belirlenmiştir.

The main goal of this study is to obtain high performing Artificial Neural Network (ANN) models for classification by reducing the large number of potential input variables using correlations between these variables. To achieve this, a breast cancer diagnosis problem with 30 potential input variables was considered and an ANN model was created by reducing the number of input variables with a proposed correlation-hypothesis test-based filtering method. The effectiveness of the proposed model was compared with six ANN models containing different sets of input variables. These six models include the model containing all input variables and the models obtained with input variables selected by stepwise regression, forward selection and backward elimination methods, which are model-based selection methods. While creating the models, the data set was divided into different training-test percentages and different numbers of neurons were tried in the hidden layer. Accuracy, recall, precision and F1-score metrics were used to compare the classification performances of the models. As a result, the accuracy value for the models with nine input variables selected by the proposed correlation-based filtering method was found to be between 0.93-0.95, which is significantly high. The recall value for our model was obtained between 0.85-0.88 and was sufficient. The precision value for our proposed model was determined to be very high, in the range of 0.98-0.988. The F1-score of the model proposed in this study is between 0.907-0.931, which is high enough. Considering that the proposed model has the lowest number of variables among the compared models, that is, it is the simplest model, and has a good classification performance even with only 10 neurons in the hidden layer, this model can be used for rapid, lean and efficient classification at low costs, especially compared to model-based models.