İstatistiksel daraltıcı yöntemlerden ridge regresyon, lasso regresyon ve elastik net regresyonun tahminleme ve sınıflandırma performanslarının karşılaştırılması


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Eskişehir Osmangazi Üniversitesi, Tıp Fakültesi, Temel Tıp Bilimleri Bölümü, Türkiye

Tezin Onay Tarihi: 2021

Tezin Dili: Türkçe

Öğrenci: GAMZE SEVER

Danışman: Fezan Mutlu

Özet:

Başlık: İstatistiksel Daraltıcı Yöntemlerden Ridge Regresyon, Lasso Regresyon Ve Elastik Net Regresyonun Tahminleme ve Sınıflandırma Performanslarının Karşılaştırılması Amaç: Veri bilimindeki gelişmeler, çok boyutlu veri setlerinde bağımsız değişken sayısının gözlem sayısından büyük olduğu durumlarda regresyon modelleri ile yapılan tahminlerin güvenilirliğin artırılmasının gerekli olduğunu göstermektedir. Değişkenler arasındaki çoklu bağıntı, EKK tahminin doğruluğunu azaltmaktadır. Bu tez çalışmasında, çoklu bağıntı durumunda ve çok boyutlu veri setinde temel istatistiksel daraltıcı yöntemlerden olan Ridge Regresyon, Lasso Regresyon ve Elastik Net Regresyon yöntemlerinden en iyi performansa sahip olan yöntem simülasyon çalışması yapılarak belirlenmesi amaçlanmıştır. Göğüs kanserinin erken teşhisinde kullanılar miRNA’ların İstatistiksel Daraltıcı Yöntemler kullanılarak sınıflandırılmıştır. Yöntem: Yöntemlerin tahminleme ve sınıflama performansları türetilmiş veri setlerinde gözlem sayısının değişken sayısından büyük olduğu ve gözlem sayısının değişken sayısından küçük olduğu senaryolar için çoklu bağıntının az- orta- çok yüksek dereceli olduğu durumlarda değerlendirilmiştir. Daha sonra GSE73002 koduyla Gene Expression Omnibus (GEO) veri tabanında bulunan veri seti ile Ridge, Lasso ve Elastik Net Regresyon yöntemleri ile göğüs kanseri teşhisi için biyobelirteç olan miRNA’ lar için model tahmini yapılmıştır. Bulgular: Yapılan analizler sonucunda, İstatistiksel Daraltıcı Yöntemler olan Ridge Regresyon, Lasso Regresyon ve Elastik Net Regresyon yöntemlerinin lineer ve lojistik modellerde tahminleme ve sınıflama çalışmalarında doğru ve güvenilir yöntemler olarak kullanılabileceği görülmüştür. Sağlık alanında yapılan çalışmalarda istatistiksel daraltıcı yöntemlerin geliştirilerek daha doğru modeller elde edilmesi için bu çalışmanın bir temel oluşturacağı düşünülmektedir.