Derin öğrenme yöntemleriyle görsel, metinsel ve sayfa düzeni özelliklerini kullanarak belge görüntülerinin sınıflandırılması


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Eskişehir Osmangazi Üniversitesi, Fen Bilimleri Enstitüsü, Fen Bil.Enst.Md.Lüğü, Türkiye

Tezin Onay Tarihi: 2024

Tezin Dili: Türkçe

Öğrenci: MELİKE BURCU ÇAĞIL

Asıl Danışman (Eş Danışmanlı Tezler İçin): Rifat Edizkan

Eş Danışman: Hasan Serhan Yavuz

Özet:

Dijitalleşmenin hızla artması, belgelerin yönetimi ve sınıflandırılması süreçlerini daha önemli hale getirmiştir. Bu bağlamda, belge sınıflandırma alanında önemli adımlar atılmıştır. Bu tez çalışmasında, belge sınıflandırma alanında görsel özelliklere dayalı evrişimsel yöntemler, görsel özelliklere dayalı Transformer tabanlı yöntemler ve görsel, metinsel ve sayfa düzeni bilgisine dayalı yöntemler altında farklı modellerin performansları karşılaştırılmıştır. Çalışmada, evrişimsel sinir ağları, Transformer tabanlı ViT ve ViC modelleri ile LayoutLMv3 mimarisi kullanılarak kapsamlı bir karşılaştırma yapılmıştır. Bu mimariler, Tobacco-3482 ve RVL-CDIP Small-200 veri setleri üzerinde test edilerek, her bir yöntemin belge sınıflandırma süreçlerindeki etkisi, belge tipindeki etkisi ve başarı oranları değerlendirilmiştir. Tez çalışması, görsel, metinsel ve sayfa düzenine dayalı çok yönlü sınıflandırma yaklaşımlarını bir araya getirerek, belge sınıflandırma alanında özgün bir analiz sunmaktadır. Derin öğrenme yöntemleri arasında LayoutLMv3 modeli ile belge sınıflandırmada %95,78 ile en yüksek doğruluk Tobacco-3482 veri seti üzerinde elde edilmiştir.

Anahtar Kelimeler: Belge Sınıflandırma, Derin Öğrenme, Evrişimsel Sinir Ağları, ViT, ViC NLP, LayoutLMv3, Transformer