Eskişehir Türk Dünyası Uygulama ve Araştırma Merkezi Bilişim Dergisi, cilt.3, sa.2, ss.46-53, 2022 (Hakemli Dergi)
Son zamanlarda internet üzerinde üretilen veriler her geçen gün artmaktadır. Bu verilerin önemli bir çoğunluğunu da metinler oluşturmaktadır. Metinlerin çoğunlukta olması, bilim insanlarını bu alanda daha fazla çalışma yapmaya yönlendirmiştir. Metinler üzerinde yapılan çalışmaların en popüler olanı Konu Modelleme (KM) yöntemleridir. Konu modelleme yöntemleri metinlerin içerisinde gizli veya açık geçen konuları tespit etmektir. Bu çalışma kapsamında elde edilen metin veri kümeleri üzerinde Gizli Dirichlet Ayrımı (GDA), ilişkisel konu modeli (İKM) ve yapısal konu modeli (YKM) yöntemleri uygulanmıştır. Ayrıca çalışma da konu modelleme yöntemlerinin sonuçlarını karşılaştırabilmek için konu tutarlılığı ve çapraşıklık değerleri kullanılmıştır. Kaynak olarak kullanılan yayındaki yöntemlerin sonuçları ile çalışmada elde edilen sonuçların aynı olduğu görülmüştür. Çapraşıklık değerine ek olarak kullandığımız tutarlılık değeri de aynı şekilde YKM yönteminde daha başarılı sonuçlar elde edildiği gösterilmiştir. Tutarlılık değeri 0.509 olarak YKM tip 3 yöntemi en iyi sonucu vermiştir. Ayrıca bundan sonra yapılacak çalışmalar içinde karşılaştırma yöntemi gösterilmiştir.
The amount of data created on the internet has been steadily expanding in recent years. Texts make up a large portion of the data. The fact that the texts are in the majority has led scientists to do more studies in this field. The Topic Modeling (TM) approach is the most frequently used method for studying literature. Methods for identifying hidden or open subjects in texts are known as "topic modeling." The text datasets collected for this investigation were subjected to the Latent Dirichlet Allocation (LDA), Correlated Topic Model (CTM), and Structural Topic Model (STM) approaches. In addition, the findings of the subject modeling approaches in the study were compared using subject consistency and complexity values. The results of the published techniques employed as a source and the findings of the study were found to be identical. Moreover to the crowding value, the consistency value we employed revealed that the STM technique produces more successful outcomes. The STM type 3 approach produced the best results, with a consistency score of 0.509. In addition, future investigations will reveal the comparative approach.