Konu Modelleme Yöntemlerinin Karşılaştırılması


Creative Commons License

Kaya A., Gülbandılar E.

Eskişehir Türk Dünyası Uygulama ve Araştırma Merkezi Bilişim Dergisi, cilt.3, sa.2, ss.46-53, 2022 (Hakemli Dergi)

Özet

 Son zamanlarda  internet üzerinde üretilen veriler her geçen gün artmaktadır. Bu verilerin  önemli  bir  çoğunluğunu  da  metinler  oluşturmaktadır.  Metinlerin çoğunlukta olması, bilim insanlarını bu alanda daha fazla çalışma yapmaya yönlendirmiştir. Metinler üzerinde  yapılan  çalışmaların  en  popüler  olanı  Konu  Modelleme  (KM)  yöntemleridir. Konu modelleme yöntemleri metinlerin içerisinde gizli veya açık geçen konuları tespit etmektir. Bu çalışma kapsamında elde edilen metin veri kümeleri üzerinde Gizli Dirichlet Ayrımı  (GDA), ilişkisel konu modeli  (İKM) ve yapısal konu modeli  (YKM) yöntemleri uygulanmıştır.  Ayrıca  çalışma  da  konu  modelleme  yöntemlerinin  sonuçlarını karşılaştırabilmek  için  konu  tutarlılığı  ve  çapraşıklık  değerleri  kullanılmıştır.  Kaynak olarak kullanılan  yayındaki  yöntemlerin sonuçları ile  çalışmada  elde edilen sonuçların aynı olduğu görülmüştür.  Çapraşıklık  değerine ek olarak kullandığımız tutarlılık değeri de  aynı  şekilde  YKM  yönteminde  daha  başarılı  sonuçlar  elde  edildiği  gösterilmiştir.  Tutarlılık değeri 0.509 olarak YKM tip 3 yöntemi en iyi sonucu vermiştir. Ayrıca bundan sonra yapılacak çalışmalar içinde karşılaştırma yöntemi gösterilmiştir.

The  amount  of  data  created  on  the  internet  has  been  steadily  expanding  in recent years. Texts make up a large portion of  the data. The fact that the texts are in the majority has led scientists to do more studies in this field. The Topic Modeling (TM) approach  is  the  most  frequently  used  method  for  studying  literature.  Methods  for identifying  hidden  or  open  subjects  in  texts  are  known  as  "topic  modeling."  The  text datasets collected for this investigation were subjected to the Latent Dirichlet Allocation (LDA), Correlated Topic Model (CTM), and Structural Topic Model (STM) approaches. In addition, the findings of the subject modeling approaches in the study were compared using subject consistency and complexity values. The results of the published techniques employed as a source and the findings of the study were found to be identical. Moreover to  the  crowding  value,  the  consistency  value  we  employed  revealed  that  the  STM technique produces more successful outcomes. The  STM  type 3 approach produced the best  results,  with  a  consistency  score  of  0.509.  In  addition,  future  investigations  will reveal the comparative approach.