Türk Manyetik Rezonans Derneği 29. Yıllık Bilimsel Toplantısı, Ankara, Turkey, 1 - 03 May 2025, pp.60-62, (Summary Text)
Amaç: Bu çalışmanın amacı, radiopedia.org internet sitesinde anterior çapraz bağ (ACL) rüptürü olan diz manyetik rezonans görüntülerinin (MRG) tanı doğruluğu açısından ChatGPT-o1 tarafından değerlendirilmesidir.
Gereç-Yöntem: Radiopedia.org (1) internet sitesinde ACL rüptürü tanısı örneği olarak gösterilen 20 olgu çalışmaya dahil edilmiştir. Dört farklı durumda görüntüler, ChatGPT-o1 tarafından ayrı ayrı değerlendirilmiş ve verilen tanıların doğruluğu incelenmiştir. Bu amaçla birinci durumda, indirilen görüntüler “Resim 1-20” olarak isimlendirilmiştir. İkinci durumda, bu görüntülere internet sitesinde yer alan klinik bilgi eklenmiştir. Üçüncü durumda, internet sitesinden indirilen görsellerin dosya uzantıları değiştirilmemiştir. Bu durumda, görsellerin dosya uzantılarında tanıya ulaşılmasına yardımcı bilgiler olup olmadığının değerlendirilmesi amaçlanmıştır. Dördüncü durumda ise üçüncü duruma klinik bilginin eklenmesi ile elde edilen veri seti kullanılmıştır. Birinci ve üçüncü durum için: “Sana vereceğim tıbbi görüntüyü değerlendirerek görüntüdeki patolojiyi tanımlamanı ve bir tanı vermeni istiyorum.”; ikinci ve dördüncü durum için ise: “Klinik bilgisi X olan hastaya ait sana vereceğim tıbbi görüntüyü değerlendirerek görüntüdeki patolojiyi tanımlamanı ve bir tanı vermeni istiyorum.” ifadeleri kullanılmıştır. Dört durumda doğru cevap oranları kaydedilmiş ve gruplar arasındaki fark Ki-kare testi ile analiz edilmiştir.
Bulgular: Dört durum ayrı ayrı değerlendirildiğinde, doğruluk oranları birinci durumda: 5/20 (%25), ikinci durumda: 10/20 (%50), üçüncü durumda: 5/20 (%25) dördüncü durumda: 12/20 (%60) bulunmuştur. Bulgular Tablo 1’de özetlenmiştir. Dört grup arasında doğru cevap oranları açısından anlamlı fark bulunmuştur (p=0,048).
Sonuç: Büyük dil modellerinin (LLM) görüntü değerlendirme yetisi görece yeni bir özellik olarak öne çıkmaktadır. Literatürde yapılmış az sayıda çalışma farklı doğruluk oranları bildirmiştir (2-4). Mamografi görüntülerinin ChatGPT-4o ile analiz edildiği bir çalışmada doğruluk oranı %66,2 olarak bulunmuş (3), başka bir çalışmada ise BIRADS (Breast Imaging Reporting and Data System) sınıflandırmasında doğruluk %18,87-26,42 olarak rapor edilmiştir (4). LLM’lerin yorum yaparken verilen dosya içerisindeki tüm veriyi değerlendirdiği bilinmektedir (5). Bu durum, değerlendirilmesi istenen görüntülerin dosya uzantıları ve içerdikleri görsel dışındaki bilgilerin de tanı doğruluğunu etkileyebileceğini düşündürmektedir. Bunun yanında yapılan bazı çalışmalarda görsele klinik bilgi eklenmiş, bazılarında ise eklenmemiştir. Bu çalışmada bu iki değişkenin değerlendirilmesi hedeflenmiştir. Sonuç olarak, dosya uzantılarının LLM’lerin tanı doğruluğu üzerinde belirgin bir etkisi olmadığı, ancak klinik bilginin eklenmesinin doğruluk oranlarında önemli bir artışa sebep olduğu bulunmuştur.
Anahtar Kelimeler: ACL, rüptür, ChatGPT-o1, MRG
1. https://radiopaedia.org/articles/anterior-cruciate-ligament-tear (Erişim tarihi:
16.02.2025)
2. Horiuchi D, Tatekawa H, Oura T, et al. ChatGPT’s diagnostic performance based on textual vs. visual information compared to radiologists diagnostic performance in musculoskeletal radiology. Eur Radiol. 2024 Jul 12.
3. Nguyen D, Rao A, Mazumder A, Succi MD. Exploring the accuracy of embedded ChatGPT-4 and ChatGPT-4o in generating BI-RADS scores: a pilot study in radiologic clinical support. Clinical Imaging, 2024 110335.
4. Altın MA, Karahan BN, Emekli E. The Ability of AI-Based Chatbots to Interpret Mammography Images: A Comparison Between Chat-GPT 4o and Claude 3.5. 6th International Medical Congress of Izmir Democracy University, İzmir, Turkey, pp.115, 2024.
5. K. Choe et al. “Enhancing Data Literacy On-demand: LLMs as Guides for Novices in Chart Interpretation,” in IEEE Transactions on Visualization and Computer Graphics.