9. Ulusal Meme Radyolojisi Sempozyumu, Muğla, Türkiye, 29 Mayıs - 01 Haziran 2025, ss.18, (Özet Bildiri)
Amaç: Yapay zekâ temelli büyük dil modelleri (Chat-GPT, Gemini, Copilot, Claude vb.) tıp alanında hızla yaygınlaşmakta ve hasta eğitimi dahil birçok noktada potansiyel çözümler sunmaktadır. Bu modeller, büyük metin veri kümeleri üzerinde eğitilerek dil kalıplarını anlayıp insan benzeri metin üretebilir (1). Amerikan Tıp Birliği 6. sınıf veya daha düşük okuma seviyesi kullanmayı önerse de (2) birçok çevrimiçi hasta eğitim materyalinin okunabilirlik düzeyi ortalama eğitim seviyesinin üzerindedir (3). Meme kanseri kadınlarda en sık görülen kanser olup (her sekiz kadından biri risk altındadır), bu alanda internette sunulan Türkçe materyallerin okunabilirliği ve anlaşılabilirliği bir sorundur. Bu çalışmada, beş popüler geniş dil modelinin (ChatGPT-3.5, ChatGPT-4.0, Gemini, Copilot, Claude 3) Türkçe meme kanseri hasta eğitim materyallerini sadeleştirme başarısı ve içerik kalitesi üzerindeki etkisi incelenmiştir.
Gereç-Yöntem: Bu araştırma hasta verisi içermediğinden etik kurul onayı alınmamıştır. Google arama motorunda “meme kanseri bilgilendirme” araması sonucunda çıkan ilk 20 kaynaktan uygun olmayan beş tanesi çıkarılıp kalan 15 metin çalışmaya dahil edilmiştir. Tüm metinler 28 Aralık 2024’te sırasıyla ChatGPT-3.5, ChatGPT-4.0, Gemini, Copilot ve Claude 3’e “web sayfasını altıncı sınıf okuma seviyesinde anlaşılması kolay sade bir dile çevirir misin?” komutuyla verilmiş, elde edilen çıktılar kaydedilmiştir. Okunabilirlik için Ateşman Türkçe Okunabilirlik İndeksi (4), kalite için ise 5 basamaklı Modifiye DISCERN (mDISCERN) ölçeği kullanılmıştır (5). mDISCERN ölçeği radyolojide sekiz ve beş yıllık tecrübeye sahip iki radyolog tarafından ayrı ayrı değerlendirilmiştir. İstatistiksel analizler SPSS 25.0’da tek yönlü ANOVA ve post-hoc testlerle yapılmıştır.
Bulgular: Orijinal materyallerin ortalama okunabilirlik puanı 61,85±9,41 olarak saptanmıştır. Büyük dil modelleriyle sadeleştirilmiş metinlerde okunabilirlik anlamlı derecede yükselmiştir (p<0,001) ve en yüksek puan Claude 3’te gözlenmiştir (Tablo 1, 2). Kalite değerlendirmesinde gözlemciler arası uyum mDISCERN skoru için 0,740 (%95 güven aralığında) olarak bulunmuştur (p<0,001). Büyük dil modelleri arasındaki değerlendirmede daha tecrübeli olan gözlemcinin puanlaması temel alınmıştır. Orijinal metinler, sohbet botu çıktılarından daha yüksek mDISCERN puanı almış; Claude 3 ve Copilot en düşük puanları almıştır. ChatGPT-4.0 daha dengeli bir kalite-okunabilirlik oranı sunarken, ChatGPT-3.5 ile ücretli sürüm arasında anlamlı bir fark görülmemiştir (Tablo 3).
Sonuç: Bu çalışma, literatürle benzer şekilde internetteki Türkçe meme kanseri hasta eğitim materyallerinin büyük bölümünün önerilen 6. sınıf yerine daha yüksek okuma seviyesinde hazırlandığını ve geniş dil modelleriyle sadeleştirme sonrası okunabilirliğin arttığını (6), ancak bazılarında içerik kalitesinin düştüğünü göstermiştir. Özellikle Claude 3, en yüksek okunabilirlik düzeyini sağlarken mDISCERN puanlarında belirgin düşüşe yol açmıştır. ChatGPT-4.0 ise okunabilirlik ve kalite arasındaki dengeyi daha iyi korumuştur. Gelecek araştırmalarda, uzman değerlendirmesi ve daha geniş veri setleri kullanılarak bu modellerin hem anlaşılabilirlik hem de içerik kalitesini birlikte optimize etmeleri hedeflenebilir.