Chat-GPT 4o ve Şablon Tabanlı Yöntemlerin Radyoloji Eğitiminde Öğrenci Değerlendirmesinde Kullanılabilirliği


Emekli E., Karahan B. N.

46. Ulusal Radyoloji Kongresi, Antalya, Türkiye, 16 - 20 Aralık 2025, ss.1, (Özet Bildiri)

  • Yayın Türü: Bildiri / Özet Bildiri
  • Basıldığı Şehir: Antalya
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.1
  • Eskişehir Osmangazi Üniversitesi Adresli: Evet

Özet

Giriş ve Amaç: Tıp eğitiminde öğrenci değerlendirmesinin etkin biçimde yapılabilmesi için kaliteli çoktan seçmeli sorular (ÇSS) büyük önem taşımaktadır. Ancak bu soruların üretilmesi zahmetli olup önemli ölçüde zaman ve uzmanlık gerektirmektedir. Günümüzde şablon tabanlı olmayan yapay zeka (YZ) temelli soru üretme teknikleri ve şablon tabanlı soru üretme teknikleri (OSÜ) soru oluşturma süreçlerinin otomasyonu açısından potansiyel bir araç olarak ön plana çıkmaktadır. Bu çalışmada radyoloji eğitiminde her iki teknikle üretilmiş soruların kullanılabilirliğinin, öğretim üyesi tarafından hazırlanan sorularla karşılaştırılarak değerlendirilmesi amaçlanmıştır.

Gereç ve Yöntem: Çalışma öncesi etik kurul onayı alınmıştır (Karar tarihi: 22.10.2024/Karar No:34) Araştırma, 2024–2025 eğitim-öğretim yılında Eskişehir Osmangazi Üniversitesi Tıp Fakültesinde Radyoloji stajı alan 5. sınıf öğrencileri ile gerçekleştirilmiştir. Toplam 163 öğrenci çalışmaya davet edilmiştir. Bu öğrencilere radyoloji stajı kapsamındaki “İskelet Sistemi ve Yumuşak Doku Tümörlerinde Radyoloji, Metabolik ve Endokrin Sistem Hastalıklarında Radyoloji, Romatolojik Hastalarda Radyoloji” ders konularından toplam 15 ÇSS içeren sınav hazırlanmıştır. Soruların 5’i öğretim üyesi tarafından, 5’i ChatGPT-4o, 5’i OSÜ tekniği ile üretilmiştir. Katılımcılara soruların kaynakları sınav öncesinde açıklanmamıştır. Chat-GPT-4o (Ağustos 2024) ile soruların üretilmesinde literatürde tanımlanan ayrıntılı promptlardan yararlanılmıştır (1,2). OSÜ’de soru üretiminde üç aşama mevcut olup, ilk aşamada konu başlıkları belirlenmiş ve bilişsel model oluşturulmuştur. İkinci olarak soru şablonu hazırlanarak değişkenler ve cevap seçenekleri düzenlenmiştir. Son olarak, bu şablonlar Python tabanlı bir yazılım aracılığıyla soru üretiminde kullanılmıştır (3) (Tablo 1). Öğrencilerin radyoloji stajı teorik ve pratik sınavından aldığı notlar kaydedilmiş ve bu sınav ile korelasyonu değerlendirilmiştir. Buna ek olarak her sorunun zorluk ve ayırt edicilik indeksleri hesaplanmıştır. ≥0,40 değerleri "Çok İyi", 0,20-0,39 arası değerler "Kabul Edilebilir" ve <0,20 değerleri "Zayıf (çıkarılması gerekli)" olarak sınıflandırılmıştır. Öğrencilerin sınavlara ilişkin algıları 5’li Likert ölçeği kullanılarak toplanmıştır.

Bulgular: Çalışmaya 115 (%70,6) öğrenci katılmayı kabul etmiştir. Sınavda doğru cevapların ortalama sayısı 7,53 ± 3,21; öğretim üyesi sorularında 2,91 ± 1,34, ChatGPT sorularında 2,3 ± 1,14, ve OSÜ sorularındada 2,32 ± 1,66’idi (p=0,001). Öğretim üyesi soruları, Chat-GPT 4o ve OSÜ sorularına göre daha fazla doğru cevaplandırılmıştı (p=0,010; p=0,001). Soruların kaynağına göre zorluk ve ayrımcılık indeksleri Tablo 2’de gösterilmiştir. Soruların ortalama zorluk seviyeleri öğretim üyesi 0,58; OSÜ 0,46; Chat-GPT-4o soruları için 0,46 olarak hesaplanmıştır. Ayırt edicilik indeksi açısından, öğretim üyesi sorularının 5'i kabul edilebilir, 3'ü çok iyi; ChatGPT sorularının 4'ü kabul edilebilir, 3'ü çok iyi; OSÜ sorularının ise tamamı (5 kabul edilebilir, 5 çok iyi) uygun düzeydedir. Öğrencilerin sorulara ve sınava yönelik değerlendirmeleri Tablo 3, 4’ de gösterilmiştir. Hazırlanan sınav puanları teorik sınavla korele değil iken (p=0,652), pratik sınav ile arasında zayıf korelasyon saptandı (p=0,041)

Tartışma ve Sonuç: Literatürde YZ temelli büyük dil modelleri ile kaliteli soru üretimi yapılabileceğini ve bu soruların uzman denetiminden geçerek sınavlarda kullanılabileceğini gösteren çalışmalar mevcuttur (4,5). Ancak her iki soru üretme tekniğini öğreim üyesi sorularıyla karşılaştırarak sınav formatında değerlendiren radyoloji eğitiminde bir çalışma mevcut değildir. Yapılan bir çalışmada klinik akıl yürütme becerilerininin ölçülmesi uzmanlar tarafından değerlendirilmiş ChatGPT ile oluşturulan sorular %84,52, öğretim üyeleri tarafından hazırlanan sorular %82,14, OSÜ soruları ise %78,57 başarılı bulunmuştur. Buna istinaden, her iki YZ tabanlı soru üretme yönteminin de klinik akıl yürütme becerilerinin değerlendirilmesinde etkili olduğu değerlendirilmiştir (6). Bu çalışma da, radyoloji eğitiminde YZ temelli soru üretim tekniklerinin, öğretim üyeleri tarafından hazırlanan sorulara yakın bir performans gösterdiğini ortaya koymaktadır. Hem ChatGPT-4o hem de OSÜ soruları kabul edilebilir düzeyde ayırt ediciliğe sahiptir. Sonuç olarak, radyoloji eğitiminde YZ temelli soru üretme yöntemleri, zaman ve uzmanlık gereksinimini azaltarak öğrenci değerlendirme süreçlerinde etkili bir araç olarak kullanılabilir.