Yapay Zeka Tabanlı Chatbotların Tıp Eğitiminde Çoktan Seçmeli Soru Üretimindeki Potansiyeli: Bir Değerlendirme


Karahan B. N., Emekli E.

24. Ulusal Anatomi Kongresi, Ankara, Türkiye, 19 - 21 Eylül 2024

  • Yayın Türü: Bildiri / Özet Bildiri
  • Basıldığı Şehir: Ankara
  • Basıldığı Ülke: Türkiye
  • Eskişehir Osmangazi Üniversitesi Adresli: Evet

Özet

Amaç: Anatomide çoktan seçmeli soru (ÇSS) üretmek için yapay zeka temelli chatbotların (CB) kullanımının uygunluğu değerlendirmektedir.

Gereç ve Yöntemler: Metodolojik tasarlanan bu çalışmada ilk aşamada kas iskelet radyolojisi ile ilgili çıkmış dört tıpta uzmanlık sınav (TUS) sorusu belirlenmiştir. Daha sonra bu soruların konularına göre ChatGPT ile literatürde çalışılmış iki farklı prompt kullanılarak ve Claude ile bir prompla her birinden dörder olacak şekilde 12 ÇSS üretildi. ÇSS’ler TUS soruları da dahil olacak şekilde her bir soru üretme tekniğinden üretilen sorular forma dahil olacak şekilde dört soruluk dört forma dönüştürüldü. Formlar ÇSS’lerin anlaşılırlığı, klinik açıdan uygunluğu, tek doğru cevap varlığı, verilen bilgilerin yeterliliği, çeldiricilerin mantıklılığını ölçen beşli Likert değerlendirme formları ile değerlendirildi.

Bulgular: Her bir değerlendirme formu iki tıp hekimi tarafından olmak üzere ÇSS’ler sekiz uzman tarafından değerlendirildi. Her bir parametrede anlaşılırlığı, klinik açıdan uygunluğu, tek doğru cevap varlığı, verilen bilgilerin yeterliliği, çeldiricilerin mantıklılığını ve toplam puan değerlendirildiğinde sırasıyla TUS soruları için 4,5/4,38/4,38/4,25/4,25/21,75; ChatGPT birinci prompt için; 4,13/4,25/4,25/4,25/4,25/21,13 ChatGPT ikinci prompt için; 4,13/4,25/4,25/4,25/4,25/21,13 Claude için 4,13/4,25/4,13/4,13/4,38/21 olarak puanlandırılmıştı. ÇSS’ler için tüm değerlendirme parametreleri açısından anlamlı fark saptanmadı (p>0,005).

Sonuç: CB’ler genel olarak insan yazımı sorular kadar yüksek kalitede soru üretebilmektedir. Yapay zeka araçları tıp eğitiminde ihtiyaç duyulan soruların hızlı ve etkili üretilmesine imkan sağlamaktadır. Ders yükünün fazla olduğu ve her seferinde farklı sorular sormanın ölçme kalitesi açısından önemli olduğu düşünüldüğünde CB’lerin kullanımı tıp eğiticilerine büyük kolaylık sağlayabilir.

Objective: The study aims to evaluate the suitability of using AI-based chatbots (CBs) for generating multiple-choice questions (MCQs) in anatomy.

Materials and Methods: In this methodologically designed study, the first stage involved selecting four medical specialty examination (MSE) questions related to musculoskeletal radiology. Following this, 12 MCQs were generated using ChatGPT with two different prompts one prompt with Claude, creating four questions from each. The generated MCQs, along with the original exam questions, were compiled into four forms, each containing four questions from different generation techniques. These forms were evaluated using five-point Likert scales assessing the clarity, clinical relevance, presence of a single correct answer, adequacy of the information provided, and the logical coherence of the distractors.

Results: Each form was evaluated by two medical doctors, totaly eight experts. The clarity, clinical relevance, presence of a correct answer, adequacy of information, logical coherence of the distractors, and total score were evaluated for each parameter, yielding the following scores: 4.5/4.38/4.38/4.25/4.25/21.75 for the MSE questions; 4.13/4.25/4.25/4.25/4.25/21.13 for the first ChatGPT prompt; 4.13/4.25/4.25/4.25/4.25/21.13 for the second ChatGPT prompt; and 4.13/4.25/4.13/4.13/4.38/21 for Claude. No significant differences were found across all evaluation parameters for the MCQs (p>0.005).

Conclusion: CBs can produce questions of comparable quality to those written by humans. AI tools offer a fast and effective means of generating the necessary questions for medical education. Given the heavy teaching workload and the importance of asking different questions for quality assessment each time, the use of CBs can significantly ease the burden on medical educators.