24. Ulusal Anatomi Kongresi, Ankara, Türkiye, 19 - 21 Eylül 2024
Amaç: Anatomide
çoktan seçmeli soru (ÇSS) üretmek için yapay zeka temelli chatbotların (CB)
kullanımının uygunluğu değerlendirmektedir.
Gereç ve Yöntemler: Metodolojik
tasarlanan bu çalışmada ilk aşamada kas iskelet radyolojisi ile ilgili çıkmış
dört tıpta uzmanlık sınav (TUS) sorusu belirlenmiştir. Daha sonra bu soruların
konularına göre ChatGPT ile literatürde çalışılmış iki farklı prompt
kullanılarak ve Claude ile bir prompla her birinden dörder olacak şekilde 12
ÇSS üretildi. ÇSS’ler TUS soruları da dahil olacak şekilde her bir soru üretme
tekniğinden üretilen sorular forma dahil olacak şekilde dört soruluk dört forma
dönüştürüldü. Formlar ÇSS’lerin anlaşılırlığı, klinik açıdan uygunluğu, tek
doğru cevap varlığı, verilen bilgilerin yeterliliği, çeldiricilerin
mantıklılığını ölçen beşli Likert değerlendirme formları ile değerlendirildi.
Bulgular: Her
bir değerlendirme formu iki tıp hekimi tarafından olmak üzere ÇSS’ler sekiz
uzman tarafından değerlendirildi. Her bir parametrede anlaşılırlığı, klinik
açıdan uygunluğu, tek doğru cevap varlığı, verilen bilgilerin yeterliliği, çeldiricilerin
mantıklılığını ve toplam puan değerlendirildiğinde sırasıyla TUS soruları için
4,5/4,38/4,38/4,25/4,25/21,75; ChatGPT birinci prompt için;
4,13/4,25/4,25/4,25/4,25/21,13 ChatGPT ikinci prompt için; 4,13/4,25/4,25/4,25/4,25/21,13
Claude için 4,13/4,25/4,13/4,13/4,38/21 olarak puanlandırılmıştı. ÇSS’ler için
tüm değerlendirme parametreleri açısından anlamlı fark saptanmadı (p>0,005).
Sonuç: CB’ler
genel olarak insan yazımı sorular kadar yüksek kalitede soru üretebilmektedir.
Yapay zeka araçları tıp eğitiminde ihtiyaç duyulan soruların hızlı ve etkili
üretilmesine imkan sağlamaktadır. Ders yükünün fazla olduğu ve her seferinde
farklı sorular sormanın ölçme kalitesi açısından önemli olduğu düşünüldüğünde
CB’lerin kullanımı tıp eğiticilerine büyük kolaylık sağlayabilir.
Objective:
The study aims to evaluate the suitability of using AI-based chatbots (CBs) for
generating multiple-choice questions (MCQs) in anatomy.
Materials and Methods:
In this methodologically designed study, the first stage involved selecting
four medical specialty examination (MSE) questions related to musculoskeletal
radiology. Following this, 12 MCQs were generated using ChatGPT with two
different prompts one prompt with Claude, creating four questions from each.
The generated MCQs, along with the original exam questions, were compiled into
four forms, each containing four questions from different generation
techniques. These forms were evaluated using five-point Likert scales assessing
the clarity, clinical relevance, presence of a single correct answer, adequacy
of the information provided, and the logical coherence of the distractors.
Results:
Each form was evaluated by two medical doctors, totaly eight experts. The
clarity, clinical relevance, presence of a correct answer, adequacy of
information, logical coherence of the distractors, and total score were
evaluated for each parameter, yielding the following scores:
4.5/4.38/4.38/4.25/4.25/21.75 for the MSE questions;
4.13/4.25/4.25/4.25/4.25/21.13 for the first ChatGPT prompt;
4.13/4.25/4.25/4.25/4.25/21.13 for the second ChatGPT prompt; and
4.13/4.25/4.13/4.13/4.38/21 for Claude. No significant differences were found
across all evaluation parameters for the MCQs (p>0.005).
Conclusion:
CBs can produce questions of comparable quality to those written by humans. AI
tools offer a fast and effective means of generating the necessary questions
for medical education. Given the heavy teaching workload and the importance of
asking different questions for quality assessment each time, the use of CBs can
significantly ease the burden on medical educators.