Yapay zekâ doktoru geçti mi, yoksa doktoru kendine alıştırıyor mu? |
Geçtiğimiz hafta İngiltere merkezli The Guardian gazetesindeki bir haber dikkatimi çekti. Haber, Harvard Tıp Fakültesi’nden bir grup araştırmacının çalışmasını özetliyordu. Çalışma, iki farklı senaryoda OpenAI’ın iki farklı dil modeli o1 ve ChatGPT 4 ile, uzman ve asistan hekimlerden oluşan doktorların tıbbi konulardaki becerilerini kıyaslıyordu.
Çalışmanın ilk kısmında, tıp dünyasındaki prestijli dergilerden biri olan New England Journal Medicine (NEJM)’nin tarihi klinik vaka konferansları, sanal hasta senaryoları ve uzman hekimlerce hazırlanmış tedavi planlaması vakaları gibi beş farklı simülasyon ortamında dil modelleri ile doktorlardan oluşan ekiple kıyaslanmış. Kıyaslamanın sonunda ise tüm kategorilerde modellerin, doktorların üzerinde bir performans sergilediği gözlemlenmiş.
Çalışmanın ikinci kısmı ise Boston’daki bir hastanenin acil servisinden rastgele seçilen 76 hastanın tıbbi geçmişini merkeze almış. Hem doktorlara hem de dil modellerine hastalara ait aynı elektronik kayıt verilmiş ve sonunda ilk triyajda dil modellerinin g, doktorların ise P-55 oranında doğru teşhisi koyduğu görülmüş.
The Guardian’daki haber de çalışmanın özellikle bu ikinci kısmın öne çıkarmış ve sansasyonel bir başlıkla yapay zekânın doktorlardan daha iyi performans gösterdiğini belirtmiş. Elbette güncel hype ortamına oldukça uygun bu başlık dikkatlerden kaçmadı ve X platformunda Türkçe ve İngilizce hesaplarca paylaşıldı.
Bu köşenin bir takipçisiyseniz eğer, bu girişten sonra gelecek “sihirli” kelimeyi de tahmin etmişsinizdir muhtemelen.
Peki bu çalışmadaki sonuçlar gerçek hayat için referans olabilir mi?
Cevap, hayır. Çalışmadaki senaryolar, gerçek hayatın karmaşık halini yansıtmaktan uzak. Yani önceki yazılarda farklı konular üzerinden altını çizdiğim bir handikap burada da kendisini gösteriyor. Bu modeller "ideal" koşullarda, kendilerine verilen girdilerin belirlediği çerçeve içinde iyi çalışıyor. Fakat gerçek hayatta öğrendikleri örüntülerin dışına çıkan bir durum geliştiğinde sonuç çoğunlukla başarısızlık oluyor. Literatürde bu hipotezi doğrulayan çok sayıda çalışma mevcut. Üstelik bu handikap, çalışmayı yürüten araştırmacıların da gözünden kaçmıyor elbette.
Nitekim çalışmanın kıdemli ortak yazarlarından Harvard'dan Raj Manrai, X'te yaptığı bir açıklamayla bulguların ne anlama geldiğini açıkça ortaya koyuyor. Manrai'ye göre bu sonuçların asıl çağrısı prospektif klinik deneyler yapmak, sağlık sistemlerinin altyapı yatırımına yönelmesi ve sadece tanı doğruluğunu değil güvenliği, verimliliği ve maliyeti de izleyen denetim çerçeveleri kurmak. Yani çalışmanın yazarı bile bulguları tek başına yapay zekânın doktorların önüne geçtiğinin ilanı olarak okumuyor.
Aynı çalışmayı bir de bu alanın bilinen otoritelerinden Amerikan kardiyolog Eric Topol'un gözünden okumakta fayda var. Topol, dünyanın önde gelen bilim dergilerinden Science'da yayımlanan bu çalışmayı Ground Truths bülteninde değerlendirirken önemli bir noktanın altını çiziyor. Çalışmadaki altı deneyin tamamı hasta vakası vinyetleri, simülasyonlar ve hasta rolündeki aktörler üzerinden yürütülmüş. Yani Boston'daki acil servis senaryosu da elektronik kayıtlar üzerinden kurulmuş bir simülasyon. Topol'un ifadesiyle hekimlik pratiğinin "düzensiz, dağınık" gerçekliğini temsil eden bir ortam değil. Bu da çalışmanın bulgularını "potansiyel" olarak konumlandırıyor, gerçek hayatta doktorların yerini alabileceğine dair kesin bir kanıt olarak değil.
Peki gerçek dünyaya yaklaştıkça ne oluyor?
Nature Medicine'da yayımlanan bir başka çalışma, ChatGPT'nin hastaları evde mi kalmaları yoksa acile mi gitmeleri gerektiği konusunda triyaj etmesini test etmiş. Test sonucunda, ChatGPT’nin diyabet ve solunum yetmezliğinin eşiğindeki vakalar gibi gerçek acil durumlarda ciddi teşhis hataları yaptığı görülmüş. Yine Nature Medicine'da yayımlanan başka bir randomize çalışmada on farklı tıbbi senaryoda hastaların büyük dil modelleriyle birlikte aldığı kararlar değerlendirilmiş. Hastaların performansı düşük çıkmış ve yazarlar makaleyi sistematik insan testlerinin sağlık sektöründe halka açık devreye almadan önce zorunlu olduğu uyarısıyla bitirmiş.
İşin bir başka yüzü de hastanın yapay zekâya aktardığı bilginin niteliği. Geçtiğimiz günlerde yayımlanan başka bir çalışma, hastaların belirtilerini bir yapay zekâya tarif ederken, aynı belirtileri bir doktora tarif ettikleri zamana kıyasla daha eksik ve daha düşük kaliteli bilgi paylaştıklarını ortaya........