Cilt kanseri, erken yakalandığında en tedavi edilebilir kanserlerden biri; geç kalındığında ise en ölümcüllerinden. Bu basit gerçek, dermatolojiyi yapay zekanın en iddialı vaatler verdiği alanlardan biri yaptı. Bir lekeye bakıp “bu zararsız mı, yoksa biyopsi mi gerekiyor?” sorusuna saniyeler içinde cevap üreten algoritmalar artık bilimsel literatürün değil, telefon mağazalarının da konusu. Peki bu teknoloji gerçekte ne kadar iyi, nerede tökezliyor ve sıradan bir kullanıcının cebindeki uygulamaya ne kadar güvenmesi gerekiyor?
Bu yazı, yapay zekanın tıbbi görüntü okuma serisinin bir parçası. Konunun bütününe yapay zeka ile tıbbi teşhis rehberimizden, benzer bir görüntü-tabanlı tarama örneğine ise yapay zeka ve diyabetik retinopati yazımızdan ulaşabilirsiniz.
2017: Algoritmanın dermatologla yarıştığı an
Alanın dönüm noktası, 2017’de Nature dergisinde yayımlanan bir çalışmaydı. Andre Esteva ve Stanford’daki ekip, bir evrişimli sinir ağını (CNN) yaklaşık 130 bin klinik cilt görüntüsü ve iki binden fazla farklı hastalık üzerinde eğitti. Sonuç, o güne kadar görülmemiş bir karşılaştırmaya zemin hazırladı: model, 21 sertifikalı dermatologla aynı görüntü setleri üzerinde sınandı.
İki kritik görevde test edildi. Birincisi keratinosit karsinomlarını iyi huylu seboreik keratozlardan ayırmak, ikincisi ise en tehlikeli cilt kanseri türü olan melanomu sıradan benlerden ayırt etmekti. Model her iki görevde de dermatologların ortalama performansına denk düzeyde sonuç verdi. Yani bir araştırma ortamında, doğru etiketlenmiş görüntülerle beslenen bir algoritma, uzmanın gözüyle yarışabiliyordu. Bu, manşetlere “yapay zeka dermatologları geçti” diye yansıdı; gerçek ise daha incelikliydi.
Laboratuvar doğruluğu ile sahanın farkı

Bir modelin sınav koşullarındaki başarısı ile gerçek hastalarda tuttuğu sözü çok farklı şeyler. Esteva çalışması özenle hazırlanmış, biyopsiyle doğrulanmış görüntüler kullandı. Klinik gerçek ise çok daha dağınık: bulanık çekimler, kötü ışık, kıllar, mürekkep izleri, telefon kameralarının farklı renk kalibrasyonları. Görüntü kalitesi düştüğünde algoritmanın güveni de düşüyor.
Burada dermoskopi devreye giriyor. Dermatologlar leke incelemesini çıplak gözle değil, cildin yüzey altı yapısını gösteren büyüteçli ve özel ışıklı bir cihazla yapar. Yapay zeka modellerinin en iyi sonuçları da bu dermoskopik görüntülerle eğitildiklerinde ortaya çıkıyor. Oysa cebinizdeki uygulama, dermoskop olmadan çekilmiş sıradan bir fotoğrafla çalışmak zorunda. Aynı algoritma mantığı, çok daha zayıf bir girdiyle besleniyor ve doğruluk buna göre eriyor.
Telefon uygulamaları: cazip vaat, kırılgan gerçek
“Benini fotoğrafla, kanser riskini öğren” diyen onlarca uygulama var. Mağaza puanları yüksek, arayüzleri şık. Sorun, bu uygulamaların büyük kısmının bağımsız klinik doğrulamadan geçmemiş olması. Bağımsız değerlendirmeler, popüler uygulamaların melanomu kaçırma oranlarının endişe verici düzeyde olabildiğini gösteriyor. Bir uygulamanın gerçek bir melanoma “düşük risk” demesi, sadece yanlış bir cevap değil; insanı doktora gitmekten alıkoyan tehlikeli bir cevaptır.
İki yönlü bir hata riski var. Uygulama zararsız bir lekeye “yüksek risk” derse gereksiz kaygı ve gereksiz başvuru yaratır. Tehlikeli bir lekeye “düşük risk” derse, en kötü senaryoyu davet eder: yanlış güven. Tıpta ikinci tür hata birinciden çok daha pahalıdır, çünkü kaybedilen şey zamandır ve cilt kanserinde zaman doğrudan hayatta kalma şansıdır.
Ten rengi yanlılığı: kimin verisiyle eğitildi?

Bu alanın en az konuşulan ama en ciddi sorunu veri çeşitliliği. Cilt görüntü veri setlerinin ezici çoğunluğu açık tenli, çoğunlukla Avrupa ve Kuzey Amerika kökenli hastalardan toplandı. Bir model neyi az gördüyse onu kötü tanır. Koyu ten tonlarına sahip kişilerde bu sistemlerin performansı belirgin biçimde düşüyor.
Bunun gerçek hayattaki bedeli zaten var olan bir eşitsizliği büyütmesi. Koyu tenli kişilerde cilt kanseri daha nadir görülür ama genellikle daha geç teşhis edildiği için ölüm oranı daha yüksektir. Bu gruplarda zaten zayıf olan teşhis sürecine, koyu tende düzgün çalışmayan bir algoritma eklemek sorunu çözmez, derinleştirir. Bir yapay zeka aracının “doğruluğu” diye sunulan tek bir yüzde, hangi nüfusta ölçüldüğü bilinmeden anlamsızdır.
Duyarlılık ve özgüllük: tek bir yüzde neden yetmez
Bir teşhis aracının “yüzde 90 doğru” olması kulağa harika gelir ama bu sayı tek başına neredeyse hiçbir şey söylemez. Tıpta iki ayrı ölçü işin kalbini oluşturur: duyarlılık ve özgüllük. Duyarlılık, gerçekten hasta olanları yakalama becerisidir; bir melanomu kaçırmamak demektir. Özgüllük ise sağlıklı olanları doğru biçimde sağlıklı saymaktır; yani zararsız bir leke için gereksiz alarm vermemektir.
Bir model bu iki ölçü arasında daima bir denge kurar. Eşiği “her şüpheliye risk de” yönünde ayarlarsanız neredeyse hiç melanom kaçırmazsınız ama yüzlerce zararsız beni de tehlikeli gösterirsiniz; sistem işe yaramaz hale gelir çünkü herkesi doktora yollar. Eşiği gevşetirseniz alarm azalır ama bu kez gerçek vakaları kaçırma riski yükselir. Bir uygulama size yalnızca tek bir “doğruluk” yüzdesi sunuyorsa, bu dengeyi nasıl kurduğunu, hangi nüfusta ve hangi tür görüntülerle ölçtüğünü gizliyor demektir. Eleştirel okuyucunun sorması gereken soru “ne kadar doğru?” değil, “neyi kaçırıyor ve kimde test edildi?” olmalı.
“Kara kutu” sorunu ve hekimin sorumluluğu
Derin sinir ağlarının doğasında, kararlarının gerekçesini insana açıklamakta zorlanmaları yatar. Model bir lekeye “melanom” dediğinde, bunu görüntünün hangi özelliğine dayandırdığını çoğu zaman şeffaf biçimde gösteremez. Bu “kara kutu” niteliği, sohbet ortamında değil ama klinik kararda gerçek bir engeldir. Bir hekim, gerekçesini açıklayamayan bir tavsiyeye körü körüne uyamaz; hukuki ve etik sorumluluk insandadır.
Bu yüzden ciddi araştırmalar artık ısı haritası benzeri görselleştirmelerle modelin “neye baktığını” gösterme çabasında. Amaç, algoritmayı bir otorite değil, gerekçesi denetlenebilir bir yardımcı haline getirmek. Sıradan kullanıcının elindeki uygulamada böyle bir denetim katmanı yoktur; çıktı, sorgulanması imkansız bir kehanet gibi gelir. Oysa tıbbi kararın değeri, tam da sorgulanabilir olmasından gelir.
Peki ChatGPT gibi sohbet modelleri?
Son dönemde merak, görüntü sınıflayan özel modellerden büyük dil modellerine kaydı. İnsanlar artık bir lekeyi tarif edip ChatGPT’ye “bu ne olabilir?” diye soruyor. Bu konunun teknik tarafını büyük dil modelleri ve tıbbi teşhis yazımızda ayrıntılı ele aldık.
Dermatoloji özelinde rakamlar ilginç. Brezilya’daki bir uzmanlık sınavı verisiyle yapılan değerlendirmede ChatGPT’nin doğruluğu yaklaşık yüzde 75 çıktı. Klinik vaka testlerinde daha güncel sürümler yüzde 84’e kadar çıkabiliyor; eski sürümler ise yüzde 63 gibi çok daha düşük seviyelerde kalmıştı. Bu sayılar bir öğrenci için etkileyici olabilir ama bir teşhis aracı için yeterli değil. Üstelik modellerin en zayıf olduğu yer, tam da gerçek hastaların en çok ihtiyaç duyduğu durumlar: atipik, birden fazla veri kaynağını (mikrobiyoloji, histopatoloji) bir araya getirmeyi gerektiren karmaşık vakalar.
Sohbet modelinin ek bir tuzağı var: ikna edici dili. Yanlış bir tahmini bile son derece kendinden emin, akıcı bir cümleyle sunar. Görüntü sınıflayan bir model en azından bir olasılık skoru verir; dil modeli ise belirsizliğini çoğu zaman gizler. Bu, sıradan kullanıcı için ayırt edilmesi zor bir risktir.
Veri kayması: dün işe yarayan model yarın yanılabilir
Bir modelin bugün iyi çalışması, yarın da çalışacağı anlamına gelmiyor. Telefon kameraları her yıl renk işleme yöntemlerini değiştiriyor, yeni cihazlar yeni ışık profilleriyle geliyor. Bir algoritma belirli bir kamera neslinin görüntüleriyle eğitildiyse, donanım değiştiğinde sessizce kötüleşebilir; üstelik bunu kimseye haber vermez. Tıp literatüründe buna veri kayması deniyor ve sürekli izlenmeyen sistemlerin en sinsi sorunlarından biri.
Hastane ortamında bir model, performansı düzenli denetlenen, güncellenen ve gerektiğinde geri çekilen bir süreçten geçer. Tüketici uygulamasında böyle bir gözetim genellikle yoktur. İndirdiğiniz uygulamanın hangi tarihte, hangi cihazlarla, hangi nüfusla doğrulandığını bilmezsiniz; çoğu zaman bu bilgi hiçbir yerde yazmaz. Aynı uygulama iki yıl önce kabul edilebilir çalışıyor olsa bile bugünkü telefonunuzda nasıl davrandığı belirsizdir. Bu belirsizlik, sağlık kararı söz konusu olduğunda tek başına yeterli bir uyarıdır.
Doğru kullanım: araç olarak evet, hakem olarak hayır
Bu, yapay zekayı dermatolojiden kovmak anlamına gelmiyor. Doğru yerde kullanıldığında değerli. Bir aile hekiminin elindeki karar destek sistemi, hangi hastaların öncelikle uzmana yönlendirileceğini sıralamada yardımcı olabilir. Yoğun bir dermatoloji kliniğinde tarama önceliklendirmesi yapabilir. Buradaki ortak nokta şu: yapay zeka, eğitimli bir insanın yanında ikinci bir göz olarak çalışıyor, onun yerine karar vermiyor.
Sıradan kullanıcı için pratik çerçeve net. Telefon uygulaması bir merak gidericidir, tarama aracı değil. Hiçbir uygulamanın çıktısı biyopsinin yerini tutmaz; kesin tanı ancak dokunun mikroskop altında incelenmesiyle konur. Benlerinizi düzenli izlemek faydalı, hatta önerilen bir alışkanlık; bunun için ABCDE kuralını (asimetri, sınır düzensizliği, renk değişkenliği, çap, zamanla değişim) öğrenmek bir uygulamaya güvenmekten daha güvenilir. Ama bu izleme, hekime gitmenin yerini değil, ne zaman gideceğinizi anlamanın bir yolunu sunar.
Bir lekede değişim, kaşıntı, kanama, hızlı büyüme ya da yalnızca içinizde “bu farklı” hissi varsa, hiçbir algoritmanın onayını beklemeyin. Şüpheli bir leke, bir uygulamanın “düşük risk” demesiyle güvenli hale gelmez. Yapay zeka dermatolojide gerçek bir ilerleme; ama bu ilerleme, doktora gitme kararını teknolojiye devretmek için değil, o kararı daha bilinçli vermek için var.







