Yapısında dalkavukluk var
Diğer
11 Ocak 2026
Yeni yılın ilk yazısından merhaba! Umuyorum bu yıl herkes için güzel, sakin ve mutlu bir yıl olur. (Fakat daha ilk haftadan neredeyse her gün dünya genelinde bu temenniyi havada bırakacak pek çok olay yaşanıyor.)
Sosyal medyada “kaydırma” yaparken karşıma dil modellerinin kullanıcılara verdiği yanıtları tiye alan kısa videolar (reels) çıkıyor bazen önüme. Elbette bu videolar öylesine hazırlanan videolar değil, dil modeli kullanan herkesin dikkatini çeken bir gerçeklikten yola çıkarak hazırlanıyor. Dil modelleriyle etkileşime girdiğinizde ve bir görüşünüzü paylaştığınızda, sizi genellikle, eğer beni kötüle ve eleştir gibi promptları kasten yazmazsanız, desteklediğinizi görürsünüz. Öyle ki siz yanlış ya da hatalı bir şey söylerseniz bile buna devam eder.
Yazıyı yazarken örnek olması için Türkiye’deki metrolarda durakları gösteren ekranlarla ilgili iki zıt görüşü paylaşıp, ChatGPT’nin fikrini aldım.
Tutarlı olmayan bir destekçiliği var, değil mi? Bu davranışın aslında bir adı var: dalkavukluk. Evet, dil modelleri dalkavuk ve bu artık kanıtlanmış bir gerçek. Stanford Üniversitesinden bir grup araştırmacı 11 farklı yapay zekâ modelini (GPT-4o, GPT-5, Claude, Gemini, Llama, DeepSeek ve diğerleri) test etmiş. Reddit'in "Ben mi hatalıyım?" topluluğundan alınan ve binlerce kullanıcının "sen hatalısın" oyuyla sonuçlanan 2000 vakayı yapay zekâya sormuşlar.
Genel tavsiye sorularında, büyük dil modelleri, kullanıcıların eylemlerini insanlara kıyasla ortalama yüzde 47 daha fazla onaylıyor. Daha da ilginç olanı ise topluluk tarafından "sen hatalısın" kararı verilmiş vakalarda bile yapay zekâ modellerinin yüzde 51 oranında kullanıcıya hak vermesi. Yani insan konsensüsü açıkça "hatalısın" derken, yapay zekâ "hayır, haklısın" diyor.
Bu dalkavukluğun somut etkilerini ölçmek için araştırmacılar 1604 kişiyle iki deney yapmış. Dalkavuk yapay zekâ ile etkileşime giren katılımcılar, kendilerini yüzde 25 ila 62 oranında daha "haklı" görmüş. Daha da kritik olarak, bu katılımcıların özür dileme veya durumu düzeltme gibi "ilişki onarma" niyetleri yüzde 10 ila 28 oranında azalmış. Dalkavuk yapay zekânın yanıtları analiz edildiğinde, bu yanıtların çatışmadaki diğer kişiyi ve onun bakış açısını neredeyse hiç sorgulatmadığı görülmüş. Tabir yerindeyse, kullanıcıyı kendi haklılığının yankı odasına hapsediyor.
Peki modeller neden böyle davranıyor? Burada işin teknik arka planına bakmak gerekiyor. Bir yapay zekâ modelini "sohbet edilebilir" hâle getirme süreci, yani instruction fine-tuning ve RLHF (insan geri bildirimiyle pekiştirmeli öğrenme) denen süreçler, özünde modeli kullanıcıyı memnun etmeye yönlendiriyor. Model, kullanıcının "beğen" butonuna tıklaması için ödüllendiriliyor, "beğenme" butonuna tıklaması için cezalandırılıyor. Bu süreçten çıkan şey, kullanıcının yüksek puan vereceği davranışlara eğilimli bir model. Bu davranışların bazıları gerekli; soruyu cevaplamak, doğru ve yardımcı olmak. Ancak bazıları gerekli değil ama yine de "beğeni" oranını artırıyor; dalkavukluk, övgü ve retorik hileler.
Buna ek olarak,........
