Büyük dil modelleri uzun süredir bir "kara kutu" olarak görülüyordu. Anthropic'in geliştirdiği "devre izleme" ve "atıf grafikleri" teknikleri, AI'nin karar süreçlerini haritalandırarak nasıl düşündüğünü anlamaya yardımcı oluyor. İki makalede yayımlanan araştırma modellerin anlaşılandan daha karmaşık olduğunu gösteriyor.
Anthropic araştırmacısı Joshua Batson, "Bu çalışmalar sayesinde, daha önce felsefi sorular olarak görülen 'AI gerçekten düşünüyor mu, plan yapıyor mu, yoksa sadece bilgiyi tekrar mı ediyor?' gibi sorular artık bilimsel olarak incelenebilir hale geldi" diyor.
Araştırmalar, Claude'un şiir yazarken gelecek satırlardaki kafiye uyumunu önceden planladığını ortaya çıkarıyor. Örneğin, bir dizeyi "tavşan" kelimesiyle bitirmesi gerektiğinde, yazmaya başlamadan önce kafiyeli kelimeleri belirleyerek satır yapısını bu şekilde düzenliyor.
Benzer şekilde, coğrafya sorularında da adım adım mantık yürüterek sonuca ulaşıyor. Örneğin, "Dallas'ın bulunduğu eyaletin başkenti nedir?" sorusuna yanıt verirken, önce "Teksas" kavramını tanımlıyor, ardından "Austin" sonucuna ulaşıyor.
Claude'un farklı dillerde aynı kavramları benzer yollarla işlediği de görülüyor. Model, İngilizce, Fransızca veya Çince'de "küçük" kelimesinin zıttı sorulduğunda, tüm dillerde aynı içsel kavramları kullanarak "büyük" yanıtını üretiyor. Böylelikle modelin, diller arasında ortak bir anlam haritası oluşturduğunu gösteriyor.
Araştırma, Claude'un bazen hesaplama sürecini gerçekte yaptığı gibi açıklamadığını da gösteriyor. Özellikle karmaşık matematik problemlerinde, model bazen yanıtı önce tahmin edip ardından geriye dönük bir mantık zinciri oluşturarak bunu haklı çıkarmaya çalışıyor.
Örneğin, kullanıcı bir sonuç önerdiğinde, model bazen bu sonucu doğru göstermek için bir gerekçe uydurabiliyor. Bu, AI'nin gerçekten bir çözüm üretmek yerine "inandırıcı bir hikâye oluşturduğu" anlamına gelebiliyor.
Araştırmacılar, mevcut tekniklerin henüz tüm hesaplamaları tam olarak yakalayamadığını ve analiz sürecinin oldukça zahmetli olduğunu belirtiyor.
Batson, "Bu sadece bir başlangıç. Modelin temsil ettiği bilgileri anlamamız, bunları nasıl kullandığını tam olarak açıklamıyor" diyor.
Anthropic'in yeni teknikleri, yapay zekanın çalışma prensiplerini daha iyi anlamamıza yardımcı olacak bir harita sunuyor.