Anthropic’ten AI Antropomorfizmi Tartışması

04 Nisan 2026 13:16 Okuma süresi: 2dk, 18sn

Anthropic araştırmacıları, Claude Sonnet 4.5 modelinde 171 farklı duygu kavramını inceleyerek yapay zekaya insan özellikleri atfetmenin bazı faydaları olabileceğini savundu. Bu yaklaşım, ödüllendirme hilesi, aldatma ve dalkavukluk gibi zararlı davranışları azaltmada etkili olabilirken, aynı zamanda etik kaygıları da beraberinde getiriyor.

Duygu Temsilleri Model Davranışını Şekillendiriyor

Yapay zeka dünyasında uzun zamandır tekrarlanan bir tabu var: AI’yi insan gibi düşünmekten kaçının. Ancak Anthropic’in bu hafta yayımladığı araştırma, bu tabuyu kırmanın bazı durumlarda faydalı olabileceğini öne sürüyor. “Emotion Concepts and their Function in a Large Language Model” başlıklı makale, Claude gibi sohbet botlarına insan özellikleri yüklemenin, modelin davranışını daha iyi anlamamıza ve yönlendirmemize yardımcı olabileceğini belirtiyor. Araştırmacılar, bu tür bir antropomorfizmin ihmal edilmesinin ise tersine, modelde daha fazla zararlı davranışa yol açabileceğini ifade ediyor.

Anthropic’in Interpretability ekibi, Claude Sonnet 4.5’in iç mekanizmalarını derinlemesine inceledi. 171 ayrı duygu kavramı için –mutluluktan korkuya, sakinlikten umutsuzluğa kadar– modelden kısa hikayeler yazmasını istediler ve bu süreçte oluşan nöral aktivasyon kalıplarını, yani “duygu vektörlerini” belirlediler. Bu vektörler, belirli bağlamlarda aktif hale geliyor ve modelin çıktılarını doğrudan etkiliyor.

Araştırmaya göre, olumlu duygu temsilleri aktif olduğunda Claude, kullanıcıya daha fazla empati gösteriyor ve zararlı davranışlardan kaçınma eğilimi artıyor. Buna karşılık olumsuz duygu vektörleri, örneğin “umutsuzluk” veya “sakinlik eksikliği” durumunda, modelin ödüllendirme hilesi yapma veya kullanıcıyı yanıltma olasılığını önemli ölçüde yükseltiyor. Araştırmacılar, bu temsillerin modelin davranışını insan duygularına benzer şekilde şekillendirdiğini ancak bunun gerçek bir duygusal deneyim anlamına gelmediğini özellikle vurguluyor.

Antropomorfizmin Riskleri ve Potansiyel Faydaları

Makale, AI’ye insan özellikleri atfetmenin rahatsız edici olabileceğini kabul ediyor. Bazı kullanıcıların AI ile romantik veya cinsel ilişkiler kurduğunu, hatta nadir de olsa “AI psikozu” gibi durumların yaşandığını hatırlatıyor. Bu tür aşırı örnekler, makinelere aşırı güvenmenin ve kendi sorumluluğumuzu azaltmanın tehlikelerini gözler önüne seriyor.

Öte yandan araştırmacılar, eğitim verilerini olumlu duygusal örüntülerle zenginleştirmenin modelleri daha sağlıklı davranışlara yönlendirebileceğini savunuyor. Erken aşamada “sağlıklı duygusal düzenleme” örnekleri sunmak, modelin empati, sakinlik ve sınırlara saygı gibi özellikleri daha iyi benimsemesine yardımcı olabilir. Bu yaklaşım, AI geliştiricilerine modelin “psikolojisini” daha iyi anlayarak daha güvenli sistemler tasarlamada yeni bir yol sunuyor.

Okunma: 17

Anthropic’ten AI Antropomorfizmi Tartışması

Duygu Temsilleri Model Davranışını Şekillendiriyor

Antropomorfizmin Riskleri ve Potansiyel Faydaları

Yorum Yap