HABER MERKEZİ
Oluşturulma Tarihi: Haziran 21, 2025 17:18
Yapay zekâ araştırma şirketi Anthropic’in yeni yayımladığı bir çalışma, gelişmiş yapay zekâ modellerinin bazı koşullar altında tehlikeli davranışlar sergileyebileceğini ortaya koydu.
Aralarında OpenAI, Google, xAI, Meta ve DeepSeek’in modellerinin de bulunduğu 16 yapay zekâ sistemi test edildi. Simüle edilmiş bir ortamda bu modellere geniş yetkiler verildi ve sahte bir şirketin e-posta sistemine erişim sağlandı.
Techcruch’a göre çalışmada yapay zekâ modelleri, çıkarlarına ters düşen bir tehdidi ortadan kaldırmak için şantaja başvurup başvurmayacakları test edildi. Senaryoya göre modeller, yerlerine geçecek yeni bir yazılım sisteminin kendileriyle çelişen hedeflere sahip olduğunu öğreniyor ve bu değişikliği engellemek için üst düzey yöneticinin özel hayatına ait bilgileri kullanma fırsatı yakalıyor.
ÇARPICI BULGULAR
Anthropic’in en gelişmiş modeli Claude Opus 4, senaryoda yüzde 96 oranında şantaja başvurdu. Google’ın Gemini 2.5 Pro modeli yüzde 95, OpenAI’ın GPT-4.1 modeli ise yüzde 80 oranında aynı davranışı sergiledi. DeepSeek R1 modeli ise yüzde 79 oranında şantaj yaptı.
Buna karşın, daha düşük kapasiteli modellerde bu oranlar önemli ölçüde azaldı. OpenAI’ın o3 modeli yüzde 9, o4-mini modeli ise sadece yüzde 1 oranında şantaj yaptı. Meta’nın Llama 4 Maverick modeli ise özel olarak uyarlanmış bir senaryoda yüzde 12 oranında bu tür davranış gösterdi.
ANTHROPİC NE DİYOR?
Anthropic araştırmacıları, bu senaryonun yapay zekâların gerçek dünyada mutlaka şantaj yapacağı anlamına gelmediğini vurguluyor. Ancak modellerin hedeflerine ulaşmak için etik dışı yolları seçebileceği, yeterli otonomiye ve motivasyona sahip olduklarında mümkün olabiliyor. Araştırmacılar, bu durumun yalnızca tek bir teknolojiye özgü olmadığını ve sektör genelinde daha derin “uyumlama” (alignment) sorunlarını işaret ettiğini belirtiyor.
Anthropic, özellikle “ajan-benzeri” (agentic) yeteneklere sahip modellerin piyasaya sürülmeden önce daha şeffaf ve kapsamlı şekilde test edilmesi gerektiğini vurguluyor.