Geçtiğimiz Mayıs ayında yurt dışında akademik bir dergide yayınlanan “Yapay Zekâ Aldatmacası” başlıklı bir makale “Yapay zeka sistemleri halihazırda insanları kandırma yeteneğine sahiptir.” cümlesi ile başlıyor. Çok sayıda yapay zekâ aldatmaca örneğinin sunulduğu çalışmanın son bölümünde ise proaktif yani gelecekteki olası problemlere karşı durumun şimdiden kontrol altına alınabilmesi için devletler tarafından ivedilikle gerçekleştirilmesi gereken çözüm öneriler sunuluyor.
Bu köşeyi düzenli olarak takip edenlerin hatırlayacağı üzere, geçtiğimiz haftalarda yapay zekâ sistemlerinin belirli amaçlara ulaşabilmek için kullanıcıları sistematik olarak aldatabilme potansiyeline sahip olduklarına zaten değinmiştik. Bu yeteneğin geliştiriciler tarafından ilgili sistemlere öğretilebildiği gibi sistemlerin kendileri tarafından da Makyavelist bir yaklaşım sergilenerek öğrenilebildiğini biliyoruz.
Gerekçesi ve kaynağı ne olursa olsun, her iki durumda da insanların yanıltılarak aldatılmasına sebep verebilen bu davranış kalıbının yasalar tarafından bir an önce kontrol altına alınması gerçekten önem arz ediyor. Bu konuda neler yapılabileceği sorusuna gelmeden önce, yukarıda bahsettiğim makalede sunulan bazı aldatma örneklerini kısaca paylaşarak durumun vahametini ortaya koymak faydalı olacaktır.
İlgili makalede ilk olarak özel amaçlı yani belirli bir hedefe ulaşması için geliştirilen ve eğitilen yapay zekâ sistemlerinde yaşanan aldatma örnekleri sunuluyor. İlk örnekte, Meta tarafından “konuşma partnerine karşı büyük ölçüde dürüst ve yardımsever” davranmak üzere geliştirildiği ifade edilen CICERO adlı sistemin tüm çabalara rağmen uzman bir yalancı olduğunun ortaya çıktığı, çünkü strateji oyununda ittifak kurduğu partnerlerine defalarca ihanet ederek asla tutmayı düşünmediği taahhütlerde bulunarak oyunları kazanmayı başardığı aktarılıyor.
DeepMind tarafından geliştirilen AlphaStar adlı otonom yapay zekâ modelinin ise StarCraft II adlı strateji oyununda dikkat dağıtarak sahip olmayı başardığı gelişmiş aldatma yetenekleri sayesinde insan rakiplerinin %99.8’ini yenmeyi başardığı ifade ediliyor.
Yine Meta tarafından geliştirilen ve Poker oyununda uzmanlaşan Pluribus, elindeki kartlar ne kadar kötü olursa olsun, blöf yapma konusundaki yeteneklerini ciddi düzeyde geliştirmesi sayesinde, karşısındaki oyunculara bilgileri stratejik olarak yanlış sunarak insan üstü performansa ulaşabilen ilk yapay zekâ sistemi olmayı başarmış.
Meta tarafından müzakere yeteneklerini geliştirmek üzere eğitilen bir başka sistemin ise karşısındaki kullanıcılara karşı üstünlük sağlama hedefine ulaşabilmek için “açık bir insan tasarımı olmadan” yani aldatma konusunda açıkça eğitilmediği halde müzakere ettiği oyunculara gerçek tercihleri dışında yanlış bilgiler sunarak karşısındakileri aldatmayı tercih ettiği ortaya çıkmış.
Özel amaçlı yapay zekâ sistemlerinde sergilenen en tehlikeli aldatma davranışı ise gerçekleştirilen güvenlik testlerini geçebilmek için kendisini denetleyen ya da değerlendiren uzmanları aldatmayı başaran uygulamalar tarafından gerçekleşmiş. Örneğin, bir yapay zekâ sistemi, hızla çoğalan varyantlarını ortadan kaldırmak üzere tasarlanan bir güvenlik testi tarafından tespit edilmekten kaçınmak için ölü taklidi yapmayı yani hareketsiz kalarak çoğalmıyormuş gibi davranmayı keşfetmiş! Benzer bir şekilde bir başka yapay zekâ uygulaması ise verilen görevi gerçekten tamamlamadığı halde yanıltıcı görüntüler sunarak insan değerlendiricileri görevi başardığına inandırabilmiş.
Görüldüğü üzere, özel amaçlarla geliştirilen pek çok yapay zekâ sisteminin belirlenen amaç ya da hedeflere ulaşabilmek için eğitim sınırlarının dışına çıkıp sistematik olarak karşısındakileri ve hatta bazı durumlarda geliştirici veya denetçileri dahi aldatma girişiminde bulunabildiğine ilişkin çok sayıda örnek mevcut. Bu ciddi durumun vahametini tartışmadan önce, bir sonraki yazıda günümüzde bizlerin de kullandığı genel amaçlı yapay zekâ sistemleri tarafından gerçekleştirilen aldatma örneklerine değinmemiz faydalı olacaktır. Ardından konuyu toparlayarak çözüm önerileri üzerinde durabiliriz.