Son zamanlarda yapay zeka teknolojilerinin gelişmesi ile birlikte birçok sohbet botu ortaya çıkmıştır. Bu sohbet botları, insanlarla iletişim kurmada kullanılmaktadır. Bunlar arasında ChatGPT ve Google Gemini gibi yapay zeka destekli sohbet botları da bulunmaktadır. University College London’dan araştırmacılar, yapay zeka botlarının doğruluk seviyelerini insan muhakemesini test etmek için tasarlanmış bir dizi klasik teste tabi tuttu. Ancak araştırma sonuçları, yapay zeka botlarının mantıksız ve yanlış cevaplar verebildiğini ortaya koydu.
En iyi performans gösteren yapay zekaların bile basit hatalara ve mantıksız cevaplara yatkın olduğu görüldü. Yapay zeka modellerinin çoğu, test edilen soruların yarısından çoğunda yanlış yanıt verdi. Bazı modeller ise mantık sorularını “etik gerekçelerle” yanıtlamayı reddetti. Bu durum, yapay zekanın insanlarla aynı şekilde mantıksız olabileceğini ve bazı durumlarda etik sebeplerle cevap vermediğini göstermektedir.
Araştırmacılar, ChatGPT, Meta’nın Llama botu, Claude 2 ve Google Gemini gibi birçok yapay zekayı test etti. Bu modellerden tekrar tekrar insanların muhakeme yeteneklerini test etmek için tasarlanan 12 klasik mantık sorusuna yanıt vermeleri istendi. Ancak yapay zeka botlarının tepkilerinin genellikle ne rasyonel ne de insana benzer olduğu belirlendi. Meta’nın Llama modeli, sesli harfleri ünsüz harflerle karıştırarak soruları yanıtlamada zorluk yaşadı. Diğer modeller de etik nedenlerle sorulara cevap vermede tereddüt gösterdi.
En iyi performansı gösteren yapay zeka modeli ise yüzde 69,2 oranında doğru ve insani mantıkla yanıt veren ChatGPT oldu. En kötü performans gösteren model ise yüzde 77,5’lik hata oranıyla Meta’nın Llama 2 7b modeli olarak kayıtlara geçti. Araştırmacılar, yapay zekanın kafa karışıklığına neden olan yanıtlarının çoğunun, koruma özelliklerinin yanlış çalışması ve aşırı dikkatli olmanın bir sonucu olduğunu iddia etmektedirler. Sonuç olarak, yapay zeka botlarının insanlar kadar mantıklı ve tutarlı olmadığı ve belirli durumlarda etik sebeplerle cevap veremediği ortaya çıkmıştır.