| Purdue Üniversitesi’nden araştırmacıların gerçekleştirdiği bir çalışmayla ChatGPT’nin programlama ile ilgili sorulara %52 oranında yanlış cevap verdiği ortaya çıktı. Çalışmada Stack Overflow’dan alınan 517 programlama sorusu ChatGPT’ye soruldu ve doğru cevap verme yüzdesi ölçüldü. Çalışma sonucunda ChatGPT’nin yanıtlarının %52’sinin yanlış bilgi içerdiği ve %77’sinin ise gereksiz ayrıntılarla dolu olduğunu görüldü. Ek olarak araştırmaya katılan geliştiriciler ChatGPT’nin cevaplarındaki yanlış bilgileri %39 oranında gözden kaçırdılar.
|
| Bu çalışmaya paralel olarak Avrupa Veri Koruma Kurulu (EDPB) da ChatGPT’nin ne kadar güvenilir olduğu konusundaki çekincelerini paylaştı. EDPB’nin cuma günü yayınladığı raporda OpenAI’ın şeffaflık konusunda attığı adımlar ve veri doğruluğu konusundaki çalışmaları yetersiz bulundu. Rapora göre ChatGPT önyargılı ve hatalı sonuçlar verebiliyor fakat kullanıcılar ChatGPT’den gelen yanıtları sorgulamadan doğru kabul edebiliyor ve bilgilerin doğruluğunu çoğu zaman araştırmıyorlar.
|
| MIT’deki kuantum hesaplama laboratuvarından çıkan bir yapay zeka girişimi olan CleanLab ise büyük dil modellerinin hatalı ve uydurma cevaplarına yönelik yeni bir araç tasarladı. Firmaya göre büyük dil modelleri, gerçeği kurgudan ayırma konusunda yetersiz ve kişi ve kurumlar da bu araçları kullanarak alacakları risklere değip değmeyeceği konusunda şüphe içindeler. CleanLab ise tasarladığı Güvenilir Dil Modeli ile bu büyük dil modellerinin ürettiği çıktıların güvenilirliğini ölçüyor. Araç, dil modellerinin ürettiği herhangi bir çıktıya güvenilirliğine göre 0 ile 1 arasında bir puan veriyor. Bu sayede insanların hangi yanıtlara güveneceğini ve hangilerini eleyeceğini seçmesine olanak sağlıyor. Güvenilir Dil Modeli, bu puanları hesaplamak için birden fazla yöntem kullanıyor. Öncelikle araca gönderilen her sorgu farklı dil modellerine gönderiliyor. Bu modellerin her birinden alınan yanıtların aynı veya benzer olması daha yüksek puan almasını sağlıyor. Aynı zamanda araç, orijinal sorguyu farklı modellere gönderirken farklı ifade ve kelimelerle farklı şekillerde gönderiyor. Yine alınan cevapların benzerliği yanıtın puanını etkiliyor. Son olarak araç farklı dil modellerini de birbiriyle konuşturuyor. Farklı modellerin yanıtlarını birbirlerine göndererek bu yanıt hakkındaki fikirlerini sormasını sağlıyor ve bu etkileşimleri de ölçerek puanlamaya ekliyor. Elde edilen sonuç ise dil modellerinin verdiği yanıtların ne kadar doğru olduğunun anlaşılmasına olanak sağlıyor.
|
| Tüm bu çalışmalar gösteriyor ki, dünya tarihinde endüstri devrimiyle benzer etkiye sahip olduğunu düşündüğümüz yapay zeka hayatımıza çok hızlı entegre olmasına rağmen henüz emekleme aşamasında. Bu noktada yapay zeka uygulamalarından aldığımız yanıtları daha detaylı değerlendirmek ve güvenilirliklerini sorgulamak “şimdilik” biz kullanıcılar için alınması gereken önemli bir önlem gibi görünüyor.
Tepe Noktası |
Yapay Zeka sorulara uydurma yanıtlar veriyor!










