OpenAI’nin o3’ü, Anahtar Referans Testinde İnsan Seviyesi Zekâya Ulaşıyor
Yapay zeka konusunda yakın zamanda yapılan bir atılım, araştırmacıları çok uzun zamandır hedefledikleri genel yapay zeka (AGI) oluşturma hedefine daha da yaklaştırmıştır.
Acele mi Ediyorsunuz? İşte Hızlı Bilgiler!
- OpenAI’nin o3 AI’si, ARC-AGI genel zeka ölçümünde %85 puan aldı.
- Bu skor, ortalama insan performansına denk gelir ve önceki AI’ın %55’lik rekorunu geride bırakır.
- ARC-AGI testi, örnek verimliliği ve yeni görevlere adapte olma yeteneğini ölçer.
OpenAI’nin yeni AI sistemi olan o3, ARC-AGI benchmarkında %85’lik bir skor elde etti—bu test, bir AI’ın yeni durumlara nasıl uyum sağladığını ölçmek için tasarlandı. Bu durum, The Conversation tarafından rapor edildi.
Bu sonuç, önceki AI en iyisini %55 ile aşarak ve ortalama insan performansına denk gelerek, AI araştırmalarında önemli bir dönüm noktası oluşturuyor. ARC-AGI benchmarkı, bir AI sisteminin “örnek etkinliğini” değerlendirir, yani sınırlı örneklerden ne kadar iyi öğrendiğini, diyor The Conversation.
ChatGPT gibi yaygın olarak kullanılan AI modellerinin aksine, o3 modeli, minimum veriyle yeni görevlere genelleme ve adapte olma yeteneğini gösterir. Bu yetenek, The Conversation tarafından bildirildiği gibi, insan gibi zekayı elde etmek için temel olarak kabul edilir.
Fransız Yapay Zeka araştırmacısı François Chollet tarafından geliştirilen, ARC-AGI testi desenleri tanımlayarak ızgara tabanlı bulmacaları çözmeyi içerir.
Geleneksel LLM’ler, önceden öğrenilmiş “mini-programları” hafızaya almayı, getirmeyi ve uygulamayı içerir ancak akıcı zeka konusunda zorluk çekerler, bunun kanıtı ARC-AGI referansında düşük puanlardır. O3 modeli, Chollet’in ayrıntılarıyla anlattığı gibi, test zamanında bir program sentezi mekanizması sunar, bu da yeni çözümler üretip uygulamasını sağlar.
Chollet, o3’ün temelinde, bir değerlendirici model tarafından yönlendirilen token alanı içinde doğal dil programı araması yaptığını açıklıyor. Bir görevle karşılaştığında, o3 doğal dilde tarif edilen adım adım çözümleri olan “düşünce zincirleri” (CoTs) olasılıklarını keşfeder.
Bu CoTs’ları uygunluk açısından değerlendirir, bilgiyi etkili bir şekilde yeni zorlukları ele alacak şekilde uyumlu programlara yeniden birleştirir. The Conversation, OpenAI’nin o3’ü geliştirmek için kullanılan kesin yöntemleri açıklamadığını belirtirken, araştırmacılar sistemin 2016 yılında dünya Go şampiyonunu yenen Google’ın AlphaGo’suna benzer bir süreç uyguladığını tahmin ediyorlar.
Ancak, Chollet, bu sürecin hesaplama yoğunluğunu belirtiyor. Çözümler oluşturmak, program alanında milyonlarca potansiyel yolun keşfedilmesini gerektirebilir ve bu, zaman ve kaynaklar açısından önemli maliyetlere yol açabilir. İteratif öğrenme yoluyla otomatik olarak yetenekler kazanan AlphaZero gibi sistemlerin aksine, o3, uzmanlar tarafından etiketlenmiş CoT verilerine bağımlıdır, bu da özerkliğini sınırlar.
Bu umut verici sonuçlara rağmen, önemli sorular hala mevcuttur. OpenAI, o3 hakkında sınırlı bilgi yayınlamıştır ve detayları yalnızca belirli araştırmacılar ve kurumlarla paylaşmıştır.
The Conversation, sistemin uyum yeteneğinin temelde iyileştirilmiş alt modellerden mi, yoksa eğitim sırasındaki görev odaklı optimizasyonlardan mı kaynaklandığı konusunda belirsiz olduğunu belirtiyor. o3’ün gerçek potansiyelini anlamak için daha fazla test ve şeffaflık kritik öneme sahip olacak.
Ayrıca, Chollet bu zekanın maliyetini vurguluyor: ARC-AGI görevlerini çözmek insanlar için 5 dolar iken, düşük hesaplama modunda o3 için 17–20 dolar arası bir maliyeti bulunuyor. Ancak, o3’ün hızla iyileşmesini ve yakında insan performansıyla rekabet eder hale gelmesini bekliyorlar.
Bu başarı, AG’nin uygulanabilirliği ve etkileri hakkındaki tartışmaları yeniden alevlendiriyor. Bazı araştırmacılar için, o3’ün başarısı AGI’nin olasılığını daha somut ve acil hale getiriyor. Bu, özellikle AI tarafından oluşturulan zararlı yazılım varyantlarının giderek daha fazla tespit edilmesini engellemesi gibi siber güvenlik endişeleri göz önüne alındığında oldukça kritiktir.
Ancak diğerleri temkinli olmayı sürdürüyor, o3’ün yeteneklerinin belirli referans noktalarının ötesine geçip geçmediğini belirlemek için sağlam değerlendirmelere ihtiyaç olduğunu vurguluyorlar. AI topluluğu o3’e daha geniş erişimi beklerken, bu başarı, insanlar gibi akıl yürütme ve öğrenme yeteneğine sahip akıllı sistemlerin peşinde dönüştürücü bir anı işaret ediyor.
Yorum bırakın
Vazgeç