OpenAI firması merakla beklenen yeni modelini 12 Eylül günü Türkiye saatiyle 20.00 sularında duyurdu. o1 kod adıyla yayınlanan modelin o1-mini ve o1-preview versiyonları ChatGPT Pro, ChatGPT Enterprise ve OpenAI API Tier 5 kullanıcılarının kullanımına aynı gün açıldı. Nitekim (12 Eylül’ün devrisi günü böyle bir kelime kullanmak istemezdim.) Twitter’da akşam saatlerinde yaşanan yoğun tweet floodları OpenAI’ın sadık kullanıcılarının beklemeye pek tahammülleri olmadığını gösterdi. Yeni model ile 10 saniyenin altında hazırlanan yılan oyunları, 2 boyutlu Super Mario benzeri oyunlar, hava durumu mobil uygulamaları arzı endam etmeye başladı.
29 Ağustos’da Serbestiyet sitesinde yayımlanan yazımızda yeni dil modelinin ilk işaretlerinin şirket CEO’su Sam Altman’ın bahçesinden paylaştığı bir çilek ağacı fotoğrafı ile verildiğini yazmıştık. Herkes bunun yeni dil modelinin bir işaret fişeği olduğunu tahmin etmiş, GPT5’in ayak sesleri olarak algılamıştı ama pek çoklarının zihninde çilek (Strawberry) bir anlam ifade etmemişti.
o1’in aynı gün yayınlanan tanıtım videolarından anlaşılıyor ki Strawberry kelimesi hiç de öyle boşuna seçilmiş bir kelime değil. Strawberry, dil modellerinin konteksti anlama kapasitelerin ölçmek için yapılan basit bir teste dayanıyor. Ticari dil modellerinin en güçlüsü GPT4o’nun dahi çuvalladığı test gayet basit. Dil modellerine Strawberry kelimesinde kaç adet “r” harfi var, diye sorduğunuzda maalesef doğru cevap veremiyordu. 2 olarak hızlıca verdiği cevap, çuvallamanın en büyük işaretiydi. Sorunun kaynağı dil modellerinin token (hece) düzeyinde işlem yapması ve hızlı cevap vermeye konsantre olmasıydı. Strawberry kod adı aslında o1 modelinin hızdan ziyade, düşünme, problemli küçük parçalara bölme (chain-of-thought), adım adım sonuca yaklaşma kabiliyetine işaret ediyor. Ve evet, yeni model Strawberry sorusuna doğru cevap verebiliyor.
Yeni dil modellerinde hızdan daha çok, cevap öncesi problemi aşamalandırma, adım adım çözüme gitme yaklaşımı ile GPT ailesinin bu yeni üyesi hız meraklılarını hayal kırıklığına uğratabilir. o1’in cevap verme süresi saniyeleri bulabiliyor. Keza, OpenAI firması da bu dil modelinin, en azından ilk versiyonunun, production yani kullanıcıların canlı ortamlarda eriştiği uygulamaların arkasında hizmet veren bir dil modeli olmasındansa, başlangıçta akademik faaliyetler ve programcılar tarafından kullanılabileceğini belirtiyor.
Dil modeli girdileri cevaplarken, çeşitli aşamalar katediyor, Thinking, Understanding the problem, Checking the solution gibi her bir girdi için farkılılaşabilecek adımlar bunlar. Burada yeni dil modelinin takip ettiği yöntem Chain-of-Thought olarak biliniyor. Bir problemi daha küçük parçalara bölüp, adım adım çözüme yaklaşma olarak ifade edebileceğimiz bu promit (girdi) tekniği 2022 yılının Ocak ayında “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” başlığı ile bir akademik çalışma olarak sunuldu. Çalışmanın esas hareket noktası, dil modeline verilen girdide problemin adım adım ele alınması açıklanır, eğer bir örnek ile tanıtılırsa, dil modellerinin daha iyi bir performans gösterebildikleri yönündeydi. Bugüne dek daha çok aritmetik problemlerin çözümünde dil modellerinden istifade edilirken kullanılan bu yöntem, parametre sayısı büyük modellerde ciddi başarımla sonuçlanabiliyor.
OpenAI şirketi dil modellenin problemi aşamalandırma, akıl yürütme aşamalarını gizleme yolunu tercih etmiş. Raw, yani ham hali kullanıcılardan gizlense de problemi aşamalandırma süreci şimdilik kullanıcılara özet halde gösteriliyor.
OpenAI yeni modelin tüm tanıtım videolarında tek rakibinin kendisi olduğunu alt metinde hissettirircesine bütün karşılaştırmaları yine kendi modeli GPT4o modeliyle yapıyor. Yeni model o1 daha şimdiden, şirketin iddiasına göre, Uluslarası Matematik Olimpiyatlarında ( International Mathematics Olympiad) yüzde 87’lik bir başarıya imza atmış. Bu başarım, şirketin bir önceki modeli GPT4o için yüzde 13 olarak belirtiliyor. Şirket yeni modelin başarım oranıyla American Invitational Mathematics Examination’da (AIME) en başarılı ilk 500 öğrenci arasına girebilecek yetenekte olduğunu iddia ediyor.
Yeni modelde OpenAI şirketi son kullanıcılar yerine, rekabetin iyice kızıştığı yapay zeka endüstrisine bir mesaj veriyor sanki. Bunu hem yukarıda ifade ettiğimiz gibi mukayeseyi kendi modelleri ile yapmasından, hem de yeni modelde kullanıcıların büyük önem atfettikleri web’den bilgi toplayabilme (browsing), dosya ve resim yükleyebilme (image/file uploading) özelliklerinyer vermemiş olmasından anlıyoruz. Sanki bu yeni model adımı OpenAI’ın karlılık hedefleri için değil de, şirket CEO’su Sam Altman’ın kişisel ajandasında önemli bir tutan, geçtiğimiz yıl kendi istifası dahil, büyük sansasyonlara da yol açan AGI (Artifical General Intelligence – Genel Yapay Zeka) hedeflerine şirketi yaklaştırmak için atılmış bir adım gibi. Sizleri bilmem ama bu yeni model hamlesiyle Sam Altman bana Netflix’in robotların insan hayatında giderek işgal ettiği bir dünyayı konu alan Better Than Us (Bizden daha iyiler) dizisinde, ünlü yapay zeka şirketi Cronos’un hırslı CEO’su Viktor Toropov hatırlattı.
Yeni dil modelinin başarımı fevkaladenin fevkinde de olsa, öyle görünüyor ki ücreti epey tuzlu olacak. Zira yeni model sadece dil modellerinin geleneksel ücretlendirme modeli olan girdi ve çıktıda işlenen token sayısı ile değil, aynı zamanda perde arkasında işleyecek olan sorunu detaylandırma, adım adım çözüm bulma, çözümü teyid etme gibi işlemler için de ücretlendirilecek. Bir kötü haberim daha var, yeni dil modeli o1’in kullanım limitleri de oldukça düşük. Kullanıcılar o1-preview için haftalık 30 mesaj gönderebilirken, o1-mini modeli için bu limit 50 olarak belirtiliyor.
Hasılı, o1 modelleri yavaş atın tekmesinin pek olacağını daha ilk günden duyurulan performans başarımları ile gösteriyor.