Son birkaç gündür yer gök DeepSeek haberleriyle çalkalanıyor. Sözünü ettiğimiz şirket 2023 yılında kuruluşu sosyal medyadan anons edilmiş, 40’lı yaşlarında var yok genç bir girişimcinin yönettiği bir şirket.
Yapay zeka ve makine öğrenmesi alanında çalışanlar, gelişmeleri takip eden meraklılar uzun zamandır Çinli yapay zeka şirketlerinin (örneğin Alibaba’nın Qwen Lab’ı, ByteDance, DeepSeek ) ürettiği modellerin başarımlarından övgü ile söz ediyor hem de fiyat politikalarının çok avantajlı ve rekabet alanını kızıştıracak düzeyde olduğunu söylüyorlardı.
Her ne kadar bu şirketler modellerini açık kaynak olarak, yani herkesin istifade edebileceği, hatta şahsi bilgisayarlarına indirip kullanabileceği formatta paylaşsalar da bu teknolojilerin gerçekten halkla buluşması için ihtiyaç duyduğu kolay kullanıma imkan veren bir arayüzden yoksundular.
DeepSeek bu perdeyi 15 Ocak’ta mobil uygulamasını ve ücretsiz kullanım imkanını duyurarak yırttı diyebiliriz. Nitekim çok geçmeden büyük bir teveccühe mazhar olarak Trump’ın yemin törenine tekabül eden günlerde, adeta ev sahibi takımı kendi sahasında yenerek OpenAI’in ChatGPT’sini ABD indirme istatistiklerinde geçti. Ardından olaylar, olaylar… Nvidia’nın hissesindeki düşüşler, vs DeepSeek rüzgarının etkileri olarak haber bültenlerinde birbiri ardına yer aldı.
Peki devlerin karşısında bu kadar kısa sürede rüştünü ispatlayan DeepSeek şirketinin sırrı ne?
Şirketin deklare ettiği misyonu ve insan kaynakları politikasından tutun da, kurucu ve CEO’sunun hikayesine kadar pek çok ipucu bulabilmek mümkün.
DeepSeek’in öne çıkan ismi, kurucu ve CEO Liang ile başlayalım.
Liang, Çin’in teknik eğitimleriyle meşhur üniversitesi Zhejiang’da yapay zeka üzerine eğitimini alırken takvim yaprakları 2008 yılını gösteriyordu. Dünyanın geri kalanı piyasaya henüz çıkan iPhone telefonların büyüsüne kapılmışken Liang, yapay zekanın dünyayı değiştirebileceği fikrine ilk kez bu yıllarda gönül vermişti. Sahadaki gelişmeleri takip ettiğine çeşitli dönemlerde basına verdiği beyanatlardaki ayrıntılardan görebilmek mümkün.
Friedrich Engels dili, düşüncenin dolayımsız gerçekliği olarak tarif eder. Belki de komunist bir ülkede doğup büyümenin bir cilvesidir, Liang da dil modelleriyle olan tutkulu ilişkisini benzer bir biçimde tarif ediyor. İnsanların dil ile düşündüğünü, dil modellerinin de bu bakımdan insanlarla benzerlik göstermesinin kendileri için hem bir merak konusu, hem de yeni hipotezler ortaya atıp sınayabilecekleri bir alan olduğunu belirtiyor. Düşünmek dil ile oluyor ve dil modelleri de pekala benzer bir şekilde hareket ediyorlarsa, genel yapay zeka alanında ilerlemek için bu konudaki çalışmaları derinleştirmek gerektiğini ifade ediyor.
Birçok referans ve haber metninde şirketin misyonu olarak araştırma ve merak kavramlarına hususi vurgu yapıldığı görülüyor. Şirket için önemli bir diğer anahtar kelime de “uzun soluklu düşünmek” (long-termism)
Bu iki ayrıntı, yani merak ve uzun solukluluk şirketin insan kanakları politikasını da belirleyen başat faktör. Nitelim bu yüzden tecrübeli uzmanlar yerine, temellere vakıf, hevesli yeni mezunları tercih ediyorlar.
Liang, çalışanları bu şekilde istihdam ettikleri takdirde ilk bir yıl beklentileri olmadığını belirtiyor. Yeniliklerin baskı altında yeşermediğini ve otonom davranabilecekleri bir özgürlük alanına ihtiyacı olduğunu da özellikle beyan ediyor.
Genç CEO’nun basın beyanatlarında öne çıkan bir diğer önemli ayrıntı da dil modelleri ve araştırma sonuçlarının herkesle, ücretsiz olarak paylaşılması. Nitekim her yeni modellerinde bu yolu takip ettikleri açık ve şeffaf biçimde görülüyor. Bu da tarihin garip bir cilvesi olsa gerek. Uygar batının dev yapay zeka şirketleri tüm bulgularını ve formüllerini kıskançlıkla saklarken, bugünün “demir perde” ülkesi Çin menşeli bir yapay zeka şirketi, yapay zekanın demokratikleşmesi adına milyonlarca dolar AR-GE maliyeti olan araştırma sonuçlarını, ürünlerini ücretsiz olarak paylaşıyor.
DeepSeek’in model başarım testlerindeki performanslarının ayrıntıları ortalama bir okur için hem fazla teknik hem de fazla sıkıcı olacağı için genel hatlarıyla DeepSeek ve öne çıkan bir figür olarak şirketin kurucusu ve CEO’su Liang hakkında bu yazıyı yazmak bendeniz için daha doğru bir yaklaşım gibi geldi.
Yapay zeka alanındaki şirketlerin sayısı kırkı bulmuş mudur bilemem, ama DeepSeek’in yarattığı bu kadar kısa sürede ulaşabilen herhalde yoktur.
Bu yazının mürekkebi kurumadan DeepSeek Janus Pro adında 7 milyar parametreli miniminnacık bir model daha duyurdu. Bu model metinden hareketle görsel oluşturabiliyor ve görseli de yorumlayabililyor. Başarım testlerinde OpenAI’ın Dall-e’sini geçtiği belirtiliyor. DeepSeek’in modelleri küçüldükçe hem kişisel bilgisayarlarımıza, hem de cep telefonlarımıza girmeye namzet modeller. DeepSeek de aynı hızda gönüllere girmeye devam edecek gibi.