Ana SayfaDış HaberDeepSeek’in kurucusu anlatıyor: ABD piyasalarını, Çin’in yeni mezun yazılımcıları sarstı

DeepSeek’in kurucusu anlatıyor: ABD piyasalarını, Çin’in yeni mezun yazılımcıları sarstı

DeepSeek’in kurucusu Liang Wenfeng, Çin merkezli teknoloji şirketi 36Kr’ye bir yıl önce konuşmuştu: “Büyük şirketler sahip olduğu avantajlarıhızlı bir şekilde değerlendirmezse istedikleri gibi bir sonuç alamayabilirler. High-Flyer'daki bir prensip, deneyime değil yeteneğe bakmaktır. Temel teknik pozisyonlarımız çoğunlukla yeni mezunlarla dolu. Onlara önemli görevler veriyoruz ve müdahale etmiyoruz. Kendi başlarına işleri çözmelerine ve yapmalarına izin veriyoruz”

Çinli DeepSeek’in son yapay zeka modelinin diğer uluslararası rakiplerine göre daha az çip kullanılarak ve kısa sürede geliştirilmesi, küresel teknoloji hisselerinde satış baskısına yol açarken, ABD’li çip şirketi Nvidia’nın piyasa değeri 500 milyar doların üzerinde azaldı.

Çinli girişimin, Google ve OpenAI gibi rakiplerine göre daha kısa sürede, düşük maliyetli ve az sayıda çiple geliştirdiği yapay zeka modelinin dünya çapında kısa sürede yoğun şekilde kullanılmaya başlanması, teknoloji hisseleri öncülüğünde satış baskısının derinleşmesine yol açtı.

Model, uygulama mağazalarında ABD merkezli ChatGPT’yi de geride bırakarak en fazla indirilen yapay zeka uygulaması oldu.

Büyük Dil Modeli (Large Language Model) Nedir?

Basit ifadeyle başlayacak olursak bir dil modeli, yapay zekadan yapmasını istediğiniz şeylere mantıklı ve insan benzeri yanıtlar sağlayan devasa bir metin veri tabanı. Çeşitli şirketler tarafından sunulan robotlar, bir istekte bulunduğumuzda yanıt bulabilmek için LLM dediğimiz büyük modellere başvuruyor.

LLM, devasa veri kümelerinden elde edilen bilgilere dayanarak metin ve diğer içerik biçimlerini tanıyabilen, özetleyebilen, çevirebilen, tahmin edebilen ve üretebilen bir derin öğrenme algoritması. Çeviri, sohbet robotları ve yapay zeka asistanları gibi doğal dil işleme uygulamalarını hızlandırmanın yanı sıra, LLM’ler sağlık hizmetleri, yazılım geliştirme ve diğer birçok alanda farklı şekillerde kullanılabiliyor.

 DeepSeek CEO’su, aynı zamanda DeepSeek’in en büyük fon kaynağı High-Flyer şirketinin kurucusu ve Liang Wenfeng, Çin merkezli teknoloji şirketi 36Kr’ye bir röportaj vermişti.

Röportaj’ın tamamı şu şekilde:

36Kr: Son zamanlarda High-Flyer, LLM’ler inşa etmeye girişme kararını duyurdu.  Neden böyle bir misyon edindiniz?

Liang Wenfeng: LLMs’e olan girişimimiz doğrudan genel olarak finansla ilgili değil. Özellikle bu amaç için DeepSeek adında yeni bir şirket kurduk.

High-Flyer’daki çekirdek üyelerin çoğu yapay zeka geçmişine sahip. Çeşitli çalışmalar yaptık ve sonunda yeterince karmaşık olan finans alanına daldık.

36Kr: Kendiniz bir LLM eğitimi mi vermeyi planlıyorsunuz, yoksa finansla ilgili LLM’ler gibi belirli bir dikey sektöre mi odaklanıyorsunuz?

Liang Wenfeng: Genel AI veya AGI geliştirmeyi hedefliyoruz. Dil modelleri AGI’ye doğru gerekli bir yol olabilir ve halihazırda bazı özelliklerini sergiliyor olabilir, bu yüzden oradan başlayıp daha sonra görsel modeller vb. ekleyeceğiz.

36Kr: Büyük teknoloji şirketlerinin alana girmesi nedeniyle birçok girişim, yalnızca genel LLM dereceleri geliştirme yönündeki geniş yönelimini terk etti.

Liang Wenfeng: Modellere dayalı uygulamaları erken tasarlamayacağız; LLM’lerin kendilerine odaklanacağız.

36Kr: Birçok kişi, büyük şirketlerin fikir birliğine varmasının ardından girişimler için alana girmenin artık doğru zamanlama olmadığını söylüyor.

Liang Wenfeng: Şu anda, ne büyük şirketler ne de yeni kurulan şirketler hızla baskın bir teknolojik avantaj elde edemiyor gibi görünüyor. OpenAI’nin öncülük etmesi ve herkesin kamuya açık makaleler ve kodlar üzerine inşa etmesiyle, en geç gelecek yıl, hem büyük şirketler hem de yeni kurulan şirketler kendi büyük dil modellerini geliştirmiş olacak.

36Kr: Misyonunuzu neden “araştırma ve keşif yapmak” olarak tanımlıyorsunuz?

Liang Wenfeng: Meraktan kaynaklanıyor. Daha geniş bir perspektiften, bazı hipotezleri test etmek istiyoruz. Örneğin, insan zekasının özünün dil olabileceğini ve insan düşüncesinin bir dil süreci olabileceğini anlıyoruz. 

Düşündüğünüzü sanıyorsunuz, ancak zihninizde sadece dil örüyor olabilirsiniz. Bu, insan benzeri AI’ın dil modellerinden ortaya çıkabileceğini gösteriyor.

Daha dar bir bakış açısından, GPT-4 hala birçok gizem barındırıyor. Kopyalarken, bu gizemleri ortaya çıkarmak için araştırma da yapıyoruz.

36Kr: Ama araştırma yapmak daha büyük maliyetler anlamına geliyor.

Liang Wenfeng: Basitçe çoğaltma, kamuya açık makalelere veya açık kaynak koduna dayalı olarak yapılabilir, minimum eğitim veya sadece ince ayar gerektirir, bu da düşük maliyetlidir. Araştırma, daha fazla hesaplama gücü ve daha yüksek personel talebi gerektiren çeşitli deneyler ve karşılaştırmalar içerir, dolayısıyla daha yüksek maliyetler.

36Kr: Araştırma fonları nereden geliyor?

Liang Wenfeng: Finansörlerimizden biri olan High-Flyer’ın yeterli Ar-Ge bütçesi var ve ayrıca daha önce kamu refahı kuruluşlarına verilen birkaç yüz milyon yuanlık yıllık bağış bütçemiz de var. Gerekirse ayarlamalar yapılabilir.

36Kr: Ama iki ila üç yüz milyon dolar olmadan, temel LLM’ler için masaya bile oturamazsınız. Sürekli yatırımını nasıl sürdürebiliriz?

Liang Wenfeng: Çeşitli fon sağlayıcılarla da görüşüyoruz. Birçok VC’nin araştırma fonlaması konusunda çekinceleri var; çıkışlara ihtiyaçları var ve ürünleri hızla ticarileştirmek istiyorlar. Araştırmaya öncelik verdiğimiz için VC’lerden fon sağlamak zor. Ancak hesaplama gücümüz ve bir mühendislik ekibimiz var, bu da işin yarısı.

36Kr: Hangi iş modellerini ele aldık ve hipotezler ürettik?

Liang Wenfeng: Şu anda eğitim sonuçlarımızın çoğunu kamuya açık olarak paylaşmayı düşünüyoruz, bu da ticarileştirmeyle bütünleşebilir. Teknolojinin birkaç kişi tarafından tekelleştirilmesi yerine, daha fazla kişinin düşük maliyetli küçük bir uygulamada bile LLM’leri kullanabilmesini umuyoruz.

36Kr: Bazı büyük şirketler daha sonra da hizmet sunacak. Sizi farklı kılan nedir?

Liang Wenfeng: Büyük şirketlerin modelleri platformlarına veya ekosistemlerine bağlı olabilir, oysa biz tamamen özgürüz.

36Kr: Buna rağmen, sonsuz yatırım yapan bir araştırma keşfine girişen ticari bir şirketin yapması biraz çılgınca görünüyor.

Liang Wenfeng: Eğer ticari bir neden bulmanız gerekiyorsa, bu maliyet açısından uygun olmadığı için zor olabilir.

Ticari bir bakış açısından, temel araştırmanın yatırım getirisi düşüktür. OpenAI’daki erken yatırımcılar kesinlikle getirileri düşünerek yatırım yapmadılar, bunun yerine bunu gerçekten yapmak istediler.

Şu anda emin olduğumuz şey, bunu yapmak istediğimiz ve bunu yapabilecek kapasiteye sahip olduğumuz için, şu anki durumda en uygun adaylar arasında olduğumuzdur.

36Kr: GPU’lar, ChatGPT odaklı girişimciliğin artışıyla birlikte oldukça aranan bir kaynak haline geldi. 2021 gibi erken bir tarihte 10.000 GPU ayırma öngörüsünde bulundunuz. Neden?

Liang Wenfeng: Aslında, başlangıçta bir GPU’dan 2015’te 100 GPU’ya, 2019’da 1.000 GPU’ya ve ardından 10.000 GPU’ya geçiş kademeli olarak gerçekleşti. Birkaç yüz GPU’ya ulaşmadan önce, bunları IDC’lerde barındırdık. Ölçek büyüdükçe, barındırma artık ihtiyaçlarımızı karşılayamadı, bu yüzden kendi veri merkezlerimizi inşa etmeye başladık.

Birçok kişi bunun arkasında gizli bir iş mantığı olduğunu düşünebilir ama aslında bu durum esas olarak meraktan kaynaklanıyor.

36Kr: Nasıl bir merak?

Liang Wenfeng: Yapay zeka yeteneklerinin sınırları hakkında merak. Birçok yabancı için ChatGPT dalgası büyük bir şok oldu; ancak içeridekiler için 2012’de AlexNet’in etkisi yeni bir dönemin habercisiydi. AlexNet’in hata oranı o dönemdeki diğer modellerden önemli ölçüde düşüktü ve onlarca yıldır uykuda olan sinir ağı araştırmalarını yeniden canlandırdı. Belirli teknolojik yönler sürekli olarak evrimleşmiş olsa da, modeller, veriler ve hesaplama gücünün birleşimi sabit kaldı.

Özellikle OpenAI 2020’de GPT-3’ü yayınladıktan sonra yön açıktı: muazzam miktarda hesaplama gücüne ihtiyaç vardı. Yine de, Firefly Two’yu inşa etmeye yatırım yaptığımız 2021’de bile çoğu insan hala anlayamadı.

36Kr: Yani 2012’den beri hesaplama gücünün rezervine mi odaklanıyorsunuz?

Liang Wenfeng: Araştırmacılar için hesaplama gücüne duyulan susuzluk doymak bilmez. Küçük ölçekli deneyler yaptıktan sonra, her zaman daha büyüklerini yapma isteği vardır. O zamandan beri, mümkün olduğunca çok hesaplama gücünü bilinçli olarak kullandık.

36Kr: Birçok kişi bu bilgisayar kümesinin kurulmasının, fiyat tahminleri için makine öğrenimini kullanan niceliksel hedge fon işletmelerine yönelik olduğunu varsayıyor?

Liang Wenfeng: Sadece niceliksel yatırım için bile, çok az sayıda GPU yeterli olurdu. Yatırımın ötesinde, hangi paradigmaların tüm finansal piyasayı tam olarak tanımlayabileceğini, daha özlü ifadelerin olup olmadığını, farklı paradigmaların sınırlarının nerede yattığını ve bu paradigmaların daha geniş uygulanabilirliğe sahip olup olmadığını vb. anlamak için kapsamlı bir araştırma yürüttük.

36Kr: Ama bu süreç aynı zamanda para harcayan bir çabadır.

Liang Wenfeng: Heyecan verici bir çaba belki de sadece parayla ölçülemez. Bu, eve bir piyano almak gibidir; kişi bunu karşılayabilir ve üzerinde müzik çalmaya hevesli bir grup vardır.

36Kr: GPU’lar genellikle %20 oranında değer kaybeder.

Liang Wenfeng: Tam olarak hesaplamadık ama bu kadar da olmamalı. NVIDIA’nın GPU’ları sert para birimi; yıllar öncesine ait eski modeller bile hala birçok kişi tarafından kullanılıyor. Eski GPU’ları kullanımdan kaldırdığımızda, ikinci el olarak oldukça değerliydiler, çok fazla kaybetmediler.

36Kr: Bir bilgisayar kümesi kurmak önemli miktarda bakım ücreti, işçilik maliyeti ve hatta elektrik faturaları gerektirir.

Liang Wenfeng: Elektrik ve bakım ücretleri aslında oldukça düşük, yıllık donanım maliyetinin yalnızca yaklaşık %1’ini oluşturuyor. İşçilik maliyetleri düşük değil, ancak aynı zamanda şirketin en büyük varlığı olan geleceğe bir yatırım. Seçtiğimiz kişiler nispeten mütevazı, meraklı ve burada araştırma yapma fırsatına sahipler.

36Kr: 2021’de High-Flyer, Asya-Pasifik bölgesinde A100 GPU’larını satın alan ilk şirketlerden biriydi. Neden bazı bulut sağlayıcılarından daha erken?

Liang Wenfeng: Yeni GPU’lar için ön araştırma, test ve planlamayı çok erken bir dönemde yürütmüştük. Bildiğim kadarıyla bazı bulut sağlayıcılarının önceki ihtiyaçları dağınıktı. Otonom sürüşte makine eğitimi talebi ve ödeme yeteneğiyle birlikte 2022’ye kadar bazı bulut sağlayıcıları altyapılarını oluşturmadı. Büyük şirketlerin tamamen araştırma ve eğitim yürütmesi zordur; daha çok iş ihtiyaçları tarafından yönlendirilir.

36Kr: LLM’lerin rekabet ortamını nasıl görüyorsunuz?

Liang Wenfeng: Büyük şirketlerin elbette avantajları var, ancak bunları hızlı bir şekilde uygulayamazlarsa istedikleri gibi bir sonuç alamayabilirler.

Önde gelen girişimlerin de sağlam bir teknolojisi var, ancak önceki nesil yapay zeka girişimleri gibi bunlar da ticarileşme zorluklarıyla karşı karşıya.

36Kr: Bazıları, yapay zeka çalışmalarına vurgu yapan niceliksel bir fonun, diğer işletmeler için balon şişirdiğini düşünebilir.

Liang Wenfeng: Ama aslında niceliksel fonumuz büyük ölçüde dışarıdan kaynak toplamayı durdurdu.

36Kr: Yapay zekaya inananlar ile spekülatörler arasında nasıl bir ayrım yapıyorsunuz?

36Kr: DeepSeek ekibi için işe alım süreci nasıl ilerliyor?

Liang Wenfeng: İlk ekip kuruldu. İlk aşamalarda personel eksikliği nedeniyle, bazı kişiler geçici olarak High-Flyer’dan görevlendirilecek. ChatGPT 3.5 geçen yılın sonunda popüler olduğunda işe alımlara başladık, ancak hala katılacak daha fazla kişiye ihtiyacımız var.

36Kr: LLM girişimleri için yetenek de nadirdir. Bazı yatırımcılar uygun adayların yalnızca OpenAI ve Facebook AI Research gibi devlerin AI laboratuvarlarında bulunabileceğini söylüyor. Bu tür yetenekler için yurtdışında mı bakacaksınız?

Liang Wenfeng: Kısa vadeli hedefler peşindeyseniz, deneyimli kişileri aramak doğru olur. Ancak uzun vadede, deneyim daha az önemlidir; temel yetenekler, yaratıcılık ve tutku daha önemlidir. Bu açıdan bakıldığında, yurtiçinde birçok uygun aday vardır.

36Kr: Deneyim neden daha az önemlidir?

Liang Wenfeng: Bir şeyi yalnızca yapmış olanların yapabileceği doğru değildir. High-Flyer’daki bir prensip, deneyime değil yeteneğe bakmaktır. Temel teknik pozisyonlarımız çoğunlukla yeni mezunlar veya bir veya iki yıl içinde mezun olanlar tarafından doldurulur.

36Kr: Yenilikçi girişimlerde deneyimin engel olduğunu düşünüyor musunuz?

Liang Wenfeng: Bir şey yaparken, deneyimli insanlar içgüdüsel olarak size bunun nasıl yapılması gerektiğini söyleyebilirler; ancak deneyimi olmayanlar tekrar tekrar araştırır, nasıl yapılacağını ciddi şekilde düşünür ve ardından mevcut gerçekliğe uyan bir çözüm bulurlar.

36Kr: High-Flyer, sektöre hiçbir finansal geçmişi olmayan tamamen dışarıdan biri olarak girdi ve birkaç yıl içinde lider oldu. Bu işe alım ilkesi sırlardan biri mi?

Liang Wenfeng: Benim de dahil olduğum çekirdek ekibimizin başlangıçta niceliksel bir deneyimi yoktu, bu oldukça benzersiz. Başarının sırrı bu değil, ancak High-Flyer kültürünün bir parçası. Deneyimli insanlardan kasıtlı olarak kaçınmıyoruz, ancak yeteneğe daha fazla odaklanıyoruz.

Örnek olarak satış pozisyonunu ele alalım. İki ana satış elemanımız bu sektörde acemiydi. Biri daha önce Alman makineleri için dış ticarette çalışmıştı ve diğeri bir menkul kıymetler firması için arka uç kodu yazmıştı. Bu sektöre girdiklerinde hiçbir deneyimleri, kaynakları ve birikimleri yoktu.

Şimdi, biz doğrudan satışlara öncelikli olarak güvenen tek büyük özel fon olabiliriz. Doğrudan satış, aracılarla ücret paylaşmamak anlamına gelir, bu da aynı ölçek ve performans altında daha yüksek kar marjlarıyla sonuçlanır. Birçoğu bizi taklit etmeye çalıştı ancak başarılı olamadı.

36Kr: Neden birçok kişi sizi taklit etmeye çalıştı ama başaramadı?

Liang Wenfeng: Çünkü bu tek başına inovasyonu teşvik etmeye yeterli değil. Şirketin kültürü ve yönetimiyle uyumlu olması gerekiyor.

Aslında, ilk yıllarında hiçbir şey başaramadılar ve sadece ikinci yılda bazı sonuçlar görmeye başladılar. Ancak değerlendirme standartlarımız çoğu şirketten farklıdır. KPI’larımız veya sözde görevlerimiz yoktur.

36Kr: Peki değerlendirme standartlarınız neler?

Liang Wenfeng: Müşteri siparişlerinin hacmine odaklanan çoğu şirketin aksine, satış komisyonlarımız önceden hesaplanmaz. Satış görevlilerini kendi ağlarını geliştirmeye, daha fazla insanla tanışmaya ve daha büyük bir etki yaratmaya teşvik ediyoruz.

Dürüst bir satış elemanının müşterilerinin güvenini kazanması durumunda, müşterilerinin hemen sipariş vermesini sağlayamayacağına, ancak güvenilir bir insan olduğunu hissettirebileceğine inanıyoruz.

36Kr: Doğru insanları seçtikten sonra, onları nasıl hızla sürece dahil ediyorsunuz?

Liang Wenfeng: Onlara önemli görevler verin ve müdahale etmeyin. Onların kendi başlarına işleri çözmelerine ve yapmalarına izin verin.

Aslında bir şirketin DNA’sını taklit etmek zordur. Örneğin, deneyimsiz kişileri işe almak, potansiyellerini nasıl değerlendireceğiniz ve işe aldıktan sonra nasıl büyümelerine yardımcı olacağınız, bunlar doğrudan taklit edilemez.

36Kr: Yenilikçi bir örgüt kurmak için gerekli koşulların neler olduğunu düşünüyorsunuz?

Liang Wenfeng: Sonucumuz, inovasyonun mümkün olduğunca az müdahale ve yönetim gerektirmesi, herkese kendilerini özgürce ifade etme alanı ve hata yapma fırsatı vermesidir. İnovasyon genellikle kendiliğinden ortaya çıkar, kasıtlı bir düzenlemeyle ortaya çıkmaz ve öğretilemez.

36Kr: Bu çok alışılmadık bir yönetim tarzı. Bu koşullar altında birinin verimli ve sizin yönetiminizle uyumlu olduğundan nasıl emin olursunuz?

Liang Wenfeng: İşe alım sırasında değerlerin uyumlu olduğundan emin olun ve ardından hızda uyumu sağlamak için kurumsal kültürü kullanın. Elbette, yazılı bir kurumsal kültürümüz yok çünkü yazılı olan her şey inovasyonu engelleyebilir. Daha sıklıkla, örnek olarak liderlik etmekle ilgilidir. Bir şey olduğunda nasıl karar verdiğiniz bir kılavuz haline gelir.

36Kr: LLM alanında yaşanan bu rekabet ortamında, startupların yenilikçi organizasyon yapılarının büyük şirketlerle rekabette bir dönüm noktası olabileceğini düşünüyor musunuz?

Liang Wenfeng: Ders kitaplarındaki metodolojilere göre, şu anda girişimlerin yaptıklarıyla ayakta kalmak mümkün değil.

Ancak pazar değişiyor. Gerçek karar gücü çoğu zaman hazır kurallar ve koşullar değil, değişikliklere uyum sağlama ve ayarlama yeteneğidir.

Birçok büyük şirketin organizasyon yapıları artık hızlı bir şekilde yanıt verip harekete geçemiyor ve geçmiş deneyimler ve eylemsizlik tarafından kolayca bağlanıyorlar. Bu yeni AI dalgası altında, kesinlikle bir grup yeni şirket ortaya çıkacak.

36Kr: Bunu yaparken sizi en çok heyecanlandıran şey ne?

Liang Wenfeng: Varsayımlarımızın doğru olup olmadığını anlamak. Eğer doğruysa, inanılmaz heyecan verici.

36Kr: LLM ekibine alımda temel kriterler nelerdir?

Liang Wenfeng: Tutku ve sağlam temel beceriler. Başka hiçbir şey bu kadar önemli değil.

36Kr: Böyle insanları bulmak kolay mı?

Liang Wenfeng: Bunu gerçekten yapmak istedikleri için genellikle coşkuları ortaya çıkar, bu yüzden bu kişiler genellikle aynı zamanda sizi de arıyorlardır.

36Kr: LLM’ler geliştirmek sonsuz bir çaba olabilir. Maliyet sizi endişelendiriyor mu?

Liang Wenfeng: İnovasyon pahalı ve verimsizdir, bazen israfla birlikte gelir. Bu yüzden inovasyon ancak ekonomik gelişme belirli bir seviyeye ulaştıktan sonra ortaya çıkar. Çok kötü koşullarda veya inovasyonun yönlendirmediği endüstrilerde maliyet ve verimlilik çok önemlidir. OpenAI’ye bakın; o da sonuç elde etmeden önce çok para harcadı.

36Kr: Çılgınca bir şey yaptığınızı mı düşünüyorsunuz?

Liang Wenfeng: Bunun çılgınca olup olmadığını bilmiyorum ama bu dünyada mantıkla açıklanamayan birçok şey var, tıpkı açık kaynaklı topluluklara çılgınca katkıda bulunan birçok programcı gibi. Günün yorgunu olmalarına rağmen yine de kod katkıda bulunuyorlar.

36Kr: Bunda bir nevi manevi mükafat var.

Liang Wenfeng: 50 kilometrelik bir yürüyüşe benziyor; bedeniniz yorgun ama ruhunuz doygun.

36Kr: Merakın yol açtığı deliliğin sonsuza kadar sürebileceğini düşünüyor musunuz?

Liang Wenfeng: Herkes hayatı boyunca çılgın kalamaz, ancak çoğu insan gençliğinde herhangi bir faydacı amaç gütmeden bir şeyle tam anlamıyla ilgilenebilir.

- Advertisment -