ChatGPT'nin Zorlu Yükselişi: Yapay Zekanın Dünü ve Bugünü

ChatGPT nasıl ortaya çıktı? Bir sohbet botu olarak tasarlanan bu yapay zeka, zamanla farklı alanlarda kullanım potansiyelini göstererek dikkatleri üzerine çekti. İşte ChatGPT'nin geliştirilme sürecinin kısa özeti; dünden bugüne…

03 Aralık 2024 20:45 Güncellenme: 04 Aralık 2024 03:46

Generative Pretrained Transformer, yani GPT’nin kökeni 2012 yılında Alex, Ilya ve Geoffrey Hinton'ın geliştirdiği AlexNet’e dayanıyor.

1980'lerde Hinton ve ekibinin backpropagation algoritmasıyla temelini attığı perceptron, AlexNet sayesinde potansiyelini tüm dünyaya göstermeyi başardı. OpenAI ChatGPT’yi nasıl geliştirdi ve bu süreçte neler oldu? İşte merak edilenler…

CHATGPT’NİN DÜNDEN BUGÜNE TARİHİ

ImageNet, yıllar içinde milyonlarca farklı objeyi bir araya getirerek oluşturulmuş büyük bir veri setidir. 2012'ye kadar bu veri setindeki objelerin özellikleri genellikle manuel olarak çıkarılıyordu. Örneğin, SIFT gibi algoritmalar bu iş için sıklıkla tercih ediliyordu ve 2015'te nöral ağlarla ilk tanıştığımda hâlâ oldukça yaygındı.

Öte yandan Eksiseyler’in derlediği habere göre fakat alexnet bunu tamamıyla tersine çevirdi. her sene düzenlenen imagenet yarışmasında, 2012'de alexnet bir çığır açtı. o zamana kadar yapılan algoritmaların doğruluk oranlarını katlayarak yarışmayı kazanmayı başardı. bu nöral ağların 1980'lerden beri olan suskunluğuna son verilmesindeki ilk ve tarihi bir kırılma noktasıydı. sadece bir sene sonrasında, yarışmaya katılan bütün gruplar nöral ağları kullanıyorlardı.

Bu, büyük şirketler için de uyanma sinyalleri verdi. Nitekim hepsi teker teker makine öğrenmesi ve yapay zeka konularındaki uzmanları toplamak için seferber oldular. Teknoloji devi Google, Deepmind'ı kendi bünyesine katıp özerklik verdi, facebook, o zamanki adıyla facebook artifical intelligence research (fair)'i kurdu. Hemen hemen çoğu şirket araştırmalarını açık kaynaklı yapmaya odaklandı. çünkü, açık kaynak kodun bir ekosistem yarattığını ve bu ekosistemin kendini beslediğini fark ettiler.

Büyük şirketler araştırmalarını paylaştıkça, bu paylaşımların etkileşimi artıyor, bu paylaşım arttıkça faydalanlar artıyor, faydalananlar arttıkça da platformları kullanmayı bilen eğitimli insan sayısı artıyordu. 2012'den itibaren birkaç yıl içerisinde yüzbinlerce atıfı olan makaleler yazıldı. nöral ağları çok daha hızlı, çok daha efektif ve sistematik eğitmenin yolları hızlı şekilde keşfedildi.

Birkaç örnek vermek gerekirse, geçmişte nöral ağ parametreleri rastgele başlatılırken, günümüzde daha hızlı sonuç alınmasını sağlayan gelişmiş parametre başlangıç algoritmaları kullanılıyor. Ağın baştan sona daha verimli çalışmasını sağlayan residual bağlantılar eklendi, alt ağların etkili bir şekilde öğrenmesi için dropout yöntemi geliştirildi. Optimumu bulmakta zorlanabilen gradient descent yerine, daha etkili algoritmalar ortaya çıktı.

Sigmoid gibi pahalı aktivasyon fonksiyonlarının yerini daha basit ve etkili olan ReLU aldı, ardından ReLU'nun bazı nöronları devre dışı bıraktığı fark edilince GELU gibi alternatifler geliştirildi. Batch normalization ve layer normalization gibi teknikler, ağların daha stabil ve hızlı öğrenmesini sağladı.

Bunun yanı sıra NVIDIA’nın geliştirdiği özel donanımlar ve CUDA mimarisiyle sağlanan hızlanma, Meta’nın geliştirdiği PyTorch gibi araçların herkesin erişimine sunulması, bu teknolojilerin yaygınlaşmasını hızlandırdı. Tüm bu gelişmelerle birlikte büyük bir devrim için zemin hazır hale geldi! artık bu kadar bolluğun içinde google'da olan bir ekibe önemli bir görev verildi. bir dilden diğerine nöral ağlarla çeviri. misal fransızca bir cümleyi alıp, ingilizce'ye çevirme görevi.

GOOGLE İÇİN HER ŞEY HAZIR HALE GELDİ

Google'daki ekip için her şey hazırdı, bir sürü hazırda nvidia çipi emirlerine amade, açık kaynak kodları, google'ın kendi geliştirdiği tensorflow nöral ağ oluşturma algoritmaları yeterince olgunlaşmıştı. ama bir sorun vardı, o günün gelişmiş mimarileri (örneğin lstm) çiplerin paralelliğini yeterince kullanamıyordu ve geçmişte gördüklerini hemencecik unuttu veriyorlardı! ama google'daki ekip doğru yerde ve doğru zamandaydı, aralarından birkaçı attention yani dikkat denen 2015 yılında yazılmış algoritmayı biliyorlardı ve bazıları da bunu dil için nasıl paralelize edeceklerini anlamışlardı.

İlk fikir, örnekleri çoğaltmak üzerineydi. misal 'ahmet' kelimesini düşünün. ahmet kelimesinin birden fazla tahmin edilebilecek örnek var. basit bir şekilde, bir sonraki harfi tahmin ettiğinizi düşünün.

a -> h
ah -> m
ahm -> e
ahme -> t

Kısacık kelimelerden pek çok anlamlı örnek çıkarabilmenin temel yöntemi, "next token prediction" adı verilen tekniktir. Bu yöntem, model mimarisinin en önemli yapı taşlarından biri olarak öne çıkıyor.

Bir sonraki adım, next token prediction'ı paralel bir şekilde çalıştırabilmekti. Bu sayede model, belirli bir pencere boyutundaki (window size) örneklerin tamamını aynı anda değerlendirebiliyordu.

Son olarak, "attention" mekanizmasıyla model, elindeki örnekleri inceleyerek önceki kelimelerle bağ kurma yeteneği kazandı. Tüm bu yenilikler bir araya geldiğinde, güçlü bir dönüşümün anahtarı olan "transformer" ortaya çıktı.
gpt makalenin adı da tarihin belki de en güzel göndermelerinden biriydi: attention is all you need!
tek ihtiyacınız dikkat!

transformer, hem efektif yani kolayca eğitilebilen hem de basitçe kodlanabilen bir mimariydi, belki birkaç yüz satır kod ile siz de transformer mimarisini yazabilirsiniz.
buradan sonra ihtiyaç artık mimari değildi. artık ihtiyaç daha fazla veriydi. ne kadar çok veri o kadar iyi bir transformer! herkesin neye ihtiyacı olduğu konusunda bir fikri vardı ama son yanıt 2019'da 2012'de devrimi başlatan ilya'nın kurucusu olduğu openai ekibinde geldi.

neural scaling laws: nöral büyüme kanunları.
kanunlar çok netti. daha iyi bir transformer isitiyorsanız ihtiyacınız olan reçete:
daha çok veri, daha büyük bir nöral ağ ve daha güçlü çipler!
bu üç malzemeyi koyduğunuzda modeller sistematik olarak daha iyi oluyorlardı. yani, modelinizi daha eğitmeye başlamadan, kullanacağınız datayı, ağınızın büyüklüğünü ve ne kadar çip gücü harcayacağınızı bir peçeteye yazarak ortaya çıkacak modelin ne kadar güçlü olacağını tahmin edebiliyordunuz.

Bu gelişmeler, tüm dünyada devam eden bir rekabetin fitilini ateşledi. Daha büyük ve güçlü çipler üretmek için ülkeler arasında ciddi bir yarış yaşanıyor. Tayvan'daki gerginliklerin temelinde de bu yarış yatıyor. Hollanda merkezli ASML'nin, Amerika’nın yönlendirmesiyle Çin’e ihracatı durdurmasının nedeni tam da bu. NVIDIA’nın dünyanın en büyük şirketlerinden biri haline gelmesinin ardında da bu teknoloji yatıyor.

Belki de atom bombasından sonra insanlık tarihindeki en önemli bilimsel ilerlemelerden biriyle karşı karşıyayız. Şu anda etkilerinin ne kadar büyük olduğunu tam anlamıyla kestirmek zor olsa da bu gelişmelerin ciddiyeti artık inkâr edilemez bir gerçek.