AMD, ilk küçük yapay zeka dil modeli AMD-135’i piyasaya sürdü: Kullanılacağı yerler açıklandı

Yapay zekaya artan talep, grafik üreten şirketlerin değerini artırdı. NVIDIA, son 20 yıldır pazara hükmetmeye devam ederken, AMD’nin mücadelesi de sürüyor. Kısa süre önce AMD, düzenlediği bir etkinlik kapsamında ilk küçük dil modeli olan AMD-135 modelini piyasaya sürdü. Llama ailesine ait olan yeni dil modeli AMD 135, zel işletme dağıtımlarını hedefliyor. Şirketin yeni yapay zeka …

01 Ekim 2024 08:45 Güncellenme: 13 Kasım 2024 23:48

Yapay zekaya artan talep, grafik üreten şirketlerin değerini artırdı. NVIDIA, son 20 yıldır pazara hükmetmeye devam ederken, AMD’nin mücadelesi de sürüyor.

Kısa süre önce AMD, düzenlediği bir etkinlik kapsamında ilk küçük dil modeli olan AMD-135 modelini piyasaya sürdü.

Llama ailesine ait olan yeni dil modeli AMD 135, zel işletme dağıtımlarını hedefliyor. Şirketin yeni yapay zeka modelinin yakın zamanda satın alınan Silo AI ile bir ilgisi olup olmadığı ise bilinmiyor.

Ancak AMD’nin son duyurusu, şirketin kendi donanımını kullanarak oluşturduğu önceden eğitilmiş bir modelle belirli müşterilerin ihtiyaçlarını karşılama yönünde atılmış açık bir adım diyebiliriz.

Kod çözme yöntemini kullanıyor

AMD’nin dil modelinin avantajı, spekülatif kod çözme denilen yöntemi kullanıyor olması. İkincisi ise, tek bir düz geçişte birkaç aday belirteç üreten daha küçük bir “kaba model” olarak tanımlanıyor.

Bu belirteçler daha sonra bunları doğrulayan veya düzelten daha büyük, daha doğru bir “hedef modele” aktarılıyor. Bu yaklaşım bir yandan aynı anda birden fazla belirteç üretilmesini sağlarken, diğer yandan artan veri aktarımı nedeniyle daha yüksek güç tüketimine neden oluyor.

İki versiyonda gelen dil modeli, AMD-Llama-135M ve AMD-Llama-135-code ile geliyor. Bunlardan her biri spekülatif kod çözme teknolojisi kullanılarak çıktı performansını artırarak belirli görevler için optimize edildi.

Temel AMD-Llama-135M modeli, 670 milyar jetonluk paylaşılan veri üzerinde sıfırdan eğitildi. Bu işlem, AMD Instinct MI250 tabanlı dört adet 8 kanallı düğüm kullanılarak altı gün sürdüğü aktarıldı.

AMD-Llama-135M-kod modeli, özellikle yazılım kodu yazmayı hedefleyen ek 20 milyar belirteç temel alınarak yapılan ek eğitimle tasarlandı. Ek model eğitimi, aynı AMD donanım seti kullanılarak dört gün sürdü. Şirket, modellerinde yapılacak daha fazla optimizasyonun performans ve verimlilikte ek iyileştirmeler sağlayabileceğini düşünüyor.

Kaynak: Toms’s Hardware Derleme: Teknoweek.com