Introduction
Günümüzde Büyük Dil Modelleri konusunda (özellikle yerel anlamda kullanmak isteyen bireyler, varlıklar, ve araştırmacılar tarafından) karşılaşılan en büyük sorun maliyet/performans sorunudur. NVIDIA’lı bir ekibin yayınladığı kağıtta bu sorun 𝑂(𝑛^2) karmaşıklığına (ki hesaplama maliyetini arttırır) ve bunun sonucunda KV Cache (modelin geçici, o konuşmadaki hafızası. Bellek/Hafıza maliyetini arttırır) kavramına bağlanır ve çözüm olarak PostNAS (Post Neural Architecture Search, Eğitim Sonrası Nöral Mimari Arama) ve alakalı olarak JetBlock sunulur. Kağıda göre bu yöntem ile yapılan modeller, benzer boyutlardaki modeller ile benzer veya daha iyi performans gösterilir, ama hız kavramında fedakarlıkta bulunulmaz.
PostNAS nedir?
Post Neural Architecture Search (Eğitim Sonrası Nöral Mimari Arama) , kağıtta önerilen ana argümandır. PostNAS aslına model mimarisini keşfeden bir dizidir.
Dizide önce ön eğitimi yapılmış “Tam Dikkat” modeli dikkat edilir ve MLP katmanları soğuk/dondurulmuş bir şekilde tutulur. Ardından etkili dikkat blok tasarımları için kaba-ince bir arama yapılır, bu aramada önce tam dikkat katmanlarının en iyi konumu, ardından en iyi lineer dikkat bloğunun seçimi veya yeni bir lineer dikkat bloğunun seçimi, ardından ise en iyi ve uygun hiperparametrelerin seçimi ile devam eder.
Bu yaklaşımın önemli bir noktası, kağıtta belirtildiği üzere tam ve lineer dikkatin hibrit olarak birleştirilmesi sonucu etkinlik ve doğruluk arasında denge tutturmaya çalışan modellerin zaten var olduğudur; bu modellerin aslında tam dikkat modellerinden özellikle MMLU(-PRO) gibi benchmark sistemlerinde geride kaldığı belirtilir.
Hiperparemetre seçimi sonrası model 4 ana aşamadan geçer;
- Tam Dikkatın yerleştirilmesi ve elenmesi (Yüksek doğruluk için)
- Lineer Dikkat bloğu seçimi (tam dikkat katmanları yerleştirildikten sonra en uygun lineer dikkat bloğunun seçilmesi. PostNAS, proxy görevi için eğitilen küçük Büyük Dil Modellerini (50M-150M) gereksiz kılar.
- Yeni dikkat bloğu tasarımı (JetBlock. Dinamik Evrişim sonucu metine göre dinamik adapte edebilen bu blok, diğer bloklar gibi statik değişdir, sonucunda güçlü ve esnektir)
- Donanım farkındalıklı Mimari araştırması
PostNAS'ın Amacı
Önceki bölümde KV Cache kavramının merkezi bir sorun olduğundan, kağıtta modellerin donanımsal darboğaz veya yavaşlığının (fedakarlık sonucu) buna bağlandığından bahsetmiştik.
Kağıtta ve önceki bölümde bahsedilen 4. Aşamada KV Cache’in sabit tutulup parametre sayısının arttırılması durumunda; kağıt hem hızın korunduğunu hem doğruluk oranı arttırıldığını belirtir, kağıtta Jet-Nemotron-2B, Qwen3-1.7B-Base modeline göre 47 kata kadar daha hızlı çalışırken ondan daha isabetli sonuçlar verdiği de belirtilmiştir. Bunun olmasının sebebi, ilk adımlarıda tam dikkat katmanlarını (ki yavaştır) atmamız sonucu KV Cache’in muazzam olarak küçülmesi, bellek okuma/yazma hızının artmasıdır. Bu aynı zamanda açılan alana yeni eklediğimiz parametrelerin etkin kullanımına sebep olur ve bir yavaşlama söz konusu olmaz.
Bunun sonucunda PostNAS’ın (ve alakalı olarak JetBlock’un) birinci amacının, maliyetin azaltılması olduğunu görürüz. Jet-Nemotron gibi bir model, daha az güçlü bir donanımda hızlı, daha etkin enerji kullanımı ile, ve daha akıcı şekilde çalıştığı belirtilir.
İkinci amaç olarak ise araştırmacı ve geliştirmecilere bir seslenin görürüz; PostNAS ta kullanılan teknikler ve keşif süreci, geleneksel Büyük Dil Modeli mimari keşfindeki maliyetten yanı sıra riski de azaltır, sonuçta ön eğitim çoğu zaman geliştirilmesi gereken, tasarlanılması gereken, ve buna artı olarak zor ve pahalı ve genellikle sadece büyük şirketler tarafından (finansal durumları yettiği için) yapılan bir süreçtir. PostNAS kağıdının 2. Bölümü bu konuya odaklanır; “Zaten kantılanmış bir modeli alıp onu nasıl daha verimli hale getirebiliriz” sorusuna odaklanılır; sonuçta NVIDIA, normal nemotron modelleri ile de bu kağıttan önce Büyük Dil Sahnesinde biliniyordu.
Sonuç
NVIDIA’nın makalesi, verimlilik-doğruluk dengesini PostNAS metodu ve JetBlock bloğu yenilikleri ile yeniden düşünmemizi sağlayan ve bu dengedeki fedakarlıklara etkin çözüm sunmaya çalışan bir makaledir. Kağıt, bu gelişmeler ile hem araştırmacılar ve geliştirmeciler, hemde son kullanıcı için Jet-Nemotron gibi çözümler sunmayı hedefler.