Kumru LLM ile Türkçe Yapay Zeka Ekseninde Devrim
VNGRS ekibinin Kumru modeli, 7,4 milyar parametreli yapısıyla sadece bir dil modeli olmanın ötesine geçerek Türkçe için optimize edilmiş sıfır atışlı bir LLM kavramını yeniden tanımlıyor. Türkiye’nin yazılım ve veri güvenliği ihtiyaçlarına uygun şekilde tasarlanan bu proje, güvenlik, uyumluluk ve kullanılabilirlik kriterlerini en üst düzeye taşıyor. Model, 16 GB VRAM gibi tüketici sınıfı GPU’larda bile çalışabilirlik sunarak kurumsal altyapılarda hızlı ve maliyet etkin bir çözüm vaad ediyor.
Bu makalede, Kumru modelinin teknik altyapısını, performansını ve açık kaynak sürümü Kumru-2B ile sunduğu avantajları derinlemesine ele alıyoruz. Amacımız, Türkçe doğal dil işleme alanında yüksek doğruluk ve gerçek dünya uygulamaları için kilit noktaları netleştirmek ve sizlere kapsamlı bir rehber sunmaktır.
TEKNİK ÖZELLİKLER VE EĞİTİM YAKLAŞIMI
- Model mimarisi: Mistral-v0.3 tabanlı yapı üzerinde inşa edilmesine rağmen sürgülü pencere özelliği devre dışı bırakılarak LLaMA-3 mimarisiyle eşdeğerlik sağlandı. Bu geçiş, optimizasyon ve öğrenme kuralları açısından yenilikçi bir denge oluşturuyor.
- Bağlam uzunluğu: 8.192 Türkçe jeton ile yaklaşık 20 sayfalık bir metni tek seferde işleme kapasitesine sahip. Bu, uzun belgeler, raporlar ve sözleşmeler üzerinde tutarlı ve bütüncül bir anlama olanak tanıyor.
- Eğitim verisi ve süreç: 500 GB temizlenmiş ve tüysüzleştirilmiş Türkçe veri kümesi üzerinde yaklaşık 300 milyar jeton ile ön eğitim gerçekleştirildi. Takip eden yaklaşık 1 milyonluk bir veri karışımıyla ince ayar tamamlandı. Bu süreç, modelin Türkçe’nin yapısal inceliklerini anlamasında belirleyici bir rol oynuyor.
- Donanım verimliliği: 16 GB VRAM gereksinimi ile RTX A4000 veya RTX 3090 gibi tüketici sınıfı GPU’larda çalışabilirlik sağlanıyor. Böylece kurumsal altyapılar için maliyet avantajı ve hızlı entegrasyon mümkünleşiyor.
Kumru-2B: Açık Kaynakta Erişilebilirlik ve Mobil Uygulama Potansiyeli
Açık kaynak sürümü Kumru-2B, 8.192 jetonluk bağlam uzunluğunu ve 300 milyar ön eğitim jetonunu aynı temel iletkenlikte sürdürür. Ancak yalnızca 4,8 GB bellekle çalışabilmesi, mobil cihazlar ve gömülü sistemler için devrim niteliğinde bir esneklik sunuyor. Bu, yerel iş akışları ve yalnızca uçta çalışan çözümler için idealdir ve küresel olarak Türkçe doğal dil işleme ekosisteminin hızla genişlemesini tetikler.
Türkçe’de Üstün Performans: Dil Bilgisi, Özetleme ve Soru-Cuçlu Yanıtlar
Kumru, 26 testten oluşan Cetvel değerlendirmesi ile incelenerek dil bilgisi düzeltme, özetleme, soru yanıtı, makine çevirisi, doğal dil çıkarımı ve metin sınıflandırması gibi temel görevlerde yüksek doğruluk elde etti. Bu testlere dayanarak, Kumru-7B ve Kumru-2B, LLaMA-3.3 (70B), Gemma-3 (27B), Qwen-2 (72B) ve Aya (32B) gibi büyük modellere karşı Türkçe odaklı görevlerde belirgin üstünlük gösterdi. Bu fark, Türkçenin nüanslarını doğal biçimde anlaması ve üretmesi sayesinde mümkün oldu.
İş Uygulamaları ve Sektörel Özelleştirme
Kumru’nun temel sürümü, geniş çaplı belge işleme ve özetleme ihtiyaçlarına yöneliktir. Sağlık, finans, hukuk ve kamu gibi sektörler için özel alt modeller geliştirme planı, modelin kullanıcıya özel güvenlik ve doğruluk gereksinimlerini karşılayacak şekilde genişletileceğini gösteriyor. Bu yaklaşım, kurumsal müşterilere güçlü belgeleme ve karar destek çözümleri sunarken, yasa ve regülasyonlara uyumlu bir altyapı kurmayı hedefler.
Akıllı Mimari ve Geleceğe Yönelik Vizyon
Kumru, Mistral-v0.3 tabanlı mimari üzerinde geliştirilmesine rağmen LLaMA-3 seviyesinde performans sunacak şekilde optimize edildi. 8.192 jetonluk bağlam uzunluğu sayesinde uzun belgeler üzerinde derin bağlam analizi yapabilir ve 20 sayfalık metinleri tek seferde işleyebilir. Bu, kurumsal raporlar, teknik dokümantasyon ve sözleşme incelemelerinde kritiktir. Ayrıca donanım maliyetlerini düşürerek, geniş kullanıcı tabanına hızlı ve güvenilir bir şekilde dağıtılabilir olması, Kumru’nun erişilebilirlik hedeflerini destekler.
Topluluk ve Açık Kaynak Stratejisi
Kumru-2B’nin açık kaynak olarak Hugging Face üzerinden erişilebilir olması, yenilikçi araştırmacılar ve geliştiriciler için güçlü bir ekosistem oluşturur. Bu durum, Türkçe dil modeli alanında katılımı artırır, entegrasyonları hızlandırır ve yerel ihtiyaçlara uygun çözümlerin çoğalmasını sağlar. Böylece, yerel teknoloji ekosistemi güçlenir ve endüstri ile akademi arasındaki işbirliği derinleşir.
Kullanıcılar İçin Pratik Fırsatlar
- Güvenli dağıtım: 16 GB VRAM modelleri, tüketici GPU’larında çalışabildiği için yerel veri güvenliği ve kurumsal uygunluk gereksinimlerini karşılar.
- Verimlilik: Bağlam uzunluğu sayesinde uzun belgeler üzerinde hızlı özetleme ve belge hazırlama süreçlerinde azaltılan manuel çaba elde edilir.
- Geliştirme hızı: Açık kaynak sürüm, özelleştirme ve entegrasyon sürecini hızlandırır, girişimlere özel iş akışlarına uyum sağlar.
Sonuç ve Güçlü Noktalar
Kumru, Türkçe odaklı güçlü bir LLM olarak hem teknik hem de uygulama açısından dikkat çekici bir yapı sunar. 8.192 jetonluk bağlamı, uzun belgelerde bağlam bütünlüğünü koruma gücü verirken, 16 GB VRAM sınıfında çalışabilirlik ile yenilikçi erişilebilirlik sunar. Açık kaynak sürümü Kumru-2B, 4,8 GB bellekle çalışabilirlik özelliği ile mobil ve uç noktadaki uygulamalar için büyük bir olanak yaratır. Türkçe’nin inceliklerini doğal biçimde kavrar ve çok dilli ortamlarda bile etkileyici performansla öne çıkar.
