NVIDIA, yapay zeka alanında tarihi bir adım atarak Nemotron-CC adını verdiği devasa bir İngilizce AI eğitim veritabanını duyurdu. Yeni veritabanı, toplam 6.3 trilyon token içeriyor ve bunun 1.9 trilyonu sentetik verilerden oluşuyor. NVIDIA, bu yeni veritabanının, büyük dil modellerinin (LLM) eğitimi için bugüne kadar geliştirilen en kapsamlı kaynaklardan biri olduğunu belirtti. Şirket, özellikle akademik ve ticari alanlarda bu yeniliğin büyük bir fark yaratacağını ifade etti. İşte detaylar…

NVIDIA 6.3 trilyon tokenli yapay zeka eğitim veritabanı Nemotron-CC modelini tanıttı

Nemotron-CC veritabanının geliştirilme sürecinde, Common Crawl platformundan alınan büyük miktarda veri kullanıldığı aktarıldı. Bu veriler, sıkı bir veri işleme ve filtreleme sürecinden geçirilerek yüksek kaliteli bir alt küme olan Nemotron-CC-HQ oluşturulmuş. NVIDIA, bu veritabanının “büyük dil modelleri için ideal bir eğitim materyali” olduğunu söylüyor.

nvidiadan-6-3-trilyon-tokenli-veritabani-nemotron-ccnvidiadan-6-3-trilyon-tokenli-veritabani-nemotron-cc

Aslında bu yeniliğin, mevcut eğitim veritabanlarının ölçek ve kalite bakımından karşılaştığı kısıtlamalara çözüm sunması bekleniyor. Özellikle Deep Common Crawl Language Model (DCLM) gibi lider açık kaynak veritabanlarına kıyasla daha üstün bir performans sunacak. NVIDIA, Nemotron-CC ile eğitilen modellerin çeşitli testlerde dikkate değer iyileştirmeler sağladığını açıkladı. Örneğin:

  • MMLU (Massive Multitask Language Understanding) testlerinde mevcut sistemlere kıyasla 5.6 puan artış elde edildi.
  • 80 milyar parametreli modeller, MMLU testlerinde 5 puan, ARC-Challenge testlerinde ise 3.1 puan iyileşme gösterdi.
  • Nemotron-CC’nin, diğer yüksek kaliteli veritabanları ile karşılaştırıldığında 10 farklı görevde ortalama 0.5 puanlık bir performans artışı sağladığı belirtildi.

Ortaya çıkan sonuçlara bakılırsa, Nemotron-CC’nin büyük dil modellerinin eğitimi ve yetenekleri üzerinde nasıl bir etki yaratabileceğini açıkça görüyoruz. Bununla beraber NVIDIA, Nemotron-CC’nin geliştirilmesinde model sınıflandırıcılar, sentetik veri yeniden ifade etme (rephrasing) gibi tekniklerden yararlandığını duyurdu. Bu teknikler, veritabanındaki veri çeşitliliğini ve kalitesini artırmak için kullanılmış. Ayrıca, geleneksel veri filtreleme yöntemlerindeki sıkı kuralların hafifletilmesiyle yüksek kaliteli tokenların sayısı da artırılmış.

NVIDIA, Nemotron-CC’yi Common Crawl platformu üzerinden erişime açtı ve bu veritabanının dökümantasyonunu yakında şirketin GitHub sayfasında yayınlayacağını duyurdu. Bu sayede hem akademisyenler hem de ticari kullanıcılar, bu veritabanını kolayca kullanabilecek. Yeni veritabanına buradan erişebilirsiniz.

Peki sizce bu yeniliğin yapay zeka teknolojilerinin geleceği üzerindeki etkileri ne olur? Görüşlerinizi aşağıdaki yorumlar kısmında paylaşabilirsiniz…

Read this news article in EnglishRead this news article in English
Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

You May Also Like

Telefon ile müzik dinleyenlere: nubia Music 2 tanıtıldı!

ZTE, ilk modeli beğenilen nubia Music modelinin ikinci versiyonunu tanıttı. İşte nubia Music 2 ve özellikleri…

Toyota, Woven City’nin 1. aşamasını tamamladığını duyurdu!

Toyota, Las Vegas’ta düzenlenen CES 2025 etkinliğinde Woven City projesinin birinci aşamasının tamamlandığını duyurdu.

Sony CES 2025 özeti: PlayStation oyunları, filmleri, dizileri!

Sony ve PlayStation, CES 2025 etkinliğinde neler tanıttı? İşte yayınlanacak tüm dizi ve filmler.

Yeni SteamOS beta sürümü beklenenden erken mi geliyor?

Valve CES 2025 etkinliğinde yaptığı açıklamalara göre, SteamOS beta programı beklenenden erken kullanıma sunabileceğini açıkladı.