Sakana AI, Transformer-Squared ile çığır açıyor

Sakana AI araştırma laboratuvarı, tabiattan ilham alan algoritmalar üzerine çalışan bir yapay zekâ şirketi olarak, yeni bir kendini uyarlayan lisan modeli olan Transformer-Squared’i tanıttı. Bu model, rastgele bir ek eğitime gerek kalmadan, yeni misyonları öğrenebiliyor. Matematiksel yeniliklerle kullanıcı isteklerine nazaran yüklerini dinamik olarak ayarlayan model, inference (çıkarım) sırasında yüksek performans sunuyor.
Transformer-Squared, büyük lisan modellerinin (LLM) farklı alanlardaki günlük uygulamalarda daha kullanışlı hale gelmesini sağlayan bir dizi teknolojinin son halkası olarak öne çıkıyor.
Yapay zekânın lisan ihtilali: Büyük Lisan Modelleri (LLM) nedir?
DİNAMİK TARTI AYARLAMA NEDİR?
Klasik prosedürlerde, lisan modellerinin yeni bir vazifeye ahenk sağlaması için kapsamlı bir fine-tuning (ince ayar) sürecine gereksinim duyuluyor. Bu süreç hem kıymetli hem de vakit alıcı. Alternatif bir prosedür olan LoRA (Low-Rank Adaptation) ise sırf modelin gaye vazifeyle ilgili parametrelerini değiştirerek maliyeti azaltıyor. Fakat LoRA’nın parametreleri, eğitimin akabinde sabit kalıyor.
Transformer-Squared ise iki evreli bir dinamik ayarlama sistemi kullanarak bu meselelere tahlil getiriyor. Birinci olarak gelen isteği tahlil eden model, vazifenin gerekliliklerini belirliyor. Akabinde, z-vektör ismi verilen özelleştirilmiş parametre ayarlarını devreye sokarak o vazifeye özel karşılık üretiyor.
TRANSFORMER-SQUARED NASIL ÇALIŞIYOR?
Modelin temel yeniliği, yük matrislerini Singular Value Decomposition (SVD) formülüyle parçalayıp her bir maharete ilişkin bileşenleri tanımlamasıdır. Eğitim sırasında, bu bileşenlerden öğrenilen z-vektörler, muhakkak vazifelerin optimize edilmesi için düğme fonksiyonu görüyor.
Inference sırasında ise model, gelen isteği tahlil ederek gereken hünerleri belirliyor ve z-vektörleri güncelleyerek çıktıyı şahsileştiriyor. Araştırmacılar, bu usulü Llama-3 ve Mistral modellerinde test ederek Transformer-Squared’in, LoRA’ya kıyasla daha az parametreyle daha güzel sonuçlar verdiğini gözlemledi.
YENİ OLASILIKLAR
Transformer-Squared’in farklı bir öbür özelliği, bir modelde öğrenilen z-vektörlerin öbür modellere aktarılabilmesidir. Örneğin, Llama’da oluşturulan z-vektörler, misal mimariye sahip Mistral modellerinde kullanılabiliyor. Bu, farklı sistemler ortasında bilgi paylaşımı için yeni bir kapı aralıyor.
Sakana AI, Transformer-Squared bileşenlerinin eğitim kodlarını GitHub üzerinden paylaştı ve bu yeniliğin sektörel dönüşümü hızlandıracağını belirtti.
İNFERENCE TEKNİKLERİNİN GELECEĞİ
Sakana AI’nin yeniliği, inference sırasında özelleştirme tekniklerine odaklanan bir trendin kesimi. Google’ın Titans mimarisi üzere projeler de, yapay zekâ modellerinin çıkarım sürecinde öğrenme ve hafıza oluşturma kapasitesini artırmayı hedefliyor.
Transformer-Squared, sadece AI araştırmaları için değil, işletmelerin bilgi odaklı tahlillerinde de büyük bir potansiyel taşıyor. Bu tıp yenilikler, yapay zekâyı daha esnek, şahsileştirilmiş ve aktif hale getirerek çoklu alanlarda çığır açmaya devam edecek.