Minyatürde AI devrimi: Neden yerel modeller gelecek?

Yapay zeka modelleri genellikle çevrimiçi ortamda kullanılıyor, ancak çeşitli ve ücretsiz olarak erişilebilen araçlar bunu değiştiriyor. Yerli yapay zekalar trend oluyor.

Yapay Zeka - Neden yerel modeller gelecek?
Yapay Zeka - Neden yerel modeller gelecek?

 

histo.fyi web sitesi, majör histokompatibilite kompleksi (MHC) molekülleri adı verilen bağışıklık sistemi proteinlerinin yapılarının bir veritabanıdır. Görüntüler, veri tabloları ve amino asit dizileri içerir ve bu varlıkları okunabilir özetlere dönüştürmek için büyük dil modelleri (LLM) adı verilen yapay zeka (AI) araçlarını kullanır. Ancak ChatGPT veya başka bir web tabanlı LLM kullanmaz. Bunun yerine, AI'yı dizüstü bilgisayarında çalıştırır.

 

Son yıllarda, LLM'lere dayalı sohbet robotları şiir yazma veya sohbet etme yetenekleri nedeniyle övüldü. Bazı LLM'lerin yüzlerce milyar parametresi vardır - daha fazla parametre, daha karmaşıktır - ve yalnızca çevrimiçi olarak erişilebilir. Ancak son zamanlarda ortaya çıkan iki trend var. Birincisi, kuruluşlar, bir modeli eğitmek için kullanılan ağırlıkların ve önyargıların herkese açık olduğu, kullanıcıların bunları indirip hesaplama gücüne sahiplerse yerel olarak çalıştırmasına olanak tanıyan LLM'lerin "açık ağırlıklar" sürümlerini oluşturuyor. İkincisi, teknoloji şirketleri tüketici donanımlarında çalışabilen ve daha eski, daha büyük modellerin performansına uyabilen basitleştirilmiş sürümler oluşturuyor.

 

Araştırmacılar bu tür araçları paradan tasarruf etmek, hasta veya şirket gizliliğini korumak veya yeniden üretilebilirliği sağlamak için kullanabilirler. Bu eğilimin artması muhtemeldir. Bilgisayarlar daha hızlı ve modeller daha verimli hale geldikçe, insanlar dizüstü bilgisayarlarında veya mobil cihazlarında en zorlu amaçlar dışında her şey için giderek daha fazla AI çalıştıracak. Bilim insanları sonunda parmaklarının ucunda AI asistanlarına sahip olacaklar - ancak gerçek algoritmalar, onlara yalnızca uzaktan erişim değil.

 

 

Küçük paketlerde büyük şeyler

Son yıllarda birkaç büyük teknoloji şirketi ve araştırma enstitüsü, Londra'daki Google DeepMind, Kaliforniya'daki Menlo Park'taki Meta ve Seattle, Washington'daki Allen Yapay Zeka Enstitüsü dahil olmak üzere küçük ve açık modeller yayınladı (bkz. "Bazı küçük açık modeller"). ("Küçük" görecelidir - bu modeller yaklaşık 30 milyar parametre içerebilir ve bu önceki modellere kıyasla büyüktür.)

 

 

Açık ağırlıklı bazı küçük modeller

 

geliştirici

Örnek

parametre

Allen Yapay Zeka Enstitüsü

OLMo-7B

7 milyar

Alibaba

Qwen2-0.5B

0,5 milyar

Elma

DCLM-Temel-7B

7 milyar

Google DerinZihin

Gemma-2-9B

9 milyar

Google DerinZihin

KodGemma-7B

7 milyar

Meta

3.1-8B'yi arayın

8 milyar

Microsoft

Phi-3-orta-128K-talimat

14 milyar

Mistral Yapay Zeka

Mistral-Nemo-Üssü-2407

12 milyar

 

Kaliforniya merkezli teknoloji şirketi OpenAI mevcut GPT modellerini açıkça ağırlıklandırmamış olsa da, Washington, Redmond'daki ortağı Microsoft çok fazla çalışma yaptı ve 2023'te küçük dil modelleri Phi-1, Phi-1.5 ve Phi-2'yi, ardından bu yıl dört Phi-3 ve üç Phi-3.5 sürümünü yayınladı. Phi-3 ve Phi-3.5 modelleri 3,8 ila 14 milyar arasında aktif parametreye sahip ve iki model (Phi-3-vision ve Phi-3.5-vision) görüntüleri işliyor   1   . Bazı kıyaslamalarda, en küçük Phi modeli bile 20 milyar parametreye sahip olduğu söylenen OpenAI'nin 2023 GPT-3.5 Turbo'sundan daha iyi performans gösteriyor.

 

Microsoft'un üretken yapay zeka başkan yardımcısı Sébastien Bubeck, Phi-3'ün performansını eğitim veri kümesine bağlıyor. LLM'ler önce uzun metin dizilerindeki bir sonraki "işareti" (bir parça metin) tahmin ederek eğitim alırlar. Örneğin, bir suç romanının sonunda katilin adını tahmin etmek için, bir yapay zekanın öncesinde gelen her şeyi "anlaması" gerekir, ancak bu tür önemli tahminler çoğu metinde nadirdir. Microsoft, bu sorunu aşmak için LLM'leri kullanarak birinin diğerine dayandığı milyonlarca kısa hikaye ve ders kitabı yazdı. Bubeck, bu metin üzerinde eğitim almanın sonucunun, bir cep telefonuna sığan ancak 2022'de yayınlanan ilk ChatGPT sürümünün performansına sahip bir model olduğunu söylüyor. "Bu düşünce işaretleri açısından çok zengin bir veri kümesi oluşturabilirseniz, sinyal çok daha zengin olacaktır," diyor.

 

Phi-3 ayrıca yönlendirme konusunda da yardımcı olabilir - bir sorguyu daha büyük bir modele iletip iletmemeye karar vermek. "Phi-3'ün parlayacağı bir alan burası," diyor Bubeck. Küçük modeller ayrıca bulut bağlantısının az olduğu uzak bölgelerdeki bilim insanlarına da yardımcı olabilir. "Pasifik Kuzeybatısı'nda harika yürüyüş alanları var ve bazen bir ağım olmuyor," diyor. "Ve belki bir çiçeğin fotoğrafını çekip yapay zekamdan bu konuda bilgi istemek istiyorum."

 

Araştırmacılar bu araçları kullanarak özel uygulamalar oluşturabilirler. Örneğin, Çin e-ticaret sitesi Alibaba, 500 milyon ila 72 milyar parametreye sahip Qwen adlı modeller oluşturmuştur. New Hampshire'daki bir biyomedikal bilimci, bilimsel verileri kullanarak en büyük Qwen modelini geliştirdi ve model paylaşım sitesi Hugging Face'te bulunan Turbcat-72b'yi oluşturdu. (Araştırmacı, mesajlaşma platformu Discord'da yalnızca Kal'tsit olarak bilinir, çünkü akademide yapay zeka destekli çalışmalar hala tartışmalıdır.) Kal'tsit, araştırmacıların beyin fırtınası yapmasına, el yazmalarını düzeltmesine, prototip kodu oluşturmasına ve yayınlanmış çalışmaları özetlemesine yardımcı olmak için modeli oluşturduğunu söylüyor; model binlerce kez indirildi.

 

Ki - Gizlilik Koruması
Ki - Gizlilik Koruması

Gizliliğe saygı

Kal'tsit, açık modelleri belirli uygulamalar için optimize etme becerisine ek olarak, yerel modellerin bir diğer avantajının da gizlilik olduğunu söylüyor. Kişisel verileri ticari bir hizmete göndermek gizlilik düzenlemelerini ihlal edebilir. "Bir denetim yapılırsa ve ChatGPT kullandığınızı gösterirseniz, durum oldukça çirkinleşebilir," diyor.

 

Hugging Face'deki sağlık ekibine liderlik eden bir doktor olan Cyril Zakka, diğer modeller için eğitim verileri üretmek amacıyla yerel modeller kullanıyor (bazen bunlar da yerel olabiliyor). Bir projede, bunları tıbbi raporlardan teşhisleri çıkarmak için kullanıyor, böylece başka bir model kalp hastalıklarını izlemek için kullanılan ekokardiyogramlara dayanarak bu teşhisleri tahmin etmeyi öğrenebiliyor. Başka bir projede, modelleri tıp ders kitaplarından sorular ve cevaplar üretmek ve diğer modelleri test etmek için kullanıyor. "Tamamen otonom cerrahiye giden yolu açıyoruz," diye açıklıyor. Soruları yanıtlamak üzere eğitilen bir robot doktorlarla daha iyi iletişim kurabilir.

 

Zakka yerel modeller kullanıyor - Paris merkezli teknoloji firması Mistral AI tarafından piyasaya sürülen Mistral 7B'yi veya Meta'nın Llama-3 70B'sini tercih ediyor - çünkü ChatGPT Plus gibi abonelik hizmetlerinden daha ucuzlar ve bunları ince ayar yapabiliyorlar. Ancak gizlilik de önemli çünkü hasta kayıtlarını ticari AI hizmetlerine göndermesine izin verilmiyor.

 

Springfield, Missouri'deki Mercy Health System'da endokrinolog olan Johnson Thomas da hasta mahremiyetinden ilham alıyor. Doktorların hasta konuşmalarını yazıya dökmek ve özetlemek için nadiren zamanları oluyor, ancak bunu yapmak için AI kullanan çoğu ticari hizmet ya çok pahalı ya da özel tıbbi verileri işlemek için onaylanmamış. Thomas bir alternatif geliştiriyor. OpenAI'dan açık ağırlıklı konuşma tanıma modeli Whisper ve Google DeepMind'dan Gemma 2'ye dayanan sistem, doktorların konuşmaları yazıya dökmesine ve bunları tıbbi notlara dönüştürmesine ve tıbbi çalışmalara katılanların verilerini özetlemesine olanak tanıyor.

 

Gizlilik, endüstride de bir sorundur. Seul'deki Güney Koreli ilaç şirketi Portrai'de geliştirilen CELLama, bir hücrenin gen ifadesi ve diğer özellikleri hakkındaki bilgileri özet bir kümeye   2 indirgemek için Llama 3.1 gibi yerel LLM'leri kullanır   . Daha sonra hücreleri türlere gruplamak için kullanılabilecek bu kümenin sayısal bir temsilini oluşturur. Geliştiriciler, GitHub sayfalarında gizliliği bir avantaj olarak vurgulayarak,   CELLama'nın   "yerel olarak çalıştığını ve veri sızıntısı olmamasını sağladığını" belirtiyorlar.

 

AI - Modelleri akıllıca kullanmak
AI - Modelleri akıllıca kullanmak

 

Modelleri akıllıca kullanmak

LLM manzarası geliştikçe, bilim insanları hızla değişen bir dizi seçenekle karşı karşıya kalıyor. "LLM'leri yerel olarak kullanma konusunda hala deneme ve deneme aşamasındayım." Llama'yı yerel olarak kullanıyorlar, 8 milyar veya 70 milyar parametreyle, her ikisi de Mac dizüstü bilgisayarında çalışıyor.

 

Bir diğer avantaj ise yerel modellerin değişmemesidir. Öte yandan ticari geliştiriciler, modellerini istedikleri zaman güncelleyebilir, bu da farklı sonuçlara yol açabilir ve onları istemleri veya şablonları değiştirmeye zorlayabilir. "Çoğu bilimsel alanda, yeniden üretilebilir şeyler istersiniz," diye açıklıyor. "Ve sonuçlarınızın yeniden üretilebilirliği üzerinde kontrol sahibi olmadığınızda bu her zaman bir endişe kaynağıdır."

 

Başka bir proje için, MHC moleküllerini 3 boyutlu yapılarına göre hizalayan bir kod yazıyor. Algoritmalarını geliştirmek ve test etmek için doğada var olanlardan daha fazla sayıda farklı proteine ihtiyacı var. Mantıklı yeni proteinler tasarlamak için,     yaklaşık 50 milyon dizi üzerinde eğitilmiş, 738 milyon parametreli açık ağırlık modeli olan   ProtGPT2'yi kullanıyor 3   .

 

Ancak bazen yerel bir uygulama yeterli olmaz. Programlama için bulut tabanlı GitHub Copilot kullanır. "Bir nedenden ötürü Copilot'u kullanamazsam kolum kesilmiş gibi hissediyorum," diyor. Yerel LLM tabanlı programlama araçları olmasına rağmen (Google DeepMind'ın  CodeGemma'sı   ve Kaliforniya merkezli geliştirici   Continue'den bir tanesi gibi   ), onun deneyimine göre Copilot ile rekabet edemezler.

 

 

Erişim noktaları

Peki yerel bir LLM nasıl çalıştırılır?   Ollama adlı bir yazılım   (Mac, Windows ve Linux işletim sistemleri için mevcuttur) kullanıcıların Llama 3.1, Phi-3, Mistral ve Gemma 2 dahil olmak üzere açık modelleri indirmesine ve bunlara bir komut satırından erişmesine olanak tanır. Diğer seçenekler arasında     LLM'leri grafik işlemcili veya işlemcisiz altı işletim sisteminde çalışan tek bir dosyaya dönüştürebilen çapraz platform uygulaması GPT4All   ve   Llamafile bulunur.

 

InfoWorld web sitesinin eski editörü Sharon Machlis, Massachusetts, Framingham'da yaşıyor ve  yerel olarak LLM'leri kullanma konusunda   bir düzine seçeneği kapsayan bir rehber yazdı. "Önereceğim ilk şey," diyor, "seçtiğiniz yazılımı ne kadar oynamak istediğinize göre seçmenizdir." Bazı insanlar uygulamaların basitliğini tercih ederken, diğerleri komut satırının esnekliğini tercih eder.

 

San Francisco merkezli teknoloji şirketi Mozilla'da açık kaynaklı AI başkanı Stephen Hood, hangi yaklaşımı benimsersek benimseyelim, yerel LLM'lerin yakında çoğu uygulama için yeterince iyi olacağını söylüyor. "Geçtiğimiz yıl bu alandaki ilerleme inanılmazdı," diyor.

 

Kullanıcılar bu uygulamaların ne olabileceğine kendileri karar vermelidir. "Ellerinizi kirletmekten korkmayın," diye tavsiyede bulunuyor Zakka. "Sonuçlar sizi hoş bir şekilde şaşırtabilir."

 

Yapay zeka
Yapay zeka
 

 

#YapayZeka #AI #LocalAI #LLM #OpenWeights #ChatGPT #DerinÖğrenme #MakineÖğrenimi #Biyoenformatik #VeriBilimi #Teknoloji #Araştırma #İnovasyon #YazılımGeliştirme #AçıkKaynak #VeriGizliliği #Tekrarlanabilirlik
 
 
 

Yorum Gönder

0Yorumlar
Yorum Gönder (0)

#buttons=(Accept !) #days=(20)

Web sitemiz, deneyiminizi geliştirmek için tanımlama bilgileri kullanır. Daha Fazla Bilgi Edinin
Accept !