ChatGPT, GPT-4 vb.'nin piyasaya sürülmesi, büyük modelin (LLM) cazibesini ve karşılaştığı çeşitli zorlukları görmemize olanak sağladı.
Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur
LLM'yi nasıl daha iyi hale getirebiliriz? Büyük modeller karşısında hangi sorunların çözülmesi gerekiyor? Yapay zeka alanında önemli bir araştırma konusu haline geldi.
Bu makalede bilgisayar bilimcisi Chip Huyen, 10 açıdan yola çıkıyor ve Yüksek Lisans'ın karşılaştığı zorlukları kapsamlı bir şekilde açıklıyor. Spesifik olarak, ilk iki yön halüsinasyonlar ve bağlamsal öğrenme ile ilgilidir ve diğer bazı yönler arasında multimodalite, mimari, GPU alternatifleri bulma vb. yer alır ancak bunlarla sınırlı değildir.
Orijinal adres:
Aşağıda orijinal metnin çevirisi yer almaktadır.
1. Halüsinasyonlar nasıl azaltılır
Halüsinasyon sorunu, Yüksek Lisans tarafından oluşturulan metnin akıcı ve doğal olması, ancak içeriğin kaynağına sadık olmaması (içsel sorun) ve/veya belirsiz olmasıdır (dışsal sorun). Bu sorun LLM'de yaygın olarak mevcuttur.
Bu nedenle halüsinasyonların hafifletilmesi ve halüsinasyonları ölçecek göstergelerin geliştirilmesi çok önemli ve birçok şirket ve kurum bu konuya önem veriyor. Chip Huyen, bu aşamada halüsinasyonları azaltmanın, ipucuna daha fazla bağlam eklemek, düşünce zincirleri kullanmak veya modelin tepkisini daha kısa hale getirmek gibi birçok yolu olduğunu söyledi.
Başvurulabilecek materyaller şunları içerir:
Doğal dil üretiminde halüsinasyonlar üzerine yapılan araştırmaların bir incelemesi:
Dil yanılsaması nasıl kartopu modelliyor:
Muhakeme, halüsinasyonlar ve etkileşim üzerine ChatGPT değerlendirmesi:
Kendi kendine tutarlılık, dil modelinin düşünme zinciri muhakeme yeteneğini geliştirir:
Üretken büyük dil modelleri için kara kutu halüsinasyon tespiti:
2. Bağlam uzunluğunu ve bağlam yapısını optimize edin
Yüksek Lisans'ın bir başka araştırma odağı da bağlamın uzunluğudur, çünkü büyük modelin kullanıcı sorularını yanıtlarken bağlama atıfta bulunması gerekir ve işlenebilen uzunluk ne kadar uzun olursa Yüksek Lisans için o kadar kullanışlı olur. Örneğin, ChatGPT'ye "En iyi Vietnam restoranı hangisi?" diye sorduk. Bu soruyla karşılaştığımızda ChatGPT'nin, kullanıcının Vietnam'daki en iyi Vietnam restoranını mı yoksa Amerika'daki en iyi Vietnam restoranını mı sorduğunu anlamak için bağlama bakması gerekiyor. Hayır, aynısı değil.
Bu alt bölüm altında Chip Huyen, ilgili birkaç makale sunmaktadır.
Bunlardan ilki "SITUATEDQA: Dil Dışı Bağlamları QA'ya Dahil Etmek", her iki yazar da Austin'deki Texas Üniversitesi'ndendir. Makalede açık erişimli bir QA veri seti SITUATEDQA tanıtılıyor ve ilgilenen okuyucular daha fazla bilgi edinmek için buna göz atabilir.
Chip Huyen, modelin sağlanan bağlamdan öğrenmesi nedeniyle bu sürece bağlamsal öğrenme denildiğini belirtti.
İkinci makale "Bilgi Yoğun NLP Görevleri için Yeniden Tri-Artırılmış Nesil"dir. Bu makale, açık alan üretken soru yanıtlama ve diğer bilgileri gerçekleştirmek için önceden eğitilmiş dil modellerini ve harici bilgiyi birleştirebilen RAG'yi (Yeniden Artırılmış Nesil) önermektedir. Yoğun görevler.
RGA işlem süreci iki aşamaya ayrılır: parçalama (geri alma olarak da bilinir) aşaması ve sorgulama aşaması:
Pek çok kişi, bu araştırmaya dayanarak, bağlam ne kadar uzun olursa modelin o kadar fazla bilgi sıkıştıracağını ve tepkisinin de o kadar iyi olacağını düşünüyor. Chip Huyen bu ifadenin tamamen doğru olmadığını düşünüyor.
Bir modelin ne kadar bağlam kullanabileceği ve bir modelin bağlamı ne kadar verimli kullanabileceği tamamen farklı iki sorudur. Yapmamız gereken, model bağlamının uzunluğunu arttırırken paralel olarak model işleme bağlamının verimliliğini de arttırmaktır. Örneğin, "Ortada Kayıp: Dil Modelleri Uzun Bağlamları Nasıl Kullanıyor" makalesinde, makale, modelin ortadaki bilgi yerine endeksin başındaki ve sonundaki bilgileri nasıl daha iyi anlayabileceğini açıklıyor.
3. Çok modlu
Chip Huyen çok modluluğun çok önemli olduğuna inanıyor.
Birincisi, sağlık hizmetleri, robot teknolojisi, e-ticaret, perakende, oyun, eğlence vb. gibi alanlar çok modlu verilere ihtiyaç duyar. Örneğin tıbbi tahmin, bilgisayarlı tomografi, röntgen ve MRI taramaları gibi görüntü bilgilerinin yanı sıra doktor notları ve hasta anketleri gibi metin içeriklerini de gerektirir.
İkincisi, çok modluluk, hem metni hem de görüntüleri anlayabilen modellerin yalnızca metni anlayabilen modellerden daha iyi performans göstermesiyle model performansını büyük ölçüde artırmayı vaat ediyor. Ancak metin tabanlı modeller o kadar metin talep ediyor ki insanlar, yakında modelleri eğitmek için İnternet verimizin tükeneceğinden endişelenmeye başlıyorlar. Metin bittiğinde, diğer veri yöntemlerini dikkate almamız gerekir.
Flamingo Mimari Şeması
Multimodalite ile ilgili olarak aşağıdaki içeriklere başvurabilirsiniz:
1《Doğal Dil Denetiminden Aktarılabilir Görsel Modelleri Öğrenmek》:
Kitap 2《Flamingo: Birkaç Adımda Öğrenme için Görsel Dil Modeli》:
Bölüm 3《BLIP-2: Dondurulmuş Görüntü Kodlayıcılar ve Büyük Dil Modelleri ile Önyükleme Dil-Görüntü Ön Eğitimi》:
4《İhtiyacınız Olan Tek Şey Dil Değil: Algıyı Dil Modelleriyle Hizalamak》:
Makale 5 "Görsel Talimat Ayarlama":
Google PaLM-E:
NVIDIA NeVA:
4. Yüksek Lisans'ı daha hızlı ve daha ucuz hale getirin
GPT-3.5 ilk olarak Kasım 2022'nin sonlarında piyasaya sürüldü ve birçok kişi kullanım maliyetinin yüksek olmasından endişe ediyor. Ancak yalnızca altı ay içinde topluluk performans açısından GPT-3.5'e yakın bir model buldu ve gerekli bellek alanı GPT-3.5'in yalnızca %2'si kadardı.
Chip Huyen, yeterince iyi bir şey yaratırsanız insanların yakında bunu hızlı ve ucuz hale getirmenin bir yolunu bulacağını söyledi.
Aşağıda Guanaco 7B'nin ChatGPT ve GPT-4 gibi modellerle performans karşılaştırması bulunmaktadır. Ancak LLM'yi değerlendirmenin çok zor olduğunu vurgulamamız gerekiyor.
Ardından Chip Huyen model optimizasyonu ve sıkıştırma tekniklerini sıraladı:
Niceleme: Model optimizasyonu için bugüne kadarki en genel yöntem. Niceleme, parametreleri temsil etmek için daha az bit kullanır, böylece modelin boyutu küçülür.Örneğin, birisi 32 bitlik kayan noktalı sayıyı 16 bitlik, hatta 4 bitlik kayan noktalı gösterime değiştirir;
Bilgi Damıtma: Küçük bir modeli (öğrenciyi) daha büyük bir modeli veya modeller topluluğunu (öğretmen) taklit etmesi için eğitme yöntemi;
Düşük dereceli ayrıştırma: Ana fikir, parametre sayısını azaltmak için yüksek boyutlu tensörleri düşük boyutlu tensörlerle değiştirmektir. Örneğin, kullanıcılar 3x3'lük bir tensörü 3x1 ve 1x3'lük tensörlerin çarpımına ayrıştırabilir, böylece 9 yerine yalnızca 6 parametre bulunabilir;
Budama.
Alpaka'yı bilgi damıtmayla eğitmek ve düşük dereceli ayrıştırma ile nicelemeyi birleştiren QLoRA gibi yukarıdaki dört yöntem hala popülerdir.
5. Yeni bir model mimarisi tasarlayın
AlexNet'in 2012 yılında piyasaya sürülmesinden bu yana, LSTM, seq2seq dahil birçok mimari popüler hale geldi ve ardından geçerliliğini yitirdi. Bunun aksine Transformer inanılmaz derecede yapışkandır. 2017'den beri var ve şu ana kadar hala yaygın olarak kullanılıyor. Bu mimarinin ne kadar popüler olacağını tahmin etmek zor.
Ancak Transformer'ı geride bırakacak tamamen yeni bir mimari geliştirmek kolay değil. Geçtiğimiz 6 yılda araştırmacılar Transformer'da birçok optimizasyon yaptı. Model mimarisinin yanı sıra donanım düzeyinde optimizasyonu da içerir.
Amerikalı bilgisayar bilimcisi Chris Ré liderliğindeki laboratuvar, 2021'de S4 etrafında birçok araştırma yürüttü. Daha fazla bilgi için lütfen "Yapılandırılmış Durum Uzaylarıyla Uzun Dizileri Verimli Şekilde Modelleme" makalesine bakın. Ek olarak, Chris Ré laboratuvarı yeni mimarilerin geliştirilmesine büyük yatırımlar yaptı ve yakın zamanda Monarch Mixer mimarisini geliştirmek için startup Together ile ortaklık kurdu.
Temel fikirleri, mevcut Transformer mimarisi için dikkatin karmaşıklığının dizi uzunluğunun ikinci dereceden değeri olması, MLP'nin karmaşıklığının ise model boyutunun ikinci dereceden olması ve düşük karmaşıklığa sahip mimarinin daha verimli olacağıdır.
6. GPU alternatifleri geliştirin
GPU'lar, AlexNet'in 2012'de piyasaya sürülmesinden bu yana derin öğrenmeye hakim oldu. Aslında AlexNet'in popülaritesinin iyi bilinen bir nedeni, bunun GPU'ları kullanarak bir sinir ağını başarıyla eğiten ilk makale olmasıdır. GPU'ların ortaya çıkmasından önce, AlexNet boyutunda bir modeli eğitmek istiyorsanız binlerce CPU kullanmanız gerekiyordu ve birkaç GPU bunu yapabilirdi.
Geçtiğimiz on yılda hem büyük şirketler hem de startuplar yapay zeka için yeni donanımlar yaratmaya çalıştı. En temsili olanlar Google'ın TPU'su, Graphcore'un IPU'su ve AI çip şirketi Cerebras'ı içerir ancak bunlarla sınırlı değildir. Ayrıca yapay zeka çipi girişimi SambaNova, yeni yapay zeka çipleri geliştirmek için 1 milyar dolardan fazla bağış topladı.
Bir başka heyecan verici yön ise, verileri hareket ettirmek için fotonları kullanan, daha hızlı ve daha verimli hesaplama sağlayan fotonik çiplerdir. Lightmatter (270 milyon dolar), Ayar Labs (220 milyon dolar), Lightelligence (200 milyon doların üzerinde) ve Luminous Compute (115 milyon dolar) dahil olmak üzere bu alandaki birçok girişim yüz milyonlarca dolar topladı.
Aşağıda, "Fotonik matris çarpımı fotonik hızlandırıcıyı ve ötesini aydınlatır" makalesinden alınan, fotonik matris hesaplamasındaki üç ana yaklaşımın ilerlemesinin bir zaman çizelgesi yer almaktadır. Üç yöntem, düzlemsel ışık dönüşümü (PLC), Mach-Zehnder interferometresi (MZI) ve dalga boyu bölmeli çoğullamadır (WDM).
7. Temsilcileri daha kullanışlı hale getirin
Temsilciler internette gezinmek, e-posta göndermek, oda rezervasyonu yapmak vb. işlemleri gerçekleştirebilen LLM'lerdir. Bu makaledeki diğer araştırma yönleriyle karşılaştırıldığında, bu yön nispeten geç ortaya çıktı ve herkes için çok yeni.
Yeniliği ve büyük potansiyeli nedeniyle herkesin akıllı ajanlara karşı çılgın bir takıntısı var. Auto-GPT şu anda GitHub'daki en popüler 25. projedir. GPT-Mühendislik bir başka çok popüler projedir.
Bu beklenen ve heyecan verici olsa da, Yüksek Lisans'ın yeterince güvenilir ve hareket etme hakkı verilecek kadar performanslı olup olmayacağı şüpheli olmaya devam ediyor.
Bununla birlikte, halihazırda ortaya çıkan bir uygulama durumu, ajanları sosyal araştırmalara uygulamaktır. Bir süre önce, Stanford "sanal kasaba" Smallville'i açık kaynaklı hale getirdi. Kasabada 25 AI ajanı yaşıyordu. İşleri var, dedikodu yapabiliyorlar ve sosyal organizasyonlar düzenleyebiliyorlar. , yeni arkadaşlar edinin ve hatta bir Sevgililer Günü partisine ev sahipliği yapın, her Kasaba Sakininin benzersiz bir kişiliği ve geçmişi vardır.
Daha fazla ayrıntı için lütfen aşağıdaki makalelere bakın.
Kağıt adresi:
Muhtemelen bu alandaki en ünlü girişim, iki Transformer ortak yazarı ve eski bir OpenAI Başkan Yardımcısı tarafından kurulan ve bugüne kadar yaklaşık 500 milyon dolar toplayan Adept'tir. Geçen yıl, temsilcilerinin internette nasıl gezinebileceğini ve Salesforce'a yeni bir hesap ekleyebileceğini gösteren bir demo yaptılar.
, süre 03:30
8. İnsan Tercihlerinden Geliştirilmiş Öğrenme
RLHF, İnsan Tercihlerinden Takviyeli Öğrenme anlamına gelir. İnsanların LLM'leri eğitmenin başka yollarını bulmaları şaşırtıcı olmaz, sonuçta RLHF'nin hâlâ çözmesi gereken birçok sorunu var. Chip Huyen şu 3 puanı sıraladı.
**İnsan tercihleri matematiksel olarak nasıl temsil edilir? **
Şu anda, insan tercihleri karşılaştırma yoluyla belirlenmektedir: İnsan açıklamacılar, A yanıtının B yanıtından daha iyi olup olmadığını belirler, ancak A yanıtının B yanıtından ne kadar daha iyi olduğunu dikkate almazlar.
**İnsan tercihleri nelerdir? **
Antropik, modellerinin yanıt kalitesini üç eksende (yararlılık, dürüstlük ve masumiyet) ölçer.
Kağıt adresi:
DeepMind ayrıca çoğunluğu tatmin edecek yanıtlar üretmeye çalışır. Aşağıdaki bu makaleye bakın.
Kağıt adresi:
Ancak açık olmak gerekirse, tavır alabilecek bir yapay zeka mı istiyoruz, yoksa potansiyel olarak tartışmalı konulardan kaçınan genel bir yapay zeka mı istiyoruz?
**"İnsanların" tercihleri kimin tercihleridir? **
Kültür, din vb. farklılıklar göz önüne alındığında, tüm potansiyel kullanıcıları yeterince temsil eden eğitim verilerinin elde edilmesinde birçok zorluk vardır.
Örneğin OpenAI'nin InstructGPT verilerinde etiketleyicilerin ağırlıklı olarak Filipinli ve Bangladeşli olması coğrafi farklılıklardan dolayı bazı sapmalara neden olabilir.
Kaynak:
Araştırma topluluğu da bunun üzerinde çalışıyor ancak veri yanlılığı devam ediyor. Örneğin, OpenAssistant veri kümesinin demografik dağılımında, 222 katılımcının 201'i (%90,5) erkekti.
9. Sohbet arayüzünün verimliliğini artırın
ChatGPT'den bu yana sohbetin çeşitli görevler için uygun olup olmadığı konusunda birçok tartışma yaşandı. Örneğin şu tartışmalar:
Doğal dil tembel kullanıcı arayüzüdür
Neden chatbotlar gelecek değil:
Hangi tür soruların cevaplanması diyalog gerektirir?
AI sohbet arayüzü, belgeleri okumak için ana kullanıcı arayüzü haline gelebilir:
LLM ile minimum sohbetle etkileşime geçin:
Ancak bu tartışmalar yeni değil. Pek çok ülke, özellikle Asya'da, yaklaşık on yıldır sohbeti süper uygulamalar için bir arayüz olarak kullanıyor.
*Çince uygulamalar için ortak bir arayüz olarak sohbet edin
2016'da birçok uygulamanın öldüğü ve geleceğin chatbotlar olduğu düşünüldüğünde tartışma yeniden gerginleşti:
Sohbet arayüzü hakkında:
Chatbot trendi büyük bir yanılgı mı:
Botlar uygulamaların yerini almayacak, daha iyi uygulamalar:
Chip Huyen, aşağıdaki nedenlerden dolayı sohbet arayüzünü gerçekten beğendiğini söyledi:
Sohbet, daha önce hiç bilgisayara veya internete erişimi olmayanların bile, herkesin hızla kullanmayı öğrenebileceği bir arayüzdür.
*Sohbet arayüzünde herhangi bir engel bulunmamaktadır, aceleniz olduğunda bile metin yerine ses kullanabilirsiniz.
Sohbet de çok güçlü bir arayüzdür, herhangi bir istekte bulunabilirsiniz, cevap iyi olmasa bile cevap verecektir.
Ancak Chip Huyen, sohbet arayüzünün bazı alanlarda iyileştirmeye yer bıraktığını düşünüyor. Şu önerileri var
Tur başına birden fazla mesaj
Şu anda tur başına yalnızca bir mesajın gönderilebileceği düşünülüyor. Ama insanlar gerçek hayatta böyle mesaj atmıyor. Genellikle bir bireyin fikrini tamamlamak için birden fazla bilgi gerekir, çünkü sürece farklı verilerin (resimler, konumlar, bağlantılar gibi) eklenmesi gerekir ve kullanıcı önceki bilgilerdeki bir şeyi kaçırmış olabilir veya tam olarak gözden kaçırmış olabilir. Her şeyi dahil etmek istiyorum Uzun bir paragraf halinde yazın.
Çok modlu giriş
Multimodal uygulamalar alanında, çabanın çoğu daha iyi modeller oluşturmak için harcanır ve daha az çaba, daha iyi arayüzler oluşturmak için harcanır. Nvidia'nın NeVA sohbet robotu durumunda kullanıcı deneyimini iyileştirecek alan olabilir.
adres:
Üretken Yapay Zekayı İş Akışlarına Dahil Edin
Linus Lee, "Sohbetin ötesinde yapay zeka tarafından oluşturulan arayüzler" başlıklı konuşmasında bunu çok iyi ifade ediyor. Örneğin, üzerinde çalıştığınız grafikteki bir sütun hakkında soru sormak istiyorsanız, o sütunu işaret edip sorabilmeniz gerekir.
Video adresi:
Bilgileri düzenleme ve silme
Kullanıcı girdisini düzenlemenin veya silmenin, bir sohbet robotuyla yapılan görüşmenin akışını nasıl değiştirebileceğini düşünmeye değer.
10. İngilizce dışındaki diller için yüksek lisans derecesi oluşturmak
Birinci dil olarak İngilizceye yönelik mevcut Yüksek Lisans (LLM) performans, gecikme ve hız açısından diğer dillere göre iyi ölçeklenmiyor. İlgili içerik aşağıdaki makaleleri okuyabilir:
Kağıt adresi:
Makale adresi:
Chip Huyen, bu makalenin ilk okuyucularından birkaçının kendisine bu yönün iki nedenden dolayı dahil edilmemesi gerektiğini düşündüklerini söylediğini söyledi.
Bu bir lojistik sorusundan çok bir araştırma sorusudur. Bunu nasıl yapacağımızı zaten biliyoruz, sadece birisinin para ve enerji yatırımı yapması gerekiyor ki bu pek doğru değil. Çoğu dil, düşük kaynaklı diller olarak kabul edilir; örneğin, İngilizce veya Çince'den çok daha az yüksek kaliteli veriye sahiptir ve bu nedenle, büyük dil modellerinin eğitimi için farklı teknikler gerekebilir. Aşağıdaki makalelere bakın:
Kağıt adresi:
Kağıt adresi:
Karamsar insanlar gelecekte birçok dilin yok olacağını ve gelecekteki İnternet'in iki dilden oluşacağını düşünüyor: İngilizce ve Çince.
Makine çevirisi ve sohbet robotları gibi yapay zeka araçlarının dil öğrenimi üzerindeki etkisi belirsizdir. İnsanların yeni dilleri daha hızlı öğrenmesine mi yardımcı oluyorlar yoksa yeni dil öğrenme ihtiyacını tamamen ortadan mı kaldırıyorlar bilinmiyor.
Özetle
Bu yazıda bahsedilen problemlerin de farklı zorluk seviyeleri vardır, örneğin son problem, eğer yeterli kaynak ve zaman bulabilirseniz İngilizce dışındaki diller için de yüksek lisans yapmak mümkündür.
İlk sorunlardan biri halüsinasyonları azaltmaktır ki bu çok daha zor olacaktır çünkü halüsinasyonlar sadece LLM'nin olasılıksal şeyler yapmasıdır.
Dördüncü sorun LLM'yi daha hızlı ve daha ucuz hale getirmektir ve bu tamamen çözülmeyecektir. Bu alanda bazı ilerlemeler kaydedildi ve gelecekte daha fazla ilerleme olacak, ancak asla mükemmelliğe ulaşamayacağız.
Beşinci ve altıncı konular ise yeni mimariler ve yeni donanımlardır ki bunlar oldukça zorludur ancak zamanla kaçınılmazdır. Yeni mimarilerin genel amaçlı donanım için optimize edilmesi gereken ve donanımın genel amaçlı mimarileri desteklemesi gereken mimari ve donanım arasındaki simbiyotik ilişki nedeniyle, bu sorun potansiyel olarak aynı şirket tarafından çözülebilir.
Yalnızca teknik bilgiyle çözülemeyen sorunlar da var. Örneğin, insan tercihlerinden öğrenme yöntemlerinin geliştirilmesine ilişkin sekizinci sorun, teknik bir meseleden ziyade bir politika meselesi olabilir. Arayüz verimliliğinin artırılmasına ilişkin dokuzuncu sorudan bahsetmişken, bu daha çok bir kullanıcı deneyimi sorununa benziyor ve bu sorunu birlikte çözmek için teknik olmayan geçmişi olan daha fazla kişiye ihtiyaç var.
Bu sorunlara başka açılardan bakmak istiyorsanız Chip Huyen aşağıdaki makaleyi okumanızı tavsiye ediyor.
Kağıt adresi:
View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
Ölümcül halüsinasyonlar, GPU alternatiflerinin geliştirilmesi, büyük modeller hala bu 10 büyük zorlukla karşı karşıyadır
ChatGPT, GPT-4 vb.'nin piyasaya sürülmesi, büyük modelin (LLM) cazibesini ve karşılaştığı çeşitli zorlukları görmemize olanak sağladı.
LLM'yi nasıl daha iyi hale getirebiliriz? Büyük modeller karşısında hangi sorunların çözülmesi gerekiyor? Yapay zeka alanında önemli bir araştırma konusu haline geldi.
Bu makalede bilgisayar bilimcisi Chip Huyen, 10 açıdan yola çıkıyor ve Yüksek Lisans'ın karşılaştığı zorlukları kapsamlı bir şekilde açıklıyor. Spesifik olarak, ilk iki yön halüsinasyonlar ve bağlamsal öğrenme ile ilgilidir ve diğer bazı yönler arasında multimodalite, mimari, GPU alternatifleri bulma vb. yer alır ancak bunlarla sınırlı değildir.
Aşağıda orijinal metnin çevirisi yer almaktadır.
1. Halüsinasyonlar nasıl azaltılır
Halüsinasyon sorunu, Yüksek Lisans tarafından oluşturulan metnin akıcı ve doğal olması, ancak içeriğin kaynağına sadık olmaması (içsel sorun) ve/veya belirsiz olmasıdır (dışsal sorun). Bu sorun LLM'de yaygın olarak mevcuttur.
Bu nedenle halüsinasyonların hafifletilmesi ve halüsinasyonları ölçecek göstergelerin geliştirilmesi çok önemli ve birçok şirket ve kurum bu konuya önem veriyor. Chip Huyen, bu aşamada halüsinasyonları azaltmanın, ipucuna daha fazla bağlam eklemek, düşünce zincirleri kullanmak veya modelin tepkisini daha kısa hale getirmek gibi birçok yolu olduğunu söyledi.
Başvurulabilecek materyaller şunları içerir:
2. Bağlam uzunluğunu ve bağlam yapısını optimize edin
Yüksek Lisans'ın bir başka araştırma odağı da bağlamın uzunluğudur, çünkü büyük modelin kullanıcı sorularını yanıtlarken bağlama atıfta bulunması gerekir ve işlenebilen uzunluk ne kadar uzun olursa Yüksek Lisans için o kadar kullanışlı olur. Örneğin, ChatGPT'ye "En iyi Vietnam restoranı hangisi?" diye sorduk. Bu soruyla karşılaştığımızda ChatGPT'nin, kullanıcının Vietnam'daki en iyi Vietnam restoranını mı yoksa Amerika'daki en iyi Vietnam restoranını mı sorduğunu anlamak için bağlama bakması gerekiyor. Hayır, aynısı değil.
Bu alt bölüm altında Chip Huyen, ilgili birkaç makale sunmaktadır.
Bunlardan ilki "SITUATEDQA: Dil Dışı Bağlamları QA'ya Dahil Etmek", her iki yazar da Austin'deki Texas Üniversitesi'ndendir. Makalede açık erişimli bir QA veri seti SITUATEDQA tanıtılıyor ve ilgilenen okuyucular daha fazla bilgi edinmek için buna göz atabilir.
Chip Huyen, modelin sağlanan bağlamdan öğrenmesi nedeniyle bu sürece bağlamsal öğrenme denildiğini belirtti.
RGA işlem süreci iki aşamaya ayrılır: parçalama (geri alma olarak da bilinir) aşaması ve sorgulama aşaması:
Bir modelin ne kadar bağlam kullanabileceği ve bir modelin bağlamı ne kadar verimli kullanabileceği tamamen farklı iki sorudur. Yapmamız gereken, model bağlamının uzunluğunu arttırırken paralel olarak model işleme bağlamının verimliliğini de arttırmaktır. Örneğin, "Ortada Kayıp: Dil Modelleri Uzun Bağlamları Nasıl Kullanıyor" makalesinde, makale, modelin ortadaki bilgi yerine endeksin başındaki ve sonundaki bilgileri nasıl daha iyi anlayabileceğini açıklıyor.
3. Çok modlu
Chip Huyen çok modluluğun çok önemli olduğuna inanıyor.
Birincisi, sağlık hizmetleri, robot teknolojisi, e-ticaret, perakende, oyun, eğlence vb. gibi alanlar çok modlu verilere ihtiyaç duyar. Örneğin tıbbi tahmin, bilgisayarlı tomografi, röntgen ve MRI taramaları gibi görüntü bilgilerinin yanı sıra doktor notları ve hasta anketleri gibi metin içeriklerini de gerektirir.
İkincisi, çok modluluk, hem metni hem de görüntüleri anlayabilen modellerin yalnızca metni anlayabilen modellerden daha iyi performans göstermesiyle model performansını büyük ölçüde artırmayı vaat ediyor. Ancak metin tabanlı modeller o kadar metin talep ediyor ki insanlar, yakında modelleri eğitmek için İnternet verimizin tükeneceğinden endişelenmeye başlıyorlar. Metin bittiğinde, diğer veri yöntemlerini dikkate almamız gerekir.
Multimodalite ile ilgili olarak aşağıdaki içeriklere başvurabilirsiniz:
4. Yüksek Lisans'ı daha hızlı ve daha ucuz hale getirin
GPT-3.5 ilk olarak Kasım 2022'nin sonlarında piyasaya sürüldü ve birçok kişi kullanım maliyetinin yüksek olmasından endişe ediyor. Ancak yalnızca altı ay içinde topluluk performans açısından GPT-3.5'e yakın bir model buldu ve gerekli bellek alanı GPT-3.5'in yalnızca %2'si kadardı.
Chip Huyen, yeterince iyi bir şey yaratırsanız insanların yakında bunu hızlı ve ucuz hale getirmenin bir yolunu bulacağını söyledi.
Alpaka'yı bilgi damıtmayla eğitmek ve düşük dereceli ayrıştırma ile nicelemeyi birleştiren QLoRA gibi yukarıdaki dört yöntem hala popülerdir.
5. Yeni bir model mimarisi tasarlayın
AlexNet'in 2012 yılında piyasaya sürülmesinden bu yana, LSTM, seq2seq dahil birçok mimari popüler hale geldi ve ardından geçerliliğini yitirdi. Bunun aksine Transformer inanılmaz derecede yapışkandır. 2017'den beri var ve şu ana kadar hala yaygın olarak kullanılıyor. Bu mimarinin ne kadar popüler olacağını tahmin etmek zor.
Ancak Transformer'ı geride bırakacak tamamen yeni bir mimari geliştirmek kolay değil. Geçtiğimiz 6 yılda araştırmacılar Transformer'da birçok optimizasyon yaptı. Model mimarisinin yanı sıra donanım düzeyinde optimizasyonu da içerir.
Amerikalı bilgisayar bilimcisi Chris Ré liderliğindeki laboratuvar, 2021'de S4 etrafında birçok araştırma yürüttü. Daha fazla bilgi için lütfen "Yapılandırılmış Durum Uzaylarıyla Uzun Dizileri Verimli Şekilde Modelleme" makalesine bakın. Ek olarak, Chris Ré laboratuvarı yeni mimarilerin geliştirilmesine büyük yatırımlar yaptı ve yakın zamanda Monarch Mixer mimarisini geliştirmek için startup Together ile ortaklık kurdu.
Temel fikirleri, mevcut Transformer mimarisi için dikkatin karmaşıklığının dizi uzunluğunun ikinci dereceden değeri olması, MLP'nin karmaşıklığının ise model boyutunun ikinci dereceden olması ve düşük karmaşıklığa sahip mimarinin daha verimli olacağıdır.
GPU'lar, AlexNet'in 2012'de piyasaya sürülmesinden bu yana derin öğrenmeye hakim oldu. Aslında AlexNet'in popülaritesinin iyi bilinen bir nedeni, bunun GPU'ları kullanarak bir sinir ağını başarıyla eğiten ilk makale olmasıdır. GPU'ların ortaya çıkmasından önce, AlexNet boyutunda bir modeli eğitmek istiyorsanız binlerce CPU kullanmanız gerekiyordu ve birkaç GPU bunu yapabilirdi.
Geçtiğimiz on yılda hem büyük şirketler hem de startuplar yapay zeka için yeni donanımlar yaratmaya çalıştı. En temsili olanlar Google'ın TPU'su, Graphcore'un IPU'su ve AI çip şirketi Cerebras'ı içerir ancak bunlarla sınırlı değildir. Ayrıca yapay zeka çipi girişimi SambaNova, yeni yapay zeka çipleri geliştirmek için 1 milyar dolardan fazla bağış topladı.
Bir başka heyecan verici yön ise, verileri hareket ettirmek için fotonları kullanan, daha hızlı ve daha verimli hesaplama sağlayan fotonik çiplerdir. Lightmatter (270 milyon dolar), Ayar Labs (220 milyon dolar), Lightelligence (200 milyon doların üzerinde) ve Luminous Compute (115 milyon dolar) dahil olmak üzere bu alandaki birçok girişim yüz milyonlarca dolar topladı.
Aşağıda, "Fotonik matris çarpımı fotonik hızlandırıcıyı ve ötesini aydınlatır" makalesinden alınan, fotonik matris hesaplamasındaki üç ana yaklaşımın ilerlemesinin bir zaman çizelgesi yer almaktadır. Üç yöntem, düzlemsel ışık dönüşümü (PLC), Mach-Zehnder interferometresi (MZI) ve dalga boyu bölmeli çoğullamadır (WDM).
Temsilciler internette gezinmek, e-posta göndermek, oda rezervasyonu yapmak vb. işlemleri gerçekleştirebilen LLM'lerdir. Bu makaledeki diğer araştırma yönleriyle karşılaştırıldığında, bu yön nispeten geç ortaya çıktı ve herkes için çok yeni.
Yeniliği ve büyük potansiyeli nedeniyle herkesin akıllı ajanlara karşı çılgın bir takıntısı var. Auto-GPT şu anda GitHub'daki en popüler 25. projedir. GPT-Mühendislik bir başka çok popüler projedir.
Bu beklenen ve heyecan verici olsa da, Yüksek Lisans'ın yeterince güvenilir ve hareket etme hakkı verilecek kadar performanslı olup olmayacağı şüpheli olmaya devam ediyor.
Bununla birlikte, halihazırda ortaya çıkan bir uygulama durumu, ajanları sosyal araştırmalara uygulamaktır. Bir süre önce, Stanford "sanal kasaba" Smallville'i açık kaynaklı hale getirdi. Kasabada 25 AI ajanı yaşıyordu. İşleri var, dedikodu yapabiliyorlar ve sosyal organizasyonlar düzenleyebiliyorlar. , yeni arkadaşlar edinin ve hatta bir Sevgililer Günü partisine ev sahipliği yapın, her Kasaba Sakininin benzersiz bir kişiliği ve geçmişi vardır.
Daha fazla ayrıntı için lütfen aşağıdaki makalelere bakın.
Muhtemelen bu alandaki en ünlü girişim, iki Transformer ortak yazarı ve eski bir OpenAI Başkan Yardımcısı tarafından kurulan ve bugüne kadar yaklaşık 500 milyon dolar toplayan Adept'tir. Geçen yıl, temsilcilerinin internette nasıl gezinebileceğini ve Salesforce'a yeni bir hesap ekleyebileceğini gösteren bir demo yaptılar.
, süre 03:30
8. İnsan Tercihlerinden Geliştirilmiş Öğrenme
RLHF, İnsan Tercihlerinden Takviyeli Öğrenme anlamına gelir. İnsanların LLM'leri eğitmenin başka yollarını bulmaları şaşırtıcı olmaz, sonuçta RLHF'nin hâlâ çözmesi gereken birçok sorunu var. Chip Huyen şu 3 puanı sıraladı.
**İnsan tercihleri matematiksel olarak nasıl temsil edilir? **
Şu anda, insan tercihleri karşılaştırma yoluyla belirlenmektedir: İnsan açıklamacılar, A yanıtının B yanıtından daha iyi olup olmadığını belirler, ancak A yanıtının B yanıtından ne kadar daha iyi olduğunu dikkate almazlar.
**İnsan tercihleri nelerdir? **
Antropik, modellerinin yanıt kalitesini üç eksende (yararlılık, dürüstlük ve masumiyet) ölçer.
DeepMind ayrıca çoğunluğu tatmin edecek yanıtlar üretmeye çalışır. Aşağıdaki bu makaleye bakın.
Ancak açık olmak gerekirse, tavır alabilecek bir yapay zeka mı istiyoruz, yoksa potansiyel olarak tartışmalı konulardan kaçınan genel bir yapay zeka mı istiyoruz?
**"İnsanların" tercihleri kimin tercihleridir? **
Kültür, din vb. farklılıklar göz önüne alındığında, tüm potansiyel kullanıcıları yeterince temsil eden eğitim verilerinin elde edilmesinde birçok zorluk vardır.
Örneğin OpenAI'nin InstructGPT verilerinde etiketleyicilerin ağırlıklı olarak Filipinli ve Bangladeşli olması coğrafi farklılıklardan dolayı bazı sapmalara neden olabilir.
Araştırma topluluğu da bunun üzerinde çalışıyor ancak veri yanlılığı devam ediyor. Örneğin, OpenAssistant veri kümesinin demografik dağılımında, 222 katılımcının 201'i (%90,5) erkekti.
ChatGPT'den bu yana sohbetin çeşitli görevler için uygun olup olmadığı konusunda birçok tartışma yaşandı. Örneğin şu tartışmalar:
Ancak bu tartışmalar yeni değil. Pek çok ülke, özellikle Asya'da, yaklaşık on yıldır sohbeti süper uygulamalar için bir arayüz olarak kullanıyor.
2016'da birçok uygulamanın öldüğü ve geleceğin chatbotlar olduğu düşünüldüğünde tartışma yeniden gerginleşti:
Chip Huyen, aşağıdaki nedenlerden dolayı sohbet arayüzünü gerçekten beğendiğini söyledi:
Ancak Chip Huyen, sohbet arayüzünün bazı alanlarda iyileştirmeye yer bıraktığını düşünüyor. Şu önerileri var
Şu anda tur başına yalnızca bir mesajın gönderilebileceği düşünülüyor. Ama insanlar gerçek hayatta böyle mesaj atmıyor. Genellikle bir bireyin fikrini tamamlamak için birden fazla bilgi gerekir, çünkü sürece farklı verilerin (resimler, konumlar, bağlantılar gibi) eklenmesi gerekir ve kullanıcı önceki bilgilerdeki bir şeyi kaçırmış olabilir veya tam olarak gözden kaçırmış olabilir. Her şeyi dahil etmek istiyorum Uzun bir paragraf halinde yazın.
Multimodal uygulamalar alanında, çabanın çoğu daha iyi modeller oluşturmak için harcanır ve daha az çaba, daha iyi arayüzler oluşturmak için harcanır. Nvidia'nın NeVA sohbet robotu durumunda kullanıcı deneyimini iyileştirecek alan olabilir.
Linus Lee, "Sohbetin ötesinde yapay zeka tarafından oluşturulan arayüzler" başlıklı konuşmasında bunu çok iyi ifade ediyor. Örneğin, üzerinde çalıştığınız grafikteki bir sütun hakkında soru sormak istiyorsanız, o sütunu işaret edip sorabilmeniz gerekir.
Video adresi:
Kullanıcı girdisini düzenlemenin veya silmenin, bir sohbet robotuyla yapılan görüşmenin akışını nasıl değiştirebileceğini düşünmeye değer.
10. İngilizce dışındaki diller için yüksek lisans derecesi oluşturmak
Birinci dil olarak İngilizceye yönelik mevcut Yüksek Lisans (LLM) performans, gecikme ve hız açısından diğer dillere göre iyi ölçeklenmiyor. İlgili içerik aşağıdaki makaleleri okuyabilir:
Chip Huyen, bu makalenin ilk okuyucularından birkaçının kendisine bu yönün iki nedenden dolayı dahil edilmemesi gerektiğini düşündüklerini söylediğini söyledi.
Makine çevirisi ve sohbet robotları gibi yapay zeka araçlarının dil öğrenimi üzerindeki etkisi belirsizdir. İnsanların yeni dilleri daha hızlı öğrenmesine mi yardımcı oluyorlar yoksa yeni dil öğrenme ihtiyacını tamamen ortadan mı kaldırıyorlar bilinmiyor.
Özetle
Bu yazıda bahsedilen problemlerin de farklı zorluk seviyeleri vardır, örneğin son problem, eğer yeterli kaynak ve zaman bulabilirseniz İngilizce dışındaki diller için de yüksek lisans yapmak mümkündür.
İlk sorunlardan biri halüsinasyonları azaltmaktır ki bu çok daha zor olacaktır çünkü halüsinasyonlar sadece LLM'nin olasılıksal şeyler yapmasıdır.
Dördüncü sorun LLM'yi daha hızlı ve daha ucuz hale getirmektir ve bu tamamen çözülmeyecektir. Bu alanda bazı ilerlemeler kaydedildi ve gelecekte daha fazla ilerleme olacak, ancak asla mükemmelliğe ulaşamayacağız.
Beşinci ve altıncı konular ise yeni mimariler ve yeni donanımlardır ki bunlar oldukça zorludur ancak zamanla kaçınılmazdır. Yeni mimarilerin genel amaçlı donanım için optimize edilmesi gereken ve donanımın genel amaçlı mimarileri desteklemesi gereken mimari ve donanım arasındaki simbiyotik ilişki nedeniyle, bu sorun potansiyel olarak aynı şirket tarafından çözülebilir.
Yalnızca teknik bilgiyle çözülemeyen sorunlar da var. Örneğin, insan tercihlerinden öğrenme yöntemlerinin geliştirilmesine ilişkin sekizinci sorun, teknik bir meseleden ziyade bir politika meselesi olabilir. Arayüz verimliliğinin artırılmasına ilişkin dokuzuncu sorudan bahsetmişken, bu daha çok bir kullanıcı deneyimi sorununa benziyor ve bu sorunu birlikte çözmek için teknik olmayan geçmişi olan daha fazla kişiye ihtiyaç var.
Bu sorunlara başka açılardan bakmak istiyorsanız Chip Huyen aşağıdaki makaleyi okumanızı tavsiye ediyor.