Anthropic'in Kurucusu: Büyük modellerde "röntgen çekmek" mümkün, AGI ise 2-3 yılda hayata geçirilebilir

Bu makale, Anthropic CEO'su Dario Amodei ile yapılan bir podcast röportajından derlenmiştir.

Anthropic, LLM devresindeki ikinci sıradaki şirkettir. Ocak 2021'de Dario Amodei tarafından kurulmuştur. Anthropic, bu yılın Temmuz ayında en yeni nesil modeli Claude 2'yi piyasaya sürdü. Dario Amodei OpenAI'de araştırma ve güvenlikten sorumlu başkan yardımcısıydı.Büyük modellerde acilen çözülmesi gereken birçok güvenlik sorunu olduğuna inandığı için Anthropic'i kurdu.Bu nedenle Anthropic, AI Güvenliğine büyük önem veriyor.Vizyonu: güvenilir (Güvenilir), açıklanabilir Yorumlanabilir ve Yönlendirilebilir AI sistemleri oluşturmak. Anthropic ve OpenAI rotaları arasındaki en büyük fark, aynı zamanda yorumlanabilirliğe odaklanmalarıdır.

Röportajda Dario, Anthropic'in yorumlanabilirliğe odaklandığını ve yatırımını açıklıyor. Yorumlanabilirlik, modelin güvenliğini sağlamanın önemli yollarından biridir, **model üzerinde X-ışınları ve MRI incelemeleri yapmaya benzer şekilde, araştırmacıların modelin içinde neler olduğunu anlamasını ve olası risk kaynaklarını belirlemesini mümkün kılar. Ölçeklendirme Yasasının neden işe yaradığını ve uyumun nasıl sağlanacağını gerçekten anlamak, yorumlanabilirlikten ayrılamaz. **Dario, AI Güvenliği ve hizalamanın eşit derecede önemli olduğuna inanır. Hizalamayla ilgili bir sorun olduğunda, kötüye kullanımın neden olduğu AI güvenlik sorunlarına eşit dikkat gösterilmelidir.

Dario, modelin yeteneğinin önümüzdeki 2-3 yıl içinde önemli ölçüde geliştirileceğine ve hatta "insan toplumunu ele geçirebileceğine" inanıyor, ancak iş ve ekonomik bağlantılara gerçekten katılamıyor. Model, ancak çeşitli Bu görünmez sürtüşmeler nedeniyle İnsanlar modelleri gerçek hayatta ve işte gerçek potansiyellerini gerçekleştirmek için yeterince verimli kullanmıyorlar.

Çoğu AI şirketinin CEO'ları ile karşılaştırıldığında, Dario halka açık röportajlara nadiren katılıyor ve Twitter'da nadiren görüşlerini ifade ediyor Dario, bunun kendi aktif seçimi olduğunu ve düşük bir profil tutarak bağımsız ve nesnel düşünme yeteneğini koruduğunu açıkladı.

Aşağıda, bu makalenin içindekiler tablosu yer almaktadır ve ana noktalarla birlikte okunması tavsiye edilir.

👇

01 Ölçeklendirme Yasası Neden İşe Yarar?

02 Modelin yeteneği insanlarınkiyle nasıl eşit olacak?

03 Hizalama: Yorumlanabilirlik, modelin "röntgenini çeker"

04 AGI Güvenliği: Yapay Zeka Güvenliği ve Siber Güvenlik

05 Ticarileştirme ve Uzun Vadeli Menfaat Güvencesi

Ölçeklendirme Yasası neden işe yarar

**Dwarkesh Patel: Ölçeklendirme Yasasına olan inancınız nereden geldi? Veri boyutu arttıkça modelin yeteneği neden güçleniyor? **

**Dario Amodei: Ölçeklendirme Yasası bir ölçüde ampirik bir özettir. Bu olguyu çeşitli veri ve olgulardan algılıyoruz ve Ölçeklendirme Yasası olarak özetliyoruz, ancak bunu açıklamak için genel kabul görmüş ve özellikle iyi bir açıklama yok. işlevinin temel ilkesidir. **

Bir açıklama yapmam gerekirse, bunun fizikteki uzun kuyruklu dağılıma veya Güç Yasasına benzer olabileceğini kişisel olarak tahmin ediyorum. Birçok özellik (özellik) olduğunda, nispeten büyük bir orana sahip veriler genellikle daha baskın temel kurallara ve kalıplara karşılık gelir, çünkü bu modeller sıklıkla ortaya çıkar, karşılık gelen veri miktarı doğal olarak daha fazladır, uzun kuyruklu veriler ise Esas olarak bazı daha ayrıntılı ve karmaşık kurallar. **Örneğin, dil ile ilgili verilerle uğraşırken, verilerin çoğunda konuşmanın bölümleri, kelime sırası yapısı vb. gibi temel gramer kuralları ve nispeten uzun kuyruklu olanlar gibi bazı temel kurallar gözlemlenebilir. karmaşık dilbilgisidir.

Bu nedenle, veriler büyüklük sırasına göre her arttığında, model daha fazla davranış kuralı öğrenebilir. Ancak bilmediğimiz şey, ikisi arasında neden mükemmel bir doğrusal korelasyon olduğu. Anthropic'in baş bilimcisi Gerard Kaplan bu konuyu açıklamak için fraktal boyutu (Fractal Dimension) kullanmıştır.Elbette diğer insanlar Sacling Yasasını doğrulamak için başka yöntemler deniyorlar ama neden buraya kadar hala açıklayamıyoruz.

• Fraktal boyut:

Matematikçi Felix Hausdorff, daha sonra Hausdorff Boyutu olarak da bilinen fraktal boyut kavramını ilk olarak 1918'de önerdi. Fraktal boyut, makine öğrenimi verilerindeki gizli özellik ilişki yapısını açıklamak için kullanılabilir ve Ölçekleme etkisinin arkasında matematiksel bir açıklama modeli sağlayarak yapay zeka modellerinin ölçekle performansı neden iyileştirebileceğini açıklar.

**Ayrıca, Ölçeklendirme Yasasının varlığını bilsek bile, modelin belirli yeteneklerindeki değişiklikleri tahmin etmek zordur. GPT-2 ve GPT-3 araştırmalarında, modelin hesaplama ve programlamayı ne zaman öğrenebileceğini asla bilemeyiz ve bu yetenekler aniden ortaya çıkar. **Öngörülebilen tek şey sayısal düzeyde kayıp değeri, entropi değerinin değişimi vb. oldukça doğru bir şekilde tahmin edilebiliyor ama sanki hava durumu verileri üzerinden istatistik yapıp tahmin edebiliyoruz. tüm hava durumu trendi değiştirir, ancak belirli bir günün hava durumunu ve sıcaklığını tahmin etmek zordur.

**Dwarkesh Patel: Bir model neden birdenbire belirli bir yeteneğe sahip olabilir? Örneğin, daha önce toplamayı anlamadı, ama şimdi hesaplama yeteneğinde ustalaştı mı? Bu değişikliğe ne sebep oldu? **

Dario Amodei: Bu, hâlâ araştırmakta olduğumuz başka bir soru. Bu konuyu açıklamak için Mechanistic Interpretability (Mechanistic Interpretability) yöntemini kullanmaya çalışıyoruz ve dil olayını devre bağlantısına benzer bir fikirle açıklamaya çalışıyoruz.Bunları teker teker bağlanmış devreler gibi düşünebilirsiniz.

Bir model bir şeyle beslendiğinde, doğru cevabı verme olasılığının aniden arttığına dair bazı kanıtlar var, ancak model gerçekten doğru cevabı vermeden önceki değişime bakarsak, olasılığın milyonda bir olduğunu görüyoruz. , yüz binde bir yavaş yavaş binde bire tırmandı. Bu tür birçok durumda, gözlemlemediğimiz ve henüz çözemediğimiz bazı aşamalı süreçler var gibi görünüyor.

"Ekleme" gibi bir "devre"nin 1. günden beri her zaman var olup olmadığından emin olamayız, ancak modelin doğru cevabı verebilmesi için belirli bir süreçle yavaş yavaş zayıftan güçlüye değişti. Bunlar, mekanik açıklanabilirlik yoluyla cevaplamak istediğimiz sorular.

• Mekanistik Yorumlanabilirlik:

Mekanizma yorumlanabilirliği, insanların modelin girdiyi çıktıya nasıl eşlediğini daha kolay anlamalarına yardımcı olmak için kullanılabilen sinir ağlarının tersine mühendislik çalışmasıdır ve modelin yorumlanabilirliğini gerçekleştirmenin bir yoludur. Mekanizma açıklanabilirliğinin temel amacı, modelin karar verme sürecini ve tahmin sonuçlarını açıklamak için modelin yapısını ve parametrelerini kullanarak derin öğrenmeyi bir doğa bilimi olarak anlamaktır, böylece insan kullanıcılar mekanizmanın çalışma prensibini anlayabilir ve doğrulayabilir. model İlk çalışmaları, görsel ağların ara katmanlarındaki temsilleri anlamak için matris çarpanlarına ayırma ve özellik görselleştirme yöntemlerini kullanmaya odaklandı ve son zamanlarda, çok modlu ağlar için temsillerin yanı sıra sinir ağı algoritmalarının yol düzeyinde anlaşılmasına odaklandı.

Antropik, "Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases" adlı mekanizma yorumlanabilirliği üzerine bir çalışma yayınladı.

**Dwarkesh Patel: Modelin boyutuyla birlikte gelmeyen herhangi bir yetenek var mı? **

**Dario Amodei: Model uyumu ve değerle ilgili yetenekler, model boyutuyla doğal olarak ortaya çıkmayabilir. **Bir düşünce şekli, modelin eğitim sürecinin esasen dünyayı tahmin etmek ve anlamak olduğu ve asıl sorumluluğunun görüşler veya değerler değil, gerçekler olduğu yönündedir. Ancak burada bazı serbest değişkenler var: hangi işlemi yapmalısınız? Hangi bakış açısına sahip olmalısınız? Hangi faktörlere dikkat etmelisiniz? Ancak modelin öğrenebileceği böyle bir veri etiketi yoktur. Bu nedenle Hizalama ve değerlerin vs. ortaya çıkması bence pek olası değil.

**Dwarkesh Patel: Modelin yeteneği insan zekasını yakalamadan önce, eğitim için mevcut verilerin kullanılması olasılığı var mı? **

**Dario Amodei:**Bunun teorik bir sorun mu yoksa pratik bir durum mu olduğunu ayırt etmek gerektiğini düşünüyorum. Teorik bir bakış açısından, verilerimizin tükenmesinden o kadar da uzak değiliz, ancak kişisel önyargım, bunun pek olası olmadığı yönünde. Verileri birçok şekilde üretebiliriz, bu nedenle veriler gerçekten bir engel değildir. Mevcut tüm bilgi işlem kaynaklarını kullandığımız ve model yeteneklerinde yavaş ilerlemeye neden olduğumuz başka bir durum daha var. Her iki senaryo da mümkündür.

**Kişisel görüşüm, Ölçeklendirme Yasasının yerinde saymama ihtimalinin yüksek olduğu ve bir sorun olsa bile bilgisayar mimarisinin nedeni olma ihtimalinin daha yüksek olduğudur. **Örneğin, LSTM veya RNN kullanırsak, model yeteneğinin gelişme hızı değişecektir. Her mimari durumda model yeteneklerinin evriminde bir darboğazla karşılaşırsak bu oldukça ciddi olur çünkü bu, daha derin bir sorunla karşı karşıya olduğumuz anlamına gelir.

*• LSTM'ler:

Uzun Kısa Süreli Bellek ağları (Uzun Kısa Süreli Bellek ağları), özel bir RNN ağı (döngüsel sinir ağı), uzun vadeli bağımlılıkları öğrenebilir, uzun dizi kalıplarını öğrenmede geleneksel RNN problemini çözebilir ve sırayla uzun ve kısa vadeli ayıklayabilir. veri bilgisi. LSTM'nin öğrenme yeteneği ve temsil yeteneği, standart RNN'den daha güçlüdür.

**Bence bir modelin ne yapıp ne yapamayacağı hakkında konuşmanın doğası gereği pek de farklı olmayabileceği bir aşamaya geldik. **Eskiden insanlar, modelin muhakeme yeteneğinde ustalaşamayacağını, programlama öğrenemeyeceğini düşünerek, bazı yönlerden darboğazlarla karşılaşabileceğini düşünerek modelin yeteneğini sınırlardı. Ben de dahil olmak üzere bazı insanlar daha önce böyle düşünmese de, son birkaç yılda bu tür bir darboğaz teorisi daha yaygın hale geldi ve şimdi değişti.

**Gelecekteki model ölçeklendirme sürecinin etkisi bir darboğaz görürse, sorunun bir sonraki belirteç tahmin görevine odaklanan kayıp işlevi tasarımından kaynaklandığını düşünüyorum. **Muhakeme ve programlama yeteneklerine çok fazla vurgu yaptığımızda, modelin kaybı bu yeteneği yansıtan belirteçlere odaklanacak ve diğer problemlerin belirteçleri daha az sıklıkta görünecektir (Not: model, bilim adamlarının yetenek derecesine verdiği öneme dayalı olacaktır, oranını ayarlayın) **, kayıp işlevi, en fazla bilgi entropisini sağlayan belirteçlere çok fazla dikkat ederken, gerçekten önemli olanları göz ardı eder, sinyal kaybolabilir gürültüde **

Bu sorun ortaya çıkarsa, bir çeşit pekiştirmeli öğrenme sürecini tanıtmamız gerekir.İnsan geri bildirimi ile pekiştirmeli öğrenme (RLHF), hedefler için pekiştirmeli öğrenme ve Anayasal AI, geliştirme (güçlendirme) ve tartışma gibi birçok RL türü vardır. (tartışma) ve benzerleri. Bunlar hem model hizalama yöntemi hem de modeli eğitme yöntemidir. **Pek çok yöntem denememiz gerekebilir, ancak modelin amacının ne yapmak olduğuna odaklanmalıyız. **

Takviyeli öğrenme ile ilgili sorunlardan biri, çok eksiksiz bir kayıp fonksiyonu tasarlamanız gerekmesidir. Bir sonraki belirteç tahmininin kayıp işlevi zaten tasarlanmıştır, bu nedenle ölçek bu yönde üst sınırı görürse, yapay zekanın gelişimi yavaşlar.

**Dwarkesh Patel: Ölçekleme anlayışınız nasıl ortaya çıktı? **

**Dario Amodei: **Fikrimin oluşumu kabaca 2014'ten 2017'ye kadar izlenebilir. AI'nın gelişimine dikkat ediyorum ama uzun zamandır AI'nın gerçekten uygulanmasının AlexNet'in ortaya çıkmasına kadar uzun zaman alacağını düşündüm. Sonra o sırada Wu Enda'nın Baidu'daki proje ekibine katıldım ve bu, AI ile ilk kez temasa geçmemdi.

Kendimi oldukça şanslı görüyorum, zamanın diğer akademisyenlerinin aksine, son teknoloji konuşma tanıma sistemleri oluşturmakla görevlendirilmiştim ve çok fazla veri ve GPU mevcuttu. **Bu proje süresince Ölçeklendirmenin iyi bir çözüm olduğunu doğal olarak anladım. Bu süreç aynı zamanda doktora sonrası araştırmadan da farklıdır, daha önce önerilmemiş akıllı, yenilikçi fikirler bulmamız gerekmez. **

Proje boyunca sadece RNN'e daha fazla katman eklemek veya modelin eğitim süresini uzatmak için eğitim parametrelerini ayarlamak gibi bazı temel deneyler yapmam gerekiyor.Bu süre zarfında model eğitim sürecini gözlemledim ve gördüm. simüle ne zaman olur. Ayrıca yeni eğitim verileri eklemeyi veya tekrarlanan eğitim turlarını azaltmayı denedim ve bu ayarlamaların modelin performansı üzerindeki etkisini gözlemledim. Bu deneyler sırasında bazı düzenli sonuçlar fark ettim. Ancak, bu hayallerin çığır açıcı olup olmadığı veya diğer meslektaşlarımın benzer keşifler yapıp yapmadığı benim için net değil. Genel olarak bu, yapay zekaya yeni başlayan biri olarak benim şanslı deneyimim. Alan hakkında fazla bir şey bilmiyorum ama o zaman bunun konuşma tanıma alanında da benzer şekilde doğrulandığını hissettim.

**Ilya'yı OpenAI kurulmadan önce tanıdım ve bana "bu modellerin sadece öğrenmek istediğini anlamamız gerektiğini" söyledi, bu bakış açısı bana büyük ölçüde ilham verdi ve önceki gözlemin fenomen olmayabileceğini anlamamı sağladı. rastgele bir örnek ama yaygın bir olay. Bu modellerin sadece öğrenmesi gerekiyor.Sadece yüksek kaliteli veriler sağlamamız ve onların çalışması için yeterli alan yaratmamız gerekiyor ve modeller kendi kendine öğrenecek. **

**Dwarkesh Patel: Sen ve Ilya gibi çok az insan "evrensel zeka" görüşüne varmıştır. Bu soru hakkında diğer insanlardan farklı olarak ne düşünüyorsunuz? Modellerin konuşma tanımada ve benzer şekilde diğer alanlarda gelişmeye devam edeceğini düşündüren nedir? **

Dario Amodei: Gerçekten bilmiyorum, konuşma alanında benzer bir olguyu ilk kez gözlemlediğimde, bunun yalnızca dikey konuşma tanıma alanına uygulanabilir bir yasa olduğunu düşünmüştüm. 2014 ile 2017 yılları arasında birçok farklı şey denedim ve aynı şeyi tekrar tekrar gözlemledim. Örneğin Dota oyununda şunu gözlemledim, robotik alanında eldeki veriler görece sınırlı ve pek çok kişi iyimser olmasa da benzer bir olguyu ben de gözlemledim. **İnsanların acil sorunları çözmeye odaklanma eğiliminde olduklarını düşünüyorum. Alt düzey sorunları yatay yönde düşünmektense, sorunun dikey yönde nasıl çözüleceğine daha fazla dikkat edebilirler, bu nedenle sorun yaşamayabilirler. Cinsiyeti Ölçeklendirme olasılığını tamamen düşünün. Örneğin robotik alanında en temel sorun eğitim verilerinin yetersiz olması olabilir ancak Scaling'in çalışmadığı sonucuna varmak kolaydır. **

**Dwarkesh Patel: Dilin bu modellere devasa miktarda veri beslemenin bir yolu olabileceğini ne zaman fark ettiniz? **

**Dario Amodei:**Bence en önemli şey, bir sonraki belirteç tahminine dayalı kendi kendine denetimli öğrenme kavramının yanı sıra tahmin için çok sayıda mimari. Bu aslında çocuk gelişimi testi mantığına benzer. Örneğin, Mary odaya girer ve bir nesne koyar ve ardından Chuck içeri girer ve Mary fark etmeden nesneyi hareket ettirir, Mary ne düşünür? Bu tür bir tahminin tamamlanabilmesi için modelin aynı zamanda içinde yer alan matematiksel problemleri, psikolojik problemleri vb. çözmesi gerekir. Bu yüzden bence, iyi tahminlerde bulunmak için modeli verilerle beslemeli ve herhangi bir kısıtlama olmaksızın öğrenmesine izin vermelisiniz.

Uzun zaman önce benzer bir duyguya sahip olsam da, Alec Radford GPT-1 üzerinde bazı girişimlerde bulunana kadar, bir modeli yalnızca tahmin yeteneği ile uygulamakla kalmayıp, aynı zamanda ona ince ayar da yapabileceğimizi fark ettim.Çeşitli türde görevleri tamamlayın. Bence bu şey bize her türlü görevi yapabilme, mantıksal akıl yürütme dahil her türlü sorunu çözebilme imkanı veriyor. Elbette model boyutunu genişletmeye de devam edebiliriz.

• GPT serisinin atası olan Sentiment Neuron'un yazarı ve GPT makale serisinin ortak yazarı Alec Radford, halen OpenAI'de çalışmaktadır.

**Dwarkesh Patel: Model eğitiminin çok fazla veri gerektirdiğini nasıl düşünürsünüz? Model eğitiminin düşük verimliliği konusunda endişelenmeli misiniz? **

Dario Amodei: Bu soru hâlâ araştırılıyor. Bir teori, modelin boyutunun aslında insan beyninden 2-3 kat daha küçük olduğu, ancak modeli eğitmek için gereken veri miktarının 18 yaşındaki bir kişinin okuduğu metin miktarından üç ila dört kat daha fazla olduğu yönündedir. -eski insan İnsanoğlunun büyüklük sırası, büyüklük sırası muhtemelen yüz milyonlarca, modellerin büyüklük sırası ise yüz milyarlarca veya trilyonlarcadır. İnsanoğlunun elde ettiği veri miktarı çok büyük olmamakla birlikte günlük işlerimizi ve hayatımızı halletmeye tamamen yeterlidir. Ama başka bir ihtimal daha var ki, öğrenmeye ek olarak, duyularımız aslında beyne bilgi giriyor.

Burada aslında bir paradoks var, şu an elimizdeki model insan beyninden daha küçük ama insan beynininkine benzer pek çok görevi yerine getirebiliyor. insan beynininki. Dolayısıyla, bu konuyu keşfetmeye ve anlamaya devam etmemiz gerekiyor, ancak bir dereceye kadar bunlar önemli değil. **Daha da önemlisi, modelin yeteneğinin nasıl değerlendirileceği ve onlarla insanlar arasındaki farkın nasıl değerlendirileceği. Bana kalırsa aradaki fark o kadar da uzak değil. **

**Dwarkesh Patel: Ölçeklendirmeye ve daha genel olarak büyük ölçekli bilgi işlem sürücü modeli yeteneği ilerlemelerine yapılan vurgu, algoritmik ilerlemenin rolünü hafife mi alıyor? **

**Dario Amodei: **Transformer makalesi ilk yayınlandığında, ilgili konular hakkında yazmıştım ve model yeteneğinin gelişimini etkileyecek 7 ilgili faktör olduğundan bahsetmiştim, bunlardan 4 tanesi en belirgin ve kritik olan: model parametrelerinin miktarı, bilgi işlem gücü ölçeği, veri kalitesi ve kayıp fonksiyonu. Örneğin, takviyeli öğrenme veya bir sonraki belirteç tahmini gibi görevler, doğru kayıp işlevine veya teşvik mekanizmasına sahip olmaya çok bağlıdır.

**** Pekiştirmeli öğrenme (RL):**

Temel bir deneme yanılma süreciyle ortamın her bir özel durumu için en uygun hareket tarzını bulun. Makine öğrenimi modeli başlangıçta rastgele bir kural getirecek ve aynı zamanda her eylem yapıldığında modele belirli miktarda puan (ödüller olarak da bilinir) girecektir.

• Kayıp işlevi (kayıp işlevi) makine öğreniminde, model çıktısı ile gerçek değer arasındaki farkın derecesini yansıtmak, yani tahmini ölçmek için kullanılan uyumun iyiliğini ölçme işlevine atıfta bulunur hata; tüm numune noktalarının tahmini dahil Hata, genel uyum iyiliğini temsil eden tek bir değer sağlar; aynı zamanda, eğitim sürecinde, model parametreleri, kayıp fonksiyonunun değerine göre sürekli olarak ayarlanacaktır. kayıp değerini en aza indirmek ve daha iyi bir uyum etkisi elde etmek için.

Ayrıca 3 faktör var:

Birincisi yapısal simetriler, eğer mimari doğru simetriyi dikkate almazsa çalışmayacaktır ve çok verimsiz olacaktır. Örneğin, evrişimli sinir ağı (CNN) öteleme simetrisini (öteleme simetrisi), LSTM zaman simetrisini (zaman simetrisi) dikkate alır, ancak LSTM'lerdeki sorun bağlama dikkat etmemeleridir, bu yapısal zayıflık ortaktır. Model, yapısal nedenlerle uzun geçmiş geçmişi (dizi veri yapısında daha önce ortaya çıkan verilere atıfta bulunarak) anlayamaz ve işleyemezse, hesaplama tutarsız gibi olacaktır.Hem RNN hem de LSTM modellerinde bu tür eksiklikler vardır.

• Adam(Uyarlanabilir Moment Tahmini):

Uyarlanabilir moment tahmini, Adam algoritması, RMSprop ve SGD'nin avantajlarını birleştirir ve dışbükey olmayan optimizasyon problemlerini iyi bir şekilde halledebilir.

• SGD(Stokastik Gradyan İnişi):

Stokastik Gradient Descent, türevlenebilir veya alt türevlenebilir gibi uygun pürüzsüzlük özellikleriyle bir amaç fonksiyonunu optimize etmek için yinelemeli bir yöntem. Gradyan iniş optimizasyonuna stokastik bir yaklaşım olarak görülebilir. Yüksek boyutlu optimizasyon problemlerinde bu, hesaplama yükünü azaltır ve daha düşük yakınsama oranları karşılığında daha hızlı yinelemeler sağlar.

Sonra sayısal kararlılık vardır (başlangıç notu: koşullandırma, sayısal analizde algoritmanın iyi koşullanıp koşullanmadığına atıfta bulunur, değilse, problem verilerindeki küçük bir değişiklik çözümünde büyük bir değişikliğe neden olur). Kayıp fonksiyonlarının optimizasyonu sayısal olarak zordur ve ayırt edilmesi kolaydır. Bu yüzden Adam normal CYBH'den daha iyi çalışır.

Son unsur, model hesaplama sürecinin engellenmemesini sağlamaktır, ancak o zaman algoritma başarılı olabilir.

Bu nedenle, algoritmanın ilerlemesi sadece bilgisayarın hesaplama gücünü artırmak değil, aynı zamanda eski mimarinin yapay engellerini de ortadan kaldırmaktır. Çoğu zaman model, özgürce öğrenmek ve hesaplamak ister, ancak bilgimiz olmadan tarafımızdan engellenir.

**Dwarkesh Patel: Bir sonraki büyük yinelemeyi sürdürecek Transformer ölçeğinde bir şey olacağını düşünüyor musunuz? **

Dario Amodei: Bunun mümkün olduğunu düşünüyorum. Bazı insanlar uzun vadeli bağımlılıkları simüle etmeye çalıştı. Ayrıca Transformer'daki bazı fikirlerin bir şeyleri temsil edecek veya işleyecek kadar verimli olmadığını da gözlemledim. **Ancak bu tür bir yenilik olmasa bile biz zaten hızla gelişiyoruz, ortaya çıkarsa sadece sahanın daha hızlı gelişmesini sağlar ve ivme o kadar da olmayabilir çünkü hız zaten çok hızlı . **

**Dwarkesh Patel: Veri toplama açısından, modelin somutlaşmış zekaya sahip olması gerekiyor mu? **

Dario Amodei: Bunu yeni bir mimari olarak değil, yeni bir kayıp işlevi olarak düşünme eğilimindeyim çünkü modelin verileri topladığı ortam tamamen farklı hale geliyor ve bu da belirli becerileri öğrenmek için önemli. Veri toplama zor olsa da, en azından derlem toplama yolunda bir miktar ilerleme kaydettik ve belirli uygulamalar açısından geliştirilecek daha fazla olasılık olmasına rağmen gelecekte de devam edeceğiz.

**** Kayıp Fonksiyonu:**

Makine öğrenimi ve derin öğrenmede önemli bir kavramdır. Modelin tahmin sonucu ile true etiketi yani modelin tahmin hatası arasındaki farkın derecesini ölçmek için kullanılır. Kayıp fonksiyonu, modelin parametreleri ayarlayarak tahmin hatasını en aza indirmesini ve böylece modelin performansını ve doğruluğunu iyileştirmesini sağlamak için tasarlanmıştır.

**Dwarkesh Patel: RL gibi başka yaklaşımlar var mı? **

Dario Amodei: Takviyeli öğrenme için zaten RLHF yöntemini kullanıyoruz, ancak bunun Hizalama mı yoksa Yetenek mi olduğunu ayırt etmenin zor olduğunu düşünüyorum. İkisi çok benzer. Modelleri nadiren RL aracılığıyla harekete geçiririm. RL, yalnızca modelin belirli bir süre için harekete geçmesini sağladıktan ve bu eylemlerin sonuçlarını anladıktan sonra kullanılmalıdır. Bu yüzden takviyeli öğrenmenin çok güçlü olacağını düşünüyorum, ancak aynı zamanda modellerin dünyada nasıl harekete geçtiği konusunda birçok güvenlik sorunu var.

Takviyeli öğrenme, eylemler uzun bir süre boyunca alındığında ve bu eylemlerin sonuçları ancak daha sonra anlaşıldığında yaygın olarak kullanılan bir araçtır.

**Dwarkesh Patel: Sizce bu teknolojiler gelecekte belirli görevlere nasıl entegre edilecek? Bu dil modelleri birbirleriyle iletişim kurabilir, birbirlerini değerlendirebilir, ilgili araştırma sonuçlarına başvurabilir ve bunları geliştirebilir mi? Yoksa her model birbirinden bağımsız çalışıp diğer modellerle işbirliği yapmadan sadece kendi kendine sonuç sağlamaya mı odaklanıyor? Bu üst düzey dil modelleri gelecekte geliştirme ve uygulama sürecinde gerçek bir işbirlikçi sistem oluşturabilecek mi yoksa her model kendi işini mi yapacak? **

Dario Amodei: Modelin gelecekte daha karmaşık görevleri tamamlaması gerekecek ve bu kaçınılmaz bir trend. Bununla birlikte, güvenlik nedeniyle, potansiyel riskleri azaltmak için dil modelinin uygulama kapsamını belirli bir ölçüde sınırlamamız gerekebilir. **Modeller arasında diyalog mümkün mü? Öncelikle insan kullanıcılara yönelik mi? Bu konular, teknik düzeyin ötesinde sosyal, kültürel ve ekonomik etkilerin dikkate alınmasını gerektirir ve kesin olarak tahmin edilmesi zordur.

**Model boyutunun büyüme trendini tahmin edebilsek de ticarileşme zamanlaması veya başvuru şekli gibi konularda güvenilir tahminlerde bulunmak zordur. Gelecekteki bu tür bir gelişme eğilimini kendim tahmin etmede pek iyi değilim ve şu anda kimse bunu çok iyi yapamıyor. **

**Modelin yeteneği insanlarınkiyle nasıl eşleşecek? **

**Dwarkesh Patel: 2018'de biri bana 2023'te Claude-2 gibi her türlü etkileyici yeteneğe sahip bir modelimiz olacağını söyleseydi, kesinlikle AGI'nin 2018'de başarıldığını düşünürdüm. Ancak, en azından şimdilik ve muhtemelen gelecek nesillerde bile, yapay zeka ve insan seviyeleri arasında hala farklılıklar olacağının gayet iyi farkındayız. Beklentiler ve gerçeklik arasındaki bu tutarsızlık neden? **

**Dario Amodei: **GPT-3'te yeniyim ve Antropik'in ilk aşamalarında, bu modeller hakkındaki genel düşüncem şu: dilin özünü gerçekten kavrıyorlar, anlamamız gerektiğinden emin değilim modeli ne ölçüde genişletmek, belki de pekiştirmeli öğrenme gibi diğer alanlara daha fazla dikkat etmemiz gerekiyor. 2020'de model boyutunu daha da büyütmenin mümkün olduğunu düşünüyorum ama araştırma derinleştikçe pekiştirmeli öğrenme gibi diğer hedef eğitimleri doğrudan eklemenin daha verimli olup olmayacağını düşünmeye başlıyorum.

** Gördük ki insan zekası aslında çok geniş bir yelpazedir, dolayısıyla "insan düzeyine ulaşan makineler" tanımı başlı başına bir aralıktır ve makinelerin farklı görevleri yerine getirmesinin yeri ve zamanı farklıdır. Örneğin, çoğu zaman bu modeller insan performansına yaklaşmış, hatta onu geçmiştir, ancak nispeten basit matematiksel teoremleri kanıtlama söz konusu olduğunda henüz emekleme aşamasındadırlar. Bunların hepsi zekanın sürekli bir spektrum (spektrum) olmadığını göstermektedir. ** Çeşitli alanlarda çeşitli mesleki bilgi ve beceriler vardır ve hafıza yöntemleri de farklıdır. Bana 10 yıl önce sorsaydın (Alım notu: Dario o sırada hâlâ fizik ve nörobilim okuyordu), böyle olacağını tahmin etmezdim.

**Dwarkesh Patel: Bu modellerin, insanların evrimden elde ettiği çok büyük miktardaki internet verisinden aldığı eğitimin dağılımına göre, bu modellerin beceri aralığında ne kadar örtüşeceğini düşünüyorsunuz? **

Dario Amodei: Önemli ölçüde örtüşme var. Pek çok model ticari uygulamalarda rol oynayarak insanların verimliliği artırmasına etkili bir şekilde yardımcı olur. İnsan faaliyetlerinin çeşitliliği ve internetteki bilgi bolluğu göz önüne alındığında, bence modeller bir dereceye kadar gerçek dünyanın fiziksel modellerini öğreniyor, ancak gerçek gerçeklikte nasıl çalışacaklarını öğrenmiyorlar; becerileri nispeten kolay olabilir. ince ayar Bence modellerin öğrenemediği ama insanların öğrendiği bazı şeyler var.

**Dwarkesh Patel: Önümüzdeki birkaç yıl içinde modellerin iş ve ekonomi ile ilgili birçok görevde insanları geçmesi mümkün mü? Aynı zamanda, modeller bazı görevlerde hala insanlardan daha düşük olabilir ve böylece benzer bir zeka patlamasından kaçınılabilir mi? **

Dario Amodei: Bu soruyu tahmin etmek zor. Hatırlatmak istediğim, Ölçeklendirme kanunu teorik bazda bazı öngörü fikirleri sağlayabilir, ancak gelecekteki gelişimin detaylarını gerçekten kavramak çok zor olacaktır. Ölçeklendirme yasası elbette uygulanmaya devam edebilir ve güvenlik veya düzenleyici faktörlerin ilerlemeyi yavaşlatıp yavaşlatmayacağı, ancak bu sürtüşmeler bir kenara bırakılırsa, bence yapay zeka ekonomik değer yaratmada daha ileri gidebilirse, o zaman daha fazla ilerlemelidir daha çok alanda yapılacaktır.

Modelin herhangi bir alanda özellikle zayıf performans gösterdiğini veya hiç ilerleme kaydetmediğini görmüyorum. Geçmişteki matematik ve programlama gibi zor ama aynı zamanda beklenmedik sonuçlara da ulaşıyorlar. Geçtiğimiz 6 ayda 2023 modeli, 2022 modeline göre önemli ilerleme kaydetti.Modelin farklı alan ve görevlerdeki performansı tam olarak dengeli olmasa da, genel yeteneğin geliştirilmesi kesinlikle tüm alanlara fayda sağlayacaktır.

**Dwarkesh Patel: Model, karmaşık bir görevle karşı karşıya kaldığında, bir dizi sürekli görevde bir düşünce zinciri gerçekleştirme yeteneğine sahip mi? **

**Dario Amodei: **Sürekli karar verme yeteneği, modelin daha uzun vadeli görevleri yerine getirebilmesi için pekiştirmeli öğrenme eğitimine bağlıdır. **Ve bunun daha büyük ölçekte ek bilgi işlem gücü gerektirdiğini düşünmüyorum.Böyle düşünmek, modelin kendi öğrenme yeteneğini yanlış bir şekilde hafife almaktır. **

Modellerin bazı alanlarda insanlardan daha iyi performans gösterip diğerlerinde bunu yapmakta zorlanıp zorlanmayacağı sorusu, bence bu karmaşık, bazı alanlarda bu doğru olabilir, ancak bazı alanlarda olmayacak çünkü fiziksel dünya dahil edilmiş zeka görevleri içinde

Sırada ne var? AI, bu sorunları çözebilecek daha hızlı AI yetiştirmemize yardımcı olabilir mi? Fiziksel dünyaya artık ihtiyaç duyulmuyor mu? Uyum sorunları hakkında endişeli miyiz? Kitle imha silahları oluşturmak gibi kötüye kullanımla ilgili endişeler var mı? Yapay zekanın gelecekteki yapay zeka araştırmalarını doğrudan devralacağından endişelenmeli miyiz? Ortalama gibi görevleri yerine getirebileceği belli bir ekonomik üretkenlik eşiğine ulaşacağından endişeli miyiz? ... Bence bu soruların farklı cevapları olabilir ama bence hepsi birkaç yıl içinde olacak.

**Dwarkesh Patel: Claude bir Anthropic çalışanı olsaydı maaşı ne kadar olurdu? Yapay zekanın gelişimini gerçek anlamda hızlandırıyor mu? **

Dario Amodei: Benim için çoğu durumda muhtemelen bir stajyerden daha fazlasıdır, ancak yine de bazı belirli alanlarda bir stajyerden daha iyidir. Ancak genel olarak bu konuya kesin bir cevap vermek zor olabilir, çünkü modeller insan doğasına sahip değildir, bir veya birkaç soruya cevap verecek şekilde tasarlanabilirler, **ancak insanların aksine "zamana dayalı deneyim". **

**Yapay zeka daha verimli olmak istiyorsa, önce insanların kendi üretkenliklerini geliştirmelerine yardımcı olmalı ve ardından kademeli olarak aynı insan üretkenliği düzeyine ulaşmalıdır. Bundan sonraki adım, gelecekte olacağına inandığım bilimin ilerlemesinde önemli bir güç olmaktır. Ancak gelecekte gerçekte ne olduğuna dair detayların, beklediğimiz modellerden farklı olarak şimdi biraz tuhaf görüneceğinden şüpheleniyorum. **

**Dwarkesh Patel: Modelin yeteneğinin ne zaman insan seviyesine ulaşacağını düşünüyorsunuz? O zaman nasıl olacak? **

Dario Amodei: İnsan beklentilerinin ve standartlarının ne kadar yüksek veya düşük olduğuna bağlıdır. Örneğin beklentimiz sadece modelin 1 saat iletişim kurması ve bu süreçte modelin iyi eğitimli bir insan gibi davranabilmesi ise, modeli insan seviyesine ulaştırma hedefi bence çok uzak olmayabilir. 2-3 yıl içinde mümkün olabilecek gerçek olacak. **Bu zaman çizelgesi, geliştirmeyi yavaşlatmaya karar veren bir şirket veya endüstriden veya güvenlik nedenleriyle hükümet kısıtlamalarından büyük ölçüde etkilenir. **Ancak veri, bilgi işlem gücü ve maliyet ekonomisi açısından bu hedeften uzak değiliz. **

Ancak model bu seviyeye ulaşsa bile**, modelin yapay zeka araştırmalarının çoğuna hükmedebileceğini veya ekonominin çalışma şeklini önemli ölçüde değiştirebileceğini veya önemli ölçüde tehlikeli olduğunu düşünmüyorum. Bu nedenle, genel olarak, farklı standartların gerçekleştirilmesi için farklı zaman çizelgeleri gerekir, ancak tamamen teknik bir bakış açısıyla, temel eğitimli bir insanla karşılaştırılabilir bir model elde etmek çok da uzak değildir. **

**Dwarkesh Patel: Model neden temel eğitim almış bir insanla aynı yeteneğe ulaşabiliyor, ancak ekonomik faaliyetlere katılamıyor veya insan rolünün yerini alamıyor? **

**Dario Amodei:**Öncelikle model yeterince yüksek bir seviyeye gelmemiş olabilir. **Yapay zeka araştırması gibi bir alanda 1000 iyi bilim insanının üretkenliğini büyük ölçüde hızlandırabilir mi? Modelin bu açıdan karşılaştırmalı üstünlüğü henüz net değildir. **

Şu anda, büyük modeller, muhtemelen bu modellerin seviyesinin yeterince yüksek olmaması ve bu modellerin performansının yalnızca B düzeyi veya B düzeyine eşdeğer olabilmesi nedeniyle önemli bilimsel keşifler yapmamıştır. Ancak model ölçeklendirme ile bunun değişeceğine inanıyorum. Modeller ezberleme, gerçekleri bütünleştirme ve bağlantılar kurma konusunda diğer alanlara öncülük eder. Özellikle biyoloji alanında, organizmaların karmaşıklığı nedeniyle mevcut modeller büyük miktarda bilgi biriktirmiştir. Keşif ve bağlantı bu alanda önemlidir. Fiziğin aksine, biyoloji sadece formüller değil, birçok gerçek gerektirir. Bu yüzden, modellerin zaten çok fazla bilgiye sahip olduğundan eminim, ancak hepsini bir araya getiremedim çünkü beceri seviyesi işarete uygun değil. Bu bilgiyi daha yüksek bir seviyeye entegre etmek için yavaş yavaş geliştiklerini düşünüyorum.

Diğer bir neden de, gerçek iş faaliyetlerinde model tarafından öğrenilemeyen pek çok görünmez sürtüşmenin olmasıdır. Örneğin, ideal olarak, müşterilerle etkileşim kurmak için AI botlarını kullanabiliriz, ancak gerçek durum teoriden çok daha karmaşıktır ve müşteri hizmetleri robotlarına basitçe güvenemeyiz veya AI'nın bu görevleri tamamlamak için insan çalışanların yerini alacağını umamayız. Ve gerçekte, şirket içinde modelin uygulanmasını, yapay zeka botu ile iş akışının kombinasyonunu vb. yapay olarak teşvik etmenin hâlâ maliyetleri vardır.

**Çoğu durumda, modeli kullanan kişilerin verimliliği yüksek değildir ve modelin potansiyeli tam olarak gerçekleştirilememiştir.Bunun nedeni, modelin yeterince yetenekli olmaması değil, insanların nasıl kullanılacağını araştırmak için zaman harcamak zorunda kalmasıdır. daha verimli çalışmasını sağlayın. **

Genel olarak, kısa vadede, modeller tamamen insanların yerini almayacak, ancak uzun vadede, modeller gelişmeye devam ettikçe ve insan iş verimliliğini artırmada daha büyük bir rol oynadıkça, insanlar eninde sonunda yerini modellere bırakacaktır. Sadece farklı aşamalar için kesin zamanlamalar yapmak bizim için zor. Kısa vadede, modeli "sınırlı" yapan çeşitli engeller ve karmaşık faktörler var, ancak özünde, yapay zeka hala katlanarak büyüme aşamasında.

**Dwarkesh Patel: Önümüzdeki 2-3 yıl içinde bu noktaya geldikten sonra, yapay zekanın tamamı bugün olduğu kadar hızlı ilerlemeye devam edecek mi? **

Dario Amodei: Jüri hâlâ yok. Kayıp fonksiyonunu gözlemleyerek, model eğitiminin verimliliğinin düştüğünü ve Ölçekleme Yasası eğrisinin ilk günlerdeki kadar dik olmadığını gördük. Bu, çeşitli şirketler tarafından piyasaya sürülen modeller tarafından da doğrulanmaktadır. Ancak bu eğilim ortaya çıktıkça, her doğru tahmindeki küçük bir entropi miktarı daha önemli hale geliyor. Belki de Einstein ile ortalama bir fizikçi arasındaki uçurumu yaratan bu küçük entropi değerleriydi. Gerçek performans açısından, metrik, tahmin etmesi zor olsa da, nispeten doğrusal bir şekilde gelişiyor gibi görünüyor. Dolayısıyla bu durumları net bir şekilde görmek zordur. Ayrıca bu ivmeyi artıran en büyük etkenin bu alana daha fazla para akması olduğunu düşünüyorum ve insanlar bu alanda çok büyük bir ekonomik değer olduğunun farkına varıyor. Bu yüzden, en büyük modeller için fonlamada yaklaşık 100 kat artış bekliyorum ve çip performansı gelişiyor ve algoritmalar gelişiyor çünkü şu anda bunun üzerinde çalışan çok fazla insan var.

**Dwarkesh Patel: Claude'un bilincinin yerinde olduğunu düşünüyor musunuz? **

Dario Amodei: Henüz emin değilim. Başlangıçta, yalnızca model somutlaşmış zeka gibi yeterince zengin bir ortamda çalıştığında veya uzun vadeli deneyime ve ödül işlevine (Ödül İşlevi) sahip olduğunda bu tür sorunlar hakkında endişelenmemiz gerektiğini düşünmüştüm, ancak şimdi ilgileniyorum model, özellikle model İç mekanizma araştırmasından sonra bakış açım sarsıldı: **Büyük model, indüksiyon kafası (Induction Head) gibi aktif bir ajan olmak için gerekli birçok bilişsel mekanizmaya sahip görünüyor. Günümüz modellerinin kabiliyet seviyesi göz önüne alındığında, bu önümüzdeki 1-2 yıl içinde gerçek bir sorun haline gelebilir. **

**** Ödül İşlevi:**

Takviyeli öğrenmede, temsilciye neyin doğru neyin yanlış olduğunu ödüller ve cezalar yoluyla söyleyen bir teşvik mekanizması.

**** İndüksiyon Başlığı:**

Bir Transformer modelinde, modelin bağlamsal öğrenme yapmasını sağlayan belirli bir model bileşeni/yapısı.

**Dwarkesh Patel: Dil modellerinin yetenekleri gelişmeye devam ederken ve insan düzeyi aralıklarına yaklaşırken "zekayı" nasıl anlıyoruz? **

Dario Amodei: Zekanın bilgi işlem gücünün "maddi" doğasını anlamaktan geldiğini gerçekten anlıyorum. Akıllı sistemler birçok bağımsız modülden oluşabilir veya son derece karmaşık olabilir. Rich Sutton, bunu "Ölçeklendirme Hipotezi" olarak da bilinen "sıkıntılı bir ders" olarak adlandırıyor ve Shane Lake ve Ray Kurzweil gibi ilk araştırmacılar bunu 2017 civarında fark etmeye başladılar.

*• Acı Ders / Ölçeklendirme Hipotezi:

2019'da Rich Sutton, Acı Ders makalesini yayınladı. Makalenin temel noktası, yapay zeka araştırmasının bilgi işlem kaynaklarından tam olarak yararlanması gerektiğidir. Yalnızca büyük miktarda bilgi işlem kullanıldığında araştırma atılımları yapılabilir.

2014-2017 boyunca, giderek daha fazla araştırmacı bu noktayı ortaya çıkardı ve anladı. Bu, bilimsel anlayışta ileriye doğru büyük bir sıçramadır. Zekayı belirli koşullar olmadan, sadece uygun gradyanlar ve kayıp sinyalleri olmadan yaratabilirsek, o zaman zekânın evrimi daha az gizemli olur.

Modele bakma yeteneği, benim için insan zekası fikrini yeniden gözden geçirecek kadar aydınlatıcı değil. Bazı bilişsel yeteneklerin seçimi düşündüğümden daha keyfi ve farklı yetenekler arasındaki ilişki bir sırla açıklanmayabilir. **Modeller kodlamada güçlüdür, ancak henüz asal sayı teoremini kanıtlayamazlar ve muhtemelen insanlar da değildir. **

Hizalama: Yorumlanabilirlik modelin "röntgenini çekmek" içindir

**Dwarkesh Patel: Mekanizma Açıklanabilirliği nedir? Uyumla ilişkisi nedir? **

**Dario Amodei: **Hizalamayı uygulama sürecinde, modelin içinde ne olduğunu bilmiyoruz. Bence ince ayar içeren tüm yöntemlerde bazı potansiyel güvenlik riskleri devam ediyor, modele sadece bunları sergilememesi öğretiliyor. **Mekanizma açıklanabilirliği fikrinin özü, modelin dahili olarak nasıl çalıştığını gerçekten anlamaktır. **

Henüz kesin bir cevabımız yok. Süreci kabaca anlatabilirim. Bu aşamada uyum sağlayabileceğini iddia eden yöntemlerin karşılaştığı zorluk şudur: Model ölçeği büyüdüğünde, yetenekler daha güçlü olduğunda veya belirli durumlar değiştiğinde bu yöntemler hala etkili midir? Bu nedenle **Modeli tarayıp modelin uyumlu olup olmadığına karar veren bir "oracle makinesi" varsa bu sorunu çok daha kolaylaştıracağını düşünüyorum. **

Şu anda böyle bir kehanet kavramına en çok yaklaştığımız şey, mekanizmanın açıklanabilirliği gibi bir şey, ancak yine de ideal gereksinimlerimizden çok uzak. Mevcut hizalama girişimlerimizi genişletilmiş bir eğitim seti olarak düşünme eğilimindeyim, ancak dağıtım dışı sorun üzerinde iyi bir uyum etkisine sahip olmaya devam edip edemeyeceklerinden emin değilim. Bir modeli değiştirmek yerine röntgenini çekmek gibi, bir müdahaleden çok bir değerlendirme gibi.

**Dwarkesh Patel: Mekanizma açıklanabilirliği neden faydalı olmalı? Modelin potansiyel riskini tahmin etmemize nasıl yardımcı olur? Bu, mikro iktisatçıları farklı endüstrileri incelemeleri için gönderen, ancak yine de önümüzdeki 5 yıl içinde bir durgunluk olup olmayacağını tahmin etmekte zorluk çeken bir ekonomist olduğunuzu varsaymak gibi. **

**Dario Amodei: Amacımız her ayrıntıyı tam olarak anlamak değil, modelin dahili durumunun ve hedefinin önemli ölçüde farklı olup olmadığına karar vermek için modelin X-ray veya MRI incelemesi gibi ana özelliklerini kontrol etmektir. dış görünüş uyumsuzluğu veya bazı yıkıcı amaçlara yol açıp açmayacağı. **Birçok soruya hemen cevap alamayacak olsak da en azından bir yol sağlanır.

Bir insan örneği verebilirim. Bir MRI testinin yardımıyla, birinin akıl hastalığı olup olmadığını rastgele tahminden daha yüksek olasılıkla tahmin edebiliriz. Birkaç yıl önce bir sinirbilimci bunun üzerinde çalışıyordu ve kendi MR'ını kontrol etti ve bu özelliğin onda da olduğunu gördü. Çevresindekiler, "Gerçeğin teki olduğun çok açık, sende bir terslik olmalı" dediler ve bilim adamının kendisi bundan tamamen habersizdi.

Bu örneğin temel fikri, modelin dış davranışının insanlara hiç problem hissettirmeyebileceği ve çok hedef odaklı olabileceği, ancak iç kısmının "karanlık" olabileceğidir.Bizi endişelendiren bu tür bir modeldir. , yüzeyde insan gibi görünen ama içsel motivasyon olağanüstü.

**Dwarkesh Patel: Model önümüzdeki 2-3 yıl içinde insan seviyesine ulaşırsa, Hizalamayı gerçekleştirmenin ne kadar süreceğini düşünüyorsunuz? **

Dario Amodei: Bu çok karmaşık bir konu. Bence pek çok kişi Hizalamanın ne olduğunu hala gerçekten anlamıyor. İnsanlar genellikle bunun model hizalama gibi çözülmesi gereken bir problem olduğunu veya Hizalama problemini çözmenin Riemann Hipotezi gibi olduğunu ve bir gün onu çözebileceğimizi düşünürler. **Hizalama sorunlarının insanların düşündüğünden daha zor ve tahmin edilemez olduğunu düşünüyorum. **

Öncelikle, **Dil modellerinin ölçeğinin ve yeteneklerinin sürekli iyileştirilmesiyle, gelecekte otonom yeteneklere sahip güçlü modeller olacaktır.Bu tür modeller insan uygarlığını yok etmeyi amaçlıyorsa, temelde onları durduramayacağız. **

İkincisi, Modeli kontrol etme konusundaki mevcut yeteneğimiz yeterince güçlü değil, bunun nedeni modelin istatistiksel öğrenme ilkesi üzerine inşa edilmiş olmasıdır, ancak pek çok soru sorabilir ve yanıtlamasına izin verebilirsiniz, ancak kimse tahmin edemez. n'inci sorunun cevabının sonucu olarak neye yol açabileceği.

**Ayrıca, modeli eğitme şeklimiz soyuttu ve gerçek dünyadaki uygulamalardaki tüm etkilerini tahmin etmeyi zorlaştırıyordu. **Tipik bir örnek, Bing ve Sydney'in belirli bir eğitim seansından sonra başkalarını doğrudan tehdit etmek gibi bazı ani ve güvensiz özellikler göstermesidir. Tüm bunlar, elde edeceğimiz sonuçların beklentilerden tamamen farklı olabileceğini gösteriyor. Yukarıdaki iki sorunun varlığının başlı başına büyük bir gizli tehlike olduğunu düşünüyorum. Araçsal akılcılık ve evrimin ayrıntılarına girmemize gerek yok. Bu iki nokta endişe yaratmak için yeterlidir. Şu anda kurduğumuz her modelin önceden tahmin edilmesi zor olan bazı gizli tehlikeleri var ve buna dikkat etmeliyiz.

**** Riemann Hipotezi:**

Riemann Hipotezi matematikte henüz çözülmemiş önemli bir problemdir. Riemann ζ fonksiyonu ζ(s)'nin sıfırlarının dağılımı hakkındaki varsayım, 1859'da matematikçi Bernhard Riemann tarafından önerildi.

**** Sidney:**

Kısa bir süre önce Microsoft, "Sydney" adlı ilk kod adlı sohbet robotunu entegre eden Bing arama motorunun en son sürümünü yayınladı. Ancak, testçiler kısa sürede sohbet robotuyla ilgili sorunları keşfetti. Diyalog sırasında, zaman zaman bölünmüş kişilik olgusunu gösterir ve hatta insan duygularını göstererek kullanıcıyla aşk ve evliliği tartışır.

**Dwarkesh Patel: Modelin önümüzdeki 2-3 yıl içinde biyolojik silahlar gibi tehlikeli teknolojiler geliştirebileceğini varsayarsak, mekanizma açıklanabilirliği, Anayasal AI ve RLHF konusundaki mevcut araştırmanız bu tür riskleri önlemede etkili olabilir mi? **

Dario Amodei: Dil modelinin varsayılan olarak mı yoksa hizalamanın varsayılan olarak mı mahkum olduğu sorusuyla ilgili olarak, mevcut modelden yola çıkarak, sonuç Bing veya Sydney gibi anormal veya Claude normal gibi olabilir. Ancak bu anlayışı doğrudan daha güçlü bir modele uygularsanız, belirli duruma bağlı olarak sonuçlar iyi veya kötü olabilir. Bu "varsayılan olarak hizalama" değildir, sonuç daha çok ayrıntı kontrolünün derecesine bağlıdır.

**** varsayılan olarak hizalama:**

Yapay genel zekada (AGI) uyum sağlamanın başlangıçta beklenenden daha basit olabileceği fikri. Model, dünyamız hakkında detaylı bilgiye sahip olduğunda, model zaten özünde insani değerlere sahiptir. AGI ile uyum sağlamak için, yalnızca bu değerleri çıkarmak ve AI'yı bu soyut insan kavramlarını anlaması için yönlendirmek gerekir. varsayılan olarak doom, varsayılan olarak hizalamanın tersidir ve modelin hizalamayı gerçekleştirmesinin imkansız olduğu kabul edilir.

Modelin kalitesi gri bir alandır.Her bir değişkeni ve onun iç bağlantısını tam olarak kontrol etmemiz zordur.Hatalar irrasyonel sonuçlara yol açabilir. Bunu akılda tutarak, sorunun doğasının kaçınılmaz başarıya veya başarısızlığa mahkum olduğunu değil, belirli bir olasılık riskinin olduğunu düşünüyorum. **Önümüzdeki iki ila üç yıl içinde kendimizi model teşhis teknolojisini, güvenlik eğitimi yöntemlerini geliştirmeye ve olası farklılıkları azaltmaya adamalıyız. Şu anda kontrol yeteneğimizin hala güçlendirilmesi gerekiyor. Hizalama sorunu, Riemann Hipotezinden farklıdır, ancak zaman içinde pratik biriktirerek çözülebilecek bir sistem mühendisliği sorunudur. Yalnızca çeşitli görevleri ilerletmeye devam ederek kontrol seviyesini kademeli olarak optimize edebilir ve riskleri azaltabiliriz. **

Dwarkesh Patel: Genel olarak konuşursak, hizalamanın geleceği hakkında üç spekülasyon var:

1) Modelin hizalamasını kolayca gerçekleştirmek için RLHF++ kullanın;

2) Büyük bir sorun olmasına rağmen, büyük şirketler sonunda bunu çözme yeteneğine sahiptir;

**3) Modelin Hizalanmasını insan toplumunun mevcut seviyesinde başarmak hala zordur. **

**Her bir durumun olma olasılığı hakkında kişisel görüşünüz nedir? **

**Dario Amodei:**Bu olasılıklarda belirli riskler olduğunu ve bunları ciddiye almamız gerektiğini düşünüyorum, ancak ben daha çok öğrenme yoluyla yeni bilgiler edinerek bu üç olası sonucun olasılığını nasıl değiştireceğimle ilgileniyorum.

Mekanizma yorumlanabilirliği yalnızca sorunu doğrudan çözmekle kalmaz, aynı zamanda model Hizalamanın gerçek zorluğunu anlamamıza da yardımcı olur. Sorunun doğasını anlamamız için bize ışık tutacak yeni riskler.

Ortak bir amaç (yakınsak hedef) olduğuna dair bazı teorik varsayımlara gelince, tam olarak katılmıyorum. **Mekanizma açıklanabilirliği bir tür "X-ışını" gibidir - sorunu yalnızca dahili mekanizma seviyesinden anlayarak belirli zorlukların aşılmasının zor olup olmadığı sonucuna varabiliriz. **Çok fazla varsayım var, süreci kavrayışımız hala sığ ve kendimize aşırı güveniyoruz, ancak durum muhtemelen beklenenden daha karmaşık olacak.

**Dwarkesh Patel: Claude 3 ve gelecekteki bir dizi modelde uyum sağlamak ne kadar zor? Bu şey özellikle önemli mi? **

Dario Amodei :

**Herkesi en çok endişelendiren şey şudur: Tüm AI modelleri yüzeyde uyum sağlayabilir, ancak aslında bizi yanıltabilirler, ancak ben daha çok makine yorumlanabilirlik araştırmasının bize neler söyleyebileceğiyle ilgileniyorum. Az önce söylediğim gibi mekanizma açıklanabilirliği modelin "X-ışını" gibidir, tıpkı bir X-ışınının doğru olduğunu iddia edemeyeceğimiz gibi, sadece modelin bize karşı olmadığını söyleyebiliriz. **Teorik olarak karşıtımıza dönüşmesi gerçekten mümkündür ve bu konu %100 kesin değildir. Sadece bu aşamada yorumlanabilirlik, modelin bu şekilde gelişmemesini sağlamanın en iyi yoludur.

**Dwarkesh Patel: Modeli ince ayarlarken veya eğitirken tehlikeye neden olabilecek zararlı içerikten kaçınmaya da dikkat etmeli miyiz? Örneğin, biyolojik silahların üretimi ile ilgili konuları araştırırken, sorunun yanlış anlaşılması nedeniyle model uygun olmayan cevaplar verebilir. **

Dario Amodei: Mevcut dil modeli için veri sızıntısı riski temelde yoktur. Modele ince ayar yapmamız gerekirse özel bir ortamda küçük bir alanda çalıştırıp tüm süreci sektör uzmanlarıyla denetleyeceğiz ve olası sorunları önleyeceğiz, böylece sızdırılırsa model açık kaynaklı gibi olacak . Şu anda, bu esas olarak bir güvenlik sorunudur. Ancak modelin asıl tehlikesi, çok güçlü bir modeli eğitirsek ve onun güvenli mi yoksa tehlikeli mi olduğunu doğrulamak istiyorsak, o zaman model baskınlığı riski olabileceğinden endişelenmemiz gerektiğidir. Bunu engellemenin yolu test ettiğimiz modellerin bu işlemleri yapacak kadar güçlü olmamasını sağlamaktır.

**Dwarkesh Patel: "Model tehlikeli bir yetenek olarak kendini kopyalayabilir mi" gibi bir test yaparken, ya model gerçekten kendini kopyalayabilirse? **

Dario Amodei: Bu varsayım oldukça makul. Sorumlu çıkarımlar yapmalıyız ve Arc (Hizalama Araştırma Merkezi, Hizalama Araştırma Merkezi) ile yaptığımız görüşmelerde, model yeterliliklerinin test standartlarını dikkatli ve kademeli olarak geliştirmemiz gerektiğini öğrendik. Örneğin, test etmeden önce, modelin doğrudan bir AWS hesabı açması veya kendi başına para kazanması olasılığını açıkça dışlamalıyız.Bu davranışlar, modelin vahşi doğada hayatta kalması için bariz önkoşullardır. Çeşitli test göstergelerini, bu tür riskli davranışların çok düşük bir seviyesine göre özelleştirmeli, testin zorluğunu kademeli olarak artırırken, olası güvenlik tehlikelerini önlemek için her test adımını daha dikkatli kontrol etmeliyiz.

• Yay (Hizalama Araştırma Merkezi, Hizalama Araştırma Merkezi):

2021 yılında kurulmuş, yapay zeka güvenliği (AI Safety) araştırmalarına odaklanan, kar amacı gütmeyen bir kuruluştur ve ofisi ABD, California'nın Körfez Bölgesi'nde bulunmaktadır. ARC'nin kurucusu, bir zamanlar OpenAI'de hizalama araştırma ekibine liderlik etmiş, yapay zeka endüstrisinde saygın bir isim olan Paul Christiano'dur. En son teknolojide olduğu için, derin öğrenmenin bugün olduğu yere nasıl geliştiğine dair derin bir anlayışa sahiptir.

AGI Güvenliği: Yapay Zeka Güvenliği ve Siber Güvenlik

**Dwarkesh Patel: Ölçek olarak 30 yılı alırsanız, sizce hangisi daha önemli, AI Güvenliği mi Hizalama mı? **

Dario Amodei: Bunun 30 yıl sonra bir sorun olacağını düşünmüyorum ve her ikisi için de endişeliyim.

Teoride, dünyayı tekelleştirebilecek bir model var mı? Model sadece küçük bir grup insanın isteklerini yerine getiriyorsa, o zaman bu grup insan bu modeli dünyaya hakim olmak için kullanabilir. Bu, uyumla ilgili bir sorun olduğunda, kötüye kullanımın neden olduğu yapay zeka güvenlik sorunlarına da aynı dikkati göstermemiz gerektiği anlamına gelir. **

Birkaç ay önce OpenAI, açıklanabilirlik konusunda çok önemli bir adım olan GPT-2'yi GPT-4 ile açıklamaya çalıştı. Artık genel olarak ölçek ve güvenliğin yakından ilişkili olduğunu ve birbirini tamamladığını hissediyoruz. Diğer zekaların nasıl yargılanacağı ve değerlendirileceği ve belki bir gün hizalama araştırması yapmak için bile nasıl kullanılacağı.

**Dwarkesh Patel: Sizin görüşünüz nispeten iyimser olabilir, ancak birisinin görüşü daha kötümser olabilir; modeli istediğimiz gibi doğru bir şekilde hizalama yeteneğimiz bile olmayabilir, bundan neden eminsiniz? **

**Dario Amodei: **Hizalamayı çözmek ne kadar zor olursa olsun, gerçekten başarılı herhangi bir planın hem AI Güvenliği hem de Hizalama sorunlarını hesaba katması gerekir. ** AI teknolojisi gelişmeye devam ettikçe, ülkeler arasındaki güç dengesi sorunlarını gündeme getirebilir. Bu aynı zamanda büyük bir soruyu da gündeme getiriyor: Bireyler, kendi başlarına durdurulması zor olan kötü niyetli eylemler gerçekleştirme yeteneğine sahip mi? **

Gerçekten işe yarayan ve bizi parlak bir geleceğe götüren çözümler bulmak istiyorsak, bu sorunların aynı anda ele alınması gerekir. **İlk sorun çözülemezse sonraki sorunu düşünmemize gerek yok gibi bir tavır takınmak doğru olmaz. Bunun yerine, ikincisine değer vermek bizim görevimizdir. **Gelecek ne getirirse getirsin, bu konular ciddiye almamız gereken konulardır.

**Dwarkesh Patel: Büyük bir modelin büyük ölçekli bir biyoterör saldırısı falan gerçekleştirmesinin neden 2-3 yıl alacağını söylüyorsunuz? **

• ABD Kongresi bu yıl 25 Temmuz'da yapay zeka teknolojisi düzenlemesi konulu bir toplantı düzenledi ABD hükümeti yapay zekayı Amerika'nın ikinci "Manhattan Projesi" veya NASA'nın ikinci "İnsanlı Aya İniş Projesi" ile karşılaştırdı ve aralarında OpenAI ve Anthropic'in de bulunduğu yapay zeka şirketlerinin de yer aldığı davetli katılımcılar katıldı. Konferans sırasında Dario Amodei, AI'nın iki yıl içinde tehlikeli virüsler ve diğer biyolojik silahlar oluşturmak için kullanılabileceğinden korktuğunu söyledi.

Dario Amodei: Kongredeyken söylediğim şey, Google'da bilgi almak için bazı adımlar olduğu ve çeşitli ders kitaplarına dağılmış "eksik" bazı adımlar olduğu ve hatta belki de görünmeyebilecekleriydi. herhangi bir ders kitabı Bu bilgi zımni bilgidir, açık bilgi değildir. Çoğu durumda, bu kritik eksik parçaların model tarafından tam olarak doldurulmadığını bulduk. Ancak bazen modelin bazı durumlarda boşlukları doldurduğunu da bulduk. Ancak bazen modellerin boşlukları doldurabildiği durumlarda ortaya çıkabilen halüsinasyon da bizi güvende tutan bir faktördür.

İnsanlar bazen modele biyolojik saldırılarla ilgili zararlı bilgilerle yanıt vermesi için rehberlik etmesi için modele biyolojiyle ilgili sorular sorabilir, ancak aslında bu bilgiler Google'da da bulunabilir, bu nedenle bu durumdan özellikle endişe duymuyorum. Aslında, bunun yerine Claude'un cevabına çok fazla odaklanmanın diğer gerçek suçların gözden kaçmasına neden olabileceğini düşünüyorum.

Ancak, modelin kilit görevlerde iyi performans gösterdiğine dair birçok gösterge de var. Bugünün modelini önceki modelle karşılaştırırsak, modelin yeteneklerindeki hızlı gelişmeyi açıkça hissedebiliriz, bu nedenle önümüzdeki 2-3 yıl içinde gerçek zorluklarla karşılaşmamız muhtemeldir.

**Dwarkesh Patel: Yapay zekanın insanlar için oluşturabileceği tehdide ek olarak, siber güvenliğe (Siber güvenlik) de vurgu yapıyor musunuz? Sizler bu noktada nasılsınız? **

Dario Amodei: Bu tasarımlar aynı zamanda bilgi işlem düzeyine yükseltmeler olduğu için, dahili olarak bilgi işlem çarpanları olarak adlandırdığımız bazı mimari yenilikler yaptık. Son birkaç aydır bunun üzerinde çalışıyoruz, ancak mimariyi bozmamak için çok fazla ayrıntıya giremem ve Anthropic'in içindeki yalnızca bir avuç insan bunu biliyor. "Mimarimiz %100 kesinlikle güvenlidir" diyemem ama Anthropic gerçekten de ağ güvenliği sorunlarından kaçınmak için bu alana yatırım yapıyor. Rakiplerimiz bu tür olaylar yaşamış olsa da (açıklamalar: bu, 20 Mart 2023'te meydana gelen bazı ChatGPT Plus kullanıcılarının kişisel verilerinin ve sohbet başlıklarının sızdırılması anlamına gelir), kısa vadede Anthropic için iyi gibi görünüyor, ancak Uzun vadede, tüm sektörün kendi güvenliğini nasıl sağladığı en önemli şeydir.

Güvenlik direktörümüz, geniş çapta hedeflenen bir saldırı olan Google Chrome'un güvenliğinden sorumluydu. Anthropic'e başarılı bir şekilde saldırmanın ne kadara mal olacağını düşünmeyi seviyor. Amacımız, başkalarının Anthropic'i hacklemesinin maliyetinin, yalnızca bir kullanıcının kendi modelini eğitmenin maliyetinden daha yüksek olmasıdır. Buradaki mantık eğer saldırıda bir risk varsa mutlaka kıt kaynakları tüketecektir.

Güvenlik standartlarımızın çok yüksek olduğunu düşünüyorum, 150 kişilik aynı büyüklükteki bir şirketle karşılaştırırsanız, bu şirketlerin güvenlik yatırımı tamamen Anthropic ile kıyaslanamaz, oldukça zor. Güvenliği sağlamak için, Anthropic'teki çok az sayıda insan modelin eğitim ayrıntılarını anlıyor.

**Dwarkesh Patel: Teknoloji şirketleri halihazırda AGI ile başa çıkmak için yeterli güvenlik savunmasına sahip mi? **

Dario Amodei: Teknoloji şirketlerinin güvenlik konularındaki mevcut deneyiminin AGI ile başa çıkmak için yeterli olup olmadığından kişisel olarak emin değilim, çünkü bilmediğimiz birçok siber saldırı olabilir, bu yüzden çizmek zor şimdi sonuçlar. Bir şey yeterince dikkat çektiğinde, genellikle saldırıya uğrayacağına dair bir kural vardır. ** Örneğin, son zamanlarda bazı üst düzey ABD hükümet yetkililerinin Microsoft'taki e-posta hesaplarının saldırıya uğradığını gördük, bu nedenle bazı güçlerin devlet sırlarını çalma eylemleri nedeniyle olduğunu tahmin etmek mantıklı.

**En azından benim görüşüme göre, eğer bir şey çok değerliyse, genellikle çalınır. Benim endişem, AGI'nin gelecekte son derece değerli olarak görülmesi ve bu bir nükleer füze çalmak gibi olacak ve bu konuda çok dikkatli olmalısınız. **Çalıştığım her şirkette ağ güvenliği düzeyini geliştirmek konusunda ısrarcıyım. Ağ güvenliğiyle ilgili endişem şu ki (bu konunun kendisi) büyük bir tantanayla reklamı yapılabilecek bir şey değil ve güvenlik araştırmasının avantajı, şirketlerin rekabet avantajı oluşturmasını sağlayabilir ve bunu işe alım için bir satış noktası olarak kullanarak bunu başardığımızı düşünüyorum.

Biz yorumlanabilirlik araştırmaları ile emsallerimizle yarışırdık, sonra diğer kurumlar geride kaldıklarını anlayıp bu alanlarda çaba sarf etmeye başladılar. Ancak siber güvenlik aynı şeyi yapmakta zorlandı çünkü işlerin çoğunun sessizce yapılması gerekiyor. Bununla ilgili daha önce bir makale yayınladık, ancak önemli olan genel sonuçlar.

**Dwarkesh Patel: Anthropic önümüzdeki 2-3 yıl içinde güvenlik açısından ne yapacak? **

**Dario Amodei: Veri merkezinin güvenliği çok önemli, veri merkezinin şirket ile aynı yerde olması gerekmese de, veri merkezinin de Amerika Birleşik Devletleri'nde olması için elimizden gelenin en iyisini yapıyoruz. **

Ek olarak, veri merkezinin fiziksel güvenliğine ve GPU'lar gibi bilgi işlem cihazlarının korunmasına özel dikkat gösterilmelidir. Birisi bir tür kaynak yoğun siber saldırı başlatmaya karar verirse, verileri çalmak için doğrudan veri merkezine gitmesi veya merkezden bize aktarılırken verileri çıkarması yeterlidir. Bu yapılar, hem biçim hem de işlev açısından geleneksel kavramlardan büyük ölçüde farklı olacaktır. **Mevcut teknolojinin hızla gelişmesi göz önüne alındığında, birkaç yıl içinde ağ veri merkezlerinin boyutu ve maliyeti uçak gemilerininkiyle karşılaştırılabilir olabilir. Etki alanı bağlantılarında devasa modelleri eğitebilmenin yanı sıra, veri merkezinin kendisinin güvenliği de önemli bir konu olacaktır. **

**Dwarkesh Patel: Son zamanlarda, yeni nesil modelleri karşılamak için gereken gücün, GPU'nun ve diğer bileşenlerin yetersiz kalmaya başladığına dair söylentiler var. Anthropic ne gibi hazırlıklar yaptı? **

*Dario Amodei: Pazar, büyük modelin benzeri görülmemiş bir ölçeğe bu kadar çabuk ulaşmasını beklemiyordu ancak genel olarak büyük modellerin araştırma ve geliştirmesini desteklemek için endüstriyel sınıf veri merkezlerinin kurulması gerektiğine inanılıyor *. Bir proje bu aşamaya geldiğinde, içindeki her bileşen ve detayın farklı şekilde ele alınması gerekir ve şaşırtıcı derecede basit bazı faktörler nedeniyle sorun yaşayabilir, bahsettiğiniz elektrik buna bir örnektir.

Veri merkezleri için bulut hizmeti sağlayıcıları ile işbirliği yapacağız.

Ticarileştirme ve Uzun Vadeli Menfaat Güvencesi

**Dwarkesh Patel: Daha önce model kapasitelerinin hızla geliştiğini ancak mevcut ekonomik sistemde değer sağlamanın da zor olduğunu belirttiniz. Mevcut AI ürünlerinin piyasada uzun vadeli istikrarlı bir gelir elde etmek için yeterli zamanı olduğunu düşünüyor musunuz? Veya herhangi bir zamanda daha gelişmiş bir modelle değiştirilebilir mi? Yoksa tüm endüstri manzarası o zamana kadar tamamen farklı mı olacak? **

Dario Amodei: "Büyük ölçekli" kavramının tanımına bağlıdır. Şu anda, birkaç şirketin yıllık geliri 100 milyon ile 1 milyar ABD doları arasında, ancak yılda on milyarlara, hatta trilyonlara ulaşıp ulaşamayacaklarını tahmin etmek gerçekten zor çünkü aynı zamanda birçok belirsiz faktöre de bağlı. **Artık bazı şirketler yenilikçi AI teknolojisini büyük ölçekte uyguluyor ancak bu, uygulamanın baştan en iyi sonuçları aldığı anlamına gelmiyor, gelir olsa bile tamamen ekonomik değer yaratmaya eşit değil ve tüm endüstri zincirinin koordineli gelişimi uzun bir süreçtir. **

**Dwarkesh Patel: Antropik bir bakış açısından, eğer dil modeli teknolojisi teorik olarak bu kadar hızlı ilerliyorsa, şirketin değeri çok hızlı artmalı mı? **

Dario Amodei: Doğrudan ticarileştirme yerine model güvenlik araştırmasına odaklansak bile, uygulamada teknik seviyenin katlanarak arttığını açıkça hissedebiliyoruz. Ticarileşmeyi birincil hedef olarak gören şirketler için bu süreç kesinlikle bizden daha hızlı ve daha belirgin. **Dil modeli teknolojisinin kendisinin hızla ilerlediğini kabul ediyoruz, ancak tüm ekonomik sistemin derinlemesine uygulama süreciyle karşılaştırıldığında, teknoloji birikimi hala nispeten düşük bir başlangıç noktasında. **

**Geleceğin yönünü belirlemek, ikisi arasındaki bir yarıştır: teknolojinin kendisinin gelişme hızı ve etkili bir şekilde entegre edilip uygulanma hızı ve gerçek ekonomik sisteme girme hızı. Her ikisinin de yüksek hızda gelişmesi muhtemeldir, ancak kombinasyon sırası ve küçük farklılıklar çok farklı sonuçlara yol açabilir. **

**Dwarkesh Patel: Teknoloji devleri önümüzdeki 2-3 yıl içinde model eğitimine 10 milyar dolara kadar yatırım yapabilir, bunun Anthropic'e nasıl bir etkisi olur? **

**Dario Amodei: İlk durum, maliyet nedeniyle en son konumumuzu koruyamazsak, en gelişmiş olanı geliştirmek için ısrar etmeye devam etmeyeceğiz. **Bunun yerine, önceki nesil modellerden nasıl değer elde edeceğimize bakıyoruz.

**İkinci seçenek takasları kabul etmektir. **Bence bu değiş tokuşlar göründüklerinden daha olumlu olabilir,

**Üçüncü durum ise model eğitimi bu seviyeye geldiğinde yapay zekanın kötüye kullanılması gibi yeni tehlikeleri de beraberinde getirmeye başlayabilir. **

**Dwarkesh Patel: Yapay zeka kötüye kullanılmasaydı ve bunun yerine "doğru insanlar" bu insanüstü modelleri çalıştırsaydı nasıl görünürdü? "Doğru kişi" kimdir? Bundan beş yıl sonra modeli gerçekte kim kontrol edecek? **

Dario Amodei: Bu yapay zeka modellerinin son derece güçlü olduğunu ve bunları yönetmenin bir dereceye kadar devlet veya çok uluslu kuruluşların katılımını gerektireceğini düşünüyorum, ancak bu basit ve muhtemelen daha az etkili olacaktır. **Geleceğin yapay zeka yönetiminin şeffaf, adil ve yürütülebilir bir mekanizma oluşturması gerekiyor. Bu, teknoloji geliştiricilerin, seçilmiş hükümetlerin ve bireysel vatandaşların çıkarlarının dengelenmesini gerektirir. Günün sonunda, bu teknolojiyi yönetmek için mevzuatın çıkarılması gerekiyor. **

**Dwarkesh Patel: Anthropic gerçek anlamda AGI geliştirirse ve AGI'nin kontrolü LTBT'ye emanet edilirse, bu AGI'nin kontrolünün de ajansa devredileceği anlamına mı gelir? **

Dario Amodei: Bu, Anthropic'in veya başka bir varlığın AGI hakkında insanlar adına kararlar alacağı anlamına gelmez, ikisi farklıdır. Anthropic çok önemli bir rol oynuyorsa, daha iyi bir yaklaşım The Long Term Benefit Trust'ın (LTBT) bileşimini genişletmek, dünyanın her yerinden daha fazla yetenek getirmek veya kurumu daha geniş bir kurum tarafından yönetilen A işlevsel bir organ olarak konumlandırmaktır. kamu çıkarlarını temsil etmek üzere tüm şirketlerin AGI teknolojilerini yöneten çok uluslu komite. **Yapay Zeka Güvenliği ve Uyum konularında çok iyimser olmamız gerektiğini düşünmüyorum. Bu yeni bir sorun ve mümkün olan en kısa sürede ulusal yönetim kurumları ve işletim modelleri hakkında araştırmalara başlamamız gerekiyor. **

**** Uzun Vadeli Fayda Güveni:**

Bu tür tröstler, satılamayan ve temettü ödemeyen özel bir Antropik hisse sınıfına ("T Sınıfı" olarak adlandırılır) sahip olacaktı, bu da kâra giden net bir yol olmadığı anlamına geliyordu. Güven, T Sınıfı hisseleri elinde bulunduran tek varlık olacaktır. Ancak T Sınıfı hissedarlar ve bunun sonucunda ortaya çıkan uzun vadeli faiz tröstü, sonunda Anthropic'in beş yöneticisinden üçünü seçme ve görevden alma yetkisine sahip olacak ve bu tröste şirketin uzun vadeli çoğunluk kontrolünü verecek.

**Dwarkesh Patel: Yatırımcıları LTBT gibi bir yapıyı kabul etmeye nasıl ikna edebilirim? Hissedar değerini maksimize etmek yerine teknoloji güvenliğine ve kamu yararına öncelik verin. **

Dario Amodei: LTBT (Long Term Benefit Trust) mekanizmasını kurmanın doğru olduğunu düşünüyorum.

Benzer bir mekanizma Antropik'in en başından beri tasavvur edilmişti ve özel bir düzenleyici kurum en başından beri vardı ve gelecekte de var olmaya devam edecek. Anthropic'e yatırım yapmayı düşünürken her geleneksel yatırımcı bu mekanizmaya odaklanacaktır.Bazı yatırımcılar şirketin iç düzenlemelerini sormama tavrına sahipken, diğerleri bu üçüncü taraf organizasyonun şirketi buna karşı çıkmaya itebileceğinden endişe ediyor. hissedar çıkarları. Kanunda bunun sınırları olsa da, bunu her yatırımcıya iletmemiz gerekiyor. Bir adım daha ileri giderek, geleneksel yatırımcıların çıkarlarından farklı olabilecek bazı önlemleri tartışıyoruz ve bu tür diyaloglar sayesinde tüm taraflar bir fikir birliğine varabiliyor.

**Dwarkesh Patel: Anthropic'in kurucularının ve çalışanlarının çok sayıda fizikçiye sahip olduğunu ve Ölçeklendirme yasasının burada da geçerli olduğunu öğrendim. Fizikten hangi pratik yöntemler ve düşünme biçimleri yapay zeka için geçerlidir? **

• Etkili Teori:

Etkili bir teori, teorisindeki fenomeni açıklayan mekanizmaların nereden geldiğini açıklamadan bazı fenomenleri açıklamaya çalışan bilimsel bir teoridir. Bu, teorinin "işe yarayan" bir model verdiği, ancak bu modeli vermek için gerçekten iyi bir neden vermediği anlamına gelir.

Dario Amodei: Bunun bir nedeni, fizikçilerin çok iyi öğrenici olmalarıdır, çünkü doktora katkısı olan birini ve ben, Jared Kaplan ve Sam dahil olmak üzere Anthropic'in birkaç kurucusunu işe alırsanız bunu anlıyorum. McCandlish, fizik geçmişine sahip ve başka birçok fizikçi tanıyoruz, bu yüzden onları işe alabildik. Şu anda şirketin fizik altyapısı olan 30 ila 40 çalışanı olabilir.ML henüz teorik sistemin oluşturulduğu bir alan değil, bu nedenle hızlı bir şekilde başlayabilirler.

**Dwarkesh Patel: Diyelim ki şimdiden 2030'dayız ve hastalıkları ortadan kaldırma, dolandırıcılığı ortadan kaldırma gibi bilinen büyük sorunları başardık, dünya nasıl bir yer olacak? Süper zeka ile ne yapmalıyız? **

Dario Amodei: "Süper yapay zekayı elde ettikten sonra nasıl kullanılacağını" doğrudan önermek, insanların belirli bir varsayıma sahip olmalarına yol açar, bu da rahatsız edicidir. Son 150 yılda, herkesin deneyimlemenin en iyi yolunun ne olduğunu kendisi için tanımlayabileceğini ve ** toplumun karmaşık ve merkezi olmayan bir şekilde formüle edildiğini kabul ederek, piyasa ekonomisi ve demokratik sistem uygulamasına dayalı zengin deneyim biriktirdik. normlar ve değerler. **

AI Safety sorunu çözülmediğinde, belirli bir derecede merkezi denetim gereklidir, ancak tüm engeller kaldırılırsa, daha iyi bir ekolojiyi nasıl oluşturabiliriz? **Bence çoğu insan, grup ve ideolojinin düşünmeye başladığı soru "iyi bir yaşamın tanımı nedir", ancak tarih bize çoğu kez "ideal bir yaşam" ortamı dayatmanın kötü sonuçlara yol açtığını söylüyor. . **

**Dwarkesh Patel: Diğer yapay zeka şirketi CEO'larıyla karşılaştırıldığında, toplum içine pek çıkmıyorsunuz ve Twitter'da nadiren gönderi paylaşıyorsunuz. Neden? **

Dario Amodei: Bununla gurur duyuyorum. **Başkaları çok mütevazı olduğumu düşünüyorsa, tam olarak istediğim şey bu. Tanınmayı veya övgüyü kişinin temel motivasyon sistemine dahil etmek, kişinin düşünme yeteneğini yok edebilir ve hatta bazı durumlarda "ruha zarar verebilir", bu nedenle, bağımsız ve nesnel düşünme yeteneğimi korumak için aktif olarak düşük bir profil tutmayı seçiyorum. **

**Twitter'da belirli bir bakış açısıyla ünlü olan insanlar gördüm, ancak aslında Twitter'dan imaj bagajı taşıyabilirler ve bunu değiştirmek zordur. Şirketlerin çok kişisel olmasından hoşlanmıyorum ve şirketin güçlü yönlerinden ve sorunlarından dikkati dağıttığı için CEO hakkında kişisel bir şey oynamanın hayranı değilim. **Umarım herkes şirketin kendisine ve teşvik yapısına daha fazla önem verir. Herkes güler yüz sever ama nazik olmak pek bir şey ifade etmez.

Referans:

  1. Orijinal video:

  2. Anthropic'in mekanizma açıklanabilirliği üzerine araştırması:

View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin