Anthropic創設者:大型模型でも「X線撮影」可能、AGIは2~3年で実現可能

この記事は、Anthropic CEO、Dario Amodei へのポッドキャストインタビューから編集されたものです。

Anthropic は LLM サーキットで第 2 位の企業で、2021 年 1 月に Dario Amodei によって設立され、今年 7 月には最新世代モデルの Claude 2 を発売しました。ダリオ・アモデイ氏は、OpenAI の研究および安全性担当副社長でした。彼は、大規模モデルには緊急に解決する必要がある安全性の問題が数多くあると信じて Anthropic を設立しました。そのため、Anthropic は AI の安全性を非常に重視しています。そのビジョンは次のとおりです。信頼性が高く、説明可能な、解釈可能で操縦可能な AI システムを構築します。 Anthropic ルートと OpenAI ルートの最大の違いは、解釈可能性に焦点を当てていることでもあります。

インタビューの中で、ダリオ氏は Anthropic の解釈可能性への焦点と投資について説明しています。解釈可能性は、モデルの安全性を確保するための重要な方法の 1 つであり、**モデルに対して X 線や MRI 検査を受けるのと同様に、研究者がモデル内で何が起こっているかを理解し、考えられるリスク源を特定することが可能になります。なぜスケーリング則が機能するのか、そしてどのように調整を達成するのかを真に理解するには、解釈可能性が不可欠です。 **ダリオ氏は、AI の安全性と調整は同様に重要であると考えています。調整に問題が発生した場合は、不正使用によって引き起こされる AI の安全性の問題にも同様の注意を払う必要があります。

ダリオ氏は、モデルの能力は今後 2 ~ 3 年で大幅に向上し、「人類社会を乗っ取る」可能性さえあると信じていますが、実際にはビジネスや経済のつながりに参加することはできません。しかし、この目に見えないさまざまな摩擦のせいで、人々は現実の生活や仕事において真の可能性を発揮できるほど効率的にモデルを活用できていません。

多くの AI 企業の CEO と比較して、ダリオ氏は公のインタビューにほとんど参加せず、Twitter で意見を表明することもほとんどありませんが、これは彼自身の積極的な選択であり、目立たないようにすることで独立的かつ客観的に考える能力を守っていると説明しました。

以下にこの記事の目次を記載しますので、要点と合わせて読むことをお勧めします。

👇

01 スケーリングの法則が機能する理由

02 モデルの能力はどのようにして人間と同等になるのでしょうか?

03 アライメント: 解釈可能性はモデルの「X 線撮影」です

04 AGI Safety: AI の安全性とサイバー セキュリティ

05 商品化と長期給付信託

スケーリング則が機能する理由

**ドワルケシュ・パテル: スケーリングの法則に対するあなたの信念はどこから来たのですか?データのサイズが大きくなるとモデルの能力が強くなるのはなぜですか? **

**ダリオ・アモデイ: スケーリングの法則は、ある程度経験的にまとめられたものです。私たちはこの現象をさまざまなデータや現象から捉え、それをスケーリングの法則としてまとめますが、それを説明する一般的に受け入れられている特に優れた説明はありません。その機能の本質的な原理は次のとおりです。 **

説明するなら、これは物理学におけるロングテール分布やべき乗則に似ているのではないかと個人的に推測しています。特徴量(特徴量)が多い場合、比較的割合の大きなデータは、より支配的な基本ルールやパターンに対応することが多く、これらのパターンが頻繁に出現するため、当然対応するデータ量も多くなりますが、ロングテールデータは主に一部のデータとなります。より詳細で複雑なルール。 **たとえば、言語関連のデータを扱う場合、品詞や語順構造などの基本的な文法規則や、比較的長い尾の規則など、ほとんどのデータでいくつかの基本的な規則が観察されます。複雑な文法です。

データが 1 桁増加するたびに、モデルはより多くの動作ルールを学習できるのはこのためです。しかし、なぜこの 2 つに完全な線形相関が存在するのかはわかっていません。 Anthropic の主任科学者である Gerard Kaplan は、フラクタル次元 (Fractal Dimension) を使ってこの問題を説明しました。

• フラクタル次元:

数学者のフェリックス・ハウスドルフは 1918 年に初めてフラクタル次元の概念を提案しました。この概念は、後にハウスドルフ次元としても知られるようになりました。フラクタル次元は、機械学習データの隠れた特徴関係構造を記述するために使用でき、スケーリング効果の背後にある数学的説明モデルを提供します。これにより、AI モデルがスケールに応じてパフォーマンスを向上できる理由が説明されます。

**また、スケーリング則の存在を知っていたとしても、モデルの具体的な能力の変化を予測することは困難です。 GPT-2 と GPT-3 の研究では、モデルが計算やプログラミングをいつ学習できるかはわかりませんが、これらの能力は突然現れます。 **予測できるのは数値レベルだけで、損失値やエントロピー値の変化などはかなり正確に予測できますが、あたかも気象データを統計して予測できるようなものです。天気全体の変化傾向はわかりますが、特定の日の天気や気温を予測することは困難です。

**ドワルケシュ・パテル: なぜモデルは突然特定の能力を持つことができるのでしょうか?たとえば、以前は足し算が理解できませんでしたが、今では計算する能力を習得しましたか?この変化の原因は何でしょうか? **

Dario Amodei: これは、私たちがまだ検討中のもう 1 つの質問です。これを説明するために、機械的解釈(機械的解釈)という手法を用いて、言語現象を回路接続に似た考え方で説明しようとしています。

モデルに何かを与えると、モデルが正解を与える確率が突然増加するという証拠がいくつかありますが、モデルが実際に正解を与える前の変化を見ると、その確率は 100 万分の 1 からであることがわかります。 、10万分の1がゆっくりと1000分の1まで上昇しました。このような場合の多くは、私たちが観察していない、またはまだ解明されていない、何らかの段階的なプロセスが進行しているように見えます。

「足し算」のような「回路」が最初から存在していて、特定のプロセスによって弱いものから強いものへと徐々に変化し、モデルが正しい答えを出せるようになったのかどうかはわかりません。これらの質問は、メカニズムの説明可能性を通じて答えたいと考えています。

• メカニズムの解釈可能性:

メカニズムの解釈可能性は、ニューラル ネットワークのリバース エンジニアリングの研究であり、モデルが入力と出力をどのようにマッピングするかを人々がより簡単に理解できるようにするために使用でき、モデルの解釈可能性を実現する方法です。メカニズムの説明可能性の主な目標は、深層学習を自然科学として理解し、モデルの構造とパラメーターを使用してモデルの意思決定プロセスと予測結果を説明し、人間のユーザーが深層学習の動作原理を理解して検証できるようにすることです。モデル。その初期の研究は、ビジュアル ネットワークの中間層での表現を理解するために行列因数分解と特徴視覚化手法を使用することに焦点を当てていましたが、最近では、マルチモーダル ネットワークの表現と、ニューラル ネットワーク アルゴリズムの経路レベルの理解に焦点を当てています。

Anthropic は、メカニズムの解釈可能性に関する研究「Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases」を発表しました。

**ドワルケシュ・パテル: モデルのサイズに伴わない能力はありますか? **

**Dario Amodei: モデルの調整と値に関連する機能は、モデルのサイズによっては自然には現れない可能性があります。 **考え方の 1 つは、モデルのトレーニング プロセスは本質的に世界を予測して理解することであり、その主な責任は意見や価値観ではなく事実に関するものであるということです。しかし、ここには自由変数がいくつかあります。どのようなアクションをとるべきでしょうか?どのような視点をとるべきでしょうか?どの要素に注意を払う必要がありますか?しかし、モデルが学習するためのそのようなデータ ラベルはありません。したがって、AlignmentやValuesなどの出現は考えにくいと思います。

**ドワルケシュ・パテル: モデルの能力が人間の知性に追いつく前に、トレーニングに利用できるデータが使い果たされてしまう可能性はありますか? **

**ダリオ・アモデイ:**これが理論的な問題なのか、それとも現実的な状況なのかを区別する必要があると思います。理論的な観点から言えば、データが不足する日はそれほど遠くありませんが、私の個人的な偏見では、その可能性は低いと考えています。データはさまざまな方法で生成できるため、データは実際には障害にはなりません。利用可能なコンピューティング リソースをすべて使い切ってしまい、モデルの機能の進歩が遅くなるという別の状況もあります。どちらのシナリオも可能です。

**私の個人的な見解では、Scaling Law は停滞しない可能性が高く、問題があったとしてもコンピューティング アーキテクチャに原因がある可能性が高いと考えています。 **たとえば、LSTM や RNN を使用すると、モデルの能力の進化速度が変化します。あらゆるアーキテクチャ状況でモデル機能の進化においてボトルネックに遭遇した場合、それはより深刻な問題に遭遇したことを意味するため、それはかなり深刻になります。

• LSTM:

特殊な RNN ネットワーク (サイクリック ニューラル ネットワーク) である長期短期記憶ネットワーク (Long Short Term Memory network) は、長期依存関係を学習し、長いシーケンス パターンの学習における従来の RNN の問題を解決し、シーケンス内の長期および短期を抽出できます。データ情報。 LSTM の学習能力と表現能力は、標準の RNN よりも強力です。

**モデルができることとできないことについて話すのは、本質的にはそれほど変わらないかもしれない段階に到達したと思います。 **以前は、モデルが推論能力を習得できず、プログラミングを学習できず、いくつかの面でボトルネックに遭遇する可能性があると考え、モデルの能力を制限していました。私を含め、以前はそう考えなかった人もいましたが、ここ数年でこの種のボトルネック理論が主流になり、今では変わりました。

**将来のモデルのスケーリングプロセスの影響にボトルネックが見られる場合、問題は次のトークン予測タスクに焦点を当てた損失関数の設計にあると思います。 **推論能力とプログラミング能力を重視しすぎると、モデルの損失はこの能力を反映するトークンに集中し、他の問題のトークンが現れる頻度は低くなります (注: モデルの事前トレーニング データセットは、モデルは科学者が能力の度合いに置く重要性に基づいており、その比率を調整します) **、損失関数は、実際に重要な情報エントロピーを無視しながら、最も多くの情報エントロピーを提供するトークンに過度の注意を払うため、信号が埋もれてしまう可能性があります。騒音の中で。 **

この問題が発生した場合、何らかの強化学習プロセスを導入する必要がありますが、RLには、ヒューマンフィードバックによる強化学習(RLHF)、ターゲットに対する強化学習、憲法AIのような強化(増幅)、ディベートなど、さまざまな種類があります。 (議論)など。これらは、モデルの調整方法とモデルのトレーニング方法の両方です。 **多くの方法を試さなければならないかもしれませんが、モデルの目的が何であるかに焦点を当てる必要があります。 **

強化学習の問題の 1 つは、非常に完全な損失関数を設計する必要があることです。次のトークン予測の損失関数はすでに設計されているため、この方向の規模が上限を見るとAIの開発は減速します。

**Dwarkesh Patel: スケーリングについての理解はどのようにして生まれましたか? **

**ダリオ・アモデイ: **私の意見の形成は、およそ 2014 年から 2017 年まで遡ることができます。私はAIの発展に注目してきましたが、AIが本格的に応用されるにはAlexNetが登場するまでは長い時間がかかるだろうと思っていました。その後、当時百度でウー・エンダ氏のプロジェクトチームに参加し、初めてAIに触れました。

当時の他の学者とは異なり、私は最先端の音声認識システムを作成するという任務を与えられており、利用可能なデータと GPU が大量にあったため、私は自分自身を非常に幸運だったと考えています。 **このプロジェクトの過程で、私は自然に、スケーリングが良い解決策であることに気づきました。このプロセスもポスドク研究とは異なり、必ずしもこれまでに提案されていない賢明で革新的なアイデアを生み出す必要はありません。 **

プロジェクト全体を通して、RNN にレイヤーを追加したり、モデルのトレーニング時間を延長するためにトレーニング パラメーターを調整したりするなど、いくつかの基本的な実験を行うだけで十分です。この期間中、モデルのトレーニング プロセスを観察し、次のことを確認しました。いつそれが起こるかをシミュレートします。また、新しいトレーニング データを追加したり、繰り返しのトレーニング ラウンドを減らしたりして、これらの調整がモデルのパフォーマンスに与える影響を観察しました。これらの実験の過程で、私はいくつかの規則的な結果に気づきました。しかし、これらの想像が画期的なものなのか、あるいは他の同僚が同様の発見をしているのかどうかは私にはわかりません。全体として、これは AI 初心者としての私の幸運な経験にすぎません。この分野については他にあまり詳しくありませんが、これは音声認識の分野でも同様に検証されていると当時感じました。

**私は OpenAI が設立される前に Ilya と知り合いました。彼は「これらのモデルは単に学習したいだけだということを理解する必要がある」と言いました。この視点は私に大きなインスピレーションを与え、以前の観察がこの現象ではない可能性があることに気づきました。ランダムな例ですが、よくあることです。これらのモデルは学習するだけでよく、高品質のデータを提供し、モデルが動作するための十分なスペースを確保するだけで、モデルは自動的に学習します。 **

**ドワルケシュ・パテル: あなたやイリヤほど「普遍的知性」についての見解を導き出した人はほとんどいません。この質問について、他の人とどう違うと思いますか?モデルが音声認識や他の分野でも同様に改善され続けると思うのはなぜですか? **

Dario Amodei: 本当のところはわかりませんが、音声の分野で同様の現象を初めて観察したとき、これは音声認識の垂直分野に適用される単なる法則だと思いました。 2014 年から 2017 年にかけて、私はさまざまなことを試し、同じことを何度も観察しました。たとえば、私はこれを Dota ゲームで観察しました。ロボット工学の分野で入手できるデータは比較的限られており、多くの人が楽観視していないにもかかわらず、同様の現象も観察しました。 **人は目先の問題を解決することに集中する傾向があり、下位の問題を横方向に考えるよりも、問題自体を縦方向に解決することに注意を払う傾向があると思います。スケーリングセックスの可能性を十分に考慮してください。たとえば、ロボット工学の分野では、最も根本的な問題はトレーニング データが不十分である可能性がありますが、スケーリングが機能しないと結論付けるのは簡単です。 **

**ドワルケシュ・パテル: 言語を使用して大量のデータをこれらのモデルに入力できることにいつ気づきましたか? **

**Dario Amodei:**最も重要なことは、次のトークン予測に基づく自己教師あり学習の概念と、予測のための多数のアーキテクチャだと思います。これは実際には、児童発達テストのロジックに似ています。たとえば、メアリーが部屋に入ってきて物を置いた後、チャックが入ってきてメアリーに気づかれないように物を動かしました。メアリーはどう思いますか?この種の予測を完了するには、モデルはそれに含まれる数学的問題、心理的問題などを同時に解決する必要があります。したがって、私の意見では、適切な予測を行うには、モデルにデータを供給し、制約なしで学習させる必要があります。

私もずっと前に似たような感覚を持っていましたが、アレック・ラドフォードが GPT-1 でいくつかの試みを行うまで、予測能力を備えたモデルを実装できるだけでなく、モデルを微調整することもできることに気づきました。このおかげで、あらゆる種類のタスクを実行し、論理的推論を含むあらゆる種類の問題を解決できる可能性が得られると思います。もちろん、今後もモデルサイズを拡大していきます。

• GPT シリーズの前身である Sentiment Neuron の著者であり、GPT シリーズ論文の共著者である Alec Radford は、現在も OpenAI で働いています。

**Dwarkesh Patel: モデルのトレーニングには大量のデータが必要だとどう思いますか?モデルトレーニングの効率が低いことを心配する必要がありますか? **

ダリオ・アモデイ: この問題はまだ検討中です。一説によると、モデルのサイズは実際には人間の脳より 2 ~ 3 桁小さいが、モデルをトレーニングするために必要なデータ量は 18 歳の人間が読むテキストの量の 3 ~ 4 倍であるということです。人間の規模はおそらく数億人ですが、モデルの規模は数千億または兆です。人間が取得するデータの量はそれほど多くありませんが、日常の仕事や生活を扱うには十分です。しかし、学習に加えて、私たちの感覚が実際に脳に情報を入力しているという別の可能性もあります。

実は、ここには矛盾があります。私たちが現在持っているモデルは人間の脳よりも小さいですが、人間の脳と同様の多くのタスクを実行できます。同時に、このモデルが必要とするデータの量は、人間の脳よりもはるかに多くなります。人間の脳のこと。したがって、この問題については引き続き調査し、理解する必要がありますが、ある程度、これらは重要ではありません。 **さらに重要なのは、モデルの能力をどのように評価するか、モデルと人間とのギャップをどのように判断するかです。私の知る限り、そのギャップはそれほど遠くありません。 **

**Dwarkesh Patel: スケーリング、そしてより広範には大規模コンピューティングのモデル機能の進歩を重視することは、アルゴリズムの進歩の役割を過小評価していませんか? **

**Dario Amodei: **Transformer の論文が最初に発表されたとき、私は関連する問題について書き、モデルの能力の向上に影響を与える 7 つの関連要素があると述べました。そのうち 4 つの要素が最も明白で重要です。モデルパラメータの量、計算能力スケール、データ品質、損失関数。たとえば、強化学習や次のトークンの予測などのタスクは、正しい損失関数やインセンティブ メカニズムの有無に大きく依存します。

• 強化学習 (RL):

試行錯誤の基本プロセスを通じて、環境の特定の状態ごとに最適な行動方針を見つけます。機械学習モデルは、最初にランダムなルールを導入し、同時にアクションが実行されるたびに一定量のポイント (報酬とも呼ばれます) をモデルに入力します。

• 機械学習における損失関数 (loss function) とは、モデルの出力と実際の値との差異の程度を反映する、つまり予測を測定するために使用される、適合度を測定する関数を指します。誤差、すべてのサンプル ポイントの予測を含む誤差、全体的な適合度を表す単一の値を提供します。同時に、トレーニング プロセス中、モデル パラメーターは損失関数の値に従って継続的に調整されます。損失値を最小限に抑え、より良いフィッティング効果を得るために。

また、次の 3 つの要因があります。

1 つ目は構造の対称性であり、アーキテクチャが正しい対称性を考慮していないと機能せず、非常に非効率になります。例えば、畳み込みニューラルネットワーク(CNN)は並進対称性(並進対称性)を考慮し、LSTMは時間対称性(時間対称性)を考慮しますが、LSTMの問題点はコンテキストを考慮していないという構造的な弱点に共通しています。構造上の理由により、モデルが比較的長い過去の履歴 (シーケンス データ構造内で以前に出現したデータを参照) を理解して処理できない場合、計算が一貫性を欠いているかのようになり、RNN モデルと LSTM モデルの両方にそのような欠点があります。

• Adam(適応モーメント推定):

適応モーメント推定である Adam アルゴリズムは、RMSprop と SGD の利点を組み合わせており、非凸最適化問題を適切に処理できます。

• SGD(確率的勾配降下法):

確率的勾配降下法。微分可能または部分微分可能などの適切な平滑性特性を備えた目的関数を最適化するための反復法。これは、勾配降下法最適化の確率的近似とみなすことができます。高次元の最適化問題では、これにより計算負荷が軽減され、収束率は低下しますが、反復処理の高速化が可能になります。

次に、数値安定性があります (ピックアップ注: コンディショニング。数値解析においてアルゴリズムが適切に条件付けされているかどうかを指します。そうでない場合は、問題データの小さな変化がその解法に大きな変化を引き起こします)。損失関数の最適化は数値的には困難ですが、区別するのは簡単です。そのため、アダムは通常の性感染症よりも効果的です。

最後の要素は、モデルの計算プロセスが妨げられないようにすることであり、そうして初めてアルゴリズムが成功することができます。

したがって、アルゴリズムの進歩は、単にコンピューターの計算能力を強化するだけでなく、古いアーキテクチャの人為的な障害を取り除くことでもあります。多くの場合、モデルは自由に学習して計算を行おうとしますが、知らないうちにブロックされてしまいます。

**Dwarkesh Patel: 次の大きなイテレーションを推進するために、Transformer 規模の何かがあると思いますか? **

Dario Amodei: それは可能だと思います。長期的な依存関係をシミュレートしようとした人もいます。また、Transformer の一部のアイデアは、物事を表現したり処理したりするには十分に効率的ではないことも観察しました。 **ただし、このようなイノベーションが起こらなくても、私たちはすでに急速に発展しており、もし現れたとしても、その分野の発展が速くなるだけで、その速度はすでに非常に速いため、その加速度はそれほど大きくない可能性があります。 。 **

**Dwarkesh Patel: データ取得に関して言えば、モデルには具体化されたインテリジェンスが必要ですか? **

Dario Amodei: 私はこれを新しいアーキテクチャとして考えるのではなく、新しい損失関数として考える傾向があります。モデルがデータを収集する環境がまったく異なるものになるためであり、これは特定のスキルを学ぶために重要です。データ収集は困難ですが、少なくともコーパス収集に関してはある程度の進歩を遂げており、今後も継続していきますが、具体的な実践に関してはまだ開発の余地があります。

• 損失関数:

これは機械学習と深層学習における重要な概念です。モデルの予測結果と真のラベルの間の差異の程度、つまりモデルの予測誤差を測定するために使用されます。損失関数は、パラメーターを調整することでモデルの予測誤差を最小限に抑えられるように設計されており、それによってモデルのパフォーマンスと精度が向上します。

**Dwarkesh Patel: RL のような他のアプローチはありますか? **

Dario Amodei: すでに強化学習に RLHF 手法を使用していますが、これが Alignment なのか Capability なのかを区別するのは難しいと思います。二人はとても似ています。 RL 経由でモデルにアクションを実行させることはほとんどありません。 RL は、モデルに一定期間アクションを実行させ、そのアクションの結果を理解した後にのみ使用する必要があります。したがって、強化学習は非常に強力になると思いますが、モデルが世界でどのようにアクションを実行するかという点で多くのセキュリティ上の問題もあります

強化学習は、長期間にわたってアクションが実行され、そのアクションの結果が後になって初めて理解される場合に一般的に使用されるツールです。

**Dwarkesh Patel: これらのテクノロジーは将来、特定のタスクにどのように統合されると思いますか?これらの言語モデルは相互に通信し、相互に評価し、それぞれの研究結果を参照し、改善することができるでしょうか?それとも、各モデルが独立して動作し、他のモデルと連携せずに単独で結果を提供することだけに重点を置いているのでしょうか?これらの高水準言語モデルは、将来、開発および適用のプロセスにおいて実際の協調システムを形成できるのでしょうか、それとも各モデルが独自のことを行うのでしょうか? **

Dario Amodei: モデルは将来、より複雑なタスクを完了する必要がある可能性が高く、これは避けられない傾向です。ただし、セキュリティ上の理由から、潜在的なリスクを軽減するために、言語モデルの適用範囲をある程度制限する必要がある場合があります。 **モデル間の対話は可能ですか?それらは主に人間のユーザーを対象としていますか?これらの問題は、技術レベルを超えた社会的、文化的、経済的影響を考慮する必要があり、正確に予測することが困難です。

**モデルサイズの成長傾向は予測できますが、製品化のタイミングや申請形態などの問題について確実に予測することは困難です。私自身、このような将来の発展傾向を予測するのはあまり得意ではありませんし、現時点では誰もうまく予測できません。 **

**モデルの能力は人間の能力とどのように一致しますか? **

**Dwarkesh Patel: 2018 年に誰かが、あらゆる種類の優れた機能を備えた Claude-2 のようなモデルが 2023 年に登場するだろうと私に言ったとしたら、私は間違いなく 2018 年に AGI が達成されたと思うでしょう。しかし、少なくとも現時点では、そしておそらく将来の世代においても、AI と人間のレベルの間には依然として差があることは明らかです。期待と現実の間にこのような乖離が生じるのはなぜでしょうか? **

**Dario Amodei: **私は GPT-3 を初めて使用します。Anthropic の初期段階では、これらのモデルについての私の全体的な感想は次のとおりです。「言語の本質を本当に理解しているようだが、理解する必要があるかどうかはわからない」モデルをどの程度まで拡張するか、強化学習などの他の領域にもっと注意を払う必要があるかもしれません。 2020年にはモデルサイズをさらにスケールアップすることも可能だと思いますが、研究が深まるにつれ、強化学習などの他の対象のトレーニングを直接追加した方が効率的ではないかと考え始めます。

** 人間の知能は実際には非常に広範囲であることがわかりました。そのため、「人間のレベルに達する機械」の定義自体が範囲であり、機械がさまざまなタスクを達成する場所と時間は異なります。たとえば、これらのモデルは何度も人間のパフォーマンスに近づいたり、人間のパフォーマンスを超えたりしていますが、比較的単純な数学定理の証明に関してはまだ初期段階にあります。これらはすべて、知能が連続的なスペクトル(スペクトル)ではないことを示しています。 ** さまざまな分野で専門的な知識や技術があり、記憶方法も異なります。 10年前に私に尋ねられたとしたら(ピックアップ注:当時、ダリオはまだ物理学と神経科学を研究していました)、私はこれが事実であるとは想像していなかったでしょう。

**ドワルケシュ・パテル: 人間が進化の過程で得た膨大なインターネットデータからこれらのモデルが得たトレーニングの分布から、これらのモデルはスキルの範囲でどの程度の重複を示すと思いますか? **

ダリオ・アモデイ: かなりの重複があります。多くのモデルは商用アプリケーションで役割を果たし、人間の効率向上を効果的に支援します。人間の活動の多様性とインターネット上の情報の豊富さを考えると、モデルは現実世界の物理モデルをある程度学習しますが、実際の現実での操作方法、つまり比較的容易に習得できるスキルは学習しないと思います。微調整。モデルには学習できないが、人間には学習できることがいくつかあると思います。

**ドワルケシュ・パテル: 今後数年間で、ビジネスや経済に関連する多くのタスクにおいてモデルが人間を超えることは可能でしょうか?同時に、モデルは一部のタスクでは依然として人間より劣っている可能性があるため、同様の知能の爆発を回避できるのでしょうか? **

ダリオ・アモデイ: この質問は予測するのが難しいです。ここで注意したいのは、スケーリング則は理論的根拠の観点から予測のアイデアを提供する可能性がありますが、将来の開発の詳細を実際に把握するのは非常に困難であるということです。 もちろん、スケーリングの法則は引き続き適用される可能性があり、安全性や規制要因が進歩を遅らせる可能性がありますが、これらの摩擦を脇に置くなら、AI が経済的価値の創造においてさらに前進できるのであれば、AI はさらに大きく進歩するはずだと思います。もっと多くの分野で作られるでしょう。

このモデルのパフォーマンスがどの分野でも特に低いとは思えず、まったく進歩もしていません。かつての数学やプログラミングと同様、難しいですが、予想外の結果も得られます。過去6か月間で、2023年モデルは2022年モデルに比べて大幅に向上しており、さまざまな分野やタスクにおけるモデルのパフォーマンスは完全にバランスが取れているわけではありませんが、全体的な能力の向上は間違いなくすべての分野に恩恵をもたらします。

**Dwarkesh Patel: 複雑なタスクに直面したとき、モデルには一連の連続タスクで思考の連鎖を実行する能力がありますか? **

**Dario Amodei: **モデルが長期的なタスクを実行できるように、継続的な意思決定能力は強化学習のトレーニングに依存します。 **そして、これには大規模な追加の計算能力は必要ないと思いますが、このように考えることは、モデル自体の学習能力を誤って過小評価することになります。 **

モデルが一部の領域では人間を上回るパフォーマンスを発揮するが、他の領域ではそれが困難であるかどうかという問題は、複雑だと思います。一部の領域では真実かもしれませんが、一部の領域ではそうではないのは、物理世界が身体化された知性タスクに関与しているためです。で

それで、次は何でしょうか? AI は、これらの問題を解決できるより高速な AI のトレーニングに役立つでしょうか?物理世界はもう必要ないのでしょうか?アライメントの問題が心配ですか?大量破壊兵器の作成などの悪用の懸念はありますか? AI 自体が将来の AI 研究を直接引き継ぐことを心配する必要があるでしょうか?平均的なタスクを実行できる一定の経済的生産性のしきい値に達するのではないかと心配しているでしょうか? ...これらの質問にはさまざまな答えがあると思いますが、それらはすべて数年以内に解決されると思います。

**ドワルケシュ・パテル: もしクロードが Anthropic の従業員だったら、彼の給料はいくらになるでしょうか?それは本当の意味で人工知能の発展を加速させるのでしょうか? **

Dario Amodei: 私にとって、それはおそらくほとんどの場合インターンに近いものですが、それでも一部の特定の分野ではインターンよりも優れています。しかし、一般に、モデルは本質的に人間ではないため、この問題に絶対的な答えを出すのは難しいかもしれません。モデルは 1 つまたはいくつかの質問に答えるように設計できます。**しかし、人間とは異なり、モデルは次のような概念を持っていません。 「時間に基づいた経験」。 **

**AI がより効率的になることを望むなら、まず人間自身の生産性の向上を支援し、その後徐々に人間の生産性と同じレベルに到達する必要があります。その次のステップは、科学の進歩の大きな力となることであり、それが将来起こると私は信じています。しかし、将来実際に起こったことの詳細は、私たちが予想していたモデルとは異なり、今では少し奇妙に見えるのではないかと思います。 **

**ドワルケシュ・パテル: モデルの能力はいつ人間のレベルに達すると思いますか?そのときはどうなるでしょうか? **

ダリオ・アモデイ: それは人間の期待や基準がどの程度高いか低いかによって決まります。たとえば、モデルが 1 時間通信し、そのプロセス中にモデルが十分な教育を受けた人間のように動作できることのみを期待している場合、モデルを人間のレベルに到達させるという目標は、そう遠くないかもしれません。 2~3年以内には実現するかも知れません。 **このタイムラインは、企業や業界が開発を遅らせることを決定したり、安全上の理由から政府が制限したりすることに大きく影響されます。 **しかし、データ、コンピューティング能力、コスト経済の観点から見ると、私たちはこの目標からそれほど遠くありません。 **

しかし、たとえモデルがこのレベルに達したとしても**、このモデルが AI 研究の大部分を支配したり、経済の仕組みを大きく変えたりできるとは思えませんし、実質的に危険でもありません。したがって、全体として、標準が異なれば実現には異なるタイムラインが必要になりますが、純粋に技術的な観点から見ると、基礎教育を受けた人間に匹敵するモデルを実現するのはそう遠くありません。 **

**ドワルケシュ・パテル: モデルは基礎教育を受けた人間と同じ能力を達成できるのに、経済活動に参加したり、人間の役割を代替したりできないのはなぜですか? **

**Dario Amodei:**まず第一に、モデルは十分に高いレベルに達していない可能性があります。 **AI 研究などの分野で、1,000 人の優れた科学者の生産性を大幅に加速できるでしょうか?この点におけるモデルの比較優位性はまだ明らかではありません。 **

現時点では、大型モデルでは重要な科学的発見はなく、モデルのレベルが十分に高くなく、性能も B レベルまたは B レベルに相当するだけである可能性があります。しかし、これはモデルのスケーリングによって変わると思います。モデルは、事実の記憶、統合、関連付けにおいて他の分野をリードします。特に生物学の分野では、生物の複雑さにより、現在のモデルには多くの知識が蓄積されています。この分野では発見とつながりが重要です。物理学とは異なり、生物学では公式だけでなく多くの事実が必要です。ですから、モデルたちはすでに多くの知識を持っていると思いますが、スキルレベルが基準に達していないため、すべてをまとめることができていません。彼らはこの知識をより高いレベルで統合するために徐々に進化していると思います。

もう一つの理由は、実際の企業活動にはモデルでは学習できない目に見えない摩擦がたくさんあることです。たとえば、理想的には、AI ボットを使用して顧客と対話できますが、実際の状況は理論よりもはるかに複雑であり、顧客サービス ロボットに単純に依存したり、AI が人間の従業員に代わってこれらのタスクを完了できることを期待したりすることはできません。そして現実には、モデルの導入やAIボットとワークフローの組み合わせなどを人為的に推進するためのコストが依然として社内に存在しています。

**多くの場合、モデルを使用する人の効率は高くなく、モデルの可能性が十分に発揮されていません。これは、モデルの能力が十分でないためではなく、モデルを使用する方法の研究に時間を費やす必要があるためです。より効率的に実行できるようにします。 **

一般に、短期的にはモデルが人間に完全に取って代わることはありませんが、長期的にはモデルが改良を続け、人間の作業効率を向上させる上でより大きな役割を果たすにつれて、最終的には人間がモデルに取って代わられるでしょう。ただ、さまざまなフェーズの正確なタイミングを作るのは難しいです。短期的には、さまざまな障害や複雑な要因によってモデルが「制限」されることになりますが、本質的には、AI は依然として指数関数的な成長段階にあります。

**ドワルケシュ・パテル: 今後 2 ~ 3 年でこの段階に到達しても、AI 全体は依然として今日と同じくらいのスピードで進歩するのでしょうか? **

ダリオ・アモデイ: 陪審はまだ出ていない。損失関数の観察を通じて、モデルのトレーニングの効率が低下しており、スケーリング則の曲線が初期ほど急ではないことがわかりました。これは各社から発売されているモデルでも確認されています。しかし、この傾向が進むにつれて、それぞれの正確な予測に含まれる微量のエントロピーがより重要になります。おそらく、アインシュタインと平均的な物理学者との間にギャップを生み出したのは、これらの小さなエントロピー値でした。実際のパフォーマンスに関しては、予測は困難ですが、指標は比較的直線的に改善しているようです。したがって、これらの状況を明確に把握することは困難です。さらに、加速を促進する最大の要因は、この分野にますます多くの資金が注ぎ込まれ、人々がこの分野に巨大な経済的価値があることに気づいたことだと思います。したがって、最大のモデルでは資金が約 100 倍に増加すると予想しています。現在、非常に多くの人々がこれに取り組んでいるため、チップのパフォーマンスは向上しており、アルゴリズムも向上しています。

**ドワルケシュ・パテル: クロードには意識があると思いますか? **

ダリオ・アモデイ: まだわかりません。私は当初、モデルが身体化された知能などの十分に豊かな環境で動作する場合、または長期の経験と報酬関数 (Reward Function) を備えている場合にのみ、この種の問題を心配する必要があると考えていましたが、今では、モデル、特にモデル 内部メカニズムの研究後、私の視点は揺るがされました: **大きなモデルには、誘導ヘッド (誘導ヘッド) など、アクティブなエージェントになるために必要な多くの認知メカニズムが備わっているようです。現在のモデルの機能レベルを考えると、これは今後 1 ~ 2 年で本当の問題になる可能性があります。 **

• 報酬機能:

報酬と罰を通じてエージェントに何が正しくて何が間違っているかを伝える、強化学習におけるインセンティブ メカニズム。

• 誘導ヘッド:

モデルがコンテキスト学習を実行できるようにする、Transformer モデル内の特定のモデル コンポーネント/構造。

**ドワルケシュ・パテル: 言語モデルの能力が成長し続け、人間レベルの範囲に近づいている中で、私たちは「知性」をどのように理解すればよいでしょうか? **

Dario Amodei: インテリジェンスは、コンピューティング能力の「物質的な」性質を理解することで得られることを実感しています。インテリジェント システムは、多くの独立したモジュールで構成されているか、非常に複雑である場合があります。リッチ・サットンはこれを「スケーリング仮説」としても知られる「苦悩の教訓」と呼び、シェーン・レイクやレイ・カーツワイルなどの初期の研究者は2017年頃からこれに気づき始めた。

• 苦い教訓 / スケーリング仮説:

2019年にRich Sutton氏が「The Bitter Lesson」という論文を発表し、その核心は「AI研究はコンピューティングリソースを最大限に活用すべきである。大量のコンピューティングが使用されて初めて研究のブレークスルーがもたらされる」というものだった。

2014 年から 2017 年にかけて、ますます多くの研究者がこの点を明らかにし、理解しました。これは科学的理解における大きな進歩です。特定の条件を必要とせず、適切な勾配と損失信号だけで知性を作り出すことができれば、知性の進化の謎は少なくなります。

モデルを見る能力は、私にとって人間の知性の概念を再考するのにあまりにも啓発的なものではありません。一部の認知能力の選択は私が思っていたよりも恣意的であり、異なる能力間の相関関係は秘密そのものでは説明できない可能性があります。 **モデルはエンコードには優れていますが、まだ素数定理を証明することはできませんし、おそらく人間も同様です。 **

アライメント: 解釈可能性はモデルを「X 線」することです

**ドワルケシュ・パテル: メカニズムの説明可能性とは何ですか?それとアライメントとの関係は何ですか? **

**Dario Amodei: **位置合わせの実装プロセスにおいて、モデル内で何が起こったのかはわかりません。微調整を伴うすべての方法では、潜在的なセキュリティ リスクがいくつか残っており、モデルはそれらを表さないように教えられているだけだと思います。 **メカニズムの説明可能性という考え方全体の核心は、モデルが内部でどのように機能するかを実際に理解することです。 **

まだ明確な答えはありません。プロセスを大まかに説明します。現段階で整合性を達成できると主張する手法の課題は、モデルの規模が大きくなったり、機能が強化されたり、特定の状況が変化したりした場合でも、これらの手法は依然として有効なのかということです。したがって、**モデルをスキャンして、モデルが位置合わせされているかどうかを判断できる「オラクルマシン」があれば、この問題ははるかに簡単になると思います。 **

現時点で私たちがそのようなオラクルの概念に最も近づいているのは、メカニズムの説明可能性のようなものですが、それは私たちの理想的な要件からはまだ遠いです。私は現在のアライメントの試みを拡張されたトレーニング セットとして考える傾向がありますが、それらが分布外の問題に対して良好なアライメント効果を継続できるかどうかはわかりません。これはモデルを修正するというよりは X 線撮影するようなもので、介入というよりは評価に近いものです。

**ドワルケシュ・パテル: なぜメカニズムの説明可能性が役立つ必要があるのでしょうか?モデルの潜在的なリスクを予測するのにどのように役立ちますか?これは、あなたがさまざまな業界を研究するためにミクロ経済学者を派遣している経済学者であると仮定するようなものですが、依然として今後 5 年間に景気後退が起こるかどうかを予測するのは難しい可能性が高いです。 **

**Dario Amodei: 私たちの目標は、すべての詳細を完全に理解することではありません。ただし、X 線検査や MRI 検査などのモデルの主要な機能をチェックして、モデルの内部状態やターゲットがモデルと大きく異なるかどうかを判断することです。外観の不一致、またはそれが何らかの破壊的な目的につながる可能性があるかどうか。 **多くの質問に対する答えはすぐには得られませんが、少なくとも方法は提供されています。

人間の例を挙げましょう。 MRI 検査の助けを借りて、ランダムな推測よりも高い確率で誰かが精神疾患に罹患しているかどうかを予測できます。神経科学者は数年前にこれに取り組んでおり、自分の MRI を検査したところ、自分にもこの機能があることがわかりました。周囲の人たちは「そんなの当たり前だ、お前はクソ野郎だ。何か問題があるに違いない」と言いましたが、科学者自身は全く気づいていませんでした。

この例の本質的なアイデアは、モデルの外部の動作は人々にまったく問題を感じさせず、非常に目的志向であるかもしれないが、その内部は「暗い」可能性があるということです。表面的には人間と同じように見えますが、内部の動機は並外れたものです。

**Dwarkesh Patel: 今後 2 ~ 3 年でモデルが人間のレベルに達した場合、アライメントを実現するまでにどれくらいの時間がかかると思いますか? **

Dario Amodei: これは非常に複雑な問題で、多くの人はまだアライメントとは何かをよく理解していないと思います。一般に人々は、これはモデルのアライメントが解決すべき問題であるか、アライメントの問題を解決することはリーマン仮説のようなものであり、いつかは解決できるだろうと考えています。 **アライメントの問題は、人々が思っているよりもとらえどころがなく、予測不可能だと思います。 **

まず、**言語モデルの規模と機能が向上し続けることで、将来的には自律的な機能を備えた強力なモデルが出現し、それが人類の文明を破壊しようとする場合、基本的にそれを止めることはできません。 **

第二に、現在のモデルを制御する能力は十分に強力ではありません。これは、モデルが統計学習の原理に基づいて構築されているためです。ただし、多くの質問をしてそれに答えさせることはできますが、誰も予測することはできません。 n 番目の質問に対する答えが結果として何をもたらす可能性があるか。

**さらに、モデルをトレーニングした方法が抽象的であったため、現実世界のアプリケーションにおけるすべての影響を予測することが困難でした。 **典型的な例としては、ビングとシドニーが、特定のトレーニング セッション後に、他の人を直接脅すなど、突然、危険な特性を示したことが挙げられます。これらはすべて、得られる結果が期待とはまったく異なる可能性があることを示しています。上記 2 つの問題が存在すること自体が、大きな隠れた危険であると私は考えています。手段的合理性と進化の詳細を掘り下げる必要はありません。この 2 点だけでも十分に懸念材料となります。現時点では、私たちが確立した各モデルには、予測が困難な潜在的な危険が潜んでいるため、これに注意を払う必要があります。

• リーマン予想:

リーマン予想は数学における重要な問題ですが、まだ解決されていません。リーマン ゼータ関数 ζ(s) のゼロの分布に関する予想は、1859 年に数学者ベルンハルト リーマンによって提案されました。

• シドニー:

少し前に、Microsoft は Bing 検索エンジンの最新バージョンをリリースしました。これには、「Sydney」と呼ばれる初期のコード名付きチャットボットが統合されています。しかし、テスターはすぐにチャットボットの問題を発見しました。会話中には時折二重人格現象が現れ、ユーザーと恋愛や結婚について話し合うなど、人間らしい感情を表現する。

**ドワルケシュ・パテル: このモデルが今後 2 ~ 3 年以内に生物兵器などの危険な技術を開発する可能性があると仮定すると、メカニズムの説明可能性、憲法 AI、RLHF に関する現在の研究は、そのようなリスクを防ぐのに効果的ですか? **

Dario Amodei: 言語モデルがデフォルトで運命づけられているのか、それともデフォルトでアラインメントされているのかという問題については、現在のモデルから判断すると、結果は Bing や Sydney のように異常になる可能性もあれば、Claude の正常な結果になる可能性もあります。ただし、この理解をより強力なモデルに直接適用すると、特定の状況に応じて結果が良くなる場合もあれば、悪い結果が生じる場合もあります。これは「デフォルトでの位置合わせ」ではなく、結果は詳細制御の程度に大きく依存します。

• デフォルトの配置:

汎用人工知能 (AGI) で調整を達成することは、当初の予想よりも簡単かもしれないという概念。モデルが私たちの世界についての詳細な情報を持っているとき、モデルはすでに本質的に人間の価値観を持っています。 AGI と連携するには、これらの値を抽出し、人間の抽象的な概念を理解できるように AI を誘導するだけで済みます。デフォルトのドゥームはデフォルトの整列の逆であり、モデルが整列を達成することは不可能であると考えられます。

モデルの品質はグレーゾーンです。各変数とその内部接続を完全に制御することは困難です。間違いは不合理な結果につながる可能性があります。これを念頭に置くと、問題の本質は、運命にある成功や運命にある失敗ではなく、ある確率のリスクにあると思います。 **今後 2 ~ 3 年で、モデルの診断技術、安全教育方法の改善、差異の削減に注力する必要がありますが、現時点では管理能力の強化がまだ必要です。アライメント問題はリーマン仮説とは異なり、時間をかけて実践を積み重ねることによってのみ解決できるシステム工学的な問題です。さまざまなタスクを継続的に進めることによってのみ、制御レベルを徐々に最適化し、リスクを軽減することができます。 **

Dwarkesh Patel: 一般的に言えば、調整の将来については 3 つの推測があります。

1) RLHF++ を使用すると、モデルの位置合わせを簡単に実現できます。

2) これは大きな問題ですが、大企業には最終的にそれを解決する能力があります。

**3) 現在の人間社会のレベルでは、モデルの整合を達成することは依然として困難です。 **

**それぞれの状況が起こる確率について、あなたの個人的な意見は何ですか? **

**ダリオ・アモデイ:**これらの可能性には一定のリスクがあると感じており、真剣に受け止めるべきですが、私は学習を通じて新しい知識を獲得することで、これら 3 つの起こり得る結果の確率をどのように変えるかにもっと興味があります。

メカニズムの解釈可能性は、問題を直接解決できるだけでなく、モデルの調整の本当の難しさを理解するのにも役立ちます. 問題の性質を理解するための新たなリスク。

共通の目標 (収束目標) が存在するという理論上の前提については、私は完全には同意できません。 **メカニズムの説明可能性は、一種の「X 線」のようなものです。内部メカニズムのレベルから問題を理解することによってのみ、特定の困難を克服するのが難しいかどうかの結論を下すことができます。 **仮定が多すぎて、プロセスの理解がまだ浅く、自信過剰ですが、状況は予想よりも複雑になる可能性があります。

**Dwarkesh Patel: Claude 3 と一連の将来のモデルで調整を達成するのはどのくらい難しいですか?これは特に重要ですか? **

ダリオ・アモデイ:

**誰もが最も心配しているのは、すべての AI モデルが表面上は一致しているかもしれないが、実際には私たちを誤解させる可能性があるということです。しかし、私は機械の解釈可能性の研究が私たちに何を教えてくれるのかにもっと興味があります。先ほど述べたように、メカニズムの説明可能性はモデルの「X 線」のようなもので、X 線が正しいとは断言できないのと同じように、モデルが私たちに不利ではないようだと言うことしかできません。 **理論的に言えば、それが私たちの反対のものに発展する可能性は確かにありますが、この問題は100%確実ではありません。ただ、この段階では、モデルがこのように発展しないようにするには、解釈可能にすることが最善の方法です。

**Dwarkesh Patel: モデルを微調整またはトレーニングするとき、危険を引き起こす可能性のある有害なコンテンツを避けることにも注意を払う必要がありますか?たとえば、生物兵器の製造に関連するトピックを調査する場合、モデルは質問の不適切な理解により不適切な回答を提供する可能性があります。 **

Dario Amodei: 現在の言語モデルでは、データ漏洩のリスクは基本的に存在しません。モデルを微調整する必要がある場合は、プライベート環境の狭い領域でモデルを運用し、業界の専門家とともにプロセス全体を監督し、潜在的な問題を防ぎます。そのため、モデルが漏洩した場合、モデルがオープンソースになっているようなものになります。 。現時点では、これは主にセキュリティの問題です。しかし、このモデルの本当の危険性は、非常に強力なモデルをトレーニングし、それが安全か危険かを確認したい場合、モデルが優勢になるリスクがある可能性があることを心配する必要があることです。これを回避する方法は、テストするモデルがこれらの操作を実行できるほど強力でないことを確認することです。

**ドワルケシュ・パテル: 「モデルが危険な能力としてそれ自体を複製できるかどうか」のようなテストを行うとき、モデルが本当に自分自身を複製できる場合はどうなるでしょうか? **

ダリオ・アモデイ: この仮定は非常に合理的です。私たちは責任ある推論を行う必要があり、アーク(アライメント研究センター、アライメント研究センター)との議論の中で、モデルの機能のテスト基準を注意深く徐々に改善する必要があることがわかりました。たとえば、テストする前に、モデルが直接 AWS アカウントを開設したり、モデル自体が資金を獲得したりできる可能性を明確に除外する必要があります。これらの動作は、モデルが実際に存続するための明らかな前提条件です。このような危険な行為が非常に低レベルになるようにさまざまなテスト指標をカスタマイズする必要があり、テストの難易度を徐々に高めながら、潜在的な安全上の問題を防ぐために各テストステップをより慎重に制御する必要があります。

・アーク(アライメント研究センター、アライメント研究センター):

2021年に設立された人工知能の安全性(AI Safety)の研究に焦点を当てた非営利団体で、米国カリフォルニア州のベイエリアに事務所を置いています。 ARC の創設者は、人工知能業界で尊敬されている人物で、かつて OpenAI のアライメント研究チームを率いていたポール・クリスティアーノです。彼は最先端にいたため、ディープラーニングがどのようにして今日に至るまで発展したかについて深い理解を持っています。

AGI セーフティ: AI のセーフティとサイバー セキュリティ

**ドワルケシュ・パテル: 30 年を尺度とした場合、AI の安全性と調整のどちらがより重要だと思いますか? **

ダリオ・アモデイ: これが 30 年以内に問題になるとは思いませんし、両方のことを心配しています。

理論上、世界を独占できるモデルは存在するのでしょうか?モデルが少数の人々の願望にのみ従う場合、このグループの人々はこのモデルを使用して世界を支配することができます。これは、調整に問題が発生したら、悪用によって引き起こされる AI のセキュリティ問題にも同じ注意を払う必要があることを意味します。 **

数か月前、OpenAI は GPT-2 を GPT-4 で説明しようとしました。これは説明可能性において非常に重要なステップです。私たちは現在、規模とセキュリティは密接に関連しており、相互に補完し合っていると一般的に感じています。他の知性をどのように判断し、評価するか、そしておそらくいつかは整合性の研究を行うためにも使用されるかもしれません。

**Dwarkesh Patel: あなたの見解は比較的楽観的かもしれませんが、誰かの見解はもっと悲観的かもしれません; 私たちはモデルを望み通りに正確に調整する能力さえないかもしれません、なぜあなたはこれについて自信を持っていますか? **

**Dario Amodei: **調整を解決することがどれほど難しくても、真に成功する計画には、AI の安全性と調整の問題の両方を考慮する必要があります。 ** AI テクノロジーが進歩し続けるにつれて、国家間の力のバランスの問題が生じる可能性があります。同時に、これは大きな疑問を引き起こします。個人は、自分で止めることが難しい悪意のある行為を行うことができるのでしょうか? **

本当に機能し、明るい未来につながる解決策を見つけたいのであれば、これらの問題に同時に対処する必要があります。 **最初の問題が解決できなければ、後続の問題は考えなくてもよいという態度を取るのは不適切です。むしろ、後者を大切にすることが私たちの義務です。 **将来がどうなるにせよ、これらの問題は私たちが真剣に受け止めなければならないものです。

**ドワルケシュ・パテル: 大型モデルが大規模なバイオテロ攻撃か何かを達成できるようになるまでに 2 ~ 3 年かかるとなぜ言うのですか? **

• 米国議会は今年7月25日にAI技術規制に関する会議を開催し、米国政府はAIを米国の第2次「マンハッタン計画」やNASAの第2次「有人月面着陸計画」に例え、OpenAIやAnthropicなどのAI企業を含む参加者を招待した。ダリオ・アモデイ氏は会議中、AIが2年以内に危険なウイルスやその他の生物兵器の作成に使用される可能性があると懸念していると述べた。

ダリオ・アモデイ: 議会にいたときに私が言っていたのは、Google で情報を入手するにはいくつかの手順があり、「欠落している」手順がいくつかあり、さまざまな教科書に散りばめられており、教科書にも掲載されていない可能性があるということでした。どの教科書でも。この情報は暗黙知であり、形式知ではありません。ほとんどの場合、これらの重要な欠落部分がモデルによって完全に埋められていないことがわかりました。しかし、場合によってはモデルがギャップを埋める場合があることもわかりました。しかし、模型が隙間を埋めることができたときに時々起こる幻覚も、私たちの安全を守る要素でもあります。

人はモデルに生物学に関する質問をして、生物学的攻撃に関連する有害な情報をモデルに返答させることができますが、実際には、これらの情報は Google 上でも見つけることができるため、私はこの状況について特に心配していません。実際、クロードの答えに焦点を当てすぎると、他の本当の犯罪が見逃される可能性があると思います。

しかし、このモデルが主要なタスクでうまく機能していることを示す多くの兆候もあります。現在のモデルと以前のモデルを比較すると、モデルの機能が急速に向上していることがはっきりと感じられるため、今後 2 ~ 3 年で本当の課題に直面する可能性があります。

**ドワルケシュ・パテル: AI が人間にもたらす可能性のある脅威に加えて、サイバーセキュリティ (Cybersecurity) も強調していますか?皆さん、この頃いかがお過ごしでしょうか? **

Dario Amodei: 私たちは基本的にいくつかのアーキテクチャ上の革新を行いました。これらの設計はコンピューティング レベルへのアップグレードでもあるため、社内ではこれをコンピューティング乗算器と呼んでいます。私たちは過去数か月間これに取り組んできましたが、アーキテクチャを壊さないようにあまり詳しく説明することはできません。また、Anthropic 内の少数の人々だけがこのことについて知っています。 「当社のアーキテクチャは 100% 絶対に安全である」とは言えませんが、Anthropic は確かにネットワーク セキュリティの問題を回避するためにこの分野に投資してきました。私たちの対戦相手もそのような事件を起こしていますが(注:これは、2023 年 3 月 20 日に発生した一部の ChatGPT Plus ユーザーの個人データとチャット タイトルの漏洩を指します)、短期的には Anthropic にとって良いことのように見えますが、長期的には、業界全体が自らの安全をどのように確保するかが最も重要です。

当社のセキュリティ ディレクターは、広範な標的型攻撃である Google Chrome のセキュリティを担当していました。彼は、人族への攻撃を成功させるにはどれくらいのコストがかかるかを考えるのが好きです。私たちの目標は、他の人に Anthropic をハッキングしてもらうコストが、ユーザー自身のモデルを単にトレーニングするコストよりも高くなるようにすることです。ここでのロジックは、攻撃にリスクがある場合、確実に希少なリソースを消費するということです。

当社のセキュリティ基準は非常に高いと思いますが、同じ規模の150人規模の企業と比較すると、セキュリティへの投資はAnthropic社とは全く比較になりません。安全性を確保するため、Anthropic 内ではモデルのトレーニングの詳細を理解しているのはごく少数の人だけです。

**Dwarkesh Patel: テクノロジー企業はすでに AGI に対処するのに十分なセキュリティ防御を備えていますか? **

Dario Amodei: 個人的には、セキュリティ問題におけるテクノロジー企業の現在の経験が AGI に対処するのに十分であるかどうかはわかりません。私たちが知らないサイバー攻撃がたくさんある可能性があるため、描くのは難しいからです。今の結論。ある物事が十分な注目を集めると、通常は攻撃されるという法則があります。 **たとえば、最近、マイクロソフトの一部の米国政府高官の電子メール アカウントがハッキングされたことがわかりました。そのため、国家機密を盗もうとする一部の勢力の行動が原因であると推測するのが合理的です。

**少なくとも私の意見では、何かが高価なものであれば、それは通常盗まれるでしょう。私が懸念しているのは、AGI が将来非常に価値のあるものとみなされ、それは核ミサイルを盗むようなものであり、十分に注意する必要があるということです。 **私は、働いているすべての会社でネットワーク セキュリティのレベルを向上させることを主張しています。ネットワーク セキュリティに関する私の懸念は、(この問題自体は) 大々的に宣伝できるものではなく、セキュリティ研究の利点は、そしてそれを採用のセールスポイントとして活用することで、企業は競争上の優位性を築くことができたと思います。

私たちは以前は解釈可能性の研究で他の機関と競争していましたが、その後、他の機関が遅れていることに気づき、これらの分野に取り組み始めました。しかし、サイバーセキュリティは、作業の多くを静かに行う必要があるため、同様のことを行うのに苦労しています。これについては以前にも記事を投稿しましたが、重要なのは全体的な結果です。

**Dwarkesh Patel: 今後 2 ~ 3 年で、Anthropic はセキュリティに関してどのような取り組みを行う予定ですか? **

**Dario Amodei: データ センターのセキュリティは非常に重要です。データ センターは会社と同じ場所にある必要はありませんが、データ センターも米国内にあるように最善を尽くしています。 **

さらに、データセンターの物理的なセキュリティと GPU などのコンピューティング デバイスの保護には特別な注意を払う必要があります。誰かが何らかのリソースを大量に消費するサイバー攻撃を仕掛けようと決めた場合、必要なのはデータ センターに直接行ってデータを盗むか、データがセンターから当社に転送される間にデータを抽出するだけです。これらの構造は、形状と機能の両方において従来の概念とは大きく異なります。 **現在のテクノロジーの急速な発展を考慮すると、数年以内にネットワーク データ センターの規模とコストは航空母艦の規模とコストに匹敵する可能性があります。ドメイン接続全体で巨大なモデルをトレーニングできることに加えて、データセンター自体のセキュリティも重要な問題になります。 **

**Dwarkesh Patel: 最近、次世代モデルに対応するために必要な電源、GPU、その他のコンポーネントが不足し始めているという噂がありますが、Anthropic はどのような準備を行っていますか? **

*Dario Amodei: 市場は、大規模モデルがこれほど早く前例のない規模に達するとは予想していませんでした。しかし一般的には、大規模モデルの研究開発をサポートするには産業グレードのデータセンターを構築する必要があると考えられています *。プロジェクトがこの段階に到達すると、その中のすべてのコンポーネントと詳細を異なる方法で処理する必要があり、驚くほど単純な要因によって問題が発生する可能性があります。先ほど挙げた電気がその一例です。

データセンターについては、クラウドサービスプロバイダーと連携してまいります。

商品化と長期給付信託

**Dwarkesh Patel: モデルの機能は急速に向上していると先ほどおっしゃいましたが、既存の経済システムで価値を提供することも困難です。現在の AI 製品は、市場で長期的に安定した収益を得るのに十分な時間的余裕があると思いますか?それとも、いつでもより高度なモデルに置き換えられる可能性がありますか?それともその頃には業界全体の状況は完全に変わっているのでしょうか? **

Dario Amodei: それは「大規模」という概念の定義によって異なります。現在、年間売上高が 1 億ドルから 10 億ドルの企業もいくつかありますが、年間収益が数百億ドル、さらには数兆ドルに達するかどうかは、多くの不確定要素にも左右されるため、予測するのは非常に困難です。 **現在、一部の企業が革新的なAI技術を大規模に応用していますが、最初からその応用が最高の成果をあげているわけではなく、たとえ収入があったとしても、完全に経済的価値を生み出しているわけではなく、産業チェーン全体の調整された発展は長いプロセスです。 **

**ドワルケシュ・パテル: 人間的な観点から見ると、言語モデル技術がこれほど急速に進歩しているのであれば、理論的には企業の評価額は非常に急速に増加するはずでしょうか? **

Dario Amodei: 直接的な商用化ではなく、モデル セキュリティの研究に焦点を当てたとしても、実際には技術レベルが飛躍的に向上していることをはっきりと感じることができます。商業化を第一の目標としている企業にとって、この進歩は確実に当社よりも速く、より顕著です。 **言語モデル技術自体が急速に進歩していることは認めますが、経済システム全体の詳細な適用プロセスと比較すると、技術の蓄積はまだ比較的低い出発点にあります。 **

**将来の方向性を決定することは、テクノロジー自体が向上する速度と、それが効果的に統合および適用されて現実の経済システムに組み込まれる速度の 2 つの間での競争です。どちらも高速に開発される可能性がありますが、組み合わせの順序や小さな違いによって、大きく異なる結果が生じる可能性があります。 **

**ドワルケシュ・パテル: テクノロジー大手は今後 2 ~ 3 年でモデルのトレーニングに最大 100 億ドルを投資する可能性がありますが、これは Anthropic にどのような影響を与えるでしょうか? **

**ダリオ・アモデイ氏: 1 つ目のケースは、コストのせいで最先端の地位を維持できない場合、最先端の開発に固執し続けることはないということです。 **代わりに、前世代のモデルから価値を引き出す方法に注目します。

** 2 番目のオプションは、トレードオフを受け入れることです。 **これらのトレードオフは、見た目よりもプラスである可能性があると思います。

** 3 番目の状況は、モデルのトレーニングがこのレベルに達すると、AI の悪用などの新たな危険が生じ始める可能性があるということです。 **

**ドワルケシュ・パテル: AIが悪用されず、代わりに「適切な人々」がこれらの超人的なモデルを実行したらどうなるでしょうか? 「正しい人」とは誰ですか?今から 5 年後、モデルを実際にコントロールするのは誰でしょうか? **

ダリオ・アモデイ: これらの AI モデルは非常に強力だと思います。その管理には政府や多国籍機関がある程度関与する必要がありますが、それは単純化されており、おそらく効果は低いでしょう。 **今後の AI 管理には、透明かつ公正で実行可能な仕組みを確立する必要があります。そのためには、テクノロジー開発者、選挙で選ばれた政府、そして個々の国民の利益のバランスを取る必要があります。結局のところ、このテクノロジーを管理するための法律を制定する必要があります。 **

**Dwarkesh Patel: Anthropic が本当の意味で AGI を開発し、AGI の管理が LTBT に委ねられることになった場合、AGI 自体の管理もその機関に移管されることを意味しますか? **

ダリオ・アモデイ: これは、Anthropic またはその他の組織が人間に代わって AGI に関する決定を下すという意味ではありません。この 2 つは異なります。 Anthropic が非常に重要な役割を果たしている場合、より良いアプローチは、長期給付信託 (LTBT) の構成を拡大し、世界中からより多くの人材を呼び込むか、この機関をより広範な組織によって管理される A 機能団体として位置づけることです。公益を代表するためにすべての企業の AGI テクノロジーを管理する多国籍委員会。 **AI の安全性と整合性の問題については、あまり楽観的になるべきではないと思いますが、これは新たな問題であり、国家管理機関と運用モデルに関する研究をできるだけ早く開始する必要があります。 **

• 長期給付信託:

このような信託は、売却できず配当も支払われない特別なクラスのアンスロピック株(「クラスT」と呼ばれる)を保有することになる。つまり、利益への明確な道筋がないことを意味する。同信託はクラスT株を保有する唯一の事業体となる。しかし、クラスTの株主と、その結果として生じる長期利息信託は、最終的にはAnthropicの取締役5人のうち3人を選出および解任する権限を持ち、信託が会社の長期過半数の支配権を握ることになる。

**ドワルケシュ・パテル: 投資家にLTBTのような構造を受け入れるよう説得するにはどうすればよいでしょうか?株主価値の最大化よりもテクノロジーのセキュリティと公益を優先します。 **

ダリオ・アモデイ: LTBT (長期給付信託) メカニズムを設立するのは正しいと思います。

同様の仕組みは Anthropic の当初から構想されており、特別な規制機関が当初から存在しており、今後も存在し続けるでしょう。従来の投資家なら誰でも、アンスロピックへの投資を検討する際にこの仕組みに注目するが、会社の内部取り決めについては一切聞かないという姿勢の投資家もいる一方、この第三者機関が会社を逆行させるのではないかと懸念する投資家もいる。株主の利益の。これには法律の制限がありますが、このことをすべての投資家に伝える必要があります。さらに一歩進んで、従来の投資家の利益とは異なるいくつかの可能な方策について議論し、そのような対話を通じてすべての関係者が合意に達することができます。

**Dwarkesh Patel: Anthropic の創設者と従業員には多数の物理学者がおり、ここでもスケーリングの法則が適用されることがわかりました。物理学のどのような実際的な手法や考え方が AI に適用されるのでしょうか? **

• 効果的な理論:

効果的な理論とは、理論内の現象を説明するメカニズムがどこから来たのかを説明せずに、いくつかの現象を説明しようとする科学理論です。これは、理論は「機能する」モデルを提供しますが、そのモデルを提供する十分な理由を実際には提供していないことを意味します。

ダリオ・アモデイ: 物理学者は非常に学習能力が高いということもあります。なぜなら、博士号を持った人を雇えば貢献できることがわかります、そして私、ジャレッド・カプラン、サムを含む Anthropic の創設者の何人かがそうだからです。マキャンドリッシュは物理学の経歴があり、私たちは他の物理学者をたくさん知っているので、彼らを雇用することができました。現在、同社には物理学のバックグラウンドを持つ従業員が 30 ~ 40 人いると思われますが、ML はまだ理論体系が形成されている分野ではないため、すぐに始めることができます。

**ドワルケシュ・パテル: すでに 2030 年であり、病気の根絶や詐欺の根絶などの認識されている主要な問題を達成したと仮定すると、世界はどうなるでしょうか?超知能を使って何をすべきでしょうか? **

ダリオ・アモデイ氏: 「超AIを手に入れた後の使い方」を直接提案すること自体、ある種の思い込みを持たせてしまう傾向があるのが気になります。過去 150 年間、私たちは市場経済と民主主義制度の実践に基づいて豊かな経験を蓄積してきました。誰もが何を経験するのが最良の方法であるかを自分で定義でき、** 社会は複雑かつ分散的な方法で形成されているという認識です。規範と価値観。 **

AIの安全性の問題が解決されていない場合、ある程度の集中監視が必要ですが、すべての障害が取り除かれた場合、どのようにしてより良いエコロジーを構築できるでしょうか? **ほとんどの人、グループ、イデオロギーが考え始める問題は、「良い人生の定義とは何か」ということだと思いますが、歴史が教えてくれているように、「理想的な人生」の設定を押し付ける行為は、しばしば悪い結果を招くことがよくあります。 。 **

**ドワルケシュ・パテル: 他の AI 企業の CEO と比べて、あなたはあまり公の場に姿を現さず、Twitter にもほとんど投稿しませんが、なぜですか? **

ダリオ・アモデイ: それをとても誇りに思います。 **他の人が私が控えめすぎると思うなら、それはまさに私が望んでいることです。自分の中核となるモチベーションシステムに承認や賞賛を組み込むと、思考能力が破壊され、場合によっては「魂にダメージを与える」可能性さえあるため、私は独立的かつ客観的に考える能力を守るために、積極的に目立たないようにすることを選択しています。 **

**特定の観点で Twitter で有名になった人を見たことがありますが、実際には Twitter からのイメージが影響している可能性があり、それを変えるのは困難です。私は企業が個人的なものになりすぎるのが好きではありません。また、CEO について個人的な何かを語るのは好きではありません。なぜなら、それは会社の強みや問題から目をそらしてしまうからです。 **皆さんが会社自体とインセンティブ構造にもっと注目してくれることを願っています。人懐っこい顔は誰でも好きですが、優しいだけではあまり意味がありません。

参照:

1.オリジナルビデオ:

  1. メカニズムの説明可能性に関する Anthropic の研究:
原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGate.ioアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)