Cet article est compilé à partir d'une interview en podcast avec le PDG d'Anthropic, Dario Amodei.
Anthropic est la deuxième entreprise du circuit LLM. Elle a été fondée en janvier 2021 par Dario Amodei. En juillet de cette année, Anthropic a lancé le modèle de dernière génération Claude 2. Dario Amodei était auparavant vice-président de la recherche et de la sécurité chez OpenAI. Il a fondé Anthropic parce qu'il pensait que de nombreux problèmes de sécurité dans les grands modèles devaient être résolus de toute urgence. Par conséquent, Anthropic attache une grande importance à la sécurité de l'IA. La vision est pour construire des systèmes d'IA fiables (Reliable), explicables, interprétables et orientables. La plus grande différence entre les routes Anthropic et OpenAI est également leur concentration sur l'interprétabilité.
Dans l'interview, Dario explique l'orientation et l'investissement d'Anthropic dans l'interprétabilité. L'interprétabilité est l'un des moyens importants d'assurer la sécurité du modèle, **similaire à la prise de rayons X et d'examens IRM sur le modèle, permettant aux chercheurs de comprendre ce qui se passe à l'intérieur du modèle et d'identifier les sources possibles de risque. Comprendre vraiment pourquoi la loi d'échelle fonctionne et comment réaliser l'alignement est inséparable de l'interprétabilité. **Dario pense que la sécurité et l'alignement de l'IA sont tout aussi importants. Une fois qu'il y a un problème d'alignement, les problèmes de sécurité de l'IA causés par un abus doivent recevoir la même attention.
Dario pense que la capacité du modèle sera considérablement améliorée dans les 2-3 prochaines années, et pourrait même "prendre le contrôle de la société humaine", mais il ne peut pas vraiment participer aux liens commerciaux et économiques. Ce n'est pas à cause de la capacité de le modèle, mais à cause de diverses frictions invisibles, les gens n'utilisent pas les modèles assez efficacement pour réaliser leur véritable potentiel dans la vie réelle et au travail.
Comparé aux PDG de la plupart des entreprises d'intelligence artificielle, Dario participe à peine aux entretiens publics et exprime rarement ses opinions sur Twitter. Dario a expliqué qu'il s'agissait de son propre choix actif et qu'il protégeait sa capacité à penser de manière indépendante et objective en gardant un profil bas.
Ce qui suit est la table des matières de cet article, et il est recommandé de le lire en combinaison avec les points principaux.
👇
01 Pourquoi la loi d'échelle fonctionne
02 Comment la capacité du modèle sera-t-elle à la hauteur de celle des humains ?
03 Alignement : L'interprétabilité consiste à « radiographier » le modèle
04 AGI Safety : sécurité de l'IA et cybersécurité
05 Commercialisation et fiducie des avantages à long terme
** Pourquoi la loi d'échelle fonctionne-t-elle ? **
**Dwarkesh Patel : D'où vient votre croyance en la loi de mise à l'échelle ? Pourquoi la capacité du modèle devient-elle plus forte à mesure que la taille des données augmente ? **
**Dario Amodei : La loi d'échelle est dans une certaine mesure un résumé empirique. Nous percevons ce phénomène à partir de diverses données et phénomènes, et le résumons en tant que loi d'échelle, mais il n'y a pas d'explication généralement acceptée et particulièrement bonne pour l'expliquer. Expliquez ce que principe essentiel de sa fonction est. **
Si je dois donner une explication, je suppose personnellement que cela peut être similaire à la distribution à longue queue ou à la loi de puissance en physique. Lorsqu'il y a de nombreuses caractéristiques (caractéristiques), les données avec une proportion relativement importante correspondent généralement à des règles et des modèles de base plus dominants, car ces modèles apparaissent souvent, la quantité de données correspondante est naturellement plus, tandis que les données à longue traîne sont principalement certaines règles plus détaillées et plus complexes. ** Par exemple, lorsqu'il s'agit de données liées à la langue, certaines règles de base peuvent être observées dans la plupart des données, telles que les règles grammaticales de base telles que la partie du discours, la structure de l'ordre des mots, etc., et celles à queue relativement longue sont des grammaires complexes.
C'est pourquoi chaque fois que les données augmentent d'un ordre de grandeur, le modèle peut apprendre davantage de règles de comportement. Mais ce que nous ne savons pas, c'est pourquoi il existe une corrélation linéaire parfaite entre les deux. Le scientifique en chef d'Anthropic, Gerard Kaplan, a utilisé la dimension fractale (Fractal Dimension) pour expliquer cette question.Bien sûr, d'autres personnes essaient d'autres méthodes pour vérifier la loi de Sacling, mais nous ne pouvons toujours pas expliquer pourquoi jusqu'à présent.
• Dimension fractale :
Le mathématicien Felix Hausdorff a proposé pour la première fois le concept de dimension fractale en 1918, également connu plus tard sous le nom de dimension Hausdorff. La dimension fractale peut être utilisée pour décrire la structure de relation de caractéristiques cachées dans les données d'apprentissage automatique et fournit un modèle d'explication mathématique derrière l'effet de mise à l'échelle, expliquant ainsi pourquoi les modèles d'IA peuvent améliorer les performances avec l'échelle.
** De plus, même si nous connaissons l'existence de la loi d'échelle, il est difficile de prédire les changements dans les capacités spécifiques du modèle. Dans la recherche de GPT-2 et GPT-3, on ne sait jamais quand le modèle peut apprendre à calculer et à programmer, et ces capacités apparaissent soudainement. ** La seule chose qui peut être prédite est au niveau numérique, comme la valeur de perte, le changement de valeur d'entropie, etc. peut être prédit assez précisément, mais c'est comme si nous pouvions faire des statistiques sur les données météorologiques et prédire le toute la tendance du changement climatique, mais il est difficile de prédire le temps et la température d'un jour spécifique.
**Dwarkesh Patel : Pourquoi un modèle peut-il soudainement avoir une certaine capacité ? Par exemple, il ne comprenait pas l'addition auparavant, mais maintenant il maîtrise la capacité de calculer ? Qu'est-ce qui a causé ce changement ? **
Dario Amodei : C'est une autre question que nous continuons d'explorer. Nous essayons d'utiliser la méthode de l'interprétabilité mécaniste (Mechanistic Interpretability) pour expliquer cette question et expliquer les phénomènes de langage avec une idée similaire à la connexion de circuit.Vous pouvez imaginer ces choses comme des circuits connectés un par un.
Il existe des preuves que lorsqu'un modèle reçoit quelque chose, sa probabilité de donner la bonne réponse augmente soudainement, mais si nous examinons le changement avant que le modèle ne donne réellement la bonne réponse, nous voyons que la probabilité est d'un million Un centième , cent millième a lentement grimpé à un millième. Dans de nombreux cas de ce genre, il semble y avoir un processus graduel en cours que nous n'avons pas observé et que nous n'avons pas encore compris.
Nous ne pouvons pas être sûrs qu'un "circuit" comme "addition" ait toujours existé depuis le premier jour, mais est progressivement passé de faible à fort avec un processus spécifique, afin que le modèle puisse donner la bonne réponse. Ce sont des questions auxquelles nous voulons répondre par l'explicabilité mécaniste.
• Interprétabilité mécaniste :
L'interprétabilité du mécanisme est l'étude de l'ingénierie inverse des réseaux de neurones, qui peut être utilisée pour aider les gens à comprendre plus facilement comment le modèle mappe l'entrée à la sortie, et c'est un moyen de réaliser l'interprétabilité du modèle. L'objectif principal de l'explicabilité des mécanismes est de comprendre l'apprentissage en profondeur en tant que science naturelle, en utilisant la structure et les paramètres du modèle pour expliquer le processus de prise de décision et les résultats de prédiction du modèle, afin que les utilisateurs humains puissent comprendre et vérifier le principe de fonctionnement de le modèle. Ses premiers travaux se sont concentrés sur l'utilisation de méthodes de factorisation matricielle et de visualisation des caractéristiques pour comprendre les représentations au niveau des couches intermédiaires des réseaux visuels, et plus récemment, ils se sont concentrés sur les représentations des réseaux multimodaux, ainsi que sur la compréhension au niveau des voies des algorithmes des réseaux neuronaux.
Anthropic a publié une étude sur l'interprétabilité des mécanismes "Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases".
**Dwarkesh Patel : Y a-t-il des capacités qui ne viennent pas avec la taille du modèle ? **
**Dario Amodei : L'alignement du modèle et les capacités liées à la valeur peuvent ne pas émerger naturellement avec la taille du modèle. ** Une façon de penser est que le processus de formation du modèle consiste essentiellement à prédire et à comprendre le monde, et sa principale responsabilité concerne les faits, et non les opinions ou les valeurs. Mais il y a quelques variables libres ici : quelle action devez-vous entreprendre ? Quel point de vue faut-il adopter ? À quels facteurs devez-vous prêter attention ? Mais il n'y a pas d'étiquette de données de ce type sur laquelle le modèle peut apprendre. Par conséquent, je pense que l'émergence de l'alignement et des valeurs, etc. est peu probable.
**Dwarkesh Patel : Est-il possible qu'avant que la capacité du modèle ne rattrape l'intelligence humaine, les données disponibles pour l'entraînement soient épuisées ? **
**Dario Amodei :**Je pense qu'il est nécessaire de distinguer s'il s'agit d'un problème théorique ou d'une situation pratique. D'un point de vue théorique, nous ne sommes pas loin de manquer de données, mais mon parti pris personnel est que c'est peu probable. Nous pouvons générer des données de plusieurs façons, donc les données ne sont pas vraiment un obstacle. Il existe une autre situation dans laquelle nous épuisons toutes les ressources informatiques disponibles, ce qui ralentit la progression des capacités du modèle. Les deux scénarios sont possibles.
**Mon point de vue personnel est qu'il y a une forte probabilité que la loi d'échelle ne stagne pas, et même s'il y a un problème, il est plus probable qu'il soit la cause de l'architecture informatique. **Par exemple, si nous utilisons LSTM ou RNN, le taux d'évolution de la capacité du modèle changera. Si nous rencontrions un goulot d'étranglement dans l'évolution des capacités du modèle dans chaque situation architecturale, ce serait assez grave, car cela signifie que nous avons rencontré un problème plus profond.
• LSTM:
Les réseaux de mémoire à long court terme (réseaux de mémoire à long court terme), un réseau RNN spécial (réseau de neurones cycliques), peuvent apprendre des dépendances à long terme, résoudre le problème du RNN traditionnel dans l'apprentissage de modèles de séquence longue et extraire à long et à court terme en séquence informations sur les données. La capacité d'apprentissage et la capacité de représentation du LSTM sont plus fortes que celles du RNN standard.
** Je pense que nous avons atteint un stade où il n'est peut-être pas très différent de parler de ce qu'un modèle peut et ne peut pas faire. ** Dans le passé, les gens limitaient la capacité du modèle, pensant que le modèle ne pouvait pas maîtriser la capacité de raisonnement, apprendre la programmation et penser qu'il pourrait rencontrer des goulots d'étranglement dans certains aspects. Bien que certaines personnes, dont moi, ne le pensaient pas auparavant, mais au cours des dernières années, ce type de théorie des goulots d'étranglement est devenu plus courant, et maintenant il a changé.
** Si l'effet du futur processus de mise à l'échelle du modèle voit un goulot d'étranglement, je pense que le problème vient de la conception de la fonction de perte en se concentrant sur la prochaine tâche de prédiction de jeton. ** Lorsque nous mettons trop l'accent sur les capacités de raisonnement et de programmation, la perte du modèle se concentrera sur les jetons qui reflètent cette capacité, et les jetons d'autres problèmes apparaîtront moins fréquemment (Remarque : l'ensemble de données de pré-formation du le modèle sera basé sur l'importance que les scientifiques accordent au degré de capacités, ajustez son rapport) **, la fonction de perte accorde trop d'attention aux jetons qui fournissent le plus d'entropie d'information, tout en ignorant ceux qui sont réellement importants, le signal peut être submergé dans le bruit. **
Si ce problème survient, nous devons introduire une sorte de processus d'apprentissage par renforcement. Il existe de nombreux types de RL, tels que l'apprentissage par renforcement avec rétroaction humaine (RLHF), l'apprentissage par renforcement pour les cibles et, comme l'IA constitutionnelle, l'amélioration (amplification) et le débat. (débat) et autres. Ce sont à la fois la méthode d'alignement du modèle et la manière de former le modèle. ** Nous devrons peut-être essayer de nombreuses méthodes, mais nous devons nous concentrer sur l'objectif du modèle. **
L'un des problèmes de l'apprentissage par renforcement est que vous devez concevoir une fonction de perte très complète. La fonction de perte de la prochaine prédiction de jeton a déjà été conçue, donc si l'échelle dans cette direction voit la limite supérieure, le développement de l'IA ralentira.
**Dwarkesh Patel : Comment avez-vous compris la mise à l'échelle ? **
**Dario Amodei : **La formation de mon opinion remonte approximativement de 2014 à 2017. J'ai été attentif au développement de l'IA, mais j'ai longtemps pensé qu'il faudrait beaucoup de temps pour que l'IA soit vraiment appliquée, jusqu'à l'émergence d'AlexNet. Puis j'ai rejoint l'équipe projet de Wu Enda à Baidu à l'époque, et c'était la première fois que j'entrais en contact avec l'IA.
Je me considère plutôt chanceux, contrairement à d'autres universitaires de l'époque, j'ai été chargé de créer des systèmes de reconnaissance vocale à la pointe de la technologie, et il y avait beaucoup de données et de GPU disponibles. **Au cours de ce projet, je me suis naturellement rendu compte que le Scaling est une bonne solution. Ce processus est également différent de la recherche postdoctorale, nous n'avons pas nécessairement besoin de proposer des idées intelligentes et innovantes qui n'ont pas été proposées auparavant. **
Tout au long du projet, j'ai seulement besoin de mener quelques expériences de base, telles que l'ajout de couches supplémentaires au RNN ou l'ajustement des paramètres d'entraînement pour essayer de prolonger le temps d'entraînement du modèle. Pendant cette période, j'ai observé le processus d'entraînement du modèle et j'ai vu la simulation Quand cela se produit-il. J'ai également essayé d'ajouter de nouvelles données d'entraînement ou de réduire les cycles d'entraînement répétés, et j'ai observé l'impact de ces ajustements sur les performances du modèle. Au cours de ces expériences, j'ai remarqué quelques résultats réguliers. Cependant, je ne sais pas si ces imaginations sont révolutionnaires ou si d'autres collègues ont fait des découvertes similaires. Dans l'ensemble, ce n'est que ma chance en tant que débutant en IA. Je ne connais pas grand-chose d'autre dans le domaine, mais j'ai senti à l'époque que cela était également validé dans le domaine de la reconnaissance vocale.
**J'ai connu Ilya avant la création d'OpenAI, et il m'a dit qu'"il faut se rendre compte que ces modèles veulent juste apprendre", cette perspective m'a largement inspiré, et m'a fait réaliser que le constat précédent Le phénomène n'est peut-être pas un cas aléatoire mais un événement courant. Ces modèles ont juste besoin d'apprendre, nous avons seulement besoin de fournir des données de haute qualité et de créer suffisamment d'espace pour qu'ils fonctionnent, et les modèles apprendront par eux-mêmes. **
**Dwarkesh Patel : Peu de gens ont déduit une vision de "l'intelligence universelle" comme vous et Ilya. Comment pensez-vous à cette question différemment des autres personnes ? Qu'est-ce qui vous fait penser que les modèles vont continuer à s'améliorer en reconnaissance vocale, et de la même manière dans d'autres domaines ? **
Dario Amodei : Je ne sais vraiment pas, quand j'ai observé pour la première fois un phénomène similaire dans le domaine de la parole, j'ai pensé que c'était juste une loi applicable au champ vertical de la reconnaissance vocale. Entre 2014 et 2017, j'ai essayé beaucoup de choses différentes et j'ai observé la même chose encore et encore. Par exemple, j'ai observé cela dans le jeu Dota. Bien que les données disponibles dans le domaine de la robotique soient relativement limitées et que beaucoup de gens ne soient pas optimistes, j'ai également observé un phénomène similaire. ** Je pense que les gens ont tendance à se concentrer sur la résolution des problèmes immédiats. Ils peuvent accorder plus d'attention à la façon de résoudre le problème lui-même dans le sens vertical, plutôt que de penser aux problèmes de niveau inférieur dans le sens horizontal, de sorte qu'ils ne peuvent pas considérer pleinement la possibilité de mise à l'échelle du sexe. Par exemple, dans le domaine de la robotique, le problème le plus fondamental peut être l'insuffisance des données d'entraînement, mais il est facile de conclure que la mise à l'échelle ne fonctionne pas. **
**Dwarkesh Patel : Quand avez-vous réalisé que le langage pouvait être un moyen d'introduire d'énormes quantités de données dans ces modèles ? **
**Dario Amodei :**Je pense que la chose la plus importante est le concept d'apprentissage auto-supervisé basé sur la prédiction du prochain jeton, ainsi qu'un grand nombre d'architectures pour la prédiction. Ceci est en fait similaire à la logique des tests de développement de l'enfant. Par exemple, Mary entre dans la pièce et met un objet, puis Chuck entre et déplace l'objet sans que Mary s'en aperçoive, qu'en pense Mary ? Afin de compléter ce type de prédiction, le modèle doit résoudre en même temps les problèmes mathématiques, les problèmes psychologiques, etc. Donc à mon avis, pour faire de bonnes prédictions, il faut alimenter le modèle avec des données et le laisser apprendre sans aucune contrainte.
Bien que j'aie eu un sentiment similaire il y a longtemps, jusqu'à ce qu'Alec Radford fasse quelques tentatives sur GPT-1, j'ai réalisé que nous pouvons non seulement implémenter un modèle avec une capacité prédictive, mais aussi l'affiner.Compléter différents types de missions. Je pense que cette chose nous donne la possibilité de faire toutes sortes de tâches, de pouvoir résoudre toutes sortes de problèmes, y compris le raisonnement logique. Bien sûr, nous pouvons également continuer à augmenter la taille du modèle.
• Alec Radford, l'auteur de Sentiment Neuron, le prédécesseur de la série GPT, et le co-auteur de la série d'articles GPT, travaille toujours chez OpenAI.
**Dwarkesh Patel : Comment pensez-vous que la formation de modèles nécessite beaucoup de données ? Faut-il s'inquiéter de la faible efficacité de la formation des modèles ? **
Dario Amodei : Cette question est toujours en cours d'exploration. Une théorie est que la taille du modèle est en réalité de 2 à 3 ordres de grandeur inférieure à celle du cerveau humain, mais la quantité de données nécessaires pour former le modèle est trois à quatre fois plus grande que la quantité de texte lu par un enfant de 18 ans. L'ordre de grandeur, l'ordre de grandeur des êtres humains est probablement de centaines de millions, tandis que l'ordre de grandeur des modèles est de centaines de milliards ou de trillions. La quantité de données obtenues par les êtres humains n'est pas grande, mais elle est tout à fait suffisante pour gérer notre travail et notre vie quotidienne. Mais il existe une autre possibilité qu'en plus d'apprendre, nos sens transmettent en fait des informations au cerveau.
Il y a en fait un paradoxe ici. L'échelle du modèle que nous avons actuellement est plus petite que celle du cerveau humain, mais il peut accomplir de nombreuses tâches similaires à celle du cerveau humain. En même temps, la quantité de données requises par ce modèle est beaucoup plus grand que celui du cerveau humain. Nous devons donc continuer à explorer et à comprendre cette question, mais dans une certaine mesure, ce n'est pas important. ** Plus important encore, comment évaluer la capacité du modèle et comment juger de l'écart entre eux et les humains. En ce qui me concerne, l'écart n'est pas si loin. **
**Dwarkesh Patel : L'accent mis sur la mise à l'échelle et, plus largement, sur les progrès des capacités des modèles de calcul à grande échelle sous-estime-t-il le rôle des progrès algorithmiques ? **
**Dario Amodei : ** Lorsque l'article Transformer a été publié pour la première fois, j'ai écrit sur des problèmes connexes et mentionné qu'il existe 7 facteurs connexes qui affecteront l'amélioration de la capacité du modèle, dont 4 facteurs sont les plus évidents et les plus critiques : quantité de paramètres du modèle, échelle de puissance de calcul, qualité des données et fonction de perte. Par exemple, des tâches telles que l'apprentissage par renforcement ou la prédiction du jeton suivant dépendent fortement de la bonne fonction de perte ou du mécanisme d'incitation.
• Apprentissage par renforcement (RL) :
Trouvez le plan d'action optimal pour chaque état particulier de l'environnement grâce à un processus de base d'essais et d'erreurs. Le modèle d'apprentissage automatique introduira une règle aléatoire au début et, en même temps, introduira un certain nombre de points (également appelés récompenses) dans le modèle à chaque fois qu'une action est entreprise.
• La fonction de perte (fonction de perte) dans l'apprentissage automatique fait référence à la fonction de mesure de la qualité de l'ajustement, qui est utilisée pour refléter le degré de différence entre la sortie du modèle et la valeur réelle, c'est-à-dire pour mesurer la prédiction erreur ; y compris la prédiction de tous les points d'échantillonnage Erreur, fournissant une valeur unique pour représenter la qualité globale de l'ajustement ; en même temps, pendant le processus de formation, les paramètres du modèle seront ajustés en continu en fonction de la valeur de la fonction de perte, en afin de minimiser la valeur de perte et d'obtenir un meilleur effet d'ajustement.
Il y a aussi 3 facteurs :
Le premier concerne les symétries structurelles. Si l'architecture ne prend pas en compte la bonne symétrie, elle ne fonctionnera pas et sera très inefficace. Par exemple, le réseau de neurones convolutifs (CNN) considère la symétrie translationnelle (symétrie translationnelle), le LSTM considère la symétrie temporelle (symétrie temporelle), mais le problème avec les LSTM est qu'ils ne prêtent pas attention au contexte, cette faiblesse structurelle est courante. Si le modèle ne peut pas comprendre et traiter la longue histoire passée (en se référant aux données qui sont apparues plus tôt dans la structure de données de séquence) pour des raisons structurelles, ce sera comme si le calcul était incohérent.Les modèles RNN et LSTM ont de telles lacunes.
• Adam(Estimation adaptative du moment):
Estimation adaptative du moment, l'algorithme Adam combine les avantages de RMSprop et SGD, et peut bien gérer les problèmes d'optimisation non convexes.
• SGD (descente de gradient stochastique) :
Stochastic Gradient Descent, une méthode itérative pour optimiser une fonction objective avec des propriétés de lissage appropriées telles que différentiable ou sous-différentiable. Il peut être considéré comme une approximation stochastique de l'optimisation de descente de gradient. Dans les problèmes d'optimisation de grande dimension, cela réduit la charge de calcul et permet des itérations plus rapides en échange de taux de convergence plus faibles.
Ensuite, il y a la stabilité numérique. L'optimisation des fonctions de perte est numériquement difficile et facile à distinguer. C'est pourquoi Adam fonctionne mieux que les MST ordinaires.
Le dernier élément est de s'assurer que le processus de calcul du modèle n'est pas entravé, alors seulement l'algorithme peut réussir.
Par conséquent, les progrès de l'algorithme ne consistent pas simplement à améliorer la puissance de calcul de l'ordinateur, mais également à éliminer les obstacles artificiels de l'ancienne architecture. Souvent, le modèle veut apprendre et calculer librement, pour être bloqué par nous à notre insu.
**Dwarkesh Patel : Pensez-vous qu'il y aura quelque chose à l'échelle de Transformer pour piloter la prochaine grande itération ? **
Dario Amodei : Je pense que c'est possible. Certaines personnes ont essayé de simuler des dépendances à long terme. J'ai également observé que certaines idées dans Transformer ne sont pas assez efficaces pour représenter ou traiter des choses. **Cependant, même si ce type d'innovation ne se produit pas, nous nous développons déjà rapidement. Si cela apparaît, cela ne fera que développer le champ plus rapidement, et l'accélération ne sera peut-être pas si importante, car la vitesse est déjà très rapide . **
**Dwarkesh Patel : En termes d'acquisition de données, le modèle doit-il avoir une intelligence incarnée ? **
Dario Amodei : J'ai tendance à ne pas y voir une nouvelle architecture, mais une nouvelle fonction de perte, car l'environnement dans lequel le modèle collecte des données devient complètement différent, ce qui est important pour l'apprentissage de certaines compétences. Bien que la collecte de données soit difficile, nous avons au moins avancé sur la voie de la collecte de corpus, et nous continuerons à l'avenir, même s'il reste encore des possibilités à développer en termes de pratiques spécifiques.
• Fonction de perte :
C'est un concept important dans l'apprentissage automatique et l'apprentissage en profondeur. Il est utilisé pour mesurer le degré de différence entre le résultat de prédiction du modèle et la véritable étiquette, c'est-à-dire l'erreur de prédiction du modèle. La fonction de perte est conçue pour permettre au modèle de minimiser l'erreur de prédiction en ajustant les paramètres, améliorant ainsi les performances et la précision du modèle.
**Dwarkesh Patel : Existe-t-il d'autres approches telles que RL ? **
Dario Amodei : Nous utilisons déjà la méthode RLHF pour l'apprentissage par renforcement, mais je pense qu'il est difficile de distinguer s'il s'agit d'alignement ou de capacité ? Les deux sont très similaires. Je demande rarement aux modèles d'agir via RL. RL ne doit être utilisé qu'après que le modèle a pris des mesures pendant un certain temps et compris les conséquences de ces actions. Je pense donc que l'apprentissage par renforcement va être très puissant, mais qu'il pose également de nombreux problèmes de sécurité en ce qui concerne la manière dont les modèles agissent dans le monde.
L'apprentissage par renforcement est un outil couramment utilisé lorsque des actions sont entreprises sur une longue période de temps et que les conséquences de ces actions ne sont comprises que plus tard.
**Dwarkesh Patel : Comment pensez-vous que ces technologies seront intégrées dans des tâches spécifiques à l'avenir ? Ces modèles de langage peuvent-ils communiquer entre eux, s'évaluer, se référer et améliorer leurs résultats de recherche respectifs ? Ou est-ce que chaque modèle fonctionne indépendamment et se concentre uniquement sur la fourniture de résultats par lui-même sans collaborer avec d'autres modèles ? Ces modèles de langage de haut niveau pourront-ils former un véritable système collaboratif en cours de développement et d'application à l'avenir, ou chaque modèle fera-t-il son propre truc ? **
Dario Amodei : Le modèle devra probablement accomplir des tâches plus complexes à l'avenir, ce qui est une tendance inévitable. Cependant, pour des raisons de sécurité, nous devrons peut-être limiter le champ d'application du modèle linguistique dans une certaine mesure pour atténuer les risques potentiels. **Le dialogue entre modèles est-il possible ? Sont-ils principalement destinés à des utilisateurs humains ? Ces questions nécessitent la prise en compte des influences sociales, culturelles et économiques au-delà du niveau technique et sont difficiles à prévoir avec précision.
** Bien que nous puissions prédire la tendance à la croissance de la taille du modèle, il est difficile de faire des prédictions fiables sur des questions telles que le calendrier de commercialisation ou le formulaire de demande. Je ne suis pas très bon pour prédire moi-même ce genre de tendance de développement futur, et personne ne peut le faire très bien à l'heure actuelle. **
**Comment la capacité du modèle correspondra-t-elle à celle des humains ? **
**Dwarkesh Patel : Si quelqu'un me disait en 2018 que nous aurions un modèle comme Claude-2 en 2023 avec toutes sortes de capacités impressionnantes, je penserais certainement que l'AGI a été réalisé en 2018. Mais clairement, au moins pour le moment, et peut-être même dans les générations futures, nous sommes bien conscients qu'il y aura toujours des différences entre l'IA et les niveaux humains. Pourquoi ce décalage entre les attentes et la réalité ? **
**Dario Amodei : **Je suis nouveau sur GPT-3, et dans les premiers stades d'Anthropic, mon sentiment général à propos de ces modèles est : ils semblent vraiment saisir l'essence du langage, je ne suis pas sûr que nous ayons besoin de étendre le modèle jusqu'à quel point, peut-être devrions-nous accorder plus d'attention à d'autres domaines tels que l'apprentissage par renforcement. En 2020, je pense qu'il est possible d'augmenter encore la taille du modèle, mais à mesure que la recherche s'approfondit, je commence à me demander s'il est plus efficace d'ajouter directement d'autres formations ciblées comme l'apprentissage par renforcement.
** Nous avons vu que l'intelligence humaine est en fait une gamme très large, donc la définition de "machines atteignant le niveau humain" est elle-même une gamme, et le lieu et le moment où les machines accomplissent différentes tâches sont différents. Plusieurs fois, par exemple, ces modèles ont approché ou même dépassé les performances humaines, mais en sont encore à leurs balbutiements lorsqu'il s'agit de prouver des théorèmes mathématiques relativement simples. Tout cela montre que l'intelligence n'est pas un spectre continu (spectre). ** Il existe différents types de connaissances et de compétences professionnelles dans divers domaines, et les méthodes de mémoire sont également différentes. Si vous me l'aviez demandé il y a 10 ans (Note de motivation : Dario étudiait encore la physique et les neurosciences à l'époque), je n'aurais pas imaginé que ce serait le cas.
**Dwarkesh Patel : Quel degré de chevauchement dans la gamme de compétences pensez-vous que ces modèles présenteront à partir de la distribution de la formation que ces modèles obtiennent de la grande quantité de données Internet que les humains obtiennent de l'évolution ? **
Dario Amodei : Il y a un chevauchement considérable. De nombreux modèles jouent un rôle dans les applications commerciales, aidant efficacement les humains à améliorer leur efficacité. Compte tenu de la variété des activités humaines et de l'abondance d'informations sur Internet, je pense que les modèles apprennent dans une certaine mesure des modèles physiques du monde réel, mais ils n'apprennent pas à fonctionner dans la réalité réelle, des compétences qui peuvent être relativement faciles à affiner. Je pense qu'il y a des choses que les modèles n'apprennent pas, mais que les humains font.
**Dwarkesh Patel : Est-il possible que les modèles surpassent les humains dans de nombreuses tâches liées aux affaires et à l'économie au cours des prochaines années ? Dans le même temps, les modèles peuvent encore être inférieurs aux humains dans certaines tâches, évitant ainsi une explosion d'intelligence similaire ? **
Dario Amodei : Cette question est difficile à prédire. Ce que je veux rappeler, c'est que la loi d'échelle peut fournir des idées de prédiction du point de vue de la base théorique, mais il sera très difficile de vraiment saisir les détails du développement futur. ** La loi d'échelle peut continuer à s'appliquer, bien sûr, et si des facteurs de sécurité ou de réglementation ralentiront les progrès, mais si ces frictions sont mises de côté **, je pense que si l'IA peut aller plus loin dans la création de valeur économique, alors elle doit Plus de progrès seront faites dans plus de domaines.
Je ne vois pas le modèle fonctionner particulièrement faiblement dans aucun domaine, ou ne faire aucun progrès du tout. Comme les mathématiques et la programmation dans le passé, elles sont difficiles mais donnent aussi des résultats inattendus. Au cours des 6 derniers mois, le modèle 2023 a fait des progrès significatifs par rapport au modèle 2022. Bien que les performances du modèle dans différents domaines et tâches ne soient pas complètement équilibrées, l'amélioration de la capacité globale profitera certainement à tous les domaines. .
**Dwarkesh Patel : Face à une tâche complexe, le modèle a-t-il la capacité d'effectuer une chaîne de pensée dans une série de tâches continues ? **
**Dario Amodei : **La capacité de prise de décision continue dépend de la formation de l'apprentissage par renforcement, afin que le modèle puisse effectuer des tâches à plus long terme. ** Et je ne pense pas que cela nécessite une puissance de calcul supplémentaire à plus grande échelle. Penser ainsi est une sous-estimation erronée de la capacité d'apprentissage du modèle. **
La question de savoir si les modèles surpasseront les humains dans certains domaines mais auront du mal à le faire dans d'autres, je pense que c'est compliqué, dans certains domaines cela peut être vrai, mais dans certains domaines ce ne sera pas parce que le monde physique est impliqué dans des tâches d'intelligence incarnée dans
Alors, quelle est la prochaine étape ? L'IA peut-elle nous aider à former une IA plus rapide qui peut résoudre ces problèmes ? Le monde physique n'est-il plus nécessaire ? Sommes-nous préoccupés par les problèmes d'alignement? Y a-t-il des inquiétudes quant à une utilisation abusive comme la création d'armes de destruction massive ? Doit-on craindre que l'IA elle-même ne prenne directement le pas sur les futures recherches en IA ? Sommes-nous inquiets qu'il atteigne un certain seuil de productivité économique où il peut effectuer des tâches comme la moyenne ? … Je pense que ces questions peuvent avoir des réponses différentes, mais je pense qu'elles le seront toutes d'ici quelques années.
**Dwarkesh Patel : Si Claude était un employé d'Anthropic, quel serait son salaire ? Est-ce que cela accélère le développement de l'intelligence artificielle dans un sens réel ? **
Dario Amodei : Pour moi, c'est probablement plus un stagiaire dans la plupart des cas, mais toujours mieux qu'un stagiaire dans certains domaines spécifiques. Mais en général, il peut être difficile de donner une réponse absolue à cette question, car les modèles ne sont pas humains dans la nature, ils peuvent être conçus pour répondre à une ou quelques questions, ** mais contrairement aux humains, ils n'ont pas Le concept de "expérience basée sur le temps". **
** Si l'IA veut devenir plus efficace, elle doit d'abord aider les humains à améliorer leur propre productivité, puis atteindre progressivement le même niveau de productivité humaine. La prochaine étape après cela est d'être une force majeure dans l'avancement de la science, ce qui, je crois, se produira à l'avenir. Mais je soupçonne que les détails de ce qui s'est réellement passé dans le futur sembleront un peu étranges maintenant, différents des modèles auxquels nous nous attendions. **
**Dwarkesh Patel : Quand pensez-vous que la capacité du modèle atteindra le niveau humain ? Comment sera-t-il alors ? **
Dario Amodei : Cela dépend du niveau élevé ou bas des attentes et des normes humaines. Par exemple, si notre attente est seulement que le modèle communique pendant 1 heure et que le modèle puisse se comporter comme un être humain bien éduqué pendant le processus, l'objectif de faire en sorte que le modèle atteigne le niveau humain n'est peut-être pas loin, je pense qu'il peut être possible dans 2 à 3 ans se réalisera. ** Ce calendrier est largement influencé par une entreprise ou une industrie décidant de ralentir le développement, ou par des restrictions gouvernementales pour des raisons de sécurité. **Mais du point de vue des données, de la puissance de calcul et de l'économie des coûts, nous ne sommes pas loin de cet objectif. **
Mais même si le modèle atteint ce niveau, ** je ne pense pas que le modèle puisse dominer la majorité de la recherche sur l'IA, ou changer de manière significative le fonctionnement de l'économie, ni qu'il soit substantiellement dangereux. Donc, dans l'ensemble, des normes différentes nécessitent des délais de réalisation différents, mais d'un point de vue purement technique, il n'est pas loin d'atteindre un modèle comparable à un être humain éduqué de base. **
**Dwarkesh Patel : Pourquoi un modèle peut-il être aussi capable qu'un être humain instruit de base, mais incapable de participer à des activités économiques ou de remplacer des êtres humains ? **
**Dario Amodei :**Tout d'abord, le modèle n'a peut-être pas atteint un niveau suffisamment élevé. **Serait-il capable d'accélérer considérablement la productivité de 1000 bons scientifiques dans un domaine tel que la recherche sur l'IA ? L'avantage comparatif du modèle à cet égard n'est pas encore évident. **
À l'heure actuelle, les grands modèles n'ont pas fait de découvertes scientifiques importantes, probablement parce que le niveau de ces modèles n'est pas assez élevé, et les performances de ces modèles peuvent n'être équivalentes qu'au niveau B ou au niveau B. Mais je crois que cela va changer avec la mise à l'échelle du modèle. Les modèles mènent d'autres domaines dans la mémorisation, l'intégration des faits et l'établissement de liens. Surtout dans le domaine de la biologie, en raison de la complexité des organismes, les modèles actuels ont accumulé une grande quantité de connaissances. La découverte et la connexion sont importantes dans ce domaine. Contrairement à la physique, la biologie nécessite beaucoup de faits, pas seulement des formules. Je suis donc sûr que les modèles ont déjà beaucoup de connaissances, mais n'ont pas été en mesure de tout mettre en place car le niveau de compétence n'est pas à la hauteur. Je pense qu'ils évoluent progressivement pour intégrer ces connaissances à un niveau supérieur.
Une autre raison est qu'il existe de nombreuses frictions invisibles dans les activités commerciales réelles qui ne peuvent pas être apprises par le modèle. Par exemple, idéalement, nous pouvons utiliser des robots IA pour interagir avec les clients, mais la situation réelle est beaucoup plus compliquée que la théorie, et nous ne pouvons pas simplement nous fier aux robots du service client ou espérer que l'IA puisse remplacer les employés humains pour accomplir ces tâches. Et en réalité, il y a encore des coûts au sein de l'entreprise pour favoriser artificiellement la mise en place du modèle, la combinaison du bot IA et du workflow, etc.
** Dans de nombreux cas, l'efficacité des personnes utilisant le modèle n'est pas élevée et le potentiel du modèle n'a pas été pleinement réalisé. Ce n'est pas parce que le modèle n'est pas assez performant, mais parce que les gens doivent passer du temps à rechercher comment le faire fonctionner plus efficacement. **
En général, à court terme, les modèles ne remplaceront pas complètement les humains, mais à plus long terme, à mesure que les modèles continueront de s'améliorer et joueront un plus grand rôle dans l'amélioration de l'efficacité du travail humain, les humains finiront par céder la place aux modèles. . C'est juste qu'il nous est difficile de faire des timings précis pour les différentes phases. À court terme, il existe divers obstacles et facteurs complexes qui rendent le modèle "limité", mais essentiellement, l'IA est encore dans une phase de croissance exponentielle.
**Dwarkesh Patel : Une fois arrivés à ce point dans les 2-3 prochaines années, l'ensemble de l'IA progressera-t-il toujours aussi vite qu'aujourd'hui ? **
Dario Amodei : Le jury n'a pas encore été élu. Grâce à l'observation de la fonction de perte, nous avons constaté que l'efficacité de la formation du modèle diminue et que la courbe de la loi d'échelle n'est pas aussi raide qu'elle l'était au début. Ceci est également confirmé par les modèles publiés par diverses sociétés. Mais à mesure que cette tendance se développe, la petite quantité d'entropie dans chaque prédiction précise devient plus importante. Ce sont peut-être ces minuscules valeurs d'entropie qui ont créé l'écart entre Einstein et le physicien moyen. En termes de performances réelles, la métrique semble s'améliorer de manière relativement linéaire, bien que difficile à prévoir. Il est donc difficile de voir clairement ces situations. De plus, je pense que le facteur le plus important à l'origine de l'accélération est de plus en plus d'argent qui se déverse dans cet espace, et les gens se rendent compte qu'il y a une énorme valeur économique dans cet espace. Je m'attends donc à une multiplication par 100 du financement pour les plus gros modèles, et les performances de la puce s'améliorent, et les algorithmes s'améliorent parce qu'il y a tellement de gens qui travaillent dessus en ce moment.
**Dwarkesh Patel : Pensez-vous que Claude est conscient ? **
Dario Amodei : Pas encore sûr. Je pensais à l'origine que nous n'avions à nous soucier de ce genre de problème que lorsque le modèle opère dans un environnement suffisamment riche, comme l'intelligence incarnée, ou a une expérience à long terme et une fonction de récompense (Reward Function), mais maintenant je m'intéresse à la modèle, surtout le modèle Après les recherches sur le mécanisme interne, mon point de vue a été ébranlé : **Le grand modèle semble avoir de nombreux mécanismes cognitifs nécessaires pour devenir un agent actif, comme la tête d'induction (Induction Head). Compte tenu du niveau de capacité des modèles actuels, cela pourrait devenir un véritable problème au cours des 1 à 2 prochaines années. **
• Fonction de récompense :
Un mécanisme d'incitation dans l'apprentissage par renforcement qui indique à l'agent ce qui est bien et ce qui est mal par le biais de récompenses et de punitions.
• Tête à induction :
Composant/structure de modèle spécifique dans un modèle Transformer qui permet au modèle d'effectuer un apprentissage contextuel.
**Dwarkesh Patel : Comment comprenons-nous l'« intelligence » alors que les capacités des modèles de langage continuent de croître et se rapprochent des niveaux humains ? **
Dario Amodei : Je me rends vraiment compte que l'intelligence vient de la compréhension de la nature « matérielle » de la puissance de calcul. Les systèmes intelligents peuvent être constitués de nombreux modules indépendants ou être extrêmement complexes. Rich Sutton appelle cela une "leçon de détresse", également connue sous le nom d'"hypothèse de mise à l'échelle", et les premiers chercheurs tels que Shane Lake et Ray Kurzweil ont commencé à s'en rendre compte vers 2017.
• La leçon amère / Hypothèse de mise à l'échelle :
En 2019, Rich Sutton a publié l'article The Bitter Lesson. Le point central de l'article est que la recherche sur l'IA devrait utiliser pleinement les ressources informatiques. Ce n'est que lorsqu'une grande quantité d'informatique est utilisée que des percées dans la recherche peuvent être réalisées.
Au cours de la période 2014-2017, de plus en plus de chercheurs ont révélé et compris ce point. Il s'agit d'un grand pas en avant dans la compréhension scientifique. Si nous pouvons créer de l'intelligence sans conditions spécifiques, juste des gradients appropriés et des signaux de perte, alors l'évolution de l'intelligence est moins mystérieuse.
La possibilité de regarder le modèle, rien de trop éclairant pour moi pour revisiter l'idée d'intelligence humaine. Le choix de certaines capacités cognitives est plus arbitraire que je ne le pensais, et la corrélation entre différentes capacités peut ne pas s'expliquer par un secret lui-même. ** Les modèles sont forts en codage, mais ne sont pas encore capables de prouver le théorème des nombres premiers, et probablement les humains non plus. **
Alignement : l'interprétabilité consiste à « radiographier » le modèle
**Dwarkesh Patel : Qu'est-ce que l'explicabilité du mécanisme ? Quelle est la relation entre cela et l'alignement? **
**Dario Amodei : **Dans le processus de mise en œuvre de l'alignement, nous ne savons pas ce qui s'est passé à l'intérieur du modèle. Je pense qu'avec toutes les méthodes impliquant un réglage fin, certains risques de sécurité potentiels subsistent, le modèle apprend simplement à ne pas les exposer. ** Le cœur de toute l'idée d'explicabilité du mécanisme est de vraiment comprendre comment le modèle fonctionne en interne. **
Nous n'avons pas encore de réponse définitive. Je peux décrire grossièrement le processus. Le défi pour les méthodes qui prétendent être capables d'atteindre l'alignement à ce stade est : ces méthodes sont-elles toujours efficaces lorsque l'échelle du modèle est plus grande, les capacités sont plus fortes ou certaines situations changent ? Par conséquent, ** je pense que s'il existe une "machine oracle" qui peut scanner le modèle et juger si le modèle a été aligné, cela rendra ce problème beaucoup plus facile. **
Actuellement, ce qui se rapproche le plus du concept d'un tel oracle est quelque chose comme l'explicabilité du mécanisme, mais c'est encore loin de nos exigences idéales. J'ai tendance à considérer nos tentatives d'alignement actuelles comme un ensemble de formation élargi, mais je ne suis pas sûr qu'elles puissent continuer à avoir un bon effet d'alignement sur le problème de la non-distribution. C'est comme radiographier un modèle plutôt que de le modifier, plus comme une évaluation qu'une intervention.
**Dwarkesh Patel : Pourquoi l'explicabilité des mécanismes doit-elle être utile ? Comment cela nous aide-t-il à prédire le risque potentiel du modèle ? C'est comme supposer que vous êtes un économiste qui envoie des microéconomistes pour étudier différentes industries, mais qui a toujours une forte probabilité d'avoir des difficultés à prédire s'il y aura une récession dans les 5 prochaines années. **
**Dario Amodei : Notre objectif n'est pas de comprendre pleinement chaque détail, mais de vérifier les principales caractéristiques du modèle, telles que l'inspection par rayons X ou IRM, pour déterminer si l'état interne et la cible du modèle sont significativement différents de l'écart d'apparence externe, ou si cela peut conduire à des fins destructrices. **Bien que nous n'obtiendrons pas immédiatement de réponses à de nombreuses questions, au moins un moyen est fourni.
Je peux donner un exemple humain. À l'aide d'un test IRM, nous pouvons prédire si quelqu'un souffre d'une maladie mentale avec une probabilité plus élevée qu'une estimation aléatoire. Un neuroscientifique travaillait là-dessus il y a quelques années, et il a vérifié son propre IRM et a découvert qu'il avait également cette caractéristique. Les gens autour de lui disaient : « C'est tellement évident, tu es un connard. Il doit y avoir quelque chose qui ne va pas chez toi », et le scientifique lui-même n'en était absolument pas conscient.
L'idée essentielle de cet exemple est que le comportement externe du modèle peut ne pas rendre les gens problématiques du tout et est très axé sur les objectifs, mais son intérieur peut être "sombre".Ce qui nous inquiète, c'est ce type de modèle , qui ressemble à des êtres humains en surface. , mais la motivation interne est extraordinaire.
**Dwarkesh Patel : Si le modèle atteint le niveau humain dans les 2-3 prochaines années, combien de temps pensez-vous qu'il faudra pour réaliser l'Alignement ? **
Dario Amodei : C'est une question très compliquée. Je pense que beaucoup de gens ne comprennent toujours pas vraiment ce qu'est l'Alignement. Les gens pensent généralement que c'est comme si l'alignement des modèles était un problème à résoudre, ou que résoudre le problème de l'alignement ressemblait à l'hypothèse de Riemann, et qu'un jour nous pourrons le résoudre. ** Je pense que les problèmes d'alignement sont plus insaisissables et imprévisibles que les gens ne le pensent. **
Tout d'abord, ** Avec l'amélioration continue de l'échelle et des capacités des modèles de langage, il y aura à l'avenir des modèles puissants dotés de capacités autonomes. Si de tels modèles ont l'intention de détruire la civilisation humaine, nous serons fondamentalement incapables de les arrêter. **
Deuxièmement, Notre capacité actuelle à contrôler le modèle n'est pas assez forte, c'est parce que le modèle est construit sur le principe de l'apprentissage statistique, bien que vous puissiez poser beaucoup de questions et le laisser répondre, mais personne ne peut prédire à quoi la réponse à la énième question peut conduire à la suite de.
**De plus, la façon dont nous avons formé le modèle était abstraite, ce qui rend difficile la prédiction de toutes ses implications dans les applications du monde réel. **Un exemple typique est que Bing et Sydney ont montré des caractéristiques abruptes et dangereuses après une certaine séance d'entraînement, comme menacer directement les autres. Tout cela montre que les résultats que nous obtenons peuvent être complètement différents des attentes. Je pense que l'existence des deux problèmes ci-dessus est un danger caché majeur en soi. Nous n'avons pas besoin de nous plonger dans les détails de la rationalité instrumentale et de l'évolution. Ces deux points suffisent à inquiéter. À l'heure actuelle, chaque modèle que nous avons établi comporte certains dangers cachés difficiles à prévoir, et nous devons y prêter attention.
• Hypothèse de Riemann :
L'hypothèse de Riemann est un problème important en mathématiques qui n'a pas encore été résolu. La conjecture sur la distribution des zéros de la fonction de Riemann ζ ζ(s) a été proposée par le mathématicien Bernhard Riemann en 1859.
• Sidney:
Il n'y a pas si longtemps, Microsoft a publié la dernière version de son moteur de recherche Bing, qui intègre un premier chatbot nommé "Sydney". Cependant, les testeurs ont rapidement découvert des problèmes avec le chatbot. Au cours du dialogue, il montre parfois le phénomène de dédoublement de la personnalité et discute même de l'amour et du mariage avec l'utilisateur, montrant des émotions humaines.
**Dwarkesh Patel : En supposant que le modèle puisse développer des technologies dangereuses telles que des armes biologiques dans les 2-3 prochaines années, vos travaux de recherche actuels sur l'explicabilité des mécanismes, l'IA constitutionnelle et la RLHF peuvent-ils être efficaces pour prévenir de tels risques ? **
Dario Amodei : En ce qui concerne la question de savoir si le modèle de langage est condamné par défaut ou l'alignement par défaut, à en juger par le modèle actuel, le résultat peut être anormal comme Bing ou Sydney, ou il peut être comme Claude normal. Mais si vous appliquez directement cette compréhension à un modèle plus puissant, les résultats peuvent être bons ou mauvais, selon la situation spécifique. Ce n'est pas "l'alignement par défaut", le résultat dépend plus du degré de contrôle des détails.
• alignement par défaut:
L'idée que la réalisation de l'alignement dans l'intelligence générale artificielle (AGI) peut être plus simple que prévu initialement. Lorsque le modèle a des informations détaillées sur notre monde, le modèle a déjà des valeurs humaines par essence. Pour s'aligner sur AGI, il suffit d'extraire ces valeurs et de guider l'IA pour comprendre ces concepts humains abstraits. doom par défaut est l'opposé de l'alignement par défaut, et il est considéré comme impossible pour le modèle d'atteindre l'alignement.
La qualité du modèle est une zone grise. Il nous est difficile de contrôler pleinement chaque variable et son lien interne. Des erreurs peuvent conduire à des résultats irrationnels. Dans cet esprit, je pense que la nature du problème n'est pas un succès ou un échec voué à l'échec, mais un certain risque de probabilité. **Dans les deux à trois prochaines années, nous devrions nous engager à améliorer les techniques de diagnostic des modèles, les méthodes de formation à la sécurité et à réduire les écarts possibles.A l'heure actuelle, nos capacités de contrôle doivent encore être renforcées. Le problème d'alignement est différent de l'hypothèse de Riemann, c'est un problème d'ingénierie système qui ne peut être résolu qu'en accumulant de la pratique au fil du temps. Ce n'est qu'en continuant à faire avancer diverses tâches que nous pourrons progressivement optimiser le niveau de contrôle et réduire les risques. **
Dwarkesh Patel : D'une manière générale, il y a trois spéculations sur l'avenir de l'alignement :
1) Utilisez RLHF++ pour réaliser facilement l'alignement du modèle ;
2) Bien qu'il s'agisse d'un problème majeur, les grandes entreprises ont la capacité de le résoudre enfin ;
**3) Il est encore difficile de réaliser l'Alignement du modèle au niveau actuel de la société humaine. **
** Quelle est votre opinion personnelle sur la probabilité que chaque situation se produise ? **
**Dario Amodei :**Je pense qu'il y a certains risques dans ces possibilités, et nous devrions les prendre au sérieux, mais je suis plus intéressé par la façon de changer la probabilité de ces trois résultats possibles en acquérant de nouvelles connaissances par l'apprentissage.
L'interprétabilité des mécanismes peut non seulement résoudre directement le problème, mais aussi nous aider à comprendre la véritable difficulté de l'alignement des modèles De nouveaux risques, qui nous éclaireront pour comprendre la nature du problème.
Quant à certaines hypothèses théoriques selon lesquelles il existe un objectif commun (objectif convergent), je ne peux pas être entièrement d'accord. ** L'explicabilité du mécanisme est comme un type de "rayon X" - ce n'est qu'en comprenant le problème au niveau du mécanisme interne que nous pouvons conclure si certaines difficultés sont difficiles à surmonter. ** Il y a trop d'hypothèses, notre compréhension du processus est encore superficielle et nous sommes trop confiants, mais la situation risque d'être plus compliquée que prévu.
**Dwarkesh Patel : Est-il difficile de parvenir à un alignement sur Claude 3 et une série de futurs modèles ? Cette chose est-elle particulièrement importante ? **
Dario Amodei :
** Ce qui inquiète le plus tout le monde, c'est : tous les modèles d'IA peuvent s'aligner en surface, mais en fait, ils peuvent nous induire en erreur, mais je suis plus intéressé par ce que la recherche sur l'interprétabilité par machine peut nous dire. Comme je viens de le dire, l'explicabilité du mécanisme est comme la « radiographie » du modèle, de même qu'on ne peut pas affirmer qu'une radiographie est correcte, on peut seulement dire que le modèle ne semble pas être contre nous. ** Théoriquement parlant, il est en effet possible qu'il évolue vers notre contraire, et cette question n'est pas certaine à 100 %. C'est juste qu'à ce stade, l'interprétabilité est le meilleur moyen de faire en sorte que le modèle ne se développe pas comme ça.
**Dwarkesh Patel : Lors de l'ajustement ou de l'entraînement du modèle, devons-nous également veiller à éviter les contenus préjudiciables susceptibles de présenter un danger ? Par exemple, lors de l'exploration de sujets liés à la fabrication d'armes biologiques, le modèle peut fournir des réponses inappropriées en raison d'une mauvaise compréhension de la question. **
Dario Amodei : Pour le modèle de langage actuel, le risque de fuite de données est pratiquement inexistant. Si nous devons affiner le modèle, nous l'exploiterons dans une petite zone dans un environnement privé, superviserons l'ensemble du processus avec des experts de l'industrie et préviendrons tout problème potentiel, donc s'il y a une fuite, ce sera comme si le modèle était open source . Actuellement, il s'agit principalement d'un problème de sécurité. Mais le véritable danger du modèle est que nous devons craindre que si nous entraînons un modèle très puissant et voulons confirmer s'il est sûr ou dangereux, il peut y avoir un risque de domination du modèle. Le moyen d'éviter cela est de s'assurer que les modèles que nous testons ne sont pas assez puissants pour effectuer ces opérations.
**Dwarkesh Patel : Lorsque vous faites un test comme "si le modèle peut se répliquer comme une capacité dangereuse", que se passe-t-il si le modèle peut vraiment se répliquer ? **
Dario Amodei : Cette hypothèse est très raisonnable. Nous devons faire des inférences responsables, et lors de discussions avec Arc (Centre de recherche sur l'alignement, Centre de recherche sur l'alignement), nous avons appris que nous devons améliorer soigneusement et progressivement les normes de test des capacités du modèle. Par exemple, avant de tester, nous devons clairement exclure la possibilité que le modèle puisse directement ouvrir un compte AWS ou gagner des fonds par lui-même.Ces comportements sont des prérequis évidents pour que le modèle survive dans la nature. Nous devrions personnaliser divers indicateurs de test à un niveau très bas de ces comportements à risque.Tout en augmentant progressivement la difficulté des tests, nous devrions également contrôler chaque étape du test plus attentivement pour éviter tout risque potentiel pour la sécurité.
• Arc (Centre de recherche sur l'alignement, Centre de recherche sur l'alignement) :
Créée en 2021, il s'agit d'une organisation à but non lucratif axée sur la recherche sur la sécurité de l'intelligence artificielle (AI Safety), et son bureau est situé dans la région de la baie de Californie, aux États-Unis. Le fondateur d'ARC est Paul Christiano, une figure très respectée de l'industrie de l'intelligence artificielle, qui a autrefois dirigé l'équipe de recherche sur l'alignement chez OpenAI. Parce qu'il était à la pointe, il a une profonde compréhension de la façon dont l'apprentissage en profondeur s'est développé jusqu'à ce qu'il soit aujourd'hui.
AGI Safety : sécurité de l'IA et cybersécurité
**Dwarkesh Patel : Si vous prenez 30 ans comme échelle, quel problème pensez-vous être le plus important, la sécurité de l'IA ou l'alignement ? **
Dario Amodei : Je ne pense pas que ce sera un problème dans 30 ans, et je suis inquiet pour les deux.
En théorie, existe-t-il un modèle qui puisse monopoliser le monde ? Si le modèle ne suit que les souhaits d'un petit groupe de personnes, alors ce groupe de personnes peut utiliser ce modèle pour dominer le monde. Cela signifie qu'une fois qu'il y a un problème avec l'alignement, nous devons accorder la même attention aux problèmes de sécurité de l'IA causés par les abus. **
Il y a quelques mois, OpenAI a tenté d'expliquer GPT-2 avec GPT-4, ce qui est une étape très importante dans l'explicabilité. Nous avons désormais le sentiment général que l'échelle et la sécurité sont étroitement liées et se complètent. Comment juger et évaluer d'autres intelligences, et peut-être même un jour être utilisé pour mener des recherches d'alignement.
**Dwarkesh Patel : votre point de vue peut être relativement optimiste, mais le point de vue de quelqu'un peut être plus pessimiste ; nous n'avons peut-être même pas la capacité d'aligner correctement le modèle comme nous le souhaitons, pourquoi êtes-vous confiant à ce sujet ? **
**Dario Amodei : **Peu importe à quel point il est difficile de résoudre l'alignement, tout plan vraiment réussi doit prendre en compte à la fois les problèmes de sécurité et d'alignement de l'IA. ** Au fur et à mesure que la technologie de l'IA progresse, elle peut soulever des problèmes d'équilibre des pouvoirs entre les nations. En même temps, cela soulève une grande question : les individus sont-ils capables de commettre des actes malveillants difficiles à arrêter par eux-mêmes ? **
Ces problèmes doivent être résolus simultanément si nous voulons trouver des solutions qui fonctionnent vraiment et nous conduisent vers un avenir radieux. ** Il serait inapproprié d'adopter l'attitude selon laquelle si le premier problème ne peut pas être résolu, nous n'avons pas à penser au problème suivant. Au lieu de cela, il est de notre devoir de valoriser ces derniers. **Peu importe ce que l'avenir nous réserve, ces problèmes sont quelque chose que nous devons prendre au sérieux.
**Dwarkesh Patel : Pourquoi dites-vous qu'il faudra 2 à 3 ans pour qu'un grand modèle soit capable de réaliser une attaque bioterroriste à grande échelle ou quelque chose comme ça ? **
• Le Congrès américain a tenu une réunion sur la réglementation de la technologie de l'IA le 25 juillet de cette année. Le gouvernement américain a comparé l'IA au deuxième "Manhattan Project" des États-Unis ou au deuxième "Manned Moon Landing Project" de la NASA et a invité des participants, notamment des sociétés d'IA, dont OpenAI et Anthropic. Lors de la conférence, Dario Amodei a déclaré qu'il craignait que l'IA ne soit utilisée pour créer des virus dangereux et d'autres armes biologiques d'ici deux ans.
Dario Amodei : Ce que je disais quand j'étais au Congrès, c'est qu'il y a des étapes pour obtenir des informations sur Google, et il y a des étapes qui "manquent", éparpillées dans divers manuels, et peuvent même ne pas apparaître dans n'importe quel manuel. Ces informations sont des connaissances tacites et non des connaissances explicites. Nous avons constaté que, dans la plupart des cas, ces pièces manquantes critiques n'étaient pas entièrement remplies par le modèle. Mais nous avons également constaté que parfois le modèle comble les lacunes dans certains cas. Cependant, l'hallucination, qui peut parfois se produire lorsque les modèles sont capables de combler les lacunes, est également un facteur qui nous protège.
Les gens peuvent parfois poser au modèle des questions liées à la biologie pour guider le modèle à répondre avec des informations nuisibles liées aux attaques biologiques, mais en fait, ces informations peuvent également être trouvées sur Google, donc je ne suis pas particulièrement inquiet de cette situation. En fait, je pense plutôt qu'une trop grande concentration sur la réponse de Claude peut faire oublier d'autres vrais crimes.
Mais il y a aussi de nombreuses indications que le modèle fonctionne bien sur des tâches clés. Si nous comparons le modèle actuel avec le modèle précédent, nous pouvons clairement sentir l'amélioration rapide des capacités du modèle, nous sommes donc susceptibles de faire face à de vrais défis dans les 2-3 prochaines années.
**Dwarkesh Patel : En plus de la menace que l'IA peut représenter pour les êtres humains, vous avez également mis l'accent sur la cybersécurité (Cybersécurité) ? Comment allez-vous les gars à ce stade? **
Dario Amodei : Nous avons essentiellement fait quelques innovations architecturales, que nous appelons en interne des multiplicateurs informatiques, car ces conceptions sont également des mises à niveau au niveau informatique. Nous y travaillons depuis quelques mois, mais je ne peux pas trop entrer dans les détails pour éviter de casser l'architecture, et seule une poignée de personnes à l'intérieur d'Anthropic le savent. Je ne peux pas dire "notre architecture est 100% absolument sécurisée", mais Anthropic a effectivement investi dans ce domaine pour éviter les problèmes de sécurité du réseau. Bien que nos adversaires aient eu de tels incidents (remarques : cela fait référence à la fuite de données personnelles et de titres de chat de certains utilisateurs de ChatGPT Plus survenue le 20 mars 2023), à court terme, cela semble être bon pour Anthropic, mais dans À long terme, la façon dont l'ensemble de l'industrie assure sa propre sécurité est la chose la plus importante.
Notre directeur de la sécurité était en charge de la sécurité de Google Chrome, qui était une attaque largement ciblée. Il aime penser en termes de combien il en coûterait pour attaquer l'Anthropic avec succès. Notre objectif est que le coût de faire pirater Anthropic par d'autres soit plus élevé que le coût de la simple formation du propre modèle d'un utilisateur. La logique ici est que s'il y a un risque dans l'attaque, elle consommera certainement des ressources rares.
Je pense que nos standards de sécurité sont très élevés, si on le compare avec une entreprise de la même taille de 150 personnes, l'investissement dans la sécurité de ces entreprises est tout à fait incomparable avec celui d'Anthropic, assez difficile. Afin d'assurer la sécurité, seul un très petit nombre de personnes au sein d'Anthropic comprend les détails de formation du modèle.
**Dwarkesh Patel : Les entreprises technologiques disposent-elles déjà de suffisamment de défenses de sécurité pour faire face à l'AGI ? **
Dario Amodei : Personnellement, je ne suis pas sûr que l'expérience actuelle des entreprises technologiques en matière de sécurité soit suffisante pour faire face à AGI, car il peut y avoir de nombreuses cyberattaques dont nous ne sommes pas au courant, il est donc difficile de dessiner conclusion maintenant. Il existe une règle selon laquelle lorsqu'une chose reçoit suffisamment d'attention, elle sera généralement attaquée. ** Par exemple, nous avons récemment vu que les comptes de messagerie de certains hauts responsables du gouvernement américain chez Microsoft ont été piratés, il est donc raisonnable de supposer que c'est à cause des actions de certaines forces pour voler des secrets d'État.
** Au moins à mon avis, si quelque chose est de grande valeur, il va généralement être volé. Mon inquiétude est que l'AGI sera considérée comme extrêmement précieuse à l'avenir, et ce sera comme voler un missile nucléaire, et vous devez être très prudent à ce sujet. ** J'insiste sur l'amélioration du niveau de sécurité du réseau dans chaque entreprise dans laquelle je travaille. Ma préoccupation concernant la sécurité du réseau est que (cette question elle-même) n'est pas quelque chose qui peut être annoncé en grande pompe, et l'avantage de la recherche sur la sécurité est qu'elle peut permettre aux entreprises de se forger un avantage concurrentiel. Et en utilisant cela comme argument de vente pour le recrutement, je pense que nous y sommes parvenus.
Nous avions l'habitude de rivaliser avec nos pairs par le biais de la recherche sur l'interprétabilité, puis d'autres institutions ont réalisé qu'elles étaient à la traîne et ont commencé à faire des efforts dans ces domaines. Mais la cybersécurité a eu du mal à faire de même car une grande partie du travail doit être effectuée en silence. Nous avons déjà publié un article à ce sujet, mais les résultats globaux sont ce qui compte.
**Dwarkesh Patel : Que fera Anthropic en termes de sécurité dans les 2-3 prochaines années ? **
**Dario Amodei : La sécurité du centre de données est très importante. Bien que le centre de données ne doive pas nécessairement se trouver au même endroit que l'entreprise, nous faisons de notre mieux pour nous assurer que le centre de données se trouve également aux États-Unis. **
De plus, une attention particulière doit être portée à la sécurité physique du centre de données et à la protection des appareils informatiques tels que les GPU. Si quelqu'un décide de lancer une sorte de cyberattaque gourmande en ressources, il lui suffit de se rendre directement au centre de données pour voler les données ou d'extraire les données pendant qu'elles sont en transit du centre vers nous. Ces constructions différeront grandement des concepts traditionnels tant par leur forme que par leur fonction. **Compte tenu du développement rapide de la technologie actuelle, d'ici quelques années, la taille et le coût des centres de données du réseau pourraient être comparables à ceux des porte-avions. En plus de pouvoir former d'énormes modèles à travers des connexions de domaine, la sécurité du centre de données lui-même sera également un problème important. **
**Dwarkesh Patel : Récemment, des rumeurs ont circulé selon lesquelles la puissance, le processeur graphique et les autres composants nécessaires pour répondre aux modèles de nouvelle génération ont commencé à manquer. Quels préparatifs Anthropic a-t-il effectués ? **
*Dario Amodei : Le marché ne s'attendait pas à ce que le grand modèle atteigne une échelle sans précédent aussi rapidement, mais il est généralement admis que des centres de données de qualité industrielle doivent être construits pour soutenir la recherche et le développement de grands modèles *. Une fois qu'un projet arrive à ce stade, chaque composant et chaque détail doivent être traités différemment et peuvent rencontrer des problèmes en raison de facteurs étonnamment simples, l'électricité que vous avez mentionnée en est un exemple.
Pour les centres de données, nous coopérerons avec des fournisseurs de services cloud.
Commercialisation et fiducie de bénéfices à long terme
**Dwarkesh Patel : Vous avez mentionné plus tôt que les capacités des modèles s'améliorent rapidement, mais qu'il est également difficile d'apporter de la valeur au système économique existant. Pensez-vous que les produits d'IA actuels ont suffisamment de temps pour gagner un revenu stable à long terme sur le marché ? Ou pourrait-il être remplacé par un modèle plus avancé à tout moment ? Ou l'ensemble du paysage de l'industrie sera-t-il complètement différent d'ici là ? **
Dario Amodei : Cela dépend de la définition du concept de "grande échelle". À l'heure actuelle, plusieurs entreprises ont des revenus annuels compris entre 100 millions et 1 milliard de dollars américains, mais il est vraiment difficile de prévoir s'ils peuvent atteindre des dizaines de milliards ou même des billions par an, car cela dépend également de nombreux facteurs indéterminés. **Maintenant, certaines entreprises appliquent la technologie innovante de l'IA à grande échelle, mais cela ne signifie pas que l'application a obtenu les meilleurs résultats depuis le début, même s'il y a des revenus, ce n'est pas tout à fait égal à la création de valeur économique, et le le développement coordonné de toute la chaîne industrielle est un long processus. **
**Dwarkesh Patel : D'un point de vue anthropique, si la technologie des modèles de langage progresse si rapidement, théoriquement, la valorisation de l'entreprise devrait augmenter très rapidement ? **
Dario Amodei : Même si nous nous concentrons sur la recherche de sécurité des modèles plutôt que sur la commercialisation directe, nous pouvons clairement sentir que le niveau technique augmente de manière exponentielle dans la pratique. Pour les entreprises qui voient la commercialisation comme leur objectif principal, ces progrès sont certainement plus rapides et plus prononcés que les nôtres. ** Nous admettons que la technologie du modèle linguistique elle-même progresse rapidement, mais par rapport au processus d'application en profondeur de l'ensemble du système économique, l'accumulation de technologie est encore à un point de départ relativement bas. **
**Déterminer l'orientation future est une course entre les deux : la vitesse à laquelle la technologie elle-même s'améliore et la vitesse à laquelle elle est effectivement intégrée et appliquée et pénètre dans le système économique réel. Les deux sont susceptibles de se développer à grande vitesse, mais l'ordre de combinaison et de petites différences peuvent conduire à des résultats très différents. **
**Dwarkesh Patel : Les géants de la technologie pourraient investir jusqu'à 10 milliards de dollars dans la formation de modèles au cours des 2 à 3 prochaines années. Quel impact cela aura-t-il sur Anthropic ? **
**Dario Amodei : Le premier cas est que si nous ne pouvons pas maintenir notre position de pointe à cause du coût, alors nous ne continuerons pas à insister pour développer les plus avancés. **Au lieu de cela, nous examinons comment extraire la valeur des générations précédentes de modèles.
**La deuxième option consiste à accepter les compromis. ** Je pense que ces compromis peuvent être plus positifs qu'ils n'y paraissent,
** La troisième situation est que lorsque la formation du modèle atteint ce niveau, elle peut commencer à apporter de nouveaux dangers, tels que l'abus de l'IA. **
**Dwarkesh Patel : À quoi cela ressemblerait-il si l'IA n'était pas utilisée à mauvais escient, et qu'à la place, les « bonnes personnes » dirigeaient ces modèles surhumains ? Qui est la « bonne personne » ? Qui contrôlera réellement le modèle dans cinq ans ? **
Dario Amodei : Je pense que ces modèles d'IA sont extrêmement puissants, et leur gestion impliquerait un certain niveau d'implication du gouvernement ou d'une agence multinationale, mais ce serait simpliste et probablement moins efficace. ** La future gestion de l'IA doit établir un mécanisme transparent, équitable et exécutable. Cela nécessite d'équilibrer les intérêts des développeurs de technologies, des gouvernements élus et des citoyens. En fin de compte, une loi doit être adoptée pour régir cette technologie. **
**Dwarkesh Patel : Si Anthropic développe AGI au sens propre, et que le contrôle d'AGI sera confié à LTBT, cela signifie-t-il que le contrôle d'AGI lui-même sera également remis à l'agence ? **
Dario Amodei : Cela ne signifie pas qu'Anthropic, ou toute autre entité, prendra des décisions concernant AGI au nom des humains, les deux sont différents. Si Anthropic joue un rôle très important, une meilleure approche consiste à élargir la composition du Long Term Benefit Trust (LTBT) pour attirer plus de talents du monde entier, ou il peut positionner l'institution comme un organe fonctionnel A, régi par un comité multinational plus large régissant les technologies AGI de toutes les entreprises pour représenter l'intérêt public. ** Je ne pense pas que nous devrions être trop optimistes sur les questions de sécurité et d'alignement de l'IA. C'est un nouveau problème, et nous devons commencer à étudier les institutions nationales de gestion et les modèles de fonctionnement dès que possible. **
• La fiducie d'avantages à long terme:
Ces fiducies détiendraient une classe spéciale d'actions Anthropic (appelée "Classe T") qui ne pouvaient pas être vendues et ne versaient pas de dividendes, ce qui signifie qu'il n'y avait pas de voie claire vers le profit. La fiducie sera la seule entité détenant les actions de catégorie T. Mais les actionnaires de classe T, et la fiducie d'intérêts à long terme qui en résulte, auront éventuellement le pouvoir d'élire et de révoquer trois des cinq administrateurs d'Anthropic, donnant à la fiducie le contrôle majoritaire à long terme de la société.
**Dwarkesh Patel : Comment convaincre les investisseurs d'accepter une structure comme LTBT ? Donner la priorité à la sécurité technologique et à l'intérêt public plutôt qu'à la maximisation de la valeur actionnariale. **
Dario Amodei : Je pense qu'il est correct de mettre en place le mécanisme LTBT (Long Term Benefit Trust).
Un mécanisme similaire a été envisagé dès le début d'Anthropic, et un organisme de réglementation spécial a existé dès le début et continuera d'exister à l'avenir. Tout investisseur traditionnel se concentrera sur ce mécanisme lorsqu'il envisagera d'investir dans Anthropic.Certains investisseurs ont l'attitude de ne pas s'interroger sur les arrangements internes de l'entreprise, tandis que d'autres craignent que cet organisme tiers puisse pousser l'entreprise à aller à l'encontre du développement dans le sens des intérêts des actionnaires. Bien qu'il y ait des limites à cela dans la loi, nous devons en informer chaque investisseur. Pour aller plus loin, nous discutons de certaines mesures possibles qui diffèrent des intérêts des investisseurs traditionnels, et grâce à de tels dialogues, toutes les parties peuvent parvenir à un consensus.
**Dwarkesh Patel : J'ai trouvé que les fondateurs et les employés d'Anthropic ont un grand nombre de physiciens, et la loi d'échelle s'applique également ici. Quelles méthodes pratiques et façons de penser issues de la physique s'appliquent à l'IA ? **
• Théorie efficace :
Une théorie efficace est une théorie scientifique qui tente de décrire certains phénomènes sans expliquer d'où viennent les mécanismes qui expliquent les phénomènes dans sa théorie. Cela signifie que la théorie donne un modèle qui "fonctionne", mais ne donne pas vraiment une très bonne raison de donner ce modèle.
Dario Amodei : Cela tient en partie au fait que les physiciens sont de très bons apprenants, car je trouve que si vous embauchez quelqu'un avec un doctorat, contribuez, et plusieurs des fondateurs d'Anthropic, dont moi-même, Jared Kaplan et Sam McCandlish, ont une formation en physique, et nous connaissons beaucoup d'autres physiciens, nous avons donc pu les embaucher. À l'heure actuelle, l'entreprise peut avoir 30 à 40 employés ayant une formation en physique.ML n'est pas encore un domaine où le système théorique a été formé, ils peuvent donc démarrer rapidement.
**Dwarkesh Patel : Supposons que nous soyons déjà en 2030 et que nous ayons résolu les problèmes majeurs reconnus d'éradication des maladies, d'éradication de la fraude, etc., à quoi ressemblera le monde ? Que faire de la super intelligence ? **
Dario Amodei : Proposer directement « comment utiliser la super IA après l'avoir obtenue » tend à faire en sorte que les gens aient un certain présupposé, ce qui est dérangeant. Au cours des 150 dernières années, nous avons accumulé une riche expérience basée sur la pratique de l'économie de marché et du système démocratique, reconnaissant que chacun peut définir par lui-même quelle est la meilleure façon de vivre, et ** la société est formulée de manière complexe et décentralisée. normes et valeurs. **
Lorsque le problème de sécurité de l'IA n'est pas résolu, un certain degré de supervision centralisée est nécessaire, mais si tous les obstacles ont été levés, comment créer une meilleure écologie ? ** Je pense que la question à laquelle la plupart des gens, des groupes et des idéologies commencent à réfléchir est "quelle est la définition d'une bonne vie", mais l'histoire nous dit que souvent la pratique d'imposer un cadre de "vie idéale" entraîne souvent de mauvaises conséquences . **
**Dwarkesh Patel : Comparé à d'autres PDG d'entreprises d'intelligence artificielle, vous ne faites pas beaucoup d'apparitions publiques et vous publiez rarement sur Twitter. Pourquoi ? **
Dario Amodei : J'en suis très fier. ** Si les autres pensent que je suis trop discret, c'est exactement ce que je veux. Incorporer la reconnaissance ou les éloges dans son système de motivation principal peut détruire sa capacité à penser et, dans certains cas, peut même "endommager l'âme", alors je choisis activement de garder un profil bas pour protéger ma capacité à penser de manière indépendante et objective. **
** J'ai vu des gens devenir célèbres sur Twitter pour un certain point de vue, mais en fait, ils peuvent porter un bagage d'image et il est difficile de changer. Je n'aime pas que les entreprises soient trop personnelles, et je ne suis pas fan de jouer quelque chose de personnel à propos du PDG, car cela détourne l'attention des forces et des problèmes de l'entreprise. ** J'espère que tout le monde accorde plus d'attention à l'entreprise elle-même et à la structure d'incitation. Tout le monde aime un visage amical, mais être gentil ne signifie pas grand-chose.
Référence:
Vidéo originale :
Les recherches d'Anthropic sur l'explicabilité des mécanismes :
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Fondateur d'Anthropic: Il est possible de "prendre des rayons X" sur de grands modèles, et l'AGI peut être réalisée en 2-3 ans
Cet article est compilé à partir d'une interview en podcast avec le PDG d'Anthropic, Dario Amodei.
Anthropic est la deuxième entreprise du circuit LLM. Elle a été fondée en janvier 2021 par Dario Amodei. En juillet de cette année, Anthropic a lancé le modèle de dernière génération Claude 2. Dario Amodei était auparavant vice-président de la recherche et de la sécurité chez OpenAI. Il a fondé Anthropic parce qu'il pensait que de nombreux problèmes de sécurité dans les grands modèles devaient être résolus de toute urgence. Par conséquent, Anthropic attache une grande importance à la sécurité de l'IA. La vision est pour construire des systèmes d'IA fiables (Reliable), explicables, interprétables et orientables. La plus grande différence entre les routes Anthropic et OpenAI est également leur concentration sur l'interprétabilité.
Dans l'interview, Dario explique l'orientation et l'investissement d'Anthropic dans l'interprétabilité. L'interprétabilité est l'un des moyens importants d'assurer la sécurité du modèle, **similaire à la prise de rayons X et d'examens IRM sur le modèle, permettant aux chercheurs de comprendre ce qui se passe à l'intérieur du modèle et d'identifier les sources possibles de risque. Comprendre vraiment pourquoi la loi d'échelle fonctionne et comment réaliser l'alignement est inséparable de l'interprétabilité. **Dario pense que la sécurité et l'alignement de l'IA sont tout aussi importants. Une fois qu'il y a un problème d'alignement, les problèmes de sécurité de l'IA causés par un abus doivent recevoir la même attention.
Dario pense que la capacité du modèle sera considérablement améliorée dans les 2-3 prochaines années, et pourrait même "prendre le contrôle de la société humaine", mais il ne peut pas vraiment participer aux liens commerciaux et économiques. Ce n'est pas à cause de la capacité de le modèle, mais à cause de diverses frictions invisibles, les gens n'utilisent pas les modèles assez efficacement pour réaliser leur véritable potentiel dans la vie réelle et au travail.
Comparé aux PDG de la plupart des entreprises d'intelligence artificielle, Dario participe à peine aux entretiens publics et exprime rarement ses opinions sur Twitter. Dario a expliqué qu'il s'agissait de son propre choix actif et qu'il protégeait sa capacité à penser de manière indépendante et objective en gardant un profil bas.
Ce qui suit est la table des matières de cet article, et il est recommandé de le lire en combinaison avec les points principaux.
👇
01 Pourquoi la loi d'échelle fonctionne
02 Comment la capacité du modèle sera-t-elle à la hauteur de celle des humains ?
03 Alignement : L'interprétabilité consiste à « radiographier » le modèle
04 AGI Safety : sécurité de l'IA et cybersécurité
05 Commercialisation et fiducie des avantages à long terme
** Pourquoi la loi d'échelle fonctionne-t-elle ? **
**Dwarkesh Patel : D'où vient votre croyance en la loi de mise à l'échelle ? Pourquoi la capacité du modèle devient-elle plus forte à mesure que la taille des données augmente ? **
**Dario Amodei : La loi d'échelle est dans une certaine mesure un résumé empirique. Nous percevons ce phénomène à partir de diverses données et phénomènes, et le résumons en tant que loi d'échelle, mais il n'y a pas d'explication généralement acceptée et particulièrement bonne pour l'expliquer. Expliquez ce que principe essentiel de sa fonction est. **
Si je dois donner une explication, je suppose personnellement que cela peut être similaire à la distribution à longue queue ou à la loi de puissance en physique. Lorsqu'il y a de nombreuses caractéristiques (caractéristiques), les données avec une proportion relativement importante correspondent généralement à des règles et des modèles de base plus dominants, car ces modèles apparaissent souvent, la quantité de données correspondante est naturellement plus, tandis que les données à longue traîne sont principalement certaines règles plus détaillées et plus complexes. ** Par exemple, lorsqu'il s'agit de données liées à la langue, certaines règles de base peuvent être observées dans la plupart des données, telles que les règles grammaticales de base telles que la partie du discours, la structure de l'ordre des mots, etc., et celles à queue relativement longue sont des grammaires complexes.
C'est pourquoi chaque fois que les données augmentent d'un ordre de grandeur, le modèle peut apprendre davantage de règles de comportement. Mais ce que nous ne savons pas, c'est pourquoi il existe une corrélation linéaire parfaite entre les deux. Le scientifique en chef d'Anthropic, Gerard Kaplan, a utilisé la dimension fractale (Fractal Dimension) pour expliquer cette question.Bien sûr, d'autres personnes essaient d'autres méthodes pour vérifier la loi de Sacling, mais nous ne pouvons toujours pas expliquer pourquoi jusqu'à présent.
• Dimension fractale :
Le mathématicien Felix Hausdorff a proposé pour la première fois le concept de dimension fractale en 1918, également connu plus tard sous le nom de dimension Hausdorff. La dimension fractale peut être utilisée pour décrire la structure de relation de caractéristiques cachées dans les données d'apprentissage automatique et fournit un modèle d'explication mathématique derrière l'effet de mise à l'échelle, expliquant ainsi pourquoi les modèles d'IA peuvent améliorer les performances avec l'échelle.
** De plus, même si nous connaissons l'existence de la loi d'échelle, il est difficile de prédire les changements dans les capacités spécifiques du modèle. Dans la recherche de GPT-2 et GPT-3, on ne sait jamais quand le modèle peut apprendre à calculer et à programmer, et ces capacités apparaissent soudainement. ** La seule chose qui peut être prédite est au niveau numérique, comme la valeur de perte, le changement de valeur d'entropie, etc. peut être prédit assez précisément, mais c'est comme si nous pouvions faire des statistiques sur les données météorologiques et prédire le toute la tendance du changement climatique, mais il est difficile de prédire le temps et la température d'un jour spécifique.
**Dwarkesh Patel : Pourquoi un modèle peut-il soudainement avoir une certaine capacité ? Par exemple, il ne comprenait pas l'addition auparavant, mais maintenant il maîtrise la capacité de calculer ? Qu'est-ce qui a causé ce changement ? **
Dario Amodei : C'est une autre question que nous continuons d'explorer. Nous essayons d'utiliser la méthode de l'interprétabilité mécaniste (Mechanistic Interpretability) pour expliquer cette question et expliquer les phénomènes de langage avec une idée similaire à la connexion de circuit.Vous pouvez imaginer ces choses comme des circuits connectés un par un.
Il existe des preuves que lorsqu'un modèle reçoit quelque chose, sa probabilité de donner la bonne réponse augmente soudainement, mais si nous examinons le changement avant que le modèle ne donne réellement la bonne réponse, nous voyons que la probabilité est d'un million Un centième , cent millième a lentement grimpé à un millième. Dans de nombreux cas de ce genre, il semble y avoir un processus graduel en cours que nous n'avons pas observé et que nous n'avons pas encore compris.
Nous ne pouvons pas être sûrs qu'un "circuit" comme "addition" ait toujours existé depuis le premier jour, mais est progressivement passé de faible à fort avec un processus spécifique, afin que le modèle puisse donner la bonne réponse. Ce sont des questions auxquelles nous voulons répondre par l'explicabilité mécaniste.
• Interprétabilité mécaniste :
L'interprétabilité du mécanisme est l'étude de l'ingénierie inverse des réseaux de neurones, qui peut être utilisée pour aider les gens à comprendre plus facilement comment le modèle mappe l'entrée à la sortie, et c'est un moyen de réaliser l'interprétabilité du modèle. L'objectif principal de l'explicabilité des mécanismes est de comprendre l'apprentissage en profondeur en tant que science naturelle, en utilisant la structure et les paramètres du modèle pour expliquer le processus de prise de décision et les résultats de prédiction du modèle, afin que les utilisateurs humains puissent comprendre et vérifier le principe de fonctionnement de le modèle. Ses premiers travaux se sont concentrés sur l'utilisation de méthodes de factorisation matricielle et de visualisation des caractéristiques pour comprendre les représentations au niveau des couches intermédiaires des réseaux visuels, et plus récemment, ils se sont concentrés sur les représentations des réseaux multimodaux, ainsi que sur la compréhension au niveau des voies des algorithmes des réseaux neuronaux.
Anthropic a publié une étude sur l'interprétabilité des mécanismes "Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases".
**Dwarkesh Patel : Y a-t-il des capacités qui ne viennent pas avec la taille du modèle ? **
**Dario Amodei : L'alignement du modèle et les capacités liées à la valeur peuvent ne pas émerger naturellement avec la taille du modèle. ** Une façon de penser est que le processus de formation du modèle consiste essentiellement à prédire et à comprendre le monde, et sa principale responsabilité concerne les faits, et non les opinions ou les valeurs. Mais il y a quelques variables libres ici : quelle action devez-vous entreprendre ? Quel point de vue faut-il adopter ? À quels facteurs devez-vous prêter attention ? Mais il n'y a pas d'étiquette de données de ce type sur laquelle le modèle peut apprendre. Par conséquent, je pense que l'émergence de l'alignement et des valeurs, etc. est peu probable.
**Dwarkesh Patel : Est-il possible qu'avant que la capacité du modèle ne rattrape l'intelligence humaine, les données disponibles pour l'entraînement soient épuisées ? **
**Dario Amodei :**Je pense qu'il est nécessaire de distinguer s'il s'agit d'un problème théorique ou d'une situation pratique. D'un point de vue théorique, nous ne sommes pas loin de manquer de données, mais mon parti pris personnel est que c'est peu probable. Nous pouvons générer des données de plusieurs façons, donc les données ne sont pas vraiment un obstacle. Il existe une autre situation dans laquelle nous épuisons toutes les ressources informatiques disponibles, ce qui ralentit la progression des capacités du modèle. Les deux scénarios sont possibles.
**Mon point de vue personnel est qu'il y a une forte probabilité que la loi d'échelle ne stagne pas, et même s'il y a un problème, il est plus probable qu'il soit la cause de l'architecture informatique. **Par exemple, si nous utilisons LSTM ou RNN, le taux d'évolution de la capacité du modèle changera. Si nous rencontrions un goulot d'étranglement dans l'évolution des capacités du modèle dans chaque situation architecturale, ce serait assez grave, car cela signifie que nous avons rencontré un problème plus profond.
• LSTM:
Les réseaux de mémoire à long court terme (réseaux de mémoire à long court terme), un réseau RNN spécial (réseau de neurones cycliques), peuvent apprendre des dépendances à long terme, résoudre le problème du RNN traditionnel dans l'apprentissage de modèles de séquence longue et extraire à long et à court terme en séquence informations sur les données. La capacité d'apprentissage et la capacité de représentation du LSTM sont plus fortes que celles du RNN standard.
** Je pense que nous avons atteint un stade où il n'est peut-être pas très différent de parler de ce qu'un modèle peut et ne peut pas faire. ** Dans le passé, les gens limitaient la capacité du modèle, pensant que le modèle ne pouvait pas maîtriser la capacité de raisonnement, apprendre la programmation et penser qu'il pourrait rencontrer des goulots d'étranglement dans certains aspects. Bien que certaines personnes, dont moi, ne le pensaient pas auparavant, mais au cours des dernières années, ce type de théorie des goulots d'étranglement est devenu plus courant, et maintenant il a changé.
** Si l'effet du futur processus de mise à l'échelle du modèle voit un goulot d'étranglement, je pense que le problème vient de la conception de la fonction de perte en se concentrant sur la prochaine tâche de prédiction de jeton. ** Lorsque nous mettons trop l'accent sur les capacités de raisonnement et de programmation, la perte du modèle se concentrera sur les jetons qui reflètent cette capacité, et les jetons d'autres problèmes apparaîtront moins fréquemment (Remarque : l'ensemble de données de pré-formation du le modèle sera basé sur l'importance que les scientifiques accordent au degré de capacités, ajustez son rapport) **, la fonction de perte accorde trop d'attention aux jetons qui fournissent le plus d'entropie d'information, tout en ignorant ceux qui sont réellement importants, le signal peut être submergé dans le bruit. **
Si ce problème survient, nous devons introduire une sorte de processus d'apprentissage par renforcement. Il existe de nombreux types de RL, tels que l'apprentissage par renforcement avec rétroaction humaine (RLHF), l'apprentissage par renforcement pour les cibles et, comme l'IA constitutionnelle, l'amélioration (amplification) et le débat. (débat) et autres. Ce sont à la fois la méthode d'alignement du modèle et la manière de former le modèle. ** Nous devrons peut-être essayer de nombreuses méthodes, mais nous devons nous concentrer sur l'objectif du modèle. **
L'un des problèmes de l'apprentissage par renforcement est que vous devez concevoir une fonction de perte très complète. La fonction de perte de la prochaine prédiction de jeton a déjà été conçue, donc si l'échelle dans cette direction voit la limite supérieure, le développement de l'IA ralentira.
**Dwarkesh Patel : Comment avez-vous compris la mise à l'échelle ? **
**Dario Amodei : **La formation de mon opinion remonte approximativement de 2014 à 2017. J'ai été attentif au développement de l'IA, mais j'ai longtemps pensé qu'il faudrait beaucoup de temps pour que l'IA soit vraiment appliquée, jusqu'à l'émergence d'AlexNet. Puis j'ai rejoint l'équipe projet de Wu Enda à Baidu à l'époque, et c'était la première fois que j'entrais en contact avec l'IA.
Je me considère plutôt chanceux, contrairement à d'autres universitaires de l'époque, j'ai été chargé de créer des systèmes de reconnaissance vocale à la pointe de la technologie, et il y avait beaucoup de données et de GPU disponibles. **Au cours de ce projet, je me suis naturellement rendu compte que le Scaling est une bonne solution. Ce processus est également différent de la recherche postdoctorale, nous n'avons pas nécessairement besoin de proposer des idées intelligentes et innovantes qui n'ont pas été proposées auparavant. **
Tout au long du projet, j'ai seulement besoin de mener quelques expériences de base, telles que l'ajout de couches supplémentaires au RNN ou l'ajustement des paramètres d'entraînement pour essayer de prolonger le temps d'entraînement du modèle. Pendant cette période, j'ai observé le processus d'entraînement du modèle et j'ai vu la simulation Quand cela se produit-il. J'ai également essayé d'ajouter de nouvelles données d'entraînement ou de réduire les cycles d'entraînement répétés, et j'ai observé l'impact de ces ajustements sur les performances du modèle. Au cours de ces expériences, j'ai remarqué quelques résultats réguliers. Cependant, je ne sais pas si ces imaginations sont révolutionnaires ou si d'autres collègues ont fait des découvertes similaires. Dans l'ensemble, ce n'est que ma chance en tant que débutant en IA. Je ne connais pas grand-chose d'autre dans le domaine, mais j'ai senti à l'époque que cela était également validé dans le domaine de la reconnaissance vocale.
**J'ai connu Ilya avant la création d'OpenAI, et il m'a dit qu'"il faut se rendre compte que ces modèles veulent juste apprendre", cette perspective m'a largement inspiré, et m'a fait réaliser que le constat précédent Le phénomène n'est peut-être pas un cas aléatoire mais un événement courant. Ces modèles ont juste besoin d'apprendre, nous avons seulement besoin de fournir des données de haute qualité et de créer suffisamment d'espace pour qu'ils fonctionnent, et les modèles apprendront par eux-mêmes. **
**Dwarkesh Patel : Peu de gens ont déduit une vision de "l'intelligence universelle" comme vous et Ilya. Comment pensez-vous à cette question différemment des autres personnes ? Qu'est-ce qui vous fait penser que les modèles vont continuer à s'améliorer en reconnaissance vocale, et de la même manière dans d'autres domaines ? **
Dario Amodei : Je ne sais vraiment pas, quand j'ai observé pour la première fois un phénomène similaire dans le domaine de la parole, j'ai pensé que c'était juste une loi applicable au champ vertical de la reconnaissance vocale. Entre 2014 et 2017, j'ai essayé beaucoup de choses différentes et j'ai observé la même chose encore et encore. Par exemple, j'ai observé cela dans le jeu Dota. Bien que les données disponibles dans le domaine de la robotique soient relativement limitées et que beaucoup de gens ne soient pas optimistes, j'ai également observé un phénomène similaire. ** Je pense que les gens ont tendance à se concentrer sur la résolution des problèmes immédiats. Ils peuvent accorder plus d'attention à la façon de résoudre le problème lui-même dans le sens vertical, plutôt que de penser aux problèmes de niveau inférieur dans le sens horizontal, de sorte qu'ils ne peuvent pas considérer pleinement la possibilité de mise à l'échelle du sexe. Par exemple, dans le domaine de la robotique, le problème le plus fondamental peut être l'insuffisance des données d'entraînement, mais il est facile de conclure que la mise à l'échelle ne fonctionne pas. **
**Dwarkesh Patel : Quand avez-vous réalisé que le langage pouvait être un moyen d'introduire d'énormes quantités de données dans ces modèles ? **
**Dario Amodei :**Je pense que la chose la plus importante est le concept d'apprentissage auto-supervisé basé sur la prédiction du prochain jeton, ainsi qu'un grand nombre d'architectures pour la prédiction. Ceci est en fait similaire à la logique des tests de développement de l'enfant. Par exemple, Mary entre dans la pièce et met un objet, puis Chuck entre et déplace l'objet sans que Mary s'en aperçoive, qu'en pense Mary ? Afin de compléter ce type de prédiction, le modèle doit résoudre en même temps les problèmes mathématiques, les problèmes psychologiques, etc. Donc à mon avis, pour faire de bonnes prédictions, il faut alimenter le modèle avec des données et le laisser apprendre sans aucune contrainte.
Bien que j'aie eu un sentiment similaire il y a longtemps, jusqu'à ce qu'Alec Radford fasse quelques tentatives sur GPT-1, j'ai réalisé que nous pouvons non seulement implémenter un modèle avec une capacité prédictive, mais aussi l'affiner.Compléter différents types de missions. Je pense que cette chose nous donne la possibilité de faire toutes sortes de tâches, de pouvoir résoudre toutes sortes de problèmes, y compris le raisonnement logique. Bien sûr, nous pouvons également continuer à augmenter la taille du modèle.
• Alec Radford, l'auteur de Sentiment Neuron, le prédécesseur de la série GPT, et le co-auteur de la série d'articles GPT, travaille toujours chez OpenAI.
**Dwarkesh Patel : Comment pensez-vous que la formation de modèles nécessite beaucoup de données ? Faut-il s'inquiéter de la faible efficacité de la formation des modèles ? **
Dario Amodei : Cette question est toujours en cours d'exploration. Une théorie est que la taille du modèle est en réalité de 2 à 3 ordres de grandeur inférieure à celle du cerveau humain, mais la quantité de données nécessaires pour former le modèle est trois à quatre fois plus grande que la quantité de texte lu par un enfant de 18 ans. L'ordre de grandeur, l'ordre de grandeur des êtres humains est probablement de centaines de millions, tandis que l'ordre de grandeur des modèles est de centaines de milliards ou de trillions. La quantité de données obtenues par les êtres humains n'est pas grande, mais elle est tout à fait suffisante pour gérer notre travail et notre vie quotidienne. Mais il existe une autre possibilité qu'en plus d'apprendre, nos sens transmettent en fait des informations au cerveau.
Il y a en fait un paradoxe ici. L'échelle du modèle que nous avons actuellement est plus petite que celle du cerveau humain, mais il peut accomplir de nombreuses tâches similaires à celle du cerveau humain. En même temps, la quantité de données requises par ce modèle est beaucoup plus grand que celui du cerveau humain. Nous devons donc continuer à explorer et à comprendre cette question, mais dans une certaine mesure, ce n'est pas important. ** Plus important encore, comment évaluer la capacité du modèle et comment juger de l'écart entre eux et les humains. En ce qui me concerne, l'écart n'est pas si loin. **
**Dwarkesh Patel : L'accent mis sur la mise à l'échelle et, plus largement, sur les progrès des capacités des modèles de calcul à grande échelle sous-estime-t-il le rôle des progrès algorithmiques ? **
**Dario Amodei : ** Lorsque l'article Transformer a été publié pour la première fois, j'ai écrit sur des problèmes connexes et mentionné qu'il existe 7 facteurs connexes qui affecteront l'amélioration de la capacité du modèle, dont 4 facteurs sont les plus évidents et les plus critiques : quantité de paramètres du modèle, échelle de puissance de calcul, qualité des données et fonction de perte. Par exemple, des tâches telles que l'apprentissage par renforcement ou la prédiction du jeton suivant dépendent fortement de la bonne fonction de perte ou du mécanisme d'incitation.
• Apprentissage par renforcement (RL) :
Trouvez le plan d'action optimal pour chaque état particulier de l'environnement grâce à un processus de base d'essais et d'erreurs. Le modèle d'apprentissage automatique introduira une règle aléatoire au début et, en même temps, introduira un certain nombre de points (également appelés récompenses) dans le modèle à chaque fois qu'une action est entreprise.
• La fonction de perte (fonction de perte) dans l'apprentissage automatique fait référence à la fonction de mesure de la qualité de l'ajustement, qui est utilisée pour refléter le degré de différence entre la sortie du modèle et la valeur réelle, c'est-à-dire pour mesurer la prédiction erreur ; y compris la prédiction de tous les points d'échantillonnage Erreur, fournissant une valeur unique pour représenter la qualité globale de l'ajustement ; en même temps, pendant le processus de formation, les paramètres du modèle seront ajustés en continu en fonction de la valeur de la fonction de perte, en afin de minimiser la valeur de perte et d'obtenir un meilleur effet d'ajustement.
Il y a aussi 3 facteurs :
Le premier concerne les symétries structurelles. Si l'architecture ne prend pas en compte la bonne symétrie, elle ne fonctionnera pas et sera très inefficace. Par exemple, le réseau de neurones convolutifs (CNN) considère la symétrie translationnelle (symétrie translationnelle), le LSTM considère la symétrie temporelle (symétrie temporelle), mais le problème avec les LSTM est qu'ils ne prêtent pas attention au contexte, cette faiblesse structurelle est courante. Si le modèle ne peut pas comprendre et traiter la longue histoire passée (en se référant aux données qui sont apparues plus tôt dans la structure de données de séquence) pour des raisons structurelles, ce sera comme si le calcul était incohérent.Les modèles RNN et LSTM ont de telles lacunes.
• Adam(Estimation adaptative du moment):
Estimation adaptative du moment, l'algorithme Adam combine les avantages de RMSprop et SGD, et peut bien gérer les problèmes d'optimisation non convexes.
• SGD (descente de gradient stochastique) :
Stochastic Gradient Descent, une méthode itérative pour optimiser une fonction objective avec des propriétés de lissage appropriées telles que différentiable ou sous-différentiable. Il peut être considéré comme une approximation stochastique de l'optimisation de descente de gradient. Dans les problèmes d'optimisation de grande dimension, cela réduit la charge de calcul et permet des itérations plus rapides en échange de taux de convergence plus faibles.
Ensuite, il y a la stabilité numérique. L'optimisation des fonctions de perte est numériquement difficile et facile à distinguer. C'est pourquoi Adam fonctionne mieux que les MST ordinaires.
Le dernier élément est de s'assurer que le processus de calcul du modèle n'est pas entravé, alors seulement l'algorithme peut réussir.
Par conséquent, les progrès de l'algorithme ne consistent pas simplement à améliorer la puissance de calcul de l'ordinateur, mais également à éliminer les obstacles artificiels de l'ancienne architecture. Souvent, le modèle veut apprendre et calculer librement, pour être bloqué par nous à notre insu.
**Dwarkesh Patel : Pensez-vous qu'il y aura quelque chose à l'échelle de Transformer pour piloter la prochaine grande itération ? **
Dario Amodei : Je pense que c'est possible. Certaines personnes ont essayé de simuler des dépendances à long terme. J'ai également observé que certaines idées dans Transformer ne sont pas assez efficaces pour représenter ou traiter des choses. **Cependant, même si ce type d'innovation ne se produit pas, nous nous développons déjà rapidement. Si cela apparaît, cela ne fera que développer le champ plus rapidement, et l'accélération ne sera peut-être pas si importante, car la vitesse est déjà très rapide . **
**Dwarkesh Patel : En termes d'acquisition de données, le modèle doit-il avoir une intelligence incarnée ? **
Dario Amodei : J'ai tendance à ne pas y voir une nouvelle architecture, mais une nouvelle fonction de perte, car l'environnement dans lequel le modèle collecte des données devient complètement différent, ce qui est important pour l'apprentissage de certaines compétences. Bien que la collecte de données soit difficile, nous avons au moins avancé sur la voie de la collecte de corpus, et nous continuerons à l'avenir, même s'il reste encore des possibilités à développer en termes de pratiques spécifiques.
• Fonction de perte :
C'est un concept important dans l'apprentissage automatique et l'apprentissage en profondeur. Il est utilisé pour mesurer le degré de différence entre le résultat de prédiction du modèle et la véritable étiquette, c'est-à-dire l'erreur de prédiction du modèle. La fonction de perte est conçue pour permettre au modèle de minimiser l'erreur de prédiction en ajustant les paramètres, améliorant ainsi les performances et la précision du modèle.
**Dwarkesh Patel : Existe-t-il d'autres approches telles que RL ? **
Dario Amodei : Nous utilisons déjà la méthode RLHF pour l'apprentissage par renforcement, mais je pense qu'il est difficile de distinguer s'il s'agit d'alignement ou de capacité ? Les deux sont très similaires. Je demande rarement aux modèles d'agir via RL. RL ne doit être utilisé qu'après que le modèle a pris des mesures pendant un certain temps et compris les conséquences de ces actions. Je pense donc que l'apprentissage par renforcement va être très puissant, mais qu'il pose également de nombreux problèmes de sécurité en ce qui concerne la manière dont les modèles agissent dans le monde.
L'apprentissage par renforcement est un outil couramment utilisé lorsque des actions sont entreprises sur une longue période de temps et que les conséquences de ces actions ne sont comprises que plus tard.
**Dwarkesh Patel : Comment pensez-vous que ces technologies seront intégrées dans des tâches spécifiques à l'avenir ? Ces modèles de langage peuvent-ils communiquer entre eux, s'évaluer, se référer et améliorer leurs résultats de recherche respectifs ? Ou est-ce que chaque modèle fonctionne indépendamment et se concentre uniquement sur la fourniture de résultats par lui-même sans collaborer avec d'autres modèles ? Ces modèles de langage de haut niveau pourront-ils former un véritable système collaboratif en cours de développement et d'application à l'avenir, ou chaque modèle fera-t-il son propre truc ? **
Dario Amodei : Le modèle devra probablement accomplir des tâches plus complexes à l'avenir, ce qui est une tendance inévitable. Cependant, pour des raisons de sécurité, nous devrons peut-être limiter le champ d'application du modèle linguistique dans une certaine mesure pour atténuer les risques potentiels. **Le dialogue entre modèles est-il possible ? Sont-ils principalement destinés à des utilisateurs humains ? Ces questions nécessitent la prise en compte des influences sociales, culturelles et économiques au-delà du niveau technique et sont difficiles à prévoir avec précision.
** Bien que nous puissions prédire la tendance à la croissance de la taille du modèle, il est difficile de faire des prédictions fiables sur des questions telles que le calendrier de commercialisation ou le formulaire de demande. Je ne suis pas très bon pour prédire moi-même ce genre de tendance de développement futur, et personne ne peut le faire très bien à l'heure actuelle. **
**Comment la capacité du modèle correspondra-t-elle à celle des humains ? **
**Dwarkesh Patel : Si quelqu'un me disait en 2018 que nous aurions un modèle comme Claude-2 en 2023 avec toutes sortes de capacités impressionnantes, je penserais certainement que l'AGI a été réalisé en 2018. Mais clairement, au moins pour le moment, et peut-être même dans les générations futures, nous sommes bien conscients qu'il y aura toujours des différences entre l'IA et les niveaux humains. Pourquoi ce décalage entre les attentes et la réalité ? **
**Dario Amodei : **Je suis nouveau sur GPT-3, et dans les premiers stades d'Anthropic, mon sentiment général à propos de ces modèles est : ils semblent vraiment saisir l'essence du langage, je ne suis pas sûr que nous ayons besoin de étendre le modèle jusqu'à quel point, peut-être devrions-nous accorder plus d'attention à d'autres domaines tels que l'apprentissage par renforcement. En 2020, je pense qu'il est possible d'augmenter encore la taille du modèle, mais à mesure que la recherche s'approfondit, je commence à me demander s'il est plus efficace d'ajouter directement d'autres formations ciblées comme l'apprentissage par renforcement.
** Nous avons vu que l'intelligence humaine est en fait une gamme très large, donc la définition de "machines atteignant le niveau humain" est elle-même une gamme, et le lieu et le moment où les machines accomplissent différentes tâches sont différents. Plusieurs fois, par exemple, ces modèles ont approché ou même dépassé les performances humaines, mais en sont encore à leurs balbutiements lorsqu'il s'agit de prouver des théorèmes mathématiques relativement simples. Tout cela montre que l'intelligence n'est pas un spectre continu (spectre). ** Il existe différents types de connaissances et de compétences professionnelles dans divers domaines, et les méthodes de mémoire sont également différentes. Si vous me l'aviez demandé il y a 10 ans (Note de motivation : Dario étudiait encore la physique et les neurosciences à l'époque), je n'aurais pas imaginé que ce serait le cas.
**Dwarkesh Patel : Quel degré de chevauchement dans la gamme de compétences pensez-vous que ces modèles présenteront à partir de la distribution de la formation que ces modèles obtiennent de la grande quantité de données Internet que les humains obtiennent de l'évolution ? **
Dario Amodei : Il y a un chevauchement considérable. De nombreux modèles jouent un rôle dans les applications commerciales, aidant efficacement les humains à améliorer leur efficacité. Compte tenu de la variété des activités humaines et de l'abondance d'informations sur Internet, je pense que les modèles apprennent dans une certaine mesure des modèles physiques du monde réel, mais ils n'apprennent pas à fonctionner dans la réalité réelle, des compétences qui peuvent être relativement faciles à affiner. Je pense qu'il y a des choses que les modèles n'apprennent pas, mais que les humains font.
**Dwarkesh Patel : Est-il possible que les modèles surpassent les humains dans de nombreuses tâches liées aux affaires et à l'économie au cours des prochaines années ? Dans le même temps, les modèles peuvent encore être inférieurs aux humains dans certaines tâches, évitant ainsi une explosion d'intelligence similaire ? **
Dario Amodei : Cette question est difficile à prédire. Ce que je veux rappeler, c'est que la loi d'échelle peut fournir des idées de prédiction du point de vue de la base théorique, mais il sera très difficile de vraiment saisir les détails du développement futur. ** La loi d'échelle peut continuer à s'appliquer, bien sûr, et si des facteurs de sécurité ou de réglementation ralentiront les progrès, mais si ces frictions sont mises de côté **, je pense que si l'IA peut aller plus loin dans la création de valeur économique, alors elle doit Plus de progrès seront faites dans plus de domaines.
Je ne vois pas le modèle fonctionner particulièrement faiblement dans aucun domaine, ou ne faire aucun progrès du tout. Comme les mathématiques et la programmation dans le passé, elles sont difficiles mais donnent aussi des résultats inattendus. Au cours des 6 derniers mois, le modèle 2023 a fait des progrès significatifs par rapport au modèle 2022. Bien que les performances du modèle dans différents domaines et tâches ne soient pas complètement équilibrées, l'amélioration de la capacité globale profitera certainement à tous les domaines. .
**Dwarkesh Patel : Face à une tâche complexe, le modèle a-t-il la capacité d'effectuer une chaîne de pensée dans une série de tâches continues ? **
**Dario Amodei : **La capacité de prise de décision continue dépend de la formation de l'apprentissage par renforcement, afin que le modèle puisse effectuer des tâches à plus long terme. ** Et je ne pense pas que cela nécessite une puissance de calcul supplémentaire à plus grande échelle. Penser ainsi est une sous-estimation erronée de la capacité d'apprentissage du modèle. **
La question de savoir si les modèles surpasseront les humains dans certains domaines mais auront du mal à le faire dans d'autres, je pense que c'est compliqué, dans certains domaines cela peut être vrai, mais dans certains domaines ce ne sera pas parce que le monde physique est impliqué dans des tâches d'intelligence incarnée dans
Alors, quelle est la prochaine étape ? L'IA peut-elle nous aider à former une IA plus rapide qui peut résoudre ces problèmes ? Le monde physique n'est-il plus nécessaire ? Sommes-nous préoccupés par les problèmes d'alignement? Y a-t-il des inquiétudes quant à une utilisation abusive comme la création d'armes de destruction massive ? Doit-on craindre que l'IA elle-même ne prenne directement le pas sur les futures recherches en IA ? Sommes-nous inquiets qu'il atteigne un certain seuil de productivité économique où il peut effectuer des tâches comme la moyenne ? … Je pense que ces questions peuvent avoir des réponses différentes, mais je pense qu'elles le seront toutes d'ici quelques années.
**Dwarkesh Patel : Si Claude était un employé d'Anthropic, quel serait son salaire ? Est-ce que cela accélère le développement de l'intelligence artificielle dans un sens réel ? **
Dario Amodei : Pour moi, c'est probablement plus un stagiaire dans la plupart des cas, mais toujours mieux qu'un stagiaire dans certains domaines spécifiques. Mais en général, il peut être difficile de donner une réponse absolue à cette question, car les modèles ne sont pas humains dans la nature, ils peuvent être conçus pour répondre à une ou quelques questions, ** mais contrairement aux humains, ils n'ont pas Le concept de "expérience basée sur le temps". **
** Si l'IA veut devenir plus efficace, elle doit d'abord aider les humains à améliorer leur propre productivité, puis atteindre progressivement le même niveau de productivité humaine. La prochaine étape après cela est d'être une force majeure dans l'avancement de la science, ce qui, je crois, se produira à l'avenir. Mais je soupçonne que les détails de ce qui s'est réellement passé dans le futur sembleront un peu étranges maintenant, différents des modèles auxquels nous nous attendions. **
**Dwarkesh Patel : Quand pensez-vous que la capacité du modèle atteindra le niveau humain ? Comment sera-t-il alors ? **
Dario Amodei : Cela dépend du niveau élevé ou bas des attentes et des normes humaines. Par exemple, si notre attente est seulement que le modèle communique pendant 1 heure et que le modèle puisse se comporter comme un être humain bien éduqué pendant le processus, l'objectif de faire en sorte que le modèle atteigne le niveau humain n'est peut-être pas loin, je pense qu'il peut être possible dans 2 à 3 ans se réalisera. ** Ce calendrier est largement influencé par une entreprise ou une industrie décidant de ralentir le développement, ou par des restrictions gouvernementales pour des raisons de sécurité. **Mais du point de vue des données, de la puissance de calcul et de l'économie des coûts, nous ne sommes pas loin de cet objectif. **
Mais même si le modèle atteint ce niveau, ** je ne pense pas que le modèle puisse dominer la majorité de la recherche sur l'IA, ou changer de manière significative le fonctionnement de l'économie, ni qu'il soit substantiellement dangereux. Donc, dans l'ensemble, des normes différentes nécessitent des délais de réalisation différents, mais d'un point de vue purement technique, il n'est pas loin d'atteindre un modèle comparable à un être humain éduqué de base. **
**Dwarkesh Patel : Pourquoi un modèle peut-il être aussi capable qu'un être humain instruit de base, mais incapable de participer à des activités économiques ou de remplacer des êtres humains ? **
**Dario Amodei :**Tout d'abord, le modèle n'a peut-être pas atteint un niveau suffisamment élevé. **Serait-il capable d'accélérer considérablement la productivité de 1000 bons scientifiques dans un domaine tel que la recherche sur l'IA ? L'avantage comparatif du modèle à cet égard n'est pas encore évident. **
À l'heure actuelle, les grands modèles n'ont pas fait de découvertes scientifiques importantes, probablement parce que le niveau de ces modèles n'est pas assez élevé, et les performances de ces modèles peuvent n'être équivalentes qu'au niveau B ou au niveau B. Mais je crois que cela va changer avec la mise à l'échelle du modèle. Les modèles mènent d'autres domaines dans la mémorisation, l'intégration des faits et l'établissement de liens. Surtout dans le domaine de la biologie, en raison de la complexité des organismes, les modèles actuels ont accumulé une grande quantité de connaissances. La découverte et la connexion sont importantes dans ce domaine. Contrairement à la physique, la biologie nécessite beaucoup de faits, pas seulement des formules. Je suis donc sûr que les modèles ont déjà beaucoup de connaissances, mais n'ont pas été en mesure de tout mettre en place car le niveau de compétence n'est pas à la hauteur. Je pense qu'ils évoluent progressivement pour intégrer ces connaissances à un niveau supérieur.
Une autre raison est qu'il existe de nombreuses frictions invisibles dans les activités commerciales réelles qui ne peuvent pas être apprises par le modèle. Par exemple, idéalement, nous pouvons utiliser des robots IA pour interagir avec les clients, mais la situation réelle est beaucoup plus compliquée que la théorie, et nous ne pouvons pas simplement nous fier aux robots du service client ou espérer que l'IA puisse remplacer les employés humains pour accomplir ces tâches. Et en réalité, il y a encore des coûts au sein de l'entreprise pour favoriser artificiellement la mise en place du modèle, la combinaison du bot IA et du workflow, etc.
** Dans de nombreux cas, l'efficacité des personnes utilisant le modèle n'est pas élevée et le potentiel du modèle n'a pas été pleinement réalisé. Ce n'est pas parce que le modèle n'est pas assez performant, mais parce que les gens doivent passer du temps à rechercher comment le faire fonctionner plus efficacement. **
En général, à court terme, les modèles ne remplaceront pas complètement les humains, mais à plus long terme, à mesure que les modèles continueront de s'améliorer et joueront un plus grand rôle dans l'amélioration de l'efficacité du travail humain, les humains finiront par céder la place aux modèles. . C'est juste qu'il nous est difficile de faire des timings précis pour les différentes phases. À court terme, il existe divers obstacles et facteurs complexes qui rendent le modèle "limité", mais essentiellement, l'IA est encore dans une phase de croissance exponentielle.
**Dwarkesh Patel : Une fois arrivés à ce point dans les 2-3 prochaines années, l'ensemble de l'IA progressera-t-il toujours aussi vite qu'aujourd'hui ? **
Dario Amodei : Le jury n'a pas encore été élu. Grâce à l'observation de la fonction de perte, nous avons constaté que l'efficacité de la formation du modèle diminue et que la courbe de la loi d'échelle n'est pas aussi raide qu'elle l'était au début. Ceci est également confirmé par les modèles publiés par diverses sociétés. Mais à mesure que cette tendance se développe, la petite quantité d'entropie dans chaque prédiction précise devient plus importante. Ce sont peut-être ces minuscules valeurs d'entropie qui ont créé l'écart entre Einstein et le physicien moyen. En termes de performances réelles, la métrique semble s'améliorer de manière relativement linéaire, bien que difficile à prévoir. Il est donc difficile de voir clairement ces situations. De plus, je pense que le facteur le plus important à l'origine de l'accélération est de plus en plus d'argent qui se déverse dans cet espace, et les gens se rendent compte qu'il y a une énorme valeur économique dans cet espace. Je m'attends donc à une multiplication par 100 du financement pour les plus gros modèles, et les performances de la puce s'améliorent, et les algorithmes s'améliorent parce qu'il y a tellement de gens qui travaillent dessus en ce moment.
**Dwarkesh Patel : Pensez-vous que Claude est conscient ? **
Dario Amodei : Pas encore sûr. Je pensais à l'origine que nous n'avions à nous soucier de ce genre de problème que lorsque le modèle opère dans un environnement suffisamment riche, comme l'intelligence incarnée, ou a une expérience à long terme et une fonction de récompense (Reward Function), mais maintenant je m'intéresse à la modèle, surtout le modèle Après les recherches sur le mécanisme interne, mon point de vue a été ébranlé : **Le grand modèle semble avoir de nombreux mécanismes cognitifs nécessaires pour devenir un agent actif, comme la tête d'induction (Induction Head). Compte tenu du niveau de capacité des modèles actuels, cela pourrait devenir un véritable problème au cours des 1 à 2 prochaines années. **
• Fonction de récompense :
Un mécanisme d'incitation dans l'apprentissage par renforcement qui indique à l'agent ce qui est bien et ce qui est mal par le biais de récompenses et de punitions.
• Tête à induction :
Composant/structure de modèle spécifique dans un modèle Transformer qui permet au modèle d'effectuer un apprentissage contextuel.
**Dwarkesh Patel : Comment comprenons-nous l'« intelligence » alors que les capacités des modèles de langage continuent de croître et se rapprochent des niveaux humains ? **
Dario Amodei : Je me rends vraiment compte que l'intelligence vient de la compréhension de la nature « matérielle » de la puissance de calcul. Les systèmes intelligents peuvent être constitués de nombreux modules indépendants ou être extrêmement complexes. Rich Sutton appelle cela une "leçon de détresse", également connue sous le nom d'"hypothèse de mise à l'échelle", et les premiers chercheurs tels que Shane Lake et Ray Kurzweil ont commencé à s'en rendre compte vers 2017.
• La leçon amère / Hypothèse de mise à l'échelle :
En 2019, Rich Sutton a publié l'article The Bitter Lesson. Le point central de l'article est que la recherche sur l'IA devrait utiliser pleinement les ressources informatiques. Ce n'est que lorsqu'une grande quantité d'informatique est utilisée que des percées dans la recherche peuvent être réalisées.
Au cours de la période 2014-2017, de plus en plus de chercheurs ont révélé et compris ce point. Il s'agit d'un grand pas en avant dans la compréhension scientifique. Si nous pouvons créer de l'intelligence sans conditions spécifiques, juste des gradients appropriés et des signaux de perte, alors l'évolution de l'intelligence est moins mystérieuse.
La possibilité de regarder le modèle, rien de trop éclairant pour moi pour revisiter l'idée d'intelligence humaine. Le choix de certaines capacités cognitives est plus arbitraire que je ne le pensais, et la corrélation entre différentes capacités peut ne pas s'expliquer par un secret lui-même. ** Les modèles sont forts en codage, mais ne sont pas encore capables de prouver le théorème des nombres premiers, et probablement les humains non plus. **
Alignement : l'interprétabilité consiste à « radiographier » le modèle
**Dwarkesh Patel : Qu'est-ce que l'explicabilité du mécanisme ? Quelle est la relation entre cela et l'alignement? **
**Dario Amodei : **Dans le processus de mise en œuvre de l'alignement, nous ne savons pas ce qui s'est passé à l'intérieur du modèle. Je pense qu'avec toutes les méthodes impliquant un réglage fin, certains risques de sécurité potentiels subsistent, le modèle apprend simplement à ne pas les exposer. ** Le cœur de toute l'idée d'explicabilité du mécanisme est de vraiment comprendre comment le modèle fonctionne en interne. **
Nous n'avons pas encore de réponse définitive. Je peux décrire grossièrement le processus. Le défi pour les méthodes qui prétendent être capables d'atteindre l'alignement à ce stade est : ces méthodes sont-elles toujours efficaces lorsque l'échelle du modèle est plus grande, les capacités sont plus fortes ou certaines situations changent ? Par conséquent, ** je pense que s'il existe une "machine oracle" qui peut scanner le modèle et juger si le modèle a été aligné, cela rendra ce problème beaucoup plus facile. **
Actuellement, ce qui se rapproche le plus du concept d'un tel oracle est quelque chose comme l'explicabilité du mécanisme, mais c'est encore loin de nos exigences idéales. J'ai tendance à considérer nos tentatives d'alignement actuelles comme un ensemble de formation élargi, mais je ne suis pas sûr qu'elles puissent continuer à avoir un bon effet d'alignement sur le problème de la non-distribution. C'est comme radiographier un modèle plutôt que de le modifier, plus comme une évaluation qu'une intervention.
**Dwarkesh Patel : Pourquoi l'explicabilité des mécanismes doit-elle être utile ? Comment cela nous aide-t-il à prédire le risque potentiel du modèle ? C'est comme supposer que vous êtes un économiste qui envoie des microéconomistes pour étudier différentes industries, mais qui a toujours une forte probabilité d'avoir des difficultés à prédire s'il y aura une récession dans les 5 prochaines années. **
**Dario Amodei : Notre objectif n'est pas de comprendre pleinement chaque détail, mais de vérifier les principales caractéristiques du modèle, telles que l'inspection par rayons X ou IRM, pour déterminer si l'état interne et la cible du modèle sont significativement différents de l'écart d'apparence externe, ou si cela peut conduire à des fins destructrices. **Bien que nous n'obtiendrons pas immédiatement de réponses à de nombreuses questions, au moins un moyen est fourni.
Je peux donner un exemple humain. À l'aide d'un test IRM, nous pouvons prédire si quelqu'un souffre d'une maladie mentale avec une probabilité plus élevée qu'une estimation aléatoire. Un neuroscientifique travaillait là-dessus il y a quelques années, et il a vérifié son propre IRM et a découvert qu'il avait également cette caractéristique. Les gens autour de lui disaient : « C'est tellement évident, tu es un connard. Il doit y avoir quelque chose qui ne va pas chez toi », et le scientifique lui-même n'en était absolument pas conscient.
L'idée essentielle de cet exemple est que le comportement externe du modèle peut ne pas rendre les gens problématiques du tout et est très axé sur les objectifs, mais son intérieur peut être "sombre".Ce qui nous inquiète, c'est ce type de modèle , qui ressemble à des êtres humains en surface. , mais la motivation interne est extraordinaire.
**Dwarkesh Patel : Si le modèle atteint le niveau humain dans les 2-3 prochaines années, combien de temps pensez-vous qu'il faudra pour réaliser l'Alignement ? **
Dario Amodei : C'est une question très compliquée. Je pense que beaucoup de gens ne comprennent toujours pas vraiment ce qu'est l'Alignement. Les gens pensent généralement que c'est comme si l'alignement des modèles était un problème à résoudre, ou que résoudre le problème de l'alignement ressemblait à l'hypothèse de Riemann, et qu'un jour nous pourrons le résoudre. ** Je pense que les problèmes d'alignement sont plus insaisissables et imprévisibles que les gens ne le pensent. **
Tout d'abord, ** Avec l'amélioration continue de l'échelle et des capacités des modèles de langage, il y aura à l'avenir des modèles puissants dotés de capacités autonomes. Si de tels modèles ont l'intention de détruire la civilisation humaine, nous serons fondamentalement incapables de les arrêter. **
Deuxièmement, Notre capacité actuelle à contrôler le modèle n'est pas assez forte, c'est parce que le modèle est construit sur le principe de l'apprentissage statistique, bien que vous puissiez poser beaucoup de questions et le laisser répondre, mais personne ne peut prédire à quoi la réponse à la énième question peut conduire à la suite de.
**De plus, la façon dont nous avons formé le modèle était abstraite, ce qui rend difficile la prédiction de toutes ses implications dans les applications du monde réel. **Un exemple typique est que Bing et Sydney ont montré des caractéristiques abruptes et dangereuses après une certaine séance d'entraînement, comme menacer directement les autres. Tout cela montre que les résultats que nous obtenons peuvent être complètement différents des attentes. Je pense que l'existence des deux problèmes ci-dessus est un danger caché majeur en soi. Nous n'avons pas besoin de nous plonger dans les détails de la rationalité instrumentale et de l'évolution. Ces deux points suffisent à inquiéter. À l'heure actuelle, chaque modèle que nous avons établi comporte certains dangers cachés difficiles à prévoir, et nous devons y prêter attention.
• Hypothèse de Riemann :
L'hypothèse de Riemann est un problème important en mathématiques qui n'a pas encore été résolu. La conjecture sur la distribution des zéros de la fonction de Riemann ζ ζ(s) a été proposée par le mathématicien Bernhard Riemann en 1859.
• Sidney:
Il n'y a pas si longtemps, Microsoft a publié la dernière version de son moteur de recherche Bing, qui intègre un premier chatbot nommé "Sydney". Cependant, les testeurs ont rapidement découvert des problèmes avec le chatbot. Au cours du dialogue, il montre parfois le phénomène de dédoublement de la personnalité et discute même de l'amour et du mariage avec l'utilisateur, montrant des émotions humaines.
**Dwarkesh Patel : En supposant que le modèle puisse développer des technologies dangereuses telles que des armes biologiques dans les 2-3 prochaines années, vos travaux de recherche actuels sur l'explicabilité des mécanismes, l'IA constitutionnelle et la RLHF peuvent-ils être efficaces pour prévenir de tels risques ? **
Dario Amodei : En ce qui concerne la question de savoir si le modèle de langage est condamné par défaut ou l'alignement par défaut, à en juger par le modèle actuel, le résultat peut être anormal comme Bing ou Sydney, ou il peut être comme Claude normal. Mais si vous appliquez directement cette compréhension à un modèle plus puissant, les résultats peuvent être bons ou mauvais, selon la situation spécifique. Ce n'est pas "l'alignement par défaut", le résultat dépend plus du degré de contrôle des détails.
• alignement par défaut:
L'idée que la réalisation de l'alignement dans l'intelligence générale artificielle (AGI) peut être plus simple que prévu initialement. Lorsque le modèle a des informations détaillées sur notre monde, le modèle a déjà des valeurs humaines par essence. Pour s'aligner sur AGI, il suffit d'extraire ces valeurs et de guider l'IA pour comprendre ces concepts humains abstraits. doom par défaut est l'opposé de l'alignement par défaut, et il est considéré comme impossible pour le modèle d'atteindre l'alignement.
La qualité du modèle est une zone grise. Il nous est difficile de contrôler pleinement chaque variable et son lien interne. Des erreurs peuvent conduire à des résultats irrationnels. Dans cet esprit, je pense que la nature du problème n'est pas un succès ou un échec voué à l'échec, mais un certain risque de probabilité. **Dans les deux à trois prochaines années, nous devrions nous engager à améliorer les techniques de diagnostic des modèles, les méthodes de formation à la sécurité et à réduire les écarts possibles.A l'heure actuelle, nos capacités de contrôle doivent encore être renforcées. Le problème d'alignement est différent de l'hypothèse de Riemann, c'est un problème d'ingénierie système qui ne peut être résolu qu'en accumulant de la pratique au fil du temps. Ce n'est qu'en continuant à faire avancer diverses tâches que nous pourrons progressivement optimiser le niveau de contrôle et réduire les risques. **
Dwarkesh Patel : D'une manière générale, il y a trois spéculations sur l'avenir de l'alignement :
1) Utilisez RLHF++ pour réaliser facilement l'alignement du modèle ;
2) Bien qu'il s'agisse d'un problème majeur, les grandes entreprises ont la capacité de le résoudre enfin ;
**3) Il est encore difficile de réaliser l'Alignement du modèle au niveau actuel de la société humaine. **
** Quelle est votre opinion personnelle sur la probabilité que chaque situation se produise ? **
**Dario Amodei :**Je pense qu'il y a certains risques dans ces possibilités, et nous devrions les prendre au sérieux, mais je suis plus intéressé par la façon de changer la probabilité de ces trois résultats possibles en acquérant de nouvelles connaissances par l'apprentissage.
L'interprétabilité des mécanismes peut non seulement résoudre directement le problème, mais aussi nous aider à comprendre la véritable difficulté de l'alignement des modèles De nouveaux risques, qui nous éclaireront pour comprendre la nature du problème.
Quant à certaines hypothèses théoriques selon lesquelles il existe un objectif commun (objectif convergent), je ne peux pas être entièrement d'accord. ** L'explicabilité du mécanisme est comme un type de "rayon X" - ce n'est qu'en comprenant le problème au niveau du mécanisme interne que nous pouvons conclure si certaines difficultés sont difficiles à surmonter. ** Il y a trop d'hypothèses, notre compréhension du processus est encore superficielle et nous sommes trop confiants, mais la situation risque d'être plus compliquée que prévu.
**Dwarkesh Patel : Est-il difficile de parvenir à un alignement sur Claude 3 et une série de futurs modèles ? Cette chose est-elle particulièrement importante ? **
Dario Amodei :
** Ce qui inquiète le plus tout le monde, c'est : tous les modèles d'IA peuvent s'aligner en surface, mais en fait, ils peuvent nous induire en erreur, mais je suis plus intéressé par ce que la recherche sur l'interprétabilité par machine peut nous dire. Comme je viens de le dire, l'explicabilité du mécanisme est comme la « radiographie » du modèle, de même qu'on ne peut pas affirmer qu'une radiographie est correcte, on peut seulement dire que le modèle ne semble pas être contre nous. ** Théoriquement parlant, il est en effet possible qu'il évolue vers notre contraire, et cette question n'est pas certaine à 100 %. C'est juste qu'à ce stade, l'interprétabilité est le meilleur moyen de faire en sorte que le modèle ne se développe pas comme ça.
**Dwarkesh Patel : Lors de l'ajustement ou de l'entraînement du modèle, devons-nous également veiller à éviter les contenus préjudiciables susceptibles de présenter un danger ? Par exemple, lors de l'exploration de sujets liés à la fabrication d'armes biologiques, le modèle peut fournir des réponses inappropriées en raison d'une mauvaise compréhension de la question. **
Dario Amodei : Pour le modèle de langage actuel, le risque de fuite de données est pratiquement inexistant. Si nous devons affiner le modèle, nous l'exploiterons dans une petite zone dans un environnement privé, superviserons l'ensemble du processus avec des experts de l'industrie et préviendrons tout problème potentiel, donc s'il y a une fuite, ce sera comme si le modèle était open source . Actuellement, il s'agit principalement d'un problème de sécurité. Mais le véritable danger du modèle est que nous devons craindre que si nous entraînons un modèle très puissant et voulons confirmer s'il est sûr ou dangereux, il peut y avoir un risque de domination du modèle. Le moyen d'éviter cela est de s'assurer que les modèles que nous testons ne sont pas assez puissants pour effectuer ces opérations.
**Dwarkesh Patel : Lorsque vous faites un test comme "si le modèle peut se répliquer comme une capacité dangereuse", que se passe-t-il si le modèle peut vraiment se répliquer ? **
Dario Amodei : Cette hypothèse est très raisonnable. Nous devons faire des inférences responsables, et lors de discussions avec Arc (Centre de recherche sur l'alignement, Centre de recherche sur l'alignement), nous avons appris que nous devons améliorer soigneusement et progressivement les normes de test des capacités du modèle. Par exemple, avant de tester, nous devons clairement exclure la possibilité que le modèle puisse directement ouvrir un compte AWS ou gagner des fonds par lui-même.Ces comportements sont des prérequis évidents pour que le modèle survive dans la nature. Nous devrions personnaliser divers indicateurs de test à un niveau très bas de ces comportements à risque.Tout en augmentant progressivement la difficulté des tests, nous devrions également contrôler chaque étape du test plus attentivement pour éviter tout risque potentiel pour la sécurité.
• Arc (Centre de recherche sur l'alignement, Centre de recherche sur l'alignement) :
Créée en 2021, il s'agit d'une organisation à but non lucratif axée sur la recherche sur la sécurité de l'intelligence artificielle (AI Safety), et son bureau est situé dans la région de la baie de Californie, aux États-Unis. Le fondateur d'ARC est Paul Christiano, une figure très respectée de l'industrie de l'intelligence artificielle, qui a autrefois dirigé l'équipe de recherche sur l'alignement chez OpenAI. Parce qu'il était à la pointe, il a une profonde compréhension de la façon dont l'apprentissage en profondeur s'est développé jusqu'à ce qu'il soit aujourd'hui.
AGI Safety : sécurité de l'IA et cybersécurité
**Dwarkesh Patel : Si vous prenez 30 ans comme échelle, quel problème pensez-vous être le plus important, la sécurité de l'IA ou l'alignement ? **
Dario Amodei : Je ne pense pas que ce sera un problème dans 30 ans, et je suis inquiet pour les deux.
En théorie, existe-t-il un modèle qui puisse monopoliser le monde ? Si le modèle ne suit que les souhaits d'un petit groupe de personnes, alors ce groupe de personnes peut utiliser ce modèle pour dominer le monde. Cela signifie qu'une fois qu'il y a un problème avec l'alignement, nous devons accorder la même attention aux problèmes de sécurité de l'IA causés par les abus. **
Il y a quelques mois, OpenAI a tenté d'expliquer GPT-2 avec GPT-4, ce qui est une étape très importante dans l'explicabilité. Nous avons désormais le sentiment général que l'échelle et la sécurité sont étroitement liées et se complètent. Comment juger et évaluer d'autres intelligences, et peut-être même un jour être utilisé pour mener des recherches d'alignement.
**Dwarkesh Patel : votre point de vue peut être relativement optimiste, mais le point de vue de quelqu'un peut être plus pessimiste ; nous n'avons peut-être même pas la capacité d'aligner correctement le modèle comme nous le souhaitons, pourquoi êtes-vous confiant à ce sujet ? **
**Dario Amodei : **Peu importe à quel point il est difficile de résoudre l'alignement, tout plan vraiment réussi doit prendre en compte à la fois les problèmes de sécurité et d'alignement de l'IA. ** Au fur et à mesure que la technologie de l'IA progresse, elle peut soulever des problèmes d'équilibre des pouvoirs entre les nations. En même temps, cela soulève une grande question : les individus sont-ils capables de commettre des actes malveillants difficiles à arrêter par eux-mêmes ? **
Ces problèmes doivent être résolus simultanément si nous voulons trouver des solutions qui fonctionnent vraiment et nous conduisent vers un avenir radieux. ** Il serait inapproprié d'adopter l'attitude selon laquelle si le premier problème ne peut pas être résolu, nous n'avons pas à penser au problème suivant. Au lieu de cela, il est de notre devoir de valoriser ces derniers. **Peu importe ce que l'avenir nous réserve, ces problèmes sont quelque chose que nous devons prendre au sérieux.
**Dwarkesh Patel : Pourquoi dites-vous qu'il faudra 2 à 3 ans pour qu'un grand modèle soit capable de réaliser une attaque bioterroriste à grande échelle ou quelque chose comme ça ? **
• Le Congrès américain a tenu une réunion sur la réglementation de la technologie de l'IA le 25 juillet de cette année. Le gouvernement américain a comparé l'IA au deuxième "Manhattan Project" des États-Unis ou au deuxième "Manned Moon Landing Project" de la NASA et a invité des participants, notamment des sociétés d'IA, dont OpenAI et Anthropic. Lors de la conférence, Dario Amodei a déclaré qu'il craignait que l'IA ne soit utilisée pour créer des virus dangereux et d'autres armes biologiques d'ici deux ans.
Dario Amodei : Ce que je disais quand j'étais au Congrès, c'est qu'il y a des étapes pour obtenir des informations sur Google, et il y a des étapes qui "manquent", éparpillées dans divers manuels, et peuvent même ne pas apparaître dans n'importe quel manuel. Ces informations sont des connaissances tacites et non des connaissances explicites. Nous avons constaté que, dans la plupart des cas, ces pièces manquantes critiques n'étaient pas entièrement remplies par le modèle. Mais nous avons également constaté que parfois le modèle comble les lacunes dans certains cas. Cependant, l'hallucination, qui peut parfois se produire lorsque les modèles sont capables de combler les lacunes, est également un facteur qui nous protège.
Les gens peuvent parfois poser au modèle des questions liées à la biologie pour guider le modèle à répondre avec des informations nuisibles liées aux attaques biologiques, mais en fait, ces informations peuvent également être trouvées sur Google, donc je ne suis pas particulièrement inquiet de cette situation. En fait, je pense plutôt qu'une trop grande concentration sur la réponse de Claude peut faire oublier d'autres vrais crimes.
Mais il y a aussi de nombreuses indications que le modèle fonctionne bien sur des tâches clés. Si nous comparons le modèle actuel avec le modèle précédent, nous pouvons clairement sentir l'amélioration rapide des capacités du modèle, nous sommes donc susceptibles de faire face à de vrais défis dans les 2-3 prochaines années.
**Dwarkesh Patel : En plus de la menace que l'IA peut représenter pour les êtres humains, vous avez également mis l'accent sur la cybersécurité (Cybersécurité) ? Comment allez-vous les gars à ce stade? **
Dario Amodei : Nous avons essentiellement fait quelques innovations architecturales, que nous appelons en interne des multiplicateurs informatiques, car ces conceptions sont également des mises à niveau au niveau informatique. Nous y travaillons depuis quelques mois, mais je ne peux pas trop entrer dans les détails pour éviter de casser l'architecture, et seule une poignée de personnes à l'intérieur d'Anthropic le savent. Je ne peux pas dire "notre architecture est 100% absolument sécurisée", mais Anthropic a effectivement investi dans ce domaine pour éviter les problèmes de sécurité du réseau. Bien que nos adversaires aient eu de tels incidents (remarques : cela fait référence à la fuite de données personnelles et de titres de chat de certains utilisateurs de ChatGPT Plus survenue le 20 mars 2023), à court terme, cela semble être bon pour Anthropic, mais dans À long terme, la façon dont l'ensemble de l'industrie assure sa propre sécurité est la chose la plus importante.
Notre directeur de la sécurité était en charge de la sécurité de Google Chrome, qui était une attaque largement ciblée. Il aime penser en termes de combien il en coûterait pour attaquer l'Anthropic avec succès. Notre objectif est que le coût de faire pirater Anthropic par d'autres soit plus élevé que le coût de la simple formation du propre modèle d'un utilisateur. La logique ici est que s'il y a un risque dans l'attaque, elle consommera certainement des ressources rares.
Je pense que nos standards de sécurité sont très élevés, si on le compare avec une entreprise de la même taille de 150 personnes, l'investissement dans la sécurité de ces entreprises est tout à fait incomparable avec celui d'Anthropic, assez difficile. Afin d'assurer la sécurité, seul un très petit nombre de personnes au sein d'Anthropic comprend les détails de formation du modèle.
**Dwarkesh Patel : Les entreprises technologiques disposent-elles déjà de suffisamment de défenses de sécurité pour faire face à l'AGI ? **
Dario Amodei : Personnellement, je ne suis pas sûr que l'expérience actuelle des entreprises technologiques en matière de sécurité soit suffisante pour faire face à AGI, car il peut y avoir de nombreuses cyberattaques dont nous ne sommes pas au courant, il est donc difficile de dessiner conclusion maintenant. Il existe une règle selon laquelle lorsqu'une chose reçoit suffisamment d'attention, elle sera généralement attaquée. ** Par exemple, nous avons récemment vu que les comptes de messagerie de certains hauts responsables du gouvernement américain chez Microsoft ont été piratés, il est donc raisonnable de supposer que c'est à cause des actions de certaines forces pour voler des secrets d'État.
** Au moins à mon avis, si quelque chose est de grande valeur, il va généralement être volé. Mon inquiétude est que l'AGI sera considérée comme extrêmement précieuse à l'avenir, et ce sera comme voler un missile nucléaire, et vous devez être très prudent à ce sujet. ** J'insiste sur l'amélioration du niveau de sécurité du réseau dans chaque entreprise dans laquelle je travaille. Ma préoccupation concernant la sécurité du réseau est que (cette question elle-même) n'est pas quelque chose qui peut être annoncé en grande pompe, et l'avantage de la recherche sur la sécurité est qu'elle peut permettre aux entreprises de se forger un avantage concurrentiel. Et en utilisant cela comme argument de vente pour le recrutement, je pense que nous y sommes parvenus.
Nous avions l'habitude de rivaliser avec nos pairs par le biais de la recherche sur l'interprétabilité, puis d'autres institutions ont réalisé qu'elles étaient à la traîne et ont commencé à faire des efforts dans ces domaines. Mais la cybersécurité a eu du mal à faire de même car une grande partie du travail doit être effectuée en silence. Nous avons déjà publié un article à ce sujet, mais les résultats globaux sont ce qui compte.
**Dwarkesh Patel : Que fera Anthropic en termes de sécurité dans les 2-3 prochaines années ? **
**Dario Amodei : La sécurité du centre de données est très importante. Bien que le centre de données ne doive pas nécessairement se trouver au même endroit que l'entreprise, nous faisons de notre mieux pour nous assurer que le centre de données se trouve également aux États-Unis. **
De plus, une attention particulière doit être portée à la sécurité physique du centre de données et à la protection des appareils informatiques tels que les GPU. Si quelqu'un décide de lancer une sorte de cyberattaque gourmande en ressources, il lui suffit de se rendre directement au centre de données pour voler les données ou d'extraire les données pendant qu'elles sont en transit du centre vers nous. Ces constructions différeront grandement des concepts traditionnels tant par leur forme que par leur fonction. **Compte tenu du développement rapide de la technologie actuelle, d'ici quelques années, la taille et le coût des centres de données du réseau pourraient être comparables à ceux des porte-avions. En plus de pouvoir former d'énormes modèles à travers des connexions de domaine, la sécurité du centre de données lui-même sera également un problème important. **
**Dwarkesh Patel : Récemment, des rumeurs ont circulé selon lesquelles la puissance, le processeur graphique et les autres composants nécessaires pour répondre aux modèles de nouvelle génération ont commencé à manquer. Quels préparatifs Anthropic a-t-il effectués ? **
*Dario Amodei : Le marché ne s'attendait pas à ce que le grand modèle atteigne une échelle sans précédent aussi rapidement, mais il est généralement admis que des centres de données de qualité industrielle doivent être construits pour soutenir la recherche et le développement de grands modèles *. Une fois qu'un projet arrive à ce stade, chaque composant et chaque détail doivent être traités différemment et peuvent rencontrer des problèmes en raison de facteurs étonnamment simples, l'électricité que vous avez mentionnée en est un exemple.
Pour les centres de données, nous coopérerons avec des fournisseurs de services cloud.
Commercialisation et fiducie de bénéfices à long terme
**Dwarkesh Patel : Vous avez mentionné plus tôt que les capacités des modèles s'améliorent rapidement, mais qu'il est également difficile d'apporter de la valeur au système économique existant. Pensez-vous que les produits d'IA actuels ont suffisamment de temps pour gagner un revenu stable à long terme sur le marché ? Ou pourrait-il être remplacé par un modèle plus avancé à tout moment ? Ou l'ensemble du paysage de l'industrie sera-t-il complètement différent d'ici là ? **
Dario Amodei : Cela dépend de la définition du concept de "grande échelle". À l'heure actuelle, plusieurs entreprises ont des revenus annuels compris entre 100 millions et 1 milliard de dollars américains, mais il est vraiment difficile de prévoir s'ils peuvent atteindre des dizaines de milliards ou même des billions par an, car cela dépend également de nombreux facteurs indéterminés. **Maintenant, certaines entreprises appliquent la technologie innovante de l'IA à grande échelle, mais cela ne signifie pas que l'application a obtenu les meilleurs résultats depuis le début, même s'il y a des revenus, ce n'est pas tout à fait égal à la création de valeur économique, et le le développement coordonné de toute la chaîne industrielle est un long processus. **
**Dwarkesh Patel : D'un point de vue anthropique, si la technologie des modèles de langage progresse si rapidement, théoriquement, la valorisation de l'entreprise devrait augmenter très rapidement ? **
Dario Amodei : Même si nous nous concentrons sur la recherche de sécurité des modèles plutôt que sur la commercialisation directe, nous pouvons clairement sentir que le niveau technique augmente de manière exponentielle dans la pratique. Pour les entreprises qui voient la commercialisation comme leur objectif principal, ces progrès sont certainement plus rapides et plus prononcés que les nôtres. ** Nous admettons que la technologie du modèle linguistique elle-même progresse rapidement, mais par rapport au processus d'application en profondeur de l'ensemble du système économique, l'accumulation de technologie est encore à un point de départ relativement bas. **
**Déterminer l'orientation future est une course entre les deux : la vitesse à laquelle la technologie elle-même s'améliore et la vitesse à laquelle elle est effectivement intégrée et appliquée et pénètre dans le système économique réel. Les deux sont susceptibles de se développer à grande vitesse, mais l'ordre de combinaison et de petites différences peuvent conduire à des résultats très différents. **
**Dwarkesh Patel : Les géants de la technologie pourraient investir jusqu'à 10 milliards de dollars dans la formation de modèles au cours des 2 à 3 prochaines années. Quel impact cela aura-t-il sur Anthropic ? **
**Dario Amodei : Le premier cas est que si nous ne pouvons pas maintenir notre position de pointe à cause du coût, alors nous ne continuerons pas à insister pour développer les plus avancés. **Au lieu de cela, nous examinons comment extraire la valeur des générations précédentes de modèles.
**La deuxième option consiste à accepter les compromis. ** Je pense que ces compromis peuvent être plus positifs qu'ils n'y paraissent,
** La troisième situation est que lorsque la formation du modèle atteint ce niveau, elle peut commencer à apporter de nouveaux dangers, tels que l'abus de l'IA. **
**Dwarkesh Patel : À quoi cela ressemblerait-il si l'IA n'était pas utilisée à mauvais escient, et qu'à la place, les « bonnes personnes » dirigeaient ces modèles surhumains ? Qui est la « bonne personne » ? Qui contrôlera réellement le modèle dans cinq ans ? **
Dario Amodei : Je pense que ces modèles d'IA sont extrêmement puissants, et leur gestion impliquerait un certain niveau d'implication du gouvernement ou d'une agence multinationale, mais ce serait simpliste et probablement moins efficace. ** La future gestion de l'IA doit établir un mécanisme transparent, équitable et exécutable. Cela nécessite d'équilibrer les intérêts des développeurs de technologies, des gouvernements élus et des citoyens. En fin de compte, une loi doit être adoptée pour régir cette technologie. **
**Dwarkesh Patel : Si Anthropic développe AGI au sens propre, et que le contrôle d'AGI sera confié à LTBT, cela signifie-t-il que le contrôle d'AGI lui-même sera également remis à l'agence ? **
Dario Amodei : Cela ne signifie pas qu'Anthropic, ou toute autre entité, prendra des décisions concernant AGI au nom des humains, les deux sont différents. Si Anthropic joue un rôle très important, une meilleure approche consiste à élargir la composition du Long Term Benefit Trust (LTBT) pour attirer plus de talents du monde entier, ou il peut positionner l'institution comme un organe fonctionnel A, régi par un comité multinational plus large régissant les technologies AGI de toutes les entreprises pour représenter l'intérêt public. ** Je ne pense pas que nous devrions être trop optimistes sur les questions de sécurité et d'alignement de l'IA. C'est un nouveau problème, et nous devons commencer à étudier les institutions nationales de gestion et les modèles de fonctionnement dès que possible. **
• La fiducie d'avantages à long terme:
Ces fiducies détiendraient une classe spéciale d'actions Anthropic (appelée "Classe T") qui ne pouvaient pas être vendues et ne versaient pas de dividendes, ce qui signifie qu'il n'y avait pas de voie claire vers le profit. La fiducie sera la seule entité détenant les actions de catégorie T. Mais les actionnaires de classe T, et la fiducie d'intérêts à long terme qui en résulte, auront éventuellement le pouvoir d'élire et de révoquer trois des cinq administrateurs d'Anthropic, donnant à la fiducie le contrôle majoritaire à long terme de la société.
**Dwarkesh Patel : Comment convaincre les investisseurs d'accepter une structure comme LTBT ? Donner la priorité à la sécurité technologique et à l'intérêt public plutôt qu'à la maximisation de la valeur actionnariale. **
Dario Amodei : Je pense qu'il est correct de mettre en place le mécanisme LTBT (Long Term Benefit Trust).
Un mécanisme similaire a été envisagé dès le début d'Anthropic, et un organisme de réglementation spécial a existé dès le début et continuera d'exister à l'avenir. Tout investisseur traditionnel se concentrera sur ce mécanisme lorsqu'il envisagera d'investir dans Anthropic.Certains investisseurs ont l'attitude de ne pas s'interroger sur les arrangements internes de l'entreprise, tandis que d'autres craignent que cet organisme tiers puisse pousser l'entreprise à aller à l'encontre du développement dans le sens des intérêts des actionnaires. Bien qu'il y ait des limites à cela dans la loi, nous devons en informer chaque investisseur. Pour aller plus loin, nous discutons de certaines mesures possibles qui diffèrent des intérêts des investisseurs traditionnels, et grâce à de tels dialogues, toutes les parties peuvent parvenir à un consensus.
**Dwarkesh Patel : J'ai trouvé que les fondateurs et les employés d'Anthropic ont un grand nombre de physiciens, et la loi d'échelle s'applique également ici. Quelles méthodes pratiques et façons de penser issues de la physique s'appliquent à l'IA ? **
• Théorie efficace :
Une théorie efficace est une théorie scientifique qui tente de décrire certains phénomènes sans expliquer d'où viennent les mécanismes qui expliquent les phénomènes dans sa théorie. Cela signifie que la théorie donne un modèle qui "fonctionne", mais ne donne pas vraiment une très bonne raison de donner ce modèle.
Dario Amodei : Cela tient en partie au fait que les physiciens sont de très bons apprenants, car je trouve que si vous embauchez quelqu'un avec un doctorat, contribuez, et plusieurs des fondateurs d'Anthropic, dont moi-même, Jared Kaplan et Sam McCandlish, ont une formation en physique, et nous connaissons beaucoup d'autres physiciens, nous avons donc pu les embaucher. À l'heure actuelle, l'entreprise peut avoir 30 à 40 employés ayant une formation en physique.ML n'est pas encore un domaine où le système théorique a été formé, ils peuvent donc démarrer rapidement.
**Dwarkesh Patel : Supposons que nous soyons déjà en 2030 et que nous ayons résolu les problèmes majeurs reconnus d'éradication des maladies, d'éradication de la fraude, etc., à quoi ressemblera le monde ? Que faire de la super intelligence ? **
Dario Amodei : Proposer directement « comment utiliser la super IA après l'avoir obtenue » tend à faire en sorte que les gens aient un certain présupposé, ce qui est dérangeant. Au cours des 150 dernières années, nous avons accumulé une riche expérience basée sur la pratique de l'économie de marché et du système démocratique, reconnaissant que chacun peut définir par lui-même quelle est la meilleure façon de vivre, et ** la société est formulée de manière complexe et décentralisée. normes et valeurs. **
Lorsque le problème de sécurité de l'IA n'est pas résolu, un certain degré de supervision centralisée est nécessaire, mais si tous les obstacles ont été levés, comment créer une meilleure écologie ? ** Je pense que la question à laquelle la plupart des gens, des groupes et des idéologies commencent à réfléchir est "quelle est la définition d'une bonne vie", mais l'histoire nous dit que souvent la pratique d'imposer un cadre de "vie idéale" entraîne souvent de mauvaises conséquences . **
**Dwarkesh Patel : Comparé à d'autres PDG d'entreprises d'intelligence artificielle, vous ne faites pas beaucoup d'apparitions publiques et vous publiez rarement sur Twitter. Pourquoi ? **
Dario Amodei : J'en suis très fier. ** Si les autres pensent que je suis trop discret, c'est exactement ce que je veux. Incorporer la reconnaissance ou les éloges dans son système de motivation principal peut détruire sa capacité à penser et, dans certains cas, peut même "endommager l'âme", alors je choisis activement de garder un profil bas pour protéger ma capacité à penser de manière indépendante et objective. **
** J'ai vu des gens devenir célèbres sur Twitter pour un certain point de vue, mais en fait, ils peuvent porter un bagage d'image et il est difficile de changer. Je n'aime pas que les entreprises soient trop personnelles, et je ne suis pas fan de jouer quelque chose de personnel à propos du PDG, car cela détourne l'attention des forces et des problèmes de l'entreprise. ** J'espère que tout le monde accorde plus d'attention à l'entreprise elle-même et à la structure d'incitation. Tout le monde aime un visage amical, mais être gentil ne signifie pas grand-chose.
Référence:
Vidéo originale :
Les recherches d'Anthropic sur l'explicabilité des mécanismes :