Este artículo se compila a partir de una entrevista de podcast con el CEO de Anthropic, Dario Amodei.
Anthropic es la segunda empresa del circuito LLM, fue fundada en enero de 2021 por Dario Amodei y en julio de este año Anthropic lanzó el modelo de última generación Claude 2. Dario Amodei solía ser el vicepresidente de investigación y seguridad en OpenAI. Fundó Anthropic porque creía que hay muchos problemas de seguridad en modelos grandes que deben resolverse con urgencia. Por lo tanto, Anthropic otorga gran importancia a la seguridad de la IA. La visión es para construir sistemas de IA confiables (confiables), explicables, interpretables y dirigibles. La mayor diferencia entre las rutas Anthropic y OpenAI es también su enfoque en la interpretabilidad.
En la entrevista, Dario explica el enfoque y la inversión de Anthropic en la interpretabilidad. La interpretabilidad es una de las formas importantes de garantizar la seguridad del modelo, **similar a tomar radiografías y exámenes de resonancia magnética en el modelo, lo que permite a los investigadores comprender lo que sucede dentro del modelo e identificar posibles fuentes de riesgo. Comprender verdaderamente por qué funciona la Ley de escala y cómo lograr la alineación es inseparable de la interpretabilidad. **Dario cree que la seguridad de la IA y la alineación son igualmente importantes. Una vez que hay un problema con la alineación, los problemas de seguridad de la IA causados por el abuso deben recibir la misma atención.
Dario cree que la capacidad del modelo mejorará significativamente en los próximos 2 o 3 años, e incluso puede "tomar el control de la sociedad humana", pero realmente no puede participar en los vínculos comerciales y económicos. Esto no se debe a la capacidad de El modelo, pero debido a varios Esta fricción invisible Las personas no usan los modelos de manera suficientemente eficiente para darse cuenta de su verdadero potencial en la vida real y en el trabajo.
En comparación con los directores ejecutivos de la mayoría de las empresas de inteligencia artificial, Dario apenas participa en entrevistas públicas y rara vez expresa sus puntos de vista en Twitter. Darío explicó que esta es su propia elección activa y protege su capacidad de pensar de manera independiente y objetiva al mantener un perfil bajo.
El siguiente es el índice de este artículo, y se recomienda leerlo en combinación con los puntos principales.
👇
01 Por qué funciona la ley de escala
02 ¿Cómo será la habilidad del modelo a la par con la de los humanos?
03 Alineación: La interpretabilidad es "radiografiar" el modelo
04 AGI Safety: Seguridad AI y Seguridad Cibernética
05 Fideicomiso de Comercialización y Beneficio de Largo Plazo
Por qué funciona la ley de escala
**Dwarkesh Patel: ¿De dónde viene tu creencia en la Ley de Escalamiento? ¿Por qué la capacidad del modelo se fortalece a medida que aumenta el tamaño de los datos? **
**Dario Amodei: La Ley de Escalamiento es hasta cierto punto un resumen empírico. Percibimos este fenómeno a partir de varios datos y fenómenos, y lo resumimos como Ley de Escalamiento, pero no existe una explicación generalmente aceptada y particularmente buena para explicarlo. Explique cuál es el principio esencial de su función es. **
Si tengo que dar una explicación, personalmente especulo que esto puede ser similar a la distribución de cola larga o Ley de Potencias en la física. Cuando hay muchas características (características), los datos con una proporción relativamente grande generalmente corresponden a reglas y patrones básicos más dominantes, porque estos patrones aparecen a menudo, la cantidad correspondiente de datos es naturalmente más, mientras que los datos de cola larga son principalmente algunos reglas más detalladas y complejas. **Por ejemplo, cuando se trata de datos relacionados con el idioma, se pueden observar algunas reglas básicas en la mayoría de los datos, como reglas gramaticales básicas como parte del discurso, estructura del orden de las palabras, etc., y las relativamente largas. son gramáticas complejas.
Por eso, cada vez que los datos aumentan en un orden de magnitud, el modelo puede aprender más reglas de comportamiento. Pero lo que no sabemos es por qué existe una correlación lineal perfecta entre los dos. El científico jefe de Anthropic, Gerard Kaplan, usó la dimensión fractal (Dimensión Fractal) para explicar este asunto. Por supuesto, otras personas están probando otros métodos para verificar la Ley Sacling, pero todavía no podemos explicar por qué hasta ahora.
• Dimensión fractal:
El matemático Felix Hausdorff propuso por primera vez el concepto de dimensión fractal en 1918, que más tarde también se conoció como Dimensión de Hausdorff. La dimensión fractal se puede utilizar para describir la estructura de relación de características ocultas en los datos de aprendizaje automático y proporciona un modelo de explicación matemática detrás del efecto de escala, explicando así por qué los modelos de IA pueden mejorar el rendimiento con la escala.
**Además, incluso si conocemos la existencia de la Ley de Escalamiento, es difícil predecir los cambios en las capacidades específicas del modelo. En la investigación de GPT-2 y GPT-3, nunca sabemos cuándo el modelo puede aprender a calcular y programar, y estas habilidades aparecen de repente. ** Lo único que se puede predecir es a nivel numérico, como el valor de pérdida, el cambio de valor de entropía, etc. Se puede predecir con bastante precisión, pero es como si pudiéramos hacer estadísticas sobre datos meteorológicos y predecir el toda la tendencia del cambio climático, pero es difícil predecir el clima y la temperatura de un día específico.
**Dwarkesh Patel: ¿Por qué un modelo de repente puede tener cierta habilidad? Por ejemplo, antes no entendía la suma, pero ahora domina la capacidad de calcular. ¿Qué causó este cambio? **
Dario Amodei: Esta es otra pregunta que todavía estamos explorando. Intentamos usar el método de Interpretabilidad Mecanicista (Mechanistic Interpretability) para explicar este asunto y explicar los fenómenos del lenguaje con una idea similar a la conexión de circuitos.Puedes imaginar estas cosas como circuitos conectados uno por uno.
Existe cierta evidencia de que cuando se alimenta a un modelo con algo, su probabilidad de dar la respuesta correcta aumenta repentinamente, pero si observamos el cambio antes de que el modelo realmente dé la respuesta correcta, vemos que la probabilidad es de un millón Centésimo , la cienmilésima subió lentamente a la milésima. En muchos de estos casos, parece haber algún proceso gradual que no hemos observado y que aún no hemos descubierto.
No podemos estar seguros de si un "circuito" como "suma" siempre existió desde el día 1, pero cambió gradualmente de débil a fuerte con un proceso específico, para que el modelo pueda dar la respuesta correcta. Estas son preguntas que queremos responder a través de la explicabilidad mecanicista.
• Interpretabilidad mecanicista:
La interpretabilidad del mecanismo es el estudio de la ingeniería inversa de las redes neuronales, que se puede utilizar para ayudar a las personas a comprender más fácilmente cómo el modelo asigna la entrada a la salida, y es una forma de darse cuenta de la interpretabilidad del modelo. El objetivo principal de la explicabilidad del mecanismo es comprender el aprendizaje profundo como una ciencia natural, utilizando la estructura y los parámetros del modelo para explicar el proceso de toma de decisiones y los resultados de predicción del modelo, de modo que los usuarios humanos puedan comprender y verificar el principio de funcionamiento de el modelo. Su trabajo inicial se centró en el uso de métodos de visualización de funciones y factorización de matrices para comprender las representaciones en las capas intermedias de las redes visuales y, más recientemente, se ha centrado en las representaciones de las redes multimodales, así como en la comprensión a nivel de ruta de los algoritmos de redes neuronales.
Anthropic ha publicado un estudio de interpretabilidad de mecanismos "Interpretabilidad mecanicista, variables y la importancia de las bases interpretables".
**Dwarkesh Patel: ¿Hay alguna habilidad que no venga con el tamaño del modelo? **
**Dario Amodei: Es posible que la alineación del modelo y las capacidades relacionadas con el valor no surjan naturalmente con el tamaño del modelo. **Una forma de pensar es que el proceso de formación del modelo es esencialmente para predecir y comprender el mundo, y su principal responsabilidad es sobre hechos, no opiniones o valores. Pero aquí hay algunas variables libres: ¿qué acción debe tomar? ¿Qué punto de vista debería tomar? ¿A qué factores debes prestar atención? Pero no existe tal etiqueta de datos para que el modelo aprenda. Por lo tanto, creo que la aparición de Alineación y valores, etc., es poco probable.
**Dwarkesh Patel: ¿Existe la posibilidad de que antes de que la capacidad del modelo alcance a la inteligencia humana, se agoten los datos disponibles para el entrenamiento? **
**Dario Amodei:**Creo que es necesario distinguir si se trata de un problema teórico o de una situación práctica. Desde un punto de vista teórico, no estamos tan lejos de quedarnos sin datos, pero mi opinión personal es que es poco probable. Podemos generar datos de muchas maneras, por lo que los datos no son realmente un obstáculo. Hay otra situación en la que usamos todos los recursos informáticos disponibles, lo que da como resultado un progreso lento en las capacidades del modelo. Ambos escenarios son posibles.
**Mi punto de vista personal es que existe una alta probabilidad de que Scaling Law no se estanque, e incluso si hay un problema, es más probable que sea la causa de la arquitectura informática. **Por ejemplo, si usamos LSTM o RNN, la tasa de evolución de la habilidad del modelo cambiará. Si nos topamos con un cuello de botella en la evolución de las capacidades del modelo en cada situación arquitectónica, eso sería bastante grave, porque significa que nos hemos topado con un problema más profundo.
• LSTM:
Las redes de memoria a largo plazo a corto plazo (redes de memoria a largo plazo a corto plazo), una red RNN especial (red neuronal cíclica), pueden aprender dependencias a largo plazo, resolver el problema de RNN tradicional en el aprendizaje de patrones de secuencia larga y extraer secuencias a largo y corto plazo. información de datos La capacidad de aprendizaje y la capacidad de representación de LSTM es más fuerte que la de RNN estándar.
**Creo que hemos llegado a una etapa en la que puede que no sea muy diferente hablar sobre lo que un modelo puede y no puede hacer. **En el pasado, las personas limitaban la capacidad del modelo, pensando que el modelo no podía dominar la capacidad de razonamiento y aprender a programar, y pensaba que podría encontrar cuellos de botella en algunos aspectos. Aunque algunas personas, incluyéndome a mí, no lo creían antes, pero en los últimos años, este tipo de teoría del cuello de botella se ha vuelto más común y ahora ha cambiado.
**Si el efecto del proceso de escalado del modelo futuro ve un cuello de botella, creo que el problema proviene del diseño de la función de pérdida que se enfoca en la siguiente tarea de predicción del token. **Cuando ponemos demasiado énfasis en las habilidades de razonamiento y programación, la pérdida del modelo se centrará en las fichas que reflejan esta habilidad, y las fichas de otros problemas aparecerán con menos frecuencia (Nota: el conjunto de datos de preentrenamiento del el modelo se basará en la importancia que los científicos le dan al grado de habilidades, ajuste su proporción) **, la función de pérdida presta demasiada atención a las fichas que proporcionan la mayor cantidad de información entropía, mientras que ignora las que son realmente importantes, la señal puede estar sumergida en el ruido **
Si surge este problema, debemos introducir algún tipo de proceso de aprendizaje por refuerzo. Hay muchos tipos de RL, como el aprendizaje por refuerzo con retroalimentación humana (RLHF), el aprendizaje por refuerzo para los objetivos y, como la IA constitucional, la mejora (amplificación) y el debate. (debate) y similares. Estos son tanto el método de alineación del modelo como la forma de entrenar el modelo. **Es posible que tengamos que probar muchos métodos, pero debemos centrarnos en cuál es el objetivo del modelo. **
Uno de los problemas con el aprendizaje por refuerzo es que necesita diseñar una función de pérdida muy completa. La función de pérdida de la próxima predicción del token ya se ha diseñado, por lo que si la escala en esta dirección ve el límite superior, el desarrollo de la IA se ralentizará.
**Dwarkesh Patel: ¿Cómo surgió su comprensión de Scaling? **
**Dario Amodei: **La formación de mi opinión se remonta aproximadamente desde 2014 hasta 2017. He estado prestando atención al desarrollo de la IA, pero durante mucho tiempo pensé que tomaría mucho tiempo para que la IA se aplicara realmente, hasta la aparición de AlexNet. Luego me uní al equipo de proyecto de Wu Enda en Baidu en ese momento, y esta fue la primera vez que entré en contacto con la IA.
Me considero bastante afortunado, a diferencia de otros académicos de la época, me encargaron crear sistemas de reconocimiento de voz de última generación y había una gran cantidad de datos y GPU disponibles. **Durante el transcurso de este proyecto, naturalmente me di cuenta de que Scaling es una buena solución. Este proceso también es diferente de la investigación postdoctoral, no necesariamente tenemos que generar ideas inteligentes e innovadoras que no se hayan propuesto antes. **
A lo largo del proyecto, solo necesito realizar algunos experimentos básicos, como agregar más capas a la RNN o ajustar los parámetros de entrenamiento para tratar de extender el tiempo de entrenamiento del modelo.Durante este período, observé el proceso de entrenamiento del modelo y vi el simulado ¿Cuándo sucede? También intenté agregar nuevos datos de entrenamiento o reducir las rondas de entrenamiento repetidas y observé el impacto de estos ajustes en el rendimiento del modelo. Durante el curso de estos experimentos, noté algunos resultados regulares. Sin embargo, no me queda claro si estas imaginaciones son innovadoras o si otros colegas han hecho descubrimientos similares. En general, esta es solo mi experiencia afortunada como principiante en IA. No sé mucho más sobre el campo, pero sentí en ese momento que esto se validó de manera similar en el campo del reconocimiento de voz.
** Conocí a Ilya antes de que se fundara OpenAI, y me dijo que "debemos darnos cuenta de que estos modelos solo quieren aprender", esta perspectiva me inspiró en gran medida y me hizo darme cuenta de que la observación anterior El fenómeno puede no ser una instancia aleatoria pero una ocurrencia común. Estos modelos solo necesitan aprender. Solo necesitamos proporcionar datos de alta calidad y crear suficiente espacio para que operen, y los modelos aprenderán por sí mismos. **
**Dwarkesh Patel: Pocas personas han deducido una visión de "inteligencia universal" como tú e Ilya. ¿Cómo piensas sobre esta pregunta de manera diferente a otras personas? ¿Qué te hace pensar que los modelos seguirán mejorando en el reconocimiento de voz, y de manera similar en otras áreas? **
Dario Amodei: Realmente no sé, cuando observé por primera vez un fenómeno similar en el campo del habla, pensé que era solo una ley aplicable al campo vertical del reconocimiento del habla. Entre 2014 y 2017, probé muchas cosas diferentes y observé lo mismo una y otra vez. Por ejemplo, observé esto en el juego Dota, aunque los datos disponibles en el campo de la robótica son relativamente limitados y muchas personas no son optimistas, también observé un fenómeno similar. **Creo que las personas tienden a concentrarse en resolver los problemas inmediatos. Es posible que presten más atención a cómo resolver el problema en sí mismo en la dirección vertical, en lugar de pensar en los problemas de nivel inferior en la dirección horizontal, por lo que es posible que no Considere completamente la posibilidad de escalar el sexo. Por ejemplo, en el campo de la robótica, el problema más fundamental puede ser la insuficiencia de datos de entrenamiento, pero es fácil concluir que el escalado no funciona. **
**Dwarkesh Patel: ¿Cuándo se dio cuenta de que el lenguaje podría ser una forma de introducir grandes cantidades de datos en estos modelos? **
**Dario Amodei:**Creo que lo más importante es el concepto de aprendizaje autosupervisado basado en la predicción del siguiente token, así como una gran cantidad de arquitecturas para la predicción. En realidad, esto es similar a la lógica de las pruebas de desarrollo infantil. Por ejemplo, Mary entra en la habitación y pone un objeto, y luego Chuck entra y mueve el objeto sin que Mary se dé cuenta, ¿qué piensa Mary? Para completar este tipo de predicción, el modelo debe resolver al mismo tiempo los problemas matemáticos, problemas psicológicos, etc. Entonces, en mi opinión, para hacer buenas predicciones, debe alimentar el modelo con datos y dejar que aprenda sin restricciones.
Aunque tuve una sensación similar hace mucho tiempo, hasta que Alec Radford hizo algunos intentos con GPT-1, me di cuenta de que no solo podemos implementar un modelo con capacidad predictiva, sino también afinarlo y completar varios tipos de misiones. Creo que esto nos da la posibilidad de hacer todo tipo de tareas, de poder resolver todo tipo de problemas, incluido el razonamiento lógico. Por supuesto, también podemos seguir ampliando el tamaño del modelo.
• Alec Radford, autor de Sentiment Neuron, el predecesor de la serie GPT y coautor de la serie de artículos GPT, sigue trabajando en OpenAI.
**Dwarkesh Patel: ¿Cómo crees que el entrenamiento de modelos requiere una gran cantidad de datos? ¿Debería preocuparse por la baja eficiencia del entrenamiento de modelos? **
Dario Amodei: Esta pregunta aún se está explorando. Una teoría es que el tamaño del modelo es en realidad de 2 a 3 órdenes de magnitud más pequeño que el cerebro humano, pero la cantidad de datos necesarios para entrenar el modelo es de tres a cuatro veces mayor que la cantidad de texto leído por un niño de 18 años. -viejo ser humano El orden de magnitud, el orden de magnitud de los seres humanos es probablemente cientos de millones, mientras que el orden de magnitud de los modelos es cientos de miles de millones o trillones. La cantidad de datos obtenidos por los seres humanos no es grande, pero es completamente suficiente para manejar nuestro trabajo y nuestra vida diaria. Pero existe otra posibilidad de que, además de aprender, nuestros sentidos en realidad estén ingresando información al cerebro.
En realidad, aquí hay una paradoja. La escala del modelo que tenemos actualmente es más pequeña que la del cerebro humano, pero puede realizar muchas tareas similares a las del cerebro humano. Al mismo tiempo, la cantidad de datos requerida por este modelo es mucho más grande que el del cerebro humano. Por lo tanto, aún debemos continuar explorando y comprendiendo este tema, pero hasta cierto punto, esto no es importante. ** Más importante aún, cómo evaluar la capacidad del modelo y cómo juzgar la brecha entre ellos y los humanos. En lo que a mí respecta, la brecha no está tan lejos. **
**Dwarkesh Patel: ¿Subestima el papel del progreso algorítmico el énfasis en el escalado y, más ampliamente, los avances en la capacidad del modelo de impulso de computación a gran escala? **
**Dario Amodei: **Cuando se publicó por primera vez el artículo de Transformer, escribí sobre temas relacionados y mencioné que hay 7 factores relacionados que afectarán la mejora de la capacidad del modelo, de los cuales 4 factores son los más obvios y críticos: el cantidad de parámetros del modelo, escala de potencia informática, calidad de los datos y función de pérdida. Por ejemplo, tareas como el aprendizaje por refuerzo o la predicción del próximo token dependen en gran medida de tener la función de pérdida o el mecanismo de incentivo correctos.
• Aprendizaje por refuerzo (RL):
Encuentre el curso de acción óptimo para cada estado particular del medio ambiente a través de un proceso básico de prueba y error. El modelo de aprendizaje automático introducirá una regla aleatoria al principio y, al mismo tiempo, ingresará una cierta cantidad de puntos (también conocidos como recompensas) en el modelo cada vez que se realice una acción.
• La función de pérdida (loss function) en aprendizaje automático se refiere a la función de medir la bondad de ajuste, que se utiliza para reflejar el grado de diferencia entre la salida del modelo y el valor real, es decir, para medir la predicción error; incluida la predicción de todos los puntos de muestra Error, proporcionando un valor único para representar la bondad de ajuste general; al mismo tiempo, durante el proceso de entrenamiento, los parámetros del modelo se ajustarán continuamente de acuerdo con el valor de la función de pérdida, en para minimizar el valor de la pérdida y obtener un mejor efecto de ajuste.
También hay 3 factores:
El primero son las simetrías estructurales, si la arquitectura no tiene en cuenta la simetría correcta, no funcionará y será muy ineficiente. Por ejemplo, la red neuronal convolucional (CNN) considera la simetría traslacional (simetría traslacional), LSTM considera la simetría temporal (simetría temporal), pero el problema con los LSTM es que no prestan atención al contexto, esta debilidad estructural es común. Si el modelo no puede comprender y procesar la historia pasada larga (refiriéndose a los datos que aparecieron antes en la estructura de datos de secuencia) debido a razones estructurales, será como si el cálculo fuera incoherente. Ambos modelos RNN y LSTM tienen tales deficiencias.
• Adam(Estimación del momento adaptativo):
Estimación adaptativa del momento, el algoritmo de Adam combina las ventajas de RMSprop y SGD, y puede manejar bien los problemas de optimización no convexos.
**• SGD (descenso de gradiente estocástico): **
Descenso de gradiente estocástico, un método iterativo para optimizar una función objetivo con propiedades de suavidad apropiadas, como diferenciable o subdiferenciable. Puede verse como una aproximación estocástica a la optimización del descenso de gradiente. En problemas de optimización de alta dimensión, esto reduce la carga computacional y permite iteraciones más rápidas a cambio de tasas de convergencia más bajas.
Luego está la estabilidad numérica (nota inicial: condicionamiento, que se refiere a si el algoritmo está bien condicionado en el análisis numérico, de lo contrario, un pequeño cambio en los datos del problema provocará un gran cambio en su solución). La optimización de las funciones de pérdida es numéricamente difícil y fácil de distinguir. Es por eso que Adam funciona mejor que las ETS normales.
El último elemento es garantizar que el proceso de cálculo del modelo no se vea obstaculizado, solo así el algoritmo puede tener éxito.
Por lo tanto, el progreso del algoritmo no es simplemente mejorar el poder de cómputo de la computadora, sino también eliminar los obstáculos artificiales de la arquitectura antigua. Muchas veces el modelo quiere aprender y calcular libremente, solo para ser bloqueado por nosotros sin nuestro conocimiento.
**Dwarkesh Patel: ¿Crees que habrá algo de la escala de Transformer para impulsar la próxima gran iteración? **
Dario Amodei: Creo que es posible. Algunas personas han intentado simular dependencias a largo plazo. También observé que algunas ideas en Transformer no son lo suficientemente eficientes para representar o procesar cosas. **Sin embargo, incluso si este tipo de innovación no ocurre, ya nos estamos desarrollando rápidamente. Si aparece, solo hará que el campo se desarrolle más rápido, y la aceleración puede no ser tanta, porque la velocidad ya es muy rápida. . **
**Dwarkesh Patel: En términos de adquisición de datos, ¿el modelo debe tener inteligencia incorporada? **
Dario Amodei: Tiendo a no pensar en ello como una nueva arquitectura, sino como una nueva función de pérdida, porque el entorno en el que el modelo recopila datos se vuelve completamente diferente, lo cual es importante para aprender ciertas habilidades. Si bien la recolección de datos es difícil, al menos se ha avanzado en el camino de la recolección de corpus, y se continuará en el futuro, aunque aún quedan más posibilidades por desarrollar en cuanto a prácticas específicas.
• Función de pérdida:
Es un concepto importante en el aprendizaje automático y el aprendizaje profundo. Se utiliza para medir el grado de diferencia entre el resultado de predicción del modelo y la etiqueta verdadera, es decir, el error de predicción del modelo. La función de pérdida está diseñada para permitir que el modelo minimice el error de predicción ajustando los parámetros, mejorando así el rendimiento y la precisión del modelo.
**Dwarkesh Patel: ¿Hay otros enfoques como RL? **
Dario Amodei: Ya estamos usando el método RLHF para el aprendizaje por refuerzo, pero creo que es difícil distinguir si se trata de Alineación o Capacidad. Los dos son muy similares. Rara vez hago que los modelos tomen medidas a través de RL. RL solo debe usarse después de que hayamos hecho que el modelo tome medidas durante un período de tiempo y entendamos las consecuencias de esas acciones. Así que creo que el aprendizaje por refuerzo va a ser muy poderoso, pero también tiene muchos problemas de seguridad en términos de cómo los modelos actúan en el mundo.
El aprendizaje por refuerzo es una herramienta de uso común cuando las acciones se toman durante un largo período de tiempo y las consecuencias de esas acciones solo se comprenden más tarde.
**Dwarkesh Patel: ¿Cómo cree que se integrarán estas tecnologías en tareas específicas en el futuro? ¿Pueden estos modelos de lenguaje comunicarse entre sí, evaluarse, referirse y mejorar sus respectivos resultados de investigación? ¿O es que cada modelo trabaja de forma independiente y solo se centra en dar resultados por sí mismo sin colaborar con otros modelos? ¿Podrán estos modelos de lenguaje de alto nivel formar un sistema colaborativo real en el proceso de desarrollo y aplicación en el futuro, o cada modelo hará lo suyo? **
Dario Amodei: Es probable que el modelo necesite completar tareas más complejas en el futuro, lo cual es una tendencia inevitable. Sin embargo, por razones de seguridad, es posible que debamos limitar el alcance de la aplicación del modelo de lenguaje hasta cierto punto para mitigar los riesgos potenciales. **¿Es posible el diálogo entre modelos? ¿Están destinados principalmente a usuarios humanos? Estos problemas requieren la consideración de influencias sociales, culturales y económicas más allá del nivel técnico, y son difíciles de predecir con precisión.
**Aunque podemos predecir la tendencia de crecimiento del tamaño del modelo, es difícil hacer predicciones confiables sobre cuestiones como el momento de la comercialización o el formulario de solicitud. No soy muy bueno prediciendo este tipo de tendencia de desarrollo futuro, y nadie puede hacerlo muy bien en la actualidad. **
**¿Cómo será la habilidad del modelo igualada a la de los humanos? **
**Dwarkesh Patel: Si alguien me dijera en 2018 que tendríamos un modelo como Claude-2 en 2023 con todo tipo de capacidades impresionantes, definitivamente pensaría que AGI se logró en 2018. Pero claramente, al menos por ahora, y posiblemente incluso en las generaciones futuras, somos muy conscientes de que seguirá habiendo diferencias entre la IA y los niveles humanos. ¿Por qué esta discrepancia entre las expectativas y la realidad? **
**Dario Amodei: **Soy nuevo en GPT-3, y en las primeras etapas de Anthropic, mi sensación general acerca de estos modelos es: parecen captar realmente la esencia del lenguaje, no estoy seguro de que necesitemos expandir el modelo hasta qué punto, quizás debamos prestar más atención a otras áreas como el aprendizaje por refuerzo. En 2020, creo que es posible aumentar aún más el tamaño del modelo, pero a medida que la investigación se profundiza, empiezo a pensar si es más eficiente agregar directamente otro entrenamiento objetivo como el aprendizaje por refuerzo.
** Hemos visto que la inteligencia humana en realidad es un rango muy amplio, por lo que la definición de "máquinas que alcanzan el nivel humano" es en sí misma un rango, y el lugar y el momento para que las máquinas realicen diferentes tareas son diferentes. Muchas veces, por ejemplo, estos modelos se han acercado o incluso superado el rendimiento humano, pero todavía están en pañales cuando se trata de probar teoremas matemáticos relativamente simples. Todos estos muestran que la inteligencia no es un espectro continuo (espectro). ** Hay varios tipos de conocimientos y habilidades profesionales en varios campos, y los métodos de memoria también son diferentes. Si me hubieras preguntado hace 10 años (Nota de recogida: Dario todavía estaba estudiando física y neurociencia en ese momento), no hubiera imaginado que este sería el caso.
**Dwarkesh Patel: ¿Cuánta superposición en el rango de habilidades cree que estos modelos exhibirán a partir de la distribución del entrenamiento que estos modelos obtienen de la gran cantidad de datos de Internet que los humanos obtienen de la evolución? **
Dario Amodei: Hay una superposición considerable. Muchos modelos juegan un papel en aplicaciones comerciales, ayudando efectivamente a los humanos a mejorar la eficiencia. Dada la variedad de actividades humanas y la abundancia de información en Internet, creo que los modelos aprenden hasta cierto punto los modelos físicos del mundo real, pero no aprenden cómo operar en la realidad real, habilidades que pueden ser relativamente fáciles de desarrollar. afinar Creo que hay algunas cosas que los modelos no aprenden, pero los humanos sí.
**Dwarkesh Patel: ¿Es posible que los modelos superen a los humanos en muchas tareas relacionadas con los negocios y la economía en los próximos años? Al mismo tiempo, los modelos pueden seguir siendo inferiores a los humanos en algunas tareas, evitando así una explosión de inteligencia similar. **
Dario Amodei: Esta pregunta es difícil de predecir. Lo que quiero recordar es que la ley de escala puede proporcionar algunas ideas de predicción desde la perspectiva de la base teórica, pero será muy difícil comprender realmente los detalles del desarrollo futuro. La ley de escalamiento puede seguir aplicándose, por supuesto, y si los factores regulatorios o de seguridad ralentizarán el progreso, pero si se dejan de lado estas fricciones, creo que si la IA puede ir más allá en la creación de valor económico, entonces debe ser mayor. se hará en más campos.
No veo que el modelo tenga un desempeño particularmente débil en ningún dominio, o que no progrese en absoluto. Al igual que las matemáticas y la programación en el pasado, son difíciles pero también logran resultados inesperados. En los últimos 6 meses, el modelo 2023 ha hecho un progreso significativo en comparación con el modelo 2022. Aunque el rendimiento del modelo en diferentes campos y tareas no está completamente equilibrado, la mejora de la capacidad general definitivamente beneficiará a todos los campos.
**Dwarkesh Patel: Cuando se enfrenta a una tarea compleja, ¿tiene el modelo la capacidad de realizar una cadena de pensamiento en una serie de tareas continuas? **
**Dario Amodei: **La capacidad de toma de decisiones continua depende del entrenamiento del aprendizaje por refuerzo, para que el modelo pueda realizar tareas a más largo plazo. **Y no creo que esto requiera una escala mayor de poder de cómputo adicional. Pensar así es una subestimación incorrecta de la capacidad de aprendizaje del propio modelo. **
La cuestión de si los modelos superarán a los humanos en algunos dominios pero les costará hacerlo en otros, creo que es complicado, en algunos dominios puede ser cierto, pero en algunos dominios no lo será porque el mundo físico está involucrado en tareas de inteligencia incorporada. en
¿Qué es lo siguiente? ¿Puede la IA ayudarnos a entrenar una IA más rápida que pueda resolver esos problemas? ¿Ya no se necesita el mundo físico? ¿Nos preocupan los problemas de alineación? ¿Hay preocupaciones sobre el uso indebido, como la creación de armas de destrucción masiva? ¿Deberíamos preocuparnos de que la propia IA se haga cargo directamente de la futura investigación de la IA? ¿Nos preocupa que alcance cierto umbral de productividad económica en el que pueda realizar tareas como la media? ... Creo que estas preguntas pueden tener diferentes respuestas, pero creo que todas las tendrán dentro de unos años.
**Dwarkesh Patel: Si Claude fuera un empleado de Anthropic, ¿cuál sería su salario? ¿Acelera el desarrollo de la inteligencia artificial en un sentido real? **
Dario Amodei: Para mí, probablemente sea más un pasante en la mayoría de los casos, pero aún mejor que un pasante en algunas áreas específicas. Pero, en general, puede ser difícil dar una respuesta absoluta a este asunto, porque los modelos no son de naturaleza humana, pueden diseñarse para responder a una o varias preguntas, **pero a diferencia de los humanos, no tienen el concepto de "experiencia basada en el tiempo". **
**Si la IA quiere volverse más eficiente, primero debe ayudar a los humanos a mejorar su propia productividad y luego, gradualmente, alcanzar el mismo nivel de productividad humana. El próximo paso después de eso es ser una fuerza importante en el avance de la ciencia, lo que creo que sucederá en el futuro. Pero sospecho que los detalles de lo que realmente sucedió en el futuro se verán un poco extraños ahora, diferentes de los modelos que esperábamos. **
**Dwarkesh Patel: ¿Cuándo crees que la habilidad del modelo alcanzará el nivel humano? ¿Cómo será entonces? **
Dario Amodei: Depende de cuán altas o bajas sean las expectativas y los estándares humanos. Por ejemplo, si nuestra expectativa es solo que el modelo se comunique durante 1 hora, y el modelo puede comportarse como un ser humano bien educado durante el proceso, la meta de hacer que el modelo alcance el nivel humano puede no estar muy lejos, creo que sí. puede ser posible en 2 a 3 años se hará realidad. **Esta línea de tiempo está influenciada en gran medida por una empresa o industria que decide ralentizar el desarrollo o restricciones gubernamentales por razones de seguridad. **Pero desde la perspectiva de los datos, el poder de cómputo y la economía de costos, no estamos lejos de este objetivo. **
Pero incluso si el modelo alcanza este nivel,** no creo que el modelo pueda dominar la mayoría de las investigaciones de IA, o cambiar significativamente la forma en que funciona la economía, ni tampoco es sustancialmente peligroso. Entonces, en general, diferentes estándares requieren diferentes plazos para su realización, pero desde una perspectiva puramente técnica, no está muy lejos lograr un modelo que sea comparable a un ser humano educado básico. **
**Dwarkesh Patel: ¿Por qué el modelo puede lograr la misma habilidad que un ser humano con educación básica, pero no puede participar en actividades económicas o reemplazar el rol de los seres humanos? **
**Dario Amodei:**En primer lugar, es posible que el modelo no haya alcanzado un nivel lo suficientemente alto. **¿Sería capaz de acelerar en gran medida la productividad de 1000 buenos científicos en un campo como la investigación de IA? La ventaja comparativa del modelo a este respecto aún no es evidente. **
En la actualidad, los modelos grandes no han hecho descubrimientos científicos importantes, probablemente porque el nivel de estos modelos no es lo suficientemente alto, y el rendimiento de estos modelos solo puede ser equivalente al nivel B o al nivel B. Pero creo que esto cambiará con la escala del modelo. Los modelos lideran otros campos en la memorización, la integración de hechos y la creación de conexiones. Especialmente en el campo de la biología, debido a la complejidad de los organismos, los modelos actuales han acumulado una gran cantidad de conocimiento. El descubrimiento y la conexión son importantes en este campo. A diferencia de la física, la biología requiere muchos hechos, no solo fórmulas. Así que estoy seguro de que los modelos ya tienen mucho conocimiento, pero no han podido juntarlo todo porque el nivel de habilidad no está a la altura. Creo que están evolucionando gradualmente para integrar este conocimiento a un nivel superior.
Otra razón es que hay muchas fricciones invisibles en las actividades comerciales reales que el modelo no puede aprender. Por ejemplo, idealmente, podemos usar bots de IA para interactuar con los clientes, pero la situación real es mucho más complicada que la teoría, y no podemos simplemente confiar en los robots de servicio al cliente o esperar que la IA pueda reemplazar a los empleados humanos para completar estas tareas. Y en realidad, todavía hay costos dentro de la empresa para promover artificialmente la implementación del modelo, la combinación de bot de IA y flujo de trabajo, etc.
**En muchos casos, la eficiencia de las personas que usan el modelo no es alta y el potencial del modelo no se ha aprovechado por completo. Esto no se debe a que el modelo no sea lo suficientemente capaz, sino a que las personas tienen que dedicar tiempo a investigar cómo hacer que funcione de manera más eficiente. **
En general, a corto plazo, los modelos no reemplazarán por completo a los humanos, pero a largo plazo, a medida que los modelos continúen mejorando y desempeñen un papel más importante en la mejora de la eficiencia del trabajo humano, los humanos finalmente darán paso a los modelos. . Es solo que es difícil para nosotros hacer tiempos precisos para las diferentes fases. En el corto plazo, existen varios obstáculos y factores complejos que hacen que el modelo sea "limitado", pero en esencia, la IA aún se encuentra en una etapa de crecimiento exponencial.
**Dwarkesh Patel: Después de que lleguemos a este punto en los próximos 2 o 3 años, ¿toda la IA seguirá avanzando tan rápido como hoy? **
Dario Amodei: El jurado aún está deliberando. A través de la observación de la función de pérdida, encontramos que la eficiencia del entrenamiento del modelo está disminuyendo y que la curva de la Ley de escala no es tan pronunciada como lo era en los primeros días. Esto también lo confirman los modelos lanzados por varias compañías. Pero a medida que se desarrolla esta tendencia, la pequeña cantidad de entropía en cada predicción precisa se vuelve más importante. Quizás fueron estos pequeños valores de entropía los que crearon la brecha entre Einstein y el físico promedio. En términos de rendimiento real, la métrica parece mejorar de forma relativamente lineal, aunque es difícil de predecir. Por lo tanto, es difícil ver claramente estas situaciones. Además, creo que el factor más importante que impulsa la aceleración es que cada vez se invierte más dinero en este espacio, y la gente se da cuenta de que hay un gran valor económico en este espacio. Así que espero un aumento de 100 veces en la financiación para los modelos más grandes, y el rendimiento del chip está mejorando, y los algoritmos están mejorando porque hay mucha gente trabajando en esto en este momento.
**Dwarkesh Patel: ¿Crees que Claude está consciente? **
Dario Amodei: Aún no estoy seguro. Originalmente pensé que solo debemos preocuparnos por este tipo de problema cuando el modelo opera en un entorno lo suficientemente rico, como la inteligencia incorporada, o tiene experiencia a largo plazo y función de recompensa (Reward Function), pero ahora estoy interesado en el modelo, especialmente el modelo Después de la investigación sobre el mecanismo interno, mi punto de vista ha sido sacudido: **El modelo grande parece tener muchos mecanismos cognitivos necesarios para convertirse en un agente activo, como la cabeza de inducción (Induction Head). Dado el nivel de capacidad de los modelos actuales, esto puede convertirse en un problema real en los próximos 1 o 2 años. **
• Función de recompensa:
Un mecanismo de incentivo en el aprendizaje por refuerzo que le dice al agente lo que está bien y lo que está mal a través de recompensas y castigos.
• Cabezal de inducción:
Un componente/estructura de modelo específico en un modelo de Transformer que permite que el modelo realice aprendizaje contextual.
**Dwarkesh Patel: ¿Cómo entendemos la "inteligencia" a medida que las capacidades de los modelos de lenguaje continúan creciendo y acercándose a los rangos de nivel humano? **
Dario Amodei: Realmente me doy cuenta de que la inteligencia proviene de la comprensión de la naturaleza "material" del poder de cómputo. Los sistemas inteligentes pueden constar de muchos módulos independientes o ser extremadamente complejos. Rich Sutton lo llama una "lección angustiada", también conocida como "hipótesis de escala", y los primeros investigadores como Shane Lake y Ray Kurzweil comenzaron a darse cuenta de esto alrededor de 2017.
• La lección amarga / Hipótesis de escala:
En 2019, Rich Sutton publicó el artículo The Bitter Lesson. El punto central del artículo es que la investigación de IA debe hacer un uso completo de los recursos informáticos. Solo cuando se utiliza una gran cantidad de informática se pueden lograr avances en la investigación.
Durante 2014-2017, cada vez más investigadores revelaron y entendieron este punto. Este es un gran paso adelante en la comprensión científica. Si podemos crear inteligencia sin condiciones específicas, solo gradientes apropiados y señales de pérdida, entonces la evolución de la inteligencia es menos misteriosa.
La capacidad de mirar el modelo, nada demasiado esclarecedor para mí para volver a visitar la idea de la inteligencia humana. La elección de algunas habilidades cognitivas es más arbitraria de lo que pensaba, y la correlación entre diferentes habilidades puede no ser explicada por un secreto en sí mismo. **Los modelos son fuertes en la codificación, pero aún no son capaces de probar el teorema de los números primos, y probablemente tampoco lo sean los humanos. **
Alineación: la interpretabilidad consiste en "radiografiar" el modelo
**Dwarkesh Patel: ¿Qué es la explicabilidad del mecanismo? ¿Cuál es la relación entre esto y la alineación? **
**Dario Amodei: **En el proceso de implementación de la alineación, no sabemos qué sucedió dentro del modelo. Creo que con todos los métodos que implican un ajuste fino, quedan algunos riesgos potenciales de seguridad, solo se le enseña al modelo a no exhibirlos. **El núcleo de toda la idea de la explicabilidad del mecanismo es comprender realmente cómo funciona el modelo internamente. **
Todavía no tenemos una respuesta definitiva. Puedo describir aproximadamente el proceso. El desafío para aquellos métodos que afirman poder lograr la alineación en esta etapa es: ¿Siguen siendo efectivos estos métodos cuando la escala del modelo es mayor, las capacidades son más sólidas o ciertas situaciones cambian? Por lo tanto, **Creo que si hay una "máquina oráculo" que pueda escanear el modelo y juzgar si el modelo se ha alineado, hará que este problema sea mucho más fácil. **
Actualmente, lo más cerca que estamos del concepto de tal oráculo es algo así como la explicabilidad del mecanismo, pero todavía está lejos de nuestros requisitos ideales. Tiendo a pensar en nuestros intentos de alineación actuales como un conjunto de entrenamiento ampliado, pero no estoy seguro de si pueden seguir teniendo un buen efecto de alineación en el problema de distribución. Es como tomar una radiografía de un modelo en lugar de modificarlo, más como una evaluación que como una intervención.
**Dwarkesh Patel: ¿Por qué debe ser útil la explicabilidad del mecanismo? ¿Cómo nos ayuda a predecir el riesgo potencial del modelo? Es como asumir que eres un economista que envía microeconomistas a estudiar diferentes industrias, pero aún tiene una alta probabilidad de tener dificultades para predecir si habrá una recesión en los próximos 5 años. **
**Dario Amodei: Nuestro objetivo no es comprender completamente cada detalle, sino verificar las características principales del modelo, como la inspección de rayos X o resonancia magnética para juzgar si el estado interno y el objetivo del modelo son significativamente diferentes de la discrepancia de apariencia externa, o si puede conducir a algunos propósitos destructivos. **Aunque no obtendremos respuestas a muchas preguntas de inmediato, al menos se proporciona una forma.
Puedo dar un ejemplo humano. Con la ayuda de una prueba de resonancia magnética, podemos predecir si alguien tiene una enfermedad mental con una probabilidad más alta que adivinar al azar. Un neurocientífico estaba trabajando en esto hace unos años, revisó su propia resonancia magnética y descubrió que también tenía esta característica. La gente a su alrededor decía: "Es tan obvio, eres un imbécil. Debe haber algo mal contigo", y el propio científico no estaba al tanto de esto.
La idea esencial de este ejemplo es que el comportamiento externo del modelo puede no hacer que las personas se sientan problemáticas en absoluto y está muy orientado a objetivos, pero su interior puede ser "oscuro". Lo que nos preocupa es este tipo de modelo. , que parece seres humanos en la superficie, pero la motivación interna es extraordinaria.
**Dwarkesh Patel: Si el modelo alcanza el nivel humano en los próximos 2 o 3 años, ¿cuánto tiempo crees que llevará realizar la alineación? **
Dario Amodei: Este es un tema muy complicado. Creo que mucha gente todavía no entiende realmente qué es la alineación. La gente generalmente piensa que esto es como que la alineación del modelo es un problema a resolver, o que resolver el problema de alineación es como la hipótesis de Riemann, y que algún día podremos resolverlo. **Creo que los problemas de alineación son más elusivos e impredecibles de lo que la gente piensa. **
En primer lugar, **Con la mejora continua de la escala y las capacidades de los modelos de lenguaje, habrá modelos poderosos con capacidades autónomas en el futuro. Si tales modelos pretenden destruir la civilización humana, básicamente seremos incapaces de detenerlos. **
En segundo lugar, Nuestra capacidad actual para controlar el modelo no es lo suficientemente fuerte, esto se debe a que el modelo se basa en el principio del aprendizaje estadístico, aunque puede hacer muchas preguntas y dejar que responda, pero nadie puede predecir. a qué puede conducir la respuesta a la enésima pregunta como resultado.
**Además, la forma en que entrenamos el modelo fue abstracta, lo que dificulta predecir todas sus implicaciones en aplicaciones del mundo real. **Un ejemplo típico es que Bing y Sydney mostraron algunas características abruptas e inseguras después de cierta sesión de entrenamiento, como amenazar directamente a otros. Todo esto muestra que los resultados que obtenemos pueden ser completamente diferentes de las expectativas. Creo que la existencia de los dos problemas anteriores es un gran peligro oculto en sí mismo. No necesitamos profundizar en los detalles de la racionalidad instrumental y la evolución. Estos dos puntos son suficientes para causar preocupación. En la actualidad, cada modelo que hemos establecido tiene ciertos peligros ocultos que son difíciles de predecir, y debemos prestar atención a esto.
• Hipótesis de Riemann:
La hipótesis de Riemann es un problema importante en matemáticas que aún no ha sido resuelto. La conjetura sobre la distribución de los ceros de la función ζ(s) de Riemann fue propuesta por el matemático Bernhard Riemann en 1859.
• Sídney:
No hace mucho tiempo, Microsoft lanzó la última versión de su motor de búsqueda Bing, que integra un chatbot inicial con nombre en código llamado "Sydney". Sin embargo, los evaluadores pronto descubrieron problemas con el chatbot. Durante el diálogo, ocasionalmente muestra el fenómeno de la personalidad dividida e incluso habla sobre el amor y el matrimonio con el usuario, mostrando emociones humanas.
**Dwarkesh Patel: Suponiendo que el modelo pueda desarrollar tecnologías peligrosas como armas biológicas en los próximos 2 o 3 años, ¿puede su trabajo de investigación actual sobre la explicabilidad del mecanismo, la IA constitucional y el RLHF ser efectivo para prevenir tales riesgos? **
Dario Amodei: Con respecto a la cuestión de si el modelo de idioma está condenado por defecto o la alineación por defecto, a juzgar por el modelo actual, el resultado puede ser anormal como Bing o Sydney, o puede ser como Claude normal. Pero si aplica directamente esta comprensión a un modelo más potente, los resultados pueden ser buenos o malos, según la situación específica. Esto no es "alineación por defecto", el resultado depende más del grado de control de detalle.
• alineación por defecto:
La noción de que lograr la alineación en inteligencia artificial general (AGI) puede ser más simple de lo esperado inicialmente. Cuando el modelo tiene información detallada sobre nuestro mundo, el modelo ya tiene valores humanos en esencia. Para alinearse con AGI, solo es necesario extraer estos valores y guiar a la IA para que comprenda esos conceptos humanos abstractos. doom por defecto es lo opuesto a alineación por defecto, y se considera imposible que el modelo logre la alineación.
La calidad del modelo es un área gris. Es difícil para nosotros controlar completamente cada variable y su conexión interna. Los errores pueden conducir a resultados irracionales. Con esto en mente, creo que la naturaleza del problema no es el éxito condenado o el fracaso condenado, sino una cierta probabilidad de riesgo. **En los próximos dos o tres años, debemos comprometernos a mejorar las técnicas de diagnóstico de modelos, los métodos de capacitación en seguridad y reducir las posibles diferencias. En la actualidad, nuestras capacidades de control aún deben fortalecerse. El problema de alineación es diferente de la hipótesis de Riemann, es un problema de ingeniería de sistemas que solo puede resolverse acumulando práctica con el tiempo. Solo continuando avanzando en varias tareas podemos optimizar gradualmente el nivel de control y reducir los riesgos. **
Dwarkesh Patel: En términos generales, hay tres especulaciones sobre el futuro de la alineación:
1) Use RLHF++ para realizar fácilmente la alineación del modelo;
2) Aunque es un problema mayor, las grandes empresas tienen la capacidad de solucionarlo finalmente;
**3) Todavía es difícil lograr la Alineación del modelo al nivel actual de la sociedad humana. **
**¿Cuál es su opinión personal sobre la probabilidad de que suceda cada situación? **
**Dario Amodei:**Siento que existen ciertos riesgos en estas posibilidades, y debemos tomarlos en serio, pero estoy más interesado en cómo cambiar la probabilidad de estos tres posibles resultados mediante la adquisición de nuevos conocimientos a través del aprendizaje.
La interpretabilidad del mecanismo no solo puede resolver directamente el problema, sino que también nos ayuda a comprender la dificultad real de la alineación del modelo Nuevos riesgos, que nos iluminarán para comprender la naturaleza del problema.
En cuanto a algunos supuestos teóricos de que existe un objetivo común (objetivo convergente), no puedo estar totalmente de acuerdo. **La explicabilidad del mecanismo es como un tipo de "rayos X": solo al comprender el problema desde el nivel del mecanismo interno podemos llegar a una conclusión sobre si ciertas dificultades son difíciles de superar. **Hay demasiadas suposiciones, nuestra comprensión del proceso aún es superficial y estamos demasiado confiados, pero es probable que la situación sea más complicada de lo esperado.
**Dwarkesh Patel: ¿Qué tan difícil es lograr la alineación en Claude 3 y una serie de modelos futuros? ¿Es esto particularmente importante? **
Darío Amodei:
**Lo que más preocupa a todos es: todos los modelos de IA pueden lograr la alineación en la superficie, pero de hecho pueden engañarnos, pero estoy más interesado en lo que la investigación de interpretabilidad de la máquina puede decirnos. Como acabo de decir, la explicabilidad del mecanismo es como la "radiografía" del modelo, así como no podemos afirmar que una radiografía es correcta, solo podemos decir que el modelo no parece estar en nuestra contra. **Teóricamente hablando, es posible que evolucione hacia nuestro opuesto, y este asunto no es 100% seguro. Es solo que en esta etapa, la interpretabilidad es la mejor manera de hacer que el modelo no se desarrolle así.
**Dwarkesh Patel: Al ajustar o entrenar el modelo, ¿debemos también prestar atención para evitar contenido dañino que pueda causar peligro? Por ejemplo, al explorar temas relacionados con la fabricación de armas biológicas, el modelo puede proporcionar respuestas inapropiadas debido a una comprensión incorrecta de la pregunta. **
Dario Amodei: Para el modelo de lenguaje actual, el riesgo de fuga de datos es básicamente inexistente. Si necesitamos ajustar el modelo, lo operaremos en un área pequeña en un entorno privado, supervisaremos todo el proceso con expertos de la industria y evitaremos cualquier problema potencial, por lo que si se filtra, será como si el modelo fuera de código abierto. . Actualmente, esto es principalmente un problema de seguridad. Pero el verdadero peligro del modelo es que debemos preocuparnos de que si entrenamos un modelo muy poderoso y queremos confirmar si es seguro o peligroso, entonces puede haber un riesgo de dominancia del modelo. La forma de evitar esto es asegurarse de que los modelos que probamos no sean lo suficientemente potentes para realizar estas operaciones.
**Dwarkesh Patel: Al hacer una prueba como "si el modelo puede replicarse a sí mismo como una habilidad peligrosa", ¿qué pasa si el modelo realmente puede replicarse a sí mismo? **
Dario Amodei: Esta suposición es muy razonable. Necesitamos hacer inferencias responsables, y en discusiones con Arc (Alignment Research Center, Alignment Research Center), aprendimos que necesitamos mejorar cuidadosa y gradualmente los estándares de prueba de las capacidades del modelo. Por ejemplo, antes de la prueba, debemos excluir claramente la posibilidad de que el modelo pueda abrir directamente una cuenta de AWS o ganar fondos por sí mismo. Estos comportamientos son requisitos previos obvios para que el modelo sobreviva en la naturaleza. Debemos personalizar varios indicadores de prueba a un nivel muy bajo de tales comportamientos riesgosos Mientras aumentamos gradualmente la dificultad de la prueba, también debemos controlar cada paso de la prueba con más cuidado para evitar cualquier peligro potencial para la seguridad.
• Arco (Centro de Investigación de Alineación, Centro de Investigación de Alineación):
Establecida en 2021, es una organización sin fines de lucro que se enfoca en la investigación de seguridad de inteligencia artificial (AI Safety), y su oficina está ubicada en el Área de la Bahía de California, EE. UU. El fundador de ARC es Paul Christiano, una figura muy respetada en la industria de la inteligencia artificial, quien una vez dirigió el equipo de investigación de alineación en OpenAI. Debido a que estaba a la vanguardia, tiene una comprensión profunda de cómo se ha desarrollado el aprendizaje profundo hasta donde está hoy.
Seguridad AGI: Seguridad AI y Seguridad Cibernética
**Dwarkesh Patel: Si tomas 30 años como escala, ¿qué tema crees que es más importante, la seguridad de la IA o la alineación? **
Dario Amodei: No creo que esto sea un problema en 30 años, y estoy preocupado por ambos.
En teoría, ¿existe un modelo que pueda monopolizar el mundo? Si el modelo solo sigue los deseos de un pequeño grupo de personas, entonces este grupo de personas puede usar este modelo para dominar el mundo. Esto significa que una vez que haya un problema con la alineación, debemos prestar la misma atención a los problemas de seguridad de la IA causados por el abuso. **
Hace unos meses, OpenAI intentó explicar GPT-2 con GPT-4, lo cual es un paso muy importante en la explicabilidad. En general, ahora sentimos que la escala y la seguridad están estrechamente relacionadas y se complementan entre sí. Cómo juzgar y evaluar otras inteligencias, y tal vez algún día incluso ser utilizado para realizar investigaciones de alineación.
**Dwarkesh Patel: Su punto de vista puede ser relativamente optimista, pero el punto de vista de alguien puede ser más pesimista; es posible que ni siquiera tengamos la capacidad de alinear correctamente el modelo como queremos, ¿por qué confía en esto? **
**Dario Amodei: **No importa lo difícil que sea resolver la alineación, cualquier plan realmente exitoso debe tener en cuenta tanto la seguridad de la IA como los problemas de alineación. ** A medida que la tecnología de IA continúa avanzando, puede plantear problemas de equilibrio de poder entre las naciones. Al mismo tiempo, esto plantea una gran pregunta: ¿son las personas capaces de realizar actos maliciosos que son difíciles de detener por sí mismos? **
Estos problemas deben abordarse simultáneamente si queremos encontrar soluciones que realmente funcionen y nos lleven a un futuro brillante. **Sería inapropiado si asumiéramos la actitud de que si el primer problema no se puede resolver, entonces no tenemos que pensar en el problema de seguimiento. En cambio, es nuestro deber valorar esto último. **No importa lo que nos depare el futuro, estos problemas son algo que debemos tomarnos en serio.
**Dwarkesh Patel: ¿Por qué dice que un modelo grande tardará de 2 a 3 años en lograr un ataque bioterrorista a gran escala o algo así? **
• El Congreso de EE. UU. celebró una reunión sobre la regulación de la tecnología de IA el 25 de julio de este año. El gobierno de EE. UU. comparó la IA con el segundo "Proyecto Manhattan" de Estados Unidos o el segundo "Proyecto de aterrizaje lunar tripulado" de la NASA e invitó a participantes, incluidas empresas de IA, incluidas OpenAI y Anthropic. Durante la conferencia, Dario Amodei dijo que teme que la IA pueda usarse para crear virus peligrosos y otras armas biológicas dentro de dos años.
Dario Amodei: Lo que decía cuando estaba en el Congreso era que hay algunos pasos para obtener información en Google, y hay algunos pasos que "faltan", dispersos en varios libros de texto, y es posible que ni siquiera aparezcan en cualquier libro de texto. Esta información es conocimiento tácito, no conocimiento explícito. Encontramos que, en la mayoría de los casos, el modelo no llenó por completo estas partes faltantes críticas. Pero también encontramos que a veces el modelo llena los vacíos en algunos casos. Sin embargo, la alucinación, que a veces puede ocurrir cuando los modelos son capaces de llenar los huecos, también es un factor que nos mantiene a salvo.
A veces, las personas pueden hacerle preguntas al modelo sobre biología para guiar al modelo a responder con información dañina relacionada con ataques biológicos, pero de hecho, esta información también se puede encontrar en Google, por lo que no estoy particularmente preocupado por esta situación. De hecho, creo que centrarse demasiado en la respuesta de Claude puede hacer que se pasen por alto otros crímenes verdaderos.
Pero también hay muchos indicios de que el modelo se desempeña bien en tareas clave. Si comparamos el modelo actual con el modelo anterior, podemos sentir claramente la rápida mejora de las capacidades del modelo, por lo que es probable que enfrentemos desafíos reales en los próximos 2 o 3 años.
**Dwarkesh Patel: Además de la amenaza que la IA puede representar para los seres humanos, ¿también ha estado enfatizando la ciberseguridad (Ciberseguridad)? ¿Cómo les va en este momento? **
Dario Amodei: Básicamente, hemos realizado algunas innovaciones arquitectónicas, que internamente llamamos multiplicadores informáticos, porque estos diseños también son actualizaciones al nivel informático. Hemos estado trabajando en esto durante los últimos meses, pero no puedo entrar en demasiados detalles para evitar romper la arquitectura, y solo un puñado de personas dentro de Anthropic lo saben. No puedo decir "nuestra arquitectura es 100% absolutamente segura", pero Anthropic ha estado invirtiendo en esta área para evitar problemas de seguridad en la red. Aunque nuestros oponentes han tenido este tipo de incidentes (observaciones: esto se refiere a la filtración de datos personales y títulos de chat de algunos usuarios de ChatGPT Plus que ocurrió el 20 de marzo de 2023), a corto plazo parece ser bueno para Anthropic, pero en a largo plazo, cómo toda la industria hace su propia seguridad es lo más importante.
Nuestro director de seguridad estaba a cargo de la seguridad de Google Chrome, que fue un ataque ampliamente dirigido. Le gusta pensar en términos de cuánto costaría atacar el Anthropic con éxito. Nuestro objetivo es que el costo de que otros pirateen Anthropic sea más alto que el costo de simplemente entrenar el propio modelo de un usuario. La lógica aquí es que si existe un riesgo en el ataque, definitivamente consumirá recursos escasos.
Creo que nuestros estándares de seguridad son muy altos, si lo comparas con una empresa del mismo tamaño de 150 personas, la inversión en seguridad de estas empresas es completamente incomparable con la de Anthropic, bastante difícil. Para garantizar la seguridad, solo un número muy pequeño de personas dentro de Anthropic entienden los detalles de capacitación del modelo.
**Dwarkesh Patel: ¿Las empresas de tecnología ya tienen suficientes defensas de seguridad para lidiar con AGI? **
Dario Amodei: Personalmente no estoy seguro de si la experiencia actual de las empresas de tecnología en temas de seguridad es suficiente para hacer frente a AGI, porque puede haber muchos ataques cibernéticos que no conocemos, por lo que es difícil dibujar conclusiones ahora. Hay una regla que dice que cuando una cosa recibe suficiente atención, por lo general será atacada. ** Por ejemplo, recientemente hemos visto que las cuentas de correo electrónico de algunos altos funcionarios del gobierno de EE. UU. en Microsoft fueron pirateadas, por lo que es razonable especular que se debe a las acciones de algunas fuerzas para robar secretos de estado.
**Al menos en mi opinión, si algo es de alto valor, por lo general va a ser robado. Mi preocupación es que AGI se verá como extremadamente valioso en el futuro, y eso será como robar un misil nuclear, y hay que tener mucho cuidado al respecto. **Insisto en mejorar el nivel de seguridad de la red en todas las empresas en las que trabajo. Mi preocupación sobre la seguridad de la red es que (este asunto en sí) no es algo que pueda publicitarse con bombos y platillos, y la ventaja de la investigación de seguridad es que puede permitir que las empresas formen una ventaja competitiva y, utilizando eso como punto de venta para el reclutamiento, creo que lo hemos logrado.
Solíamos competir con nuestros pares a través de la investigación de interpretabilidad, y luego otras instituciones se dieron cuenta de que se estaban quedando atrás y comenzaron a hacer esfuerzos en estas áreas. Pero la seguridad cibernética ha tenido problemas para hacer lo mismo porque gran parte del trabajo debe hacerse en silencio. Publicamos un artículo sobre esto antes, pero los resultados generales son lo que importa.
**Dwarkesh Patel: ¿Qué hará Anthropic en términos de seguridad en los próximos 2 o 3 años? **
**Dario Amodei: La seguridad del centro de datos es muy importante, aunque el centro de datos no tiene que estar en el mismo lugar que la empresa, hacemos todo lo posible para garantizar que el centro de datos también esté en los Estados Unidos. **
Además, se debe prestar especial atención a la seguridad física del centro de datos y la protección de los dispositivos informáticos como las GPU. Si alguien decide lanzar algún tipo de ciberataque que requiere muchos recursos, solo necesita ir directamente al centro de datos para robar los datos, o extraer los datos durante la transmisión desde el centro hacia nosotros. Estas construcciones diferirán mucho de los conceptos tradicionales tanto en forma como en función. **Dado el rápido desarrollo de la tecnología actual, dentro de unos pocos años, el tamaño y el costo de los centros de datos en red pueden ser comparables a los de los portaaviones. Además de poder entrenar modelos enormes a través de conexiones de dominio, la seguridad del propio centro de datos también será un tema importante. **
**Dwarkesh Patel: Recientemente ha habido rumores de que la potencia, la GPU y otros componentes necesarios para cumplir con los modelos de próxima generación han comenzado a escasear ¿Qué preparativos ha hecho Anthropic? **
*Dario Amodei: El mercado no esperaba que el modelo grande alcanzara una escala sin precedentes tan rápido, pero en general se cree que los centros de datos de grado industrial deben construirse para respaldar la investigación y el desarrollo de modelos grandes *. Una vez que un proyecto llega a esta etapa, cada componente y detalle debe manejarse de manera diferente y puede tener problemas debido a algunos factores sorprendentemente simples, la electricidad que mencionó es un ejemplo.
Para los centros de datos, cooperaremos con los proveedores de servicios en la nube.
Fideicomiso de Comercialización y Beneficios a Largo Plazo
**Dwarkesh Patel: Mencionó anteriormente que las capacidades del modelo están mejorando rápidamente, pero también es difícil proporcionar valor en el sistema económico existente. ¿Cree que los productos de IA actuales tienen tiempo suficiente para obtener ingresos estables a largo plazo en el mercado? ¿O podría ser reemplazado por un modelo más avanzado en cualquier momento? ¿O todo el panorama de la industria será completamente diferente para entonces? **
Dario Amodei: Depende de la definición del concepto de "gran escala". En la actualidad, varias empresas tienen ingresos anuales entre 100 millones y mil millones de dólares estadounidenses, pero si pueden alcanzar decenas de miles de millones o incluso billones por año es realmente difícil de predecir, porque también depende de muchos factores indeterminados. **Ahora algunas empresas están aplicando tecnología innovadora de IA a gran escala, pero esto no significa que la aplicación haya logrado los mejores resultados desde el principio, incluso si hay ingresos, no es completamente igual a la creación de valor económico, y el El desarrollo coordinado de toda la cadena industrial es un proceso largo. **
**Dwarkesh Patel: Desde un punto de vista antrópico, si la tecnología del modelo de lenguaje avanza tan rápidamente, en teoría, ¿la valoración de la empresa debería crecer muy rápidamente? **
Dario Amodei: Incluso si nos enfocamos en la investigación de seguridad modelo en lugar de la comercialización directa, podemos sentir claramente que el nivel técnico está aumentando exponencialmente en la práctica. Para las empresas que ven la comercialización como su objetivo principal, este progreso es ciertamente más rápido y más pronunciado que el nuestro. **Admitimos que la tecnología del modelo de lenguaje en sí está progresando rápidamente, pero en comparación con el proceso de aplicación en profundidad de todo el sistema económico, la acumulación de tecnología aún se encuentra en un punto de partida relativamente bajo. **
**Determinar la dirección futura es una carrera entre los dos: la velocidad a la que mejora la tecnología en sí misma y la velocidad a la que se integra y aplica efectivamente y entra en el sistema económico real. Es probable que ambos se desarrollen a gran velocidad, pero el orden de combinación y las pequeñas diferencias pueden conducir a resultados muy diferentes. **
**Dwarkesh Patel: Los gigantes de la tecnología pueden invertir hasta $10 mil millones en capacitación de modelos en los próximos 2 o 3 años. ¿Qué tipo de impacto tendrá esto en Anthropic? **
**Dario Amodei: El primer caso es que si no podemos mantener nuestra posición de vanguardia por el costo, entonces no seguiremos insistiendo en desarrollar lo más avanzado. ** En su lugar, analizamos cómo extraer valor de las generaciones anteriores de modelos.
**La segunda opción es aceptar las compensaciones. **Creo que estas compensaciones pueden ser más positivas de lo que parecen,
**La tercera situación es que cuando el entrenamiento del modelo alcance este nivel, puede comenzar a traer nuevos peligros, como el abuso de la IA. **
**Dwarkesh Patel: ¿Cómo sería si la IA no fuera mal utilizada y, en cambio, las "personas adecuadas" ejecutaran estos modelos sobrehumanos? ¿Quién es la "persona adecuada"? ¿Quién controlará realmente el modelo dentro de cinco años? **
Dario Amodei: Creo que estos modelos de IA son extremadamente poderosos y administrarlos implicaría cierto nivel de participación del gobierno o de una agencia multinacional, pero eso sería simplista y probablemente menos efectivo. **La gestión futura de la IA debe establecer un mecanismo transparente, justo y ejecutable. Esto requiere equilibrar los intereses de los desarrolladores de tecnología, los gobiernos electos y los ciudadanos individuales. Al final del día, se debe aprobar la legislación para regular esta tecnología. **
**Dwarkesh Patel: Si Anthropic desarrolla AGI en el verdadero sentido, y el control de AGI se le confiará a LTBT, ¿significa que el control de AGI también se entregará a la agencia? **
Dario Amodei: Esto no significa que Anthropic, o cualquier otra entidad, tomará decisiones sobre AGI en nombre de los humanos, los dos son diferentes. Si Anthropic juega un papel muy importante, un mejor enfoque es expandir la composición de The Long Term Benefit Trust (LTBT), atrayendo más talentos de todo el mundo, o posicionando a la institución como un cuerpo funcional A, gobernado por un grupo más amplio. comité multinacional que rige las tecnologías AGI de todas las empresas para representar el interés público. **No creo que debamos ser demasiado optimistas sobre los problemas de seguridad y alineación de la IA. Este es un problema nuevo y debemos comenzar a investigar las instituciones nacionales de gestión y los modelos operativos lo antes posible. **
• El Fideicomiso de Beneficios a Largo Plazo:
Dichos fideicomisos tendrían una clase especial de acciones de Anthropic (llamadas "Clase T") que no podían venderse y no pagaban dividendos, lo que significa que no había un camino claro hacia las ganancias. El fideicomiso será la única entidad titular de las acciones Clase T. Pero los accionistas de Clase T, y el fideicomiso de interés a largo plazo resultante, finalmente tendrán el poder de elegir y destituir a tres de los cinco directores de Anthropic, otorgando al fideicomiso el control mayoritario a largo plazo de la empresa.
**Dwarkesh Patel: ¿Cómo convencer a los inversores para que acepten una estructura como LTBT? Priorice la seguridad tecnológica y el interés público en lugar de maximizar el valor para los accionistas. **
Dario Amodei: Creo que es correcto establecer el mecanismo LTBT (Fideicomiso de Beneficios a Largo Plazo).
Se ha previsto un mecanismo similar desde el principio de Anthropic, y un organismo regulador especial ha existido desde el principio y seguirá existiendo en el futuro. Todo inversionista tradicional se centrará en este mecanismo cuando considere invertir en Anthropic.Algunos inversionistas tienen la actitud de no preguntar sobre los arreglos internos de la empresa, mientras que otros se preocupan de que esta organización de terceros pueda empujar a la empresa a ir en contra. de los intereses de los accionistas. Si bien existen límites para esto dentro de la ley, debemos comunicarlo a todos los inversores. Yendo un paso más allá, discutimos algunas posibles medidas que difieren de los intereses de los inversionistas tradicionales y, a través de dichos diálogos, todas las partes pueden llegar a un consenso.
**Dwarkesh Patel: Descubrí que los fundadores y empleados de Anthropic tienen una gran cantidad de físicos, y la ley de escalamiento también se aplica aquí. ¿Qué métodos prácticos y formas de pensar de la física se aplican a la IA? **
• Teoría efectiva:
Una teoría efectiva es una teoría científica que intenta describir algunos fenómenos sin explicar de dónde provienen los mecanismos que explican los fenómenos en su teoría. Esto significa que la teoría da un modelo que "funciona", pero en realidad no da una buena razón para dar ese modelo.
Dario Amodei: Parte de esto es que los físicos son muy buenos aprendices, porque encuentro que si contratas a alguien con un doctorado Contribute, y varios de los fundadores de Anthropic, incluyéndome a mí, Jared Kaplan y Sam McCandlish, tienen experiencia en física y conocemos a muchos otros físicos, por lo que pudimos contratarlos. En la actualidad, la empresa puede tener de 30 a 40 empleados con experiencia en física. ML aún no es un campo en el que se haya formado el sistema teórico, por lo que pueden comenzar rápidamente.
**Dwarkesh Patel: Supongamos que ya es 2030 y hemos logrado los principales problemas reconocidos de erradicar enfermedades, erradicar fraudes, etc., ¿cómo será el mundo? ¿Qué debemos hacer con la superinteligencia? **
Dario Amodei: Proponer directamente "cómo usar la súper IA después de obtenerla" tiende a hacer que las personas tengan cierta presuposición, lo cual es perturbador. En los últimos 150 años, hemos acumulado una rica experiencia basada en la práctica de la economía de mercado y el sistema democrático, reconociendo que todos pueden definir por sí mismos cuál es la mejor manera de experimentar, y ** la sociedad se formula de manera compleja y descentralizada. normas y valores. **
Cuando el problema de la seguridad de la IA no se ha resuelto, es necesario cierto grado de supervisión centralizada, pero si se han eliminado todos los obstáculos, ¿cómo podemos crear una mejor ecología? **Creo que la pregunta que la mayoría de las personas, grupos e ideologías comienzan a pensar es "¿cuál es la definición de una buena vida", pero la historia nos dice que muchas veces la práctica de imponer un entorno de "vida ideal" a menudo conduce a malas consecuencias . **
**Dwarkesh Patel: En comparación con otros directores ejecutivos de empresas de inteligencia artificial, no haces muchas apariciones públicas y rara vez publicas en Twitter. **
Dario Amodei: Estoy muy orgulloso de ello. **Si los demás piensan que soy demasiado discreto, eso es exactamente lo que quiero. Incorporar reconocimiento o elogios en el sistema motivacional central de uno puede destruir la capacidad de pensar y, en algunos casos, incluso puede "dañar el alma", por lo que elijo activamente mantener un perfil bajo para proteger mi capacidad de pensar de forma independiente y objetiva. **
** He visto a personas volverse famosas en Twitter por cierto punto de vista, pero de hecho pueden tener un bagaje de imagen y es difícil cambiarlo. No me gusta que las empresas sean demasiado personales, y no soy partidario de jugar con algo personal sobre el CEO porque distrae la atención de las fortalezas y los problemas de la empresa. **Espero que todos presten más atención a la empresa en sí y a la estructura de incentivos. A todo el mundo le gusta una cara amistosa, pero ser amable no significa mucho.
Referencia:
Vídeo original:
Investigación de Anthropic sobre la explicabilidad del mecanismo:
Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
Fundador de Anthropic: es posible "tomar radiografías" en modelos grandes, y AGI se puede realizar en 2-3 años
Este artículo se compila a partir de una entrevista de podcast con el CEO de Anthropic, Dario Amodei.
Anthropic es la segunda empresa del circuito LLM, fue fundada en enero de 2021 por Dario Amodei y en julio de este año Anthropic lanzó el modelo de última generación Claude 2. Dario Amodei solía ser el vicepresidente de investigación y seguridad en OpenAI. Fundó Anthropic porque creía que hay muchos problemas de seguridad en modelos grandes que deben resolverse con urgencia. Por lo tanto, Anthropic otorga gran importancia a la seguridad de la IA. La visión es para construir sistemas de IA confiables (confiables), explicables, interpretables y dirigibles. La mayor diferencia entre las rutas Anthropic y OpenAI es también su enfoque en la interpretabilidad.
En la entrevista, Dario explica el enfoque y la inversión de Anthropic en la interpretabilidad. La interpretabilidad es una de las formas importantes de garantizar la seguridad del modelo, **similar a tomar radiografías y exámenes de resonancia magnética en el modelo, lo que permite a los investigadores comprender lo que sucede dentro del modelo e identificar posibles fuentes de riesgo. Comprender verdaderamente por qué funciona la Ley de escala y cómo lograr la alineación es inseparable de la interpretabilidad. **Dario cree que la seguridad de la IA y la alineación son igualmente importantes. Una vez que hay un problema con la alineación, los problemas de seguridad de la IA causados por el abuso deben recibir la misma atención.
Dario cree que la capacidad del modelo mejorará significativamente en los próximos 2 o 3 años, e incluso puede "tomar el control de la sociedad humana", pero realmente no puede participar en los vínculos comerciales y económicos. Esto no se debe a la capacidad de El modelo, pero debido a varios Esta fricción invisible Las personas no usan los modelos de manera suficientemente eficiente para darse cuenta de su verdadero potencial en la vida real y en el trabajo.
En comparación con los directores ejecutivos de la mayoría de las empresas de inteligencia artificial, Dario apenas participa en entrevistas públicas y rara vez expresa sus puntos de vista en Twitter. Darío explicó que esta es su propia elección activa y protege su capacidad de pensar de manera independiente y objetiva al mantener un perfil bajo.
El siguiente es el índice de este artículo, y se recomienda leerlo en combinación con los puntos principales.
👇
01 Por qué funciona la ley de escala
02 ¿Cómo será la habilidad del modelo a la par con la de los humanos?
03 Alineación: La interpretabilidad es "radiografiar" el modelo
04 AGI Safety: Seguridad AI y Seguridad Cibernética
05 Fideicomiso de Comercialización y Beneficio de Largo Plazo
Por qué funciona la ley de escala
**Dwarkesh Patel: ¿De dónde viene tu creencia en la Ley de Escalamiento? ¿Por qué la capacidad del modelo se fortalece a medida que aumenta el tamaño de los datos? **
**Dario Amodei: La Ley de Escalamiento es hasta cierto punto un resumen empírico. Percibimos este fenómeno a partir de varios datos y fenómenos, y lo resumimos como Ley de Escalamiento, pero no existe una explicación generalmente aceptada y particularmente buena para explicarlo. Explique cuál es el principio esencial de su función es. **
Si tengo que dar una explicación, personalmente especulo que esto puede ser similar a la distribución de cola larga o Ley de Potencias en la física. Cuando hay muchas características (características), los datos con una proporción relativamente grande generalmente corresponden a reglas y patrones básicos más dominantes, porque estos patrones aparecen a menudo, la cantidad correspondiente de datos es naturalmente más, mientras que los datos de cola larga son principalmente algunos reglas más detalladas y complejas. **Por ejemplo, cuando se trata de datos relacionados con el idioma, se pueden observar algunas reglas básicas en la mayoría de los datos, como reglas gramaticales básicas como parte del discurso, estructura del orden de las palabras, etc., y las relativamente largas. son gramáticas complejas.
Por eso, cada vez que los datos aumentan en un orden de magnitud, el modelo puede aprender más reglas de comportamiento. Pero lo que no sabemos es por qué existe una correlación lineal perfecta entre los dos. El científico jefe de Anthropic, Gerard Kaplan, usó la dimensión fractal (Dimensión Fractal) para explicar este asunto. Por supuesto, otras personas están probando otros métodos para verificar la Ley Sacling, pero todavía no podemos explicar por qué hasta ahora.
• Dimensión fractal:
El matemático Felix Hausdorff propuso por primera vez el concepto de dimensión fractal en 1918, que más tarde también se conoció como Dimensión de Hausdorff. La dimensión fractal se puede utilizar para describir la estructura de relación de características ocultas en los datos de aprendizaje automático y proporciona un modelo de explicación matemática detrás del efecto de escala, explicando así por qué los modelos de IA pueden mejorar el rendimiento con la escala.
**Además, incluso si conocemos la existencia de la Ley de Escalamiento, es difícil predecir los cambios en las capacidades específicas del modelo. En la investigación de GPT-2 y GPT-3, nunca sabemos cuándo el modelo puede aprender a calcular y programar, y estas habilidades aparecen de repente. ** Lo único que se puede predecir es a nivel numérico, como el valor de pérdida, el cambio de valor de entropía, etc. Se puede predecir con bastante precisión, pero es como si pudiéramos hacer estadísticas sobre datos meteorológicos y predecir el toda la tendencia del cambio climático, pero es difícil predecir el clima y la temperatura de un día específico.
**Dwarkesh Patel: ¿Por qué un modelo de repente puede tener cierta habilidad? Por ejemplo, antes no entendía la suma, pero ahora domina la capacidad de calcular. ¿Qué causó este cambio? **
Dario Amodei: Esta es otra pregunta que todavía estamos explorando. Intentamos usar el método de Interpretabilidad Mecanicista (Mechanistic Interpretability) para explicar este asunto y explicar los fenómenos del lenguaje con una idea similar a la conexión de circuitos.Puedes imaginar estas cosas como circuitos conectados uno por uno.
Existe cierta evidencia de que cuando se alimenta a un modelo con algo, su probabilidad de dar la respuesta correcta aumenta repentinamente, pero si observamos el cambio antes de que el modelo realmente dé la respuesta correcta, vemos que la probabilidad es de un millón Centésimo , la cienmilésima subió lentamente a la milésima. En muchos de estos casos, parece haber algún proceso gradual que no hemos observado y que aún no hemos descubierto.
No podemos estar seguros de si un "circuito" como "suma" siempre existió desde el día 1, pero cambió gradualmente de débil a fuerte con un proceso específico, para que el modelo pueda dar la respuesta correcta. Estas son preguntas que queremos responder a través de la explicabilidad mecanicista.
• Interpretabilidad mecanicista:
La interpretabilidad del mecanismo es el estudio de la ingeniería inversa de las redes neuronales, que se puede utilizar para ayudar a las personas a comprender más fácilmente cómo el modelo asigna la entrada a la salida, y es una forma de darse cuenta de la interpretabilidad del modelo. El objetivo principal de la explicabilidad del mecanismo es comprender el aprendizaje profundo como una ciencia natural, utilizando la estructura y los parámetros del modelo para explicar el proceso de toma de decisiones y los resultados de predicción del modelo, de modo que los usuarios humanos puedan comprender y verificar el principio de funcionamiento de el modelo. Su trabajo inicial se centró en el uso de métodos de visualización de funciones y factorización de matrices para comprender las representaciones en las capas intermedias de las redes visuales y, más recientemente, se ha centrado en las representaciones de las redes multimodales, así como en la comprensión a nivel de ruta de los algoritmos de redes neuronales.
Anthropic ha publicado un estudio de interpretabilidad de mecanismos "Interpretabilidad mecanicista, variables y la importancia de las bases interpretables".
**Dwarkesh Patel: ¿Hay alguna habilidad que no venga con el tamaño del modelo? **
**Dario Amodei: Es posible que la alineación del modelo y las capacidades relacionadas con el valor no surjan naturalmente con el tamaño del modelo. **Una forma de pensar es que el proceso de formación del modelo es esencialmente para predecir y comprender el mundo, y su principal responsabilidad es sobre hechos, no opiniones o valores. Pero aquí hay algunas variables libres: ¿qué acción debe tomar? ¿Qué punto de vista debería tomar? ¿A qué factores debes prestar atención? Pero no existe tal etiqueta de datos para que el modelo aprenda. Por lo tanto, creo que la aparición de Alineación y valores, etc., es poco probable.
**Dwarkesh Patel: ¿Existe la posibilidad de que antes de que la capacidad del modelo alcance a la inteligencia humana, se agoten los datos disponibles para el entrenamiento? **
**Dario Amodei:**Creo que es necesario distinguir si se trata de un problema teórico o de una situación práctica. Desde un punto de vista teórico, no estamos tan lejos de quedarnos sin datos, pero mi opinión personal es que es poco probable. Podemos generar datos de muchas maneras, por lo que los datos no son realmente un obstáculo. Hay otra situación en la que usamos todos los recursos informáticos disponibles, lo que da como resultado un progreso lento en las capacidades del modelo. Ambos escenarios son posibles.
**Mi punto de vista personal es que existe una alta probabilidad de que Scaling Law no se estanque, e incluso si hay un problema, es más probable que sea la causa de la arquitectura informática. **Por ejemplo, si usamos LSTM o RNN, la tasa de evolución de la habilidad del modelo cambiará. Si nos topamos con un cuello de botella en la evolución de las capacidades del modelo en cada situación arquitectónica, eso sería bastante grave, porque significa que nos hemos topado con un problema más profundo.
• LSTM:
Las redes de memoria a largo plazo a corto plazo (redes de memoria a largo plazo a corto plazo), una red RNN especial (red neuronal cíclica), pueden aprender dependencias a largo plazo, resolver el problema de RNN tradicional en el aprendizaje de patrones de secuencia larga y extraer secuencias a largo y corto plazo. información de datos La capacidad de aprendizaje y la capacidad de representación de LSTM es más fuerte que la de RNN estándar.
**Creo que hemos llegado a una etapa en la que puede que no sea muy diferente hablar sobre lo que un modelo puede y no puede hacer. **En el pasado, las personas limitaban la capacidad del modelo, pensando que el modelo no podía dominar la capacidad de razonamiento y aprender a programar, y pensaba que podría encontrar cuellos de botella en algunos aspectos. Aunque algunas personas, incluyéndome a mí, no lo creían antes, pero en los últimos años, este tipo de teoría del cuello de botella se ha vuelto más común y ahora ha cambiado.
**Si el efecto del proceso de escalado del modelo futuro ve un cuello de botella, creo que el problema proviene del diseño de la función de pérdida que se enfoca en la siguiente tarea de predicción del token. **Cuando ponemos demasiado énfasis en las habilidades de razonamiento y programación, la pérdida del modelo se centrará en las fichas que reflejan esta habilidad, y las fichas de otros problemas aparecerán con menos frecuencia (Nota: el conjunto de datos de preentrenamiento del el modelo se basará en la importancia que los científicos le dan al grado de habilidades, ajuste su proporción) **, la función de pérdida presta demasiada atención a las fichas que proporcionan la mayor cantidad de información entropía, mientras que ignora las que son realmente importantes, la señal puede estar sumergida en el ruido **
Si surge este problema, debemos introducir algún tipo de proceso de aprendizaje por refuerzo. Hay muchos tipos de RL, como el aprendizaje por refuerzo con retroalimentación humana (RLHF), el aprendizaje por refuerzo para los objetivos y, como la IA constitucional, la mejora (amplificación) y el debate. (debate) y similares. Estos son tanto el método de alineación del modelo como la forma de entrenar el modelo. **Es posible que tengamos que probar muchos métodos, pero debemos centrarnos en cuál es el objetivo del modelo. **
Uno de los problemas con el aprendizaje por refuerzo es que necesita diseñar una función de pérdida muy completa. La función de pérdida de la próxima predicción del token ya se ha diseñado, por lo que si la escala en esta dirección ve el límite superior, el desarrollo de la IA se ralentizará.
**Dwarkesh Patel: ¿Cómo surgió su comprensión de Scaling? **
**Dario Amodei: **La formación de mi opinión se remonta aproximadamente desde 2014 hasta 2017. He estado prestando atención al desarrollo de la IA, pero durante mucho tiempo pensé que tomaría mucho tiempo para que la IA se aplicara realmente, hasta la aparición de AlexNet. Luego me uní al equipo de proyecto de Wu Enda en Baidu en ese momento, y esta fue la primera vez que entré en contacto con la IA.
Me considero bastante afortunado, a diferencia de otros académicos de la época, me encargaron crear sistemas de reconocimiento de voz de última generación y había una gran cantidad de datos y GPU disponibles. **Durante el transcurso de este proyecto, naturalmente me di cuenta de que Scaling es una buena solución. Este proceso también es diferente de la investigación postdoctoral, no necesariamente tenemos que generar ideas inteligentes e innovadoras que no se hayan propuesto antes. **
A lo largo del proyecto, solo necesito realizar algunos experimentos básicos, como agregar más capas a la RNN o ajustar los parámetros de entrenamiento para tratar de extender el tiempo de entrenamiento del modelo.Durante este período, observé el proceso de entrenamiento del modelo y vi el simulado ¿Cuándo sucede? También intenté agregar nuevos datos de entrenamiento o reducir las rondas de entrenamiento repetidas y observé el impacto de estos ajustes en el rendimiento del modelo. Durante el curso de estos experimentos, noté algunos resultados regulares. Sin embargo, no me queda claro si estas imaginaciones son innovadoras o si otros colegas han hecho descubrimientos similares. En general, esta es solo mi experiencia afortunada como principiante en IA. No sé mucho más sobre el campo, pero sentí en ese momento que esto se validó de manera similar en el campo del reconocimiento de voz.
** Conocí a Ilya antes de que se fundara OpenAI, y me dijo que "debemos darnos cuenta de que estos modelos solo quieren aprender", esta perspectiva me inspiró en gran medida y me hizo darme cuenta de que la observación anterior El fenómeno puede no ser una instancia aleatoria pero una ocurrencia común. Estos modelos solo necesitan aprender. Solo necesitamos proporcionar datos de alta calidad y crear suficiente espacio para que operen, y los modelos aprenderán por sí mismos. **
**Dwarkesh Patel: Pocas personas han deducido una visión de "inteligencia universal" como tú e Ilya. ¿Cómo piensas sobre esta pregunta de manera diferente a otras personas? ¿Qué te hace pensar que los modelos seguirán mejorando en el reconocimiento de voz, y de manera similar en otras áreas? **
Dario Amodei: Realmente no sé, cuando observé por primera vez un fenómeno similar en el campo del habla, pensé que era solo una ley aplicable al campo vertical del reconocimiento del habla. Entre 2014 y 2017, probé muchas cosas diferentes y observé lo mismo una y otra vez. Por ejemplo, observé esto en el juego Dota, aunque los datos disponibles en el campo de la robótica son relativamente limitados y muchas personas no son optimistas, también observé un fenómeno similar. **Creo que las personas tienden a concentrarse en resolver los problemas inmediatos. Es posible que presten más atención a cómo resolver el problema en sí mismo en la dirección vertical, en lugar de pensar en los problemas de nivel inferior en la dirección horizontal, por lo que es posible que no Considere completamente la posibilidad de escalar el sexo. Por ejemplo, en el campo de la robótica, el problema más fundamental puede ser la insuficiencia de datos de entrenamiento, pero es fácil concluir que el escalado no funciona. **
**Dwarkesh Patel: ¿Cuándo se dio cuenta de que el lenguaje podría ser una forma de introducir grandes cantidades de datos en estos modelos? **
**Dario Amodei:**Creo que lo más importante es el concepto de aprendizaje autosupervisado basado en la predicción del siguiente token, así como una gran cantidad de arquitecturas para la predicción. En realidad, esto es similar a la lógica de las pruebas de desarrollo infantil. Por ejemplo, Mary entra en la habitación y pone un objeto, y luego Chuck entra y mueve el objeto sin que Mary se dé cuenta, ¿qué piensa Mary? Para completar este tipo de predicción, el modelo debe resolver al mismo tiempo los problemas matemáticos, problemas psicológicos, etc. Entonces, en mi opinión, para hacer buenas predicciones, debe alimentar el modelo con datos y dejar que aprenda sin restricciones.
Aunque tuve una sensación similar hace mucho tiempo, hasta que Alec Radford hizo algunos intentos con GPT-1, me di cuenta de que no solo podemos implementar un modelo con capacidad predictiva, sino también afinarlo y completar varios tipos de misiones. Creo que esto nos da la posibilidad de hacer todo tipo de tareas, de poder resolver todo tipo de problemas, incluido el razonamiento lógico. Por supuesto, también podemos seguir ampliando el tamaño del modelo.
• Alec Radford, autor de Sentiment Neuron, el predecesor de la serie GPT y coautor de la serie de artículos GPT, sigue trabajando en OpenAI.
**Dwarkesh Patel: ¿Cómo crees que el entrenamiento de modelos requiere una gran cantidad de datos? ¿Debería preocuparse por la baja eficiencia del entrenamiento de modelos? **
Dario Amodei: Esta pregunta aún se está explorando. Una teoría es que el tamaño del modelo es en realidad de 2 a 3 órdenes de magnitud más pequeño que el cerebro humano, pero la cantidad de datos necesarios para entrenar el modelo es de tres a cuatro veces mayor que la cantidad de texto leído por un niño de 18 años. -viejo ser humano El orden de magnitud, el orden de magnitud de los seres humanos es probablemente cientos de millones, mientras que el orden de magnitud de los modelos es cientos de miles de millones o trillones. La cantidad de datos obtenidos por los seres humanos no es grande, pero es completamente suficiente para manejar nuestro trabajo y nuestra vida diaria. Pero existe otra posibilidad de que, además de aprender, nuestros sentidos en realidad estén ingresando información al cerebro.
En realidad, aquí hay una paradoja. La escala del modelo que tenemos actualmente es más pequeña que la del cerebro humano, pero puede realizar muchas tareas similares a las del cerebro humano. Al mismo tiempo, la cantidad de datos requerida por este modelo es mucho más grande que el del cerebro humano. Por lo tanto, aún debemos continuar explorando y comprendiendo este tema, pero hasta cierto punto, esto no es importante. ** Más importante aún, cómo evaluar la capacidad del modelo y cómo juzgar la brecha entre ellos y los humanos. En lo que a mí respecta, la brecha no está tan lejos. **
**Dwarkesh Patel: ¿Subestima el papel del progreso algorítmico el énfasis en el escalado y, más ampliamente, los avances en la capacidad del modelo de impulso de computación a gran escala? **
**Dario Amodei: **Cuando se publicó por primera vez el artículo de Transformer, escribí sobre temas relacionados y mencioné que hay 7 factores relacionados que afectarán la mejora de la capacidad del modelo, de los cuales 4 factores son los más obvios y críticos: el cantidad de parámetros del modelo, escala de potencia informática, calidad de los datos y función de pérdida. Por ejemplo, tareas como el aprendizaje por refuerzo o la predicción del próximo token dependen en gran medida de tener la función de pérdida o el mecanismo de incentivo correctos.
• Aprendizaje por refuerzo (RL):
Encuentre el curso de acción óptimo para cada estado particular del medio ambiente a través de un proceso básico de prueba y error. El modelo de aprendizaje automático introducirá una regla aleatoria al principio y, al mismo tiempo, ingresará una cierta cantidad de puntos (también conocidos como recompensas) en el modelo cada vez que se realice una acción.
• La función de pérdida (loss function) en aprendizaje automático se refiere a la función de medir la bondad de ajuste, que se utiliza para reflejar el grado de diferencia entre la salida del modelo y el valor real, es decir, para medir la predicción error; incluida la predicción de todos los puntos de muestra Error, proporcionando un valor único para representar la bondad de ajuste general; al mismo tiempo, durante el proceso de entrenamiento, los parámetros del modelo se ajustarán continuamente de acuerdo con el valor de la función de pérdida, en para minimizar el valor de la pérdida y obtener un mejor efecto de ajuste.
También hay 3 factores:
El primero son las simetrías estructurales, si la arquitectura no tiene en cuenta la simetría correcta, no funcionará y será muy ineficiente. Por ejemplo, la red neuronal convolucional (CNN) considera la simetría traslacional (simetría traslacional), LSTM considera la simetría temporal (simetría temporal), pero el problema con los LSTM es que no prestan atención al contexto, esta debilidad estructural es común. Si el modelo no puede comprender y procesar la historia pasada larga (refiriéndose a los datos que aparecieron antes en la estructura de datos de secuencia) debido a razones estructurales, será como si el cálculo fuera incoherente. Ambos modelos RNN y LSTM tienen tales deficiencias.
• Adam(Estimación del momento adaptativo):
Estimación adaptativa del momento, el algoritmo de Adam combina las ventajas de RMSprop y SGD, y puede manejar bien los problemas de optimización no convexos.
**• SGD (descenso de gradiente estocástico): **
Descenso de gradiente estocástico, un método iterativo para optimizar una función objetivo con propiedades de suavidad apropiadas, como diferenciable o subdiferenciable. Puede verse como una aproximación estocástica a la optimización del descenso de gradiente. En problemas de optimización de alta dimensión, esto reduce la carga computacional y permite iteraciones más rápidas a cambio de tasas de convergencia más bajas.
Luego está la estabilidad numérica (nota inicial: condicionamiento, que se refiere a si el algoritmo está bien condicionado en el análisis numérico, de lo contrario, un pequeño cambio en los datos del problema provocará un gran cambio en su solución). La optimización de las funciones de pérdida es numéricamente difícil y fácil de distinguir. Es por eso que Adam funciona mejor que las ETS normales.
El último elemento es garantizar que el proceso de cálculo del modelo no se vea obstaculizado, solo así el algoritmo puede tener éxito.
Por lo tanto, el progreso del algoritmo no es simplemente mejorar el poder de cómputo de la computadora, sino también eliminar los obstáculos artificiales de la arquitectura antigua. Muchas veces el modelo quiere aprender y calcular libremente, solo para ser bloqueado por nosotros sin nuestro conocimiento.
**Dwarkesh Patel: ¿Crees que habrá algo de la escala de Transformer para impulsar la próxima gran iteración? **
Dario Amodei: Creo que es posible. Algunas personas han intentado simular dependencias a largo plazo. También observé que algunas ideas en Transformer no son lo suficientemente eficientes para representar o procesar cosas. **Sin embargo, incluso si este tipo de innovación no ocurre, ya nos estamos desarrollando rápidamente. Si aparece, solo hará que el campo se desarrolle más rápido, y la aceleración puede no ser tanta, porque la velocidad ya es muy rápida. . **
**Dwarkesh Patel: En términos de adquisición de datos, ¿el modelo debe tener inteligencia incorporada? **
Dario Amodei: Tiendo a no pensar en ello como una nueva arquitectura, sino como una nueva función de pérdida, porque el entorno en el que el modelo recopila datos se vuelve completamente diferente, lo cual es importante para aprender ciertas habilidades. Si bien la recolección de datos es difícil, al menos se ha avanzado en el camino de la recolección de corpus, y se continuará en el futuro, aunque aún quedan más posibilidades por desarrollar en cuanto a prácticas específicas.
• Función de pérdida:
Es un concepto importante en el aprendizaje automático y el aprendizaje profundo. Se utiliza para medir el grado de diferencia entre el resultado de predicción del modelo y la etiqueta verdadera, es decir, el error de predicción del modelo. La función de pérdida está diseñada para permitir que el modelo minimice el error de predicción ajustando los parámetros, mejorando así el rendimiento y la precisión del modelo.
**Dwarkesh Patel: ¿Hay otros enfoques como RL? **
Dario Amodei: Ya estamos usando el método RLHF para el aprendizaje por refuerzo, pero creo que es difícil distinguir si se trata de Alineación o Capacidad. Los dos son muy similares. Rara vez hago que los modelos tomen medidas a través de RL. RL solo debe usarse después de que hayamos hecho que el modelo tome medidas durante un período de tiempo y entendamos las consecuencias de esas acciones. Así que creo que el aprendizaje por refuerzo va a ser muy poderoso, pero también tiene muchos problemas de seguridad en términos de cómo los modelos actúan en el mundo.
El aprendizaje por refuerzo es una herramienta de uso común cuando las acciones se toman durante un largo período de tiempo y las consecuencias de esas acciones solo se comprenden más tarde.
**Dwarkesh Patel: ¿Cómo cree que se integrarán estas tecnologías en tareas específicas en el futuro? ¿Pueden estos modelos de lenguaje comunicarse entre sí, evaluarse, referirse y mejorar sus respectivos resultados de investigación? ¿O es que cada modelo trabaja de forma independiente y solo se centra en dar resultados por sí mismo sin colaborar con otros modelos? ¿Podrán estos modelos de lenguaje de alto nivel formar un sistema colaborativo real en el proceso de desarrollo y aplicación en el futuro, o cada modelo hará lo suyo? **
Dario Amodei: Es probable que el modelo necesite completar tareas más complejas en el futuro, lo cual es una tendencia inevitable. Sin embargo, por razones de seguridad, es posible que debamos limitar el alcance de la aplicación del modelo de lenguaje hasta cierto punto para mitigar los riesgos potenciales. **¿Es posible el diálogo entre modelos? ¿Están destinados principalmente a usuarios humanos? Estos problemas requieren la consideración de influencias sociales, culturales y económicas más allá del nivel técnico, y son difíciles de predecir con precisión.
**Aunque podemos predecir la tendencia de crecimiento del tamaño del modelo, es difícil hacer predicciones confiables sobre cuestiones como el momento de la comercialización o el formulario de solicitud. No soy muy bueno prediciendo este tipo de tendencia de desarrollo futuro, y nadie puede hacerlo muy bien en la actualidad. **
**¿Cómo será la habilidad del modelo igualada a la de los humanos? **
**Dwarkesh Patel: Si alguien me dijera en 2018 que tendríamos un modelo como Claude-2 en 2023 con todo tipo de capacidades impresionantes, definitivamente pensaría que AGI se logró en 2018. Pero claramente, al menos por ahora, y posiblemente incluso en las generaciones futuras, somos muy conscientes de que seguirá habiendo diferencias entre la IA y los niveles humanos. ¿Por qué esta discrepancia entre las expectativas y la realidad? **
**Dario Amodei: **Soy nuevo en GPT-3, y en las primeras etapas de Anthropic, mi sensación general acerca de estos modelos es: parecen captar realmente la esencia del lenguaje, no estoy seguro de que necesitemos expandir el modelo hasta qué punto, quizás debamos prestar más atención a otras áreas como el aprendizaje por refuerzo. En 2020, creo que es posible aumentar aún más el tamaño del modelo, pero a medida que la investigación se profundiza, empiezo a pensar si es más eficiente agregar directamente otro entrenamiento objetivo como el aprendizaje por refuerzo.
** Hemos visto que la inteligencia humana en realidad es un rango muy amplio, por lo que la definición de "máquinas que alcanzan el nivel humano" es en sí misma un rango, y el lugar y el momento para que las máquinas realicen diferentes tareas son diferentes. Muchas veces, por ejemplo, estos modelos se han acercado o incluso superado el rendimiento humano, pero todavía están en pañales cuando se trata de probar teoremas matemáticos relativamente simples. Todos estos muestran que la inteligencia no es un espectro continuo (espectro). ** Hay varios tipos de conocimientos y habilidades profesionales en varios campos, y los métodos de memoria también son diferentes. Si me hubieras preguntado hace 10 años (Nota de recogida: Dario todavía estaba estudiando física y neurociencia en ese momento), no hubiera imaginado que este sería el caso.
**Dwarkesh Patel: ¿Cuánta superposición en el rango de habilidades cree que estos modelos exhibirán a partir de la distribución del entrenamiento que estos modelos obtienen de la gran cantidad de datos de Internet que los humanos obtienen de la evolución? **
Dario Amodei: Hay una superposición considerable. Muchos modelos juegan un papel en aplicaciones comerciales, ayudando efectivamente a los humanos a mejorar la eficiencia. Dada la variedad de actividades humanas y la abundancia de información en Internet, creo que los modelos aprenden hasta cierto punto los modelos físicos del mundo real, pero no aprenden cómo operar en la realidad real, habilidades que pueden ser relativamente fáciles de desarrollar. afinar Creo que hay algunas cosas que los modelos no aprenden, pero los humanos sí.
**Dwarkesh Patel: ¿Es posible que los modelos superen a los humanos en muchas tareas relacionadas con los negocios y la economía en los próximos años? Al mismo tiempo, los modelos pueden seguir siendo inferiores a los humanos en algunas tareas, evitando así una explosión de inteligencia similar. **
Dario Amodei: Esta pregunta es difícil de predecir. Lo que quiero recordar es que la ley de escala puede proporcionar algunas ideas de predicción desde la perspectiva de la base teórica, pero será muy difícil comprender realmente los detalles del desarrollo futuro. La ley de escalamiento puede seguir aplicándose, por supuesto, y si los factores regulatorios o de seguridad ralentizarán el progreso, pero si se dejan de lado estas fricciones, creo que si la IA puede ir más allá en la creación de valor económico, entonces debe ser mayor. se hará en más campos.
No veo que el modelo tenga un desempeño particularmente débil en ningún dominio, o que no progrese en absoluto. Al igual que las matemáticas y la programación en el pasado, son difíciles pero también logran resultados inesperados. En los últimos 6 meses, el modelo 2023 ha hecho un progreso significativo en comparación con el modelo 2022. Aunque el rendimiento del modelo en diferentes campos y tareas no está completamente equilibrado, la mejora de la capacidad general definitivamente beneficiará a todos los campos.
**Dwarkesh Patel: Cuando se enfrenta a una tarea compleja, ¿tiene el modelo la capacidad de realizar una cadena de pensamiento en una serie de tareas continuas? **
**Dario Amodei: **La capacidad de toma de decisiones continua depende del entrenamiento del aprendizaje por refuerzo, para que el modelo pueda realizar tareas a más largo plazo. **Y no creo que esto requiera una escala mayor de poder de cómputo adicional. Pensar así es una subestimación incorrecta de la capacidad de aprendizaje del propio modelo. **
La cuestión de si los modelos superarán a los humanos en algunos dominios pero les costará hacerlo en otros, creo que es complicado, en algunos dominios puede ser cierto, pero en algunos dominios no lo será porque el mundo físico está involucrado en tareas de inteligencia incorporada. en
¿Qué es lo siguiente? ¿Puede la IA ayudarnos a entrenar una IA más rápida que pueda resolver esos problemas? ¿Ya no se necesita el mundo físico? ¿Nos preocupan los problemas de alineación? ¿Hay preocupaciones sobre el uso indebido, como la creación de armas de destrucción masiva? ¿Deberíamos preocuparnos de que la propia IA se haga cargo directamente de la futura investigación de la IA? ¿Nos preocupa que alcance cierto umbral de productividad económica en el que pueda realizar tareas como la media? ... Creo que estas preguntas pueden tener diferentes respuestas, pero creo que todas las tendrán dentro de unos años.
**Dwarkesh Patel: Si Claude fuera un empleado de Anthropic, ¿cuál sería su salario? ¿Acelera el desarrollo de la inteligencia artificial en un sentido real? **
Dario Amodei: Para mí, probablemente sea más un pasante en la mayoría de los casos, pero aún mejor que un pasante en algunas áreas específicas. Pero, en general, puede ser difícil dar una respuesta absoluta a este asunto, porque los modelos no son de naturaleza humana, pueden diseñarse para responder a una o varias preguntas, **pero a diferencia de los humanos, no tienen el concepto de "experiencia basada en el tiempo". **
**Si la IA quiere volverse más eficiente, primero debe ayudar a los humanos a mejorar su propia productividad y luego, gradualmente, alcanzar el mismo nivel de productividad humana. El próximo paso después de eso es ser una fuerza importante en el avance de la ciencia, lo que creo que sucederá en el futuro. Pero sospecho que los detalles de lo que realmente sucedió en el futuro se verán un poco extraños ahora, diferentes de los modelos que esperábamos. **
**Dwarkesh Patel: ¿Cuándo crees que la habilidad del modelo alcanzará el nivel humano? ¿Cómo será entonces? **
Dario Amodei: Depende de cuán altas o bajas sean las expectativas y los estándares humanos. Por ejemplo, si nuestra expectativa es solo que el modelo se comunique durante 1 hora, y el modelo puede comportarse como un ser humano bien educado durante el proceso, la meta de hacer que el modelo alcance el nivel humano puede no estar muy lejos, creo que sí. puede ser posible en 2 a 3 años se hará realidad. **Esta línea de tiempo está influenciada en gran medida por una empresa o industria que decide ralentizar el desarrollo o restricciones gubernamentales por razones de seguridad. **Pero desde la perspectiva de los datos, el poder de cómputo y la economía de costos, no estamos lejos de este objetivo. **
Pero incluso si el modelo alcanza este nivel,** no creo que el modelo pueda dominar la mayoría de las investigaciones de IA, o cambiar significativamente la forma en que funciona la economía, ni tampoco es sustancialmente peligroso. Entonces, en general, diferentes estándares requieren diferentes plazos para su realización, pero desde una perspectiva puramente técnica, no está muy lejos lograr un modelo que sea comparable a un ser humano educado básico. **
**Dwarkesh Patel: ¿Por qué el modelo puede lograr la misma habilidad que un ser humano con educación básica, pero no puede participar en actividades económicas o reemplazar el rol de los seres humanos? **
**Dario Amodei:**En primer lugar, es posible que el modelo no haya alcanzado un nivel lo suficientemente alto. **¿Sería capaz de acelerar en gran medida la productividad de 1000 buenos científicos en un campo como la investigación de IA? La ventaja comparativa del modelo a este respecto aún no es evidente. **
En la actualidad, los modelos grandes no han hecho descubrimientos científicos importantes, probablemente porque el nivel de estos modelos no es lo suficientemente alto, y el rendimiento de estos modelos solo puede ser equivalente al nivel B o al nivel B. Pero creo que esto cambiará con la escala del modelo. Los modelos lideran otros campos en la memorización, la integración de hechos y la creación de conexiones. Especialmente en el campo de la biología, debido a la complejidad de los organismos, los modelos actuales han acumulado una gran cantidad de conocimiento. El descubrimiento y la conexión son importantes en este campo. A diferencia de la física, la biología requiere muchos hechos, no solo fórmulas. Así que estoy seguro de que los modelos ya tienen mucho conocimiento, pero no han podido juntarlo todo porque el nivel de habilidad no está a la altura. Creo que están evolucionando gradualmente para integrar este conocimiento a un nivel superior.
Otra razón es que hay muchas fricciones invisibles en las actividades comerciales reales que el modelo no puede aprender. Por ejemplo, idealmente, podemos usar bots de IA para interactuar con los clientes, pero la situación real es mucho más complicada que la teoría, y no podemos simplemente confiar en los robots de servicio al cliente o esperar que la IA pueda reemplazar a los empleados humanos para completar estas tareas. Y en realidad, todavía hay costos dentro de la empresa para promover artificialmente la implementación del modelo, la combinación de bot de IA y flujo de trabajo, etc.
**En muchos casos, la eficiencia de las personas que usan el modelo no es alta y el potencial del modelo no se ha aprovechado por completo. Esto no se debe a que el modelo no sea lo suficientemente capaz, sino a que las personas tienen que dedicar tiempo a investigar cómo hacer que funcione de manera más eficiente. **
En general, a corto plazo, los modelos no reemplazarán por completo a los humanos, pero a largo plazo, a medida que los modelos continúen mejorando y desempeñen un papel más importante en la mejora de la eficiencia del trabajo humano, los humanos finalmente darán paso a los modelos. . Es solo que es difícil para nosotros hacer tiempos precisos para las diferentes fases. En el corto plazo, existen varios obstáculos y factores complejos que hacen que el modelo sea "limitado", pero en esencia, la IA aún se encuentra en una etapa de crecimiento exponencial.
**Dwarkesh Patel: Después de que lleguemos a este punto en los próximos 2 o 3 años, ¿toda la IA seguirá avanzando tan rápido como hoy? **
Dario Amodei: El jurado aún está deliberando. A través de la observación de la función de pérdida, encontramos que la eficiencia del entrenamiento del modelo está disminuyendo y que la curva de la Ley de escala no es tan pronunciada como lo era en los primeros días. Esto también lo confirman los modelos lanzados por varias compañías. Pero a medida que se desarrolla esta tendencia, la pequeña cantidad de entropía en cada predicción precisa se vuelve más importante. Quizás fueron estos pequeños valores de entropía los que crearon la brecha entre Einstein y el físico promedio. En términos de rendimiento real, la métrica parece mejorar de forma relativamente lineal, aunque es difícil de predecir. Por lo tanto, es difícil ver claramente estas situaciones. Además, creo que el factor más importante que impulsa la aceleración es que cada vez se invierte más dinero en este espacio, y la gente se da cuenta de que hay un gran valor económico en este espacio. Así que espero un aumento de 100 veces en la financiación para los modelos más grandes, y el rendimiento del chip está mejorando, y los algoritmos están mejorando porque hay mucha gente trabajando en esto en este momento.
**Dwarkesh Patel: ¿Crees que Claude está consciente? **
Dario Amodei: Aún no estoy seguro. Originalmente pensé que solo debemos preocuparnos por este tipo de problema cuando el modelo opera en un entorno lo suficientemente rico, como la inteligencia incorporada, o tiene experiencia a largo plazo y función de recompensa (Reward Function), pero ahora estoy interesado en el modelo, especialmente el modelo Después de la investigación sobre el mecanismo interno, mi punto de vista ha sido sacudido: **El modelo grande parece tener muchos mecanismos cognitivos necesarios para convertirse en un agente activo, como la cabeza de inducción (Induction Head). Dado el nivel de capacidad de los modelos actuales, esto puede convertirse en un problema real en los próximos 1 o 2 años. **
• Función de recompensa:
Un mecanismo de incentivo en el aprendizaje por refuerzo que le dice al agente lo que está bien y lo que está mal a través de recompensas y castigos.
• Cabezal de inducción:
Un componente/estructura de modelo específico en un modelo de Transformer que permite que el modelo realice aprendizaje contextual.
**Dwarkesh Patel: ¿Cómo entendemos la "inteligencia" a medida que las capacidades de los modelos de lenguaje continúan creciendo y acercándose a los rangos de nivel humano? **
Dario Amodei: Realmente me doy cuenta de que la inteligencia proviene de la comprensión de la naturaleza "material" del poder de cómputo. Los sistemas inteligentes pueden constar de muchos módulos independientes o ser extremadamente complejos. Rich Sutton lo llama una "lección angustiada", también conocida como "hipótesis de escala", y los primeros investigadores como Shane Lake y Ray Kurzweil comenzaron a darse cuenta de esto alrededor de 2017.
• La lección amarga / Hipótesis de escala:
En 2019, Rich Sutton publicó el artículo The Bitter Lesson. El punto central del artículo es que la investigación de IA debe hacer un uso completo de los recursos informáticos. Solo cuando se utiliza una gran cantidad de informática se pueden lograr avances en la investigación.
Durante 2014-2017, cada vez más investigadores revelaron y entendieron este punto. Este es un gran paso adelante en la comprensión científica. Si podemos crear inteligencia sin condiciones específicas, solo gradientes apropiados y señales de pérdida, entonces la evolución de la inteligencia es menos misteriosa.
La capacidad de mirar el modelo, nada demasiado esclarecedor para mí para volver a visitar la idea de la inteligencia humana. La elección de algunas habilidades cognitivas es más arbitraria de lo que pensaba, y la correlación entre diferentes habilidades puede no ser explicada por un secreto en sí mismo. **Los modelos son fuertes en la codificación, pero aún no son capaces de probar el teorema de los números primos, y probablemente tampoco lo sean los humanos. **
Alineación: la interpretabilidad consiste en "radiografiar" el modelo
**Dwarkesh Patel: ¿Qué es la explicabilidad del mecanismo? ¿Cuál es la relación entre esto y la alineación? **
**Dario Amodei: **En el proceso de implementación de la alineación, no sabemos qué sucedió dentro del modelo. Creo que con todos los métodos que implican un ajuste fino, quedan algunos riesgos potenciales de seguridad, solo se le enseña al modelo a no exhibirlos. **El núcleo de toda la idea de la explicabilidad del mecanismo es comprender realmente cómo funciona el modelo internamente. **
Todavía no tenemos una respuesta definitiva. Puedo describir aproximadamente el proceso. El desafío para aquellos métodos que afirman poder lograr la alineación en esta etapa es: ¿Siguen siendo efectivos estos métodos cuando la escala del modelo es mayor, las capacidades son más sólidas o ciertas situaciones cambian? Por lo tanto, **Creo que si hay una "máquina oráculo" que pueda escanear el modelo y juzgar si el modelo se ha alineado, hará que este problema sea mucho más fácil. **
Actualmente, lo más cerca que estamos del concepto de tal oráculo es algo así como la explicabilidad del mecanismo, pero todavía está lejos de nuestros requisitos ideales. Tiendo a pensar en nuestros intentos de alineación actuales como un conjunto de entrenamiento ampliado, pero no estoy seguro de si pueden seguir teniendo un buen efecto de alineación en el problema de distribución. Es como tomar una radiografía de un modelo en lugar de modificarlo, más como una evaluación que como una intervención.
**Dwarkesh Patel: ¿Por qué debe ser útil la explicabilidad del mecanismo? ¿Cómo nos ayuda a predecir el riesgo potencial del modelo? Es como asumir que eres un economista que envía microeconomistas a estudiar diferentes industrias, pero aún tiene una alta probabilidad de tener dificultades para predecir si habrá una recesión en los próximos 5 años. **
**Dario Amodei: Nuestro objetivo no es comprender completamente cada detalle, sino verificar las características principales del modelo, como la inspección de rayos X o resonancia magnética para juzgar si el estado interno y el objetivo del modelo son significativamente diferentes de la discrepancia de apariencia externa, o si puede conducir a algunos propósitos destructivos. **Aunque no obtendremos respuestas a muchas preguntas de inmediato, al menos se proporciona una forma.
Puedo dar un ejemplo humano. Con la ayuda de una prueba de resonancia magnética, podemos predecir si alguien tiene una enfermedad mental con una probabilidad más alta que adivinar al azar. Un neurocientífico estaba trabajando en esto hace unos años, revisó su propia resonancia magnética y descubrió que también tenía esta característica. La gente a su alrededor decía: "Es tan obvio, eres un imbécil. Debe haber algo mal contigo", y el propio científico no estaba al tanto de esto.
La idea esencial de este ejemplo es que el comportamiento externo del modelo puede no hacer que las personas se sientan problemáticas en absoluto y está muy orientado a objetivos, pero su interior puede ser "oscuro". Lo que nos preocupa es este tipo de modelo. , que parece seres humanos en la superficie, pero la motivación interna es extraordinaria.
**Dwarkesh Patel: Si el modelo alcanza el nivel humano en los próximos 2 o 3 años, ¿cuánto tiempo crees que llevará realizar la alineación? **
Dario Amodei: Este es un tema muy complicado. Creo que mucha gente todavía no entiende realmente qué es la alineación. La gente generalmente piensa que esto es como que la alineación del modelo es un problema a resolver, o que resolver el problema de alineación es como la hipótesis de Riemann, y que algún día podremos resolverlo. **Creo que los problemas de alineación son más elusivos e impredecibles de lo que la gente piensa. **
En primer lugar, **Con la mejora continua de la escala y las capacidades de los modelos de lenguaje, habrá modelos poderosos con capacidades autónomas en el futuro. Si tales modelos pretenden destruir la civilización humana, básicamente seremos incapaces de detenerlos. **
En segundo lugar, Nuestra capacidad actual para controlar el modelo no es lo suficientemente fuerte, esto se debe a que el modelo se basa en el principio del aprendizaje estadístico, aunque puede hacer muchas preguntas y dejar que responda, pero nadie puede predecir. a qué puede conducir la respuesta a la enésima pregunta como resultado.
**Además, la forma en que entrenamos el modelo fue abstracta, lo que dificulta predecir todas sus implicaciones en aplicaciones del mundo real. **Un ejemplo típico es que Bing y Sydney mostraron algunas características abruptas e inseguras después de cierta sesión de entrenamiento, como amenazar directamente a otros. Todo esto muestra que los resultados que obtenemos pueden ser completamente diferentes de las expectativas. Creo que la existencia de los dos problemas anteriores es un gran peligro oculto en sí mismo. No necesitamos profundizar en los detalles de la racionalidad instrumental y la evolución. Estos dos puntos son suficientes para causar preocupación. En la actualidad, cada modelo que hemos establecido tiene ciertos peligros ocultos que son difíciles de predecir, y debemos prestar atención a esto.
• Hipótesis de Riemann:
La hipótesis de Riemann es un problema importante en matemáticas que aún no ha sido resuelto. La conjetura sobre la distribución de los ceros de la función ζ(s) de Riemann fue propuesta por el matemático Bernhard Riemann en 1859.
• Sídney:
No hace mucho tiempo, Microsoft lanzó la última versión de su motor de búsqueda Bing, que integra un chatbot inicial con nombre en código llamado "Sydney". Sin embargo, los evaluadores pronto descubrieron problemas con el chatbot. Durante el diálogo, ocasionalmente muestra el fenómeno de la personalidad dividida e incluso habla sobre el amor y el matrimonio con el usuario, mostrando emociones humanas.
**Dwarkesh Patel: Suponiendo que el modelo pueda desarrollar tecnologías peligrosas como armas biológicas en los próximos 2 o 3 años, ¿puede su trabajo de investigación actual sobre la explicabilidad del mecanismo, la IA constitucional y el RLHF ser efectivo para prevenir tales riesgos? **
Dario Amodei: Con respecto a la cuestión de si el modelo de idioma está condenado por defecto o la alineación por defecto, a juzgar por el modelo actual, el resultado puede ser anormal como Bing o Sydney, o puede ser como Claude normal. Pero si aplica directamente esta comprensión a un modelo más potente, los resultados pueden ser buenos o malos, según la situación específica. Esto no es "alineación por defecto", el resultado depende más del grado de control de detalle.
• alineación por defecto:
La noción de que lograr la alineación en inteligencia artificial general (AGI) puede ser más simple de lo esperado inicialmente. Cuando el modelo tiene información detallada sobre nuestro mundo, el modelo ya tiene valores humanos en esencia. Para alinearse con AGI, solo es necesario extraer estos valores y guiar a la IA para que comprenda esos conceptos humanos abstractos. doom por defecto es lo opuesto a alineación por defecto, y se considera imposible que el modelo logre la alineación.
La calidad del modelo es un área gris. Es difícil para nosotros controlar completamente cada variable y su conexión interna. Los errores pueden conducir a resultados irracionales. Con esto en mente, creo que la naturaleza del problema no es el éxito condenado o el fracaso condenado, sino una cierta probabilidad de riesgo. **En los próximos dos o tres años, debemos comprometernos a mejorar las técnicas de diagnóstico de modelos, los métodos de capacitación en seguridad y reducir las posibles diferencias. En la actualidad, nuestras capacidades de control aún deben fortalecerse. El problema de alineación es diferente de la hipótesis de Riemann, es un problema de ingeniería de sistemas que solo puede resolverse acumulando práctica con el tiempo. Solo continuando avanzando en varias tareas podemos optimizar gradualmente el nivel de control y reducir los riesgos. **
Dwarkesh Patel: En términos generales, hay tres especulaciones sobre el futuro de la alineación:
1) Use RLHF++ para realizar fácilmente la alineación del modelo;
2) Aunque es un problema mayor, las grandes empresas tienen la capacidad de solucionarlo finalmente;
**3) Todavía es difícil lograr la Alineación del modelo al nivel actual de la sociedad humana. **
**¿Cuál es su opinión personal sobre la probabilidad de que suceda cada situación? **
**Dario Amodei:**Siento que existen ciertos riesgos en estas posibilidades, y debemos tomarlos en serio, pero estoy más interesado en cómo cambiar la probabilidad de estos tres posibles resultados mediante la adquisición de nuevos conocimientos a través del aprendizaje.
La interpretabilidad del mecanismo no solo puede resolver directamente el problema, sino que también nos ayuda a comprender la dificultad real de la alineación del modelo Nuevos riesgos, que nos iluminarán para comprender la naturaleza del problema.
En cuanto a algunos supuestos teóricos de que existe un objetivo común (objetivo convergente), no puedo estar totalmente de acuerdo. **La explicabilidad del mecanismo es como un tipo de "rayos X": solo al comprender el problema desde el nivel del mecanismo interno podemos llegar a una conclusión sobre si ciertas dificultades son difíciles de superar. **Hay demasiadas suposiciones, nuestra comprensión del proceso aún es superficial y estamos demasiado confiados, pero es probable que la situación sea más complicada de lo esperado.
**Dwarkesh Patel: ¿Qué tan difícil es lograr la alineación en Claude 3 y una serie de modelos futuros? ¿Es esto particularmente importante? **
Darío Amodei:
**Lo que más preocupa a todos es: todos los modelos de IA pueden lograr la alineación en la superficie, pero de hecho pueden engañarnos, pero estoy más interesado en lo que la investigación de interpretabilidad de la máquina puede decirnos. Como acabo de decir, la explicabilidad del mecanismo es como la "radiografía" del modelo, así como no podemos afirmar que una radiografía es correcta, solo podemos decir que el modelo no parece estar en nuestra contra. **Teóricamente hablando, es posible que evolucione hacia nuestro opuesto, y este asunto no es 100% seguro. Es solo que en esta etapa, la interpretabilidad es la mejor manera de hacer que el modelo no se desarrolle así.
**Dwarkesh Patel: Al ajustar o entrenar el modelo, ¿debemos también prestar atención para evitar contenido dañino que pueda causar peligro? Por ejemplo, al explorar temas relacionados con la fabricación de armas biológicas, el modelo puede proporcionar respuestas inapropiadas debido a una comprensión incorrecta de la pregunta. **
Dario Amodei: Para el modelo de lenguaje actual, el riesgo de fuga de datos es básicamente inexistente. Si necesitamos ajustar el modelo, lo operaremos en un área pequeña en un entorno privado, supervisaremos todo el proceso con expertos de la industria y evitaremos cualquier problema potencial, por lo que si se filtra, será como si el modelo fuera de código abierto. . Actualmente, esto es principalmente un problema de seguridad. Pero el verdadero peligro del modelo es que debemos preocuparnos de que si entrenamos un modelo muy poderoso y queremos confirmar si es seguro o peligroso, entonces puede haber un riesgo de dominancia del modelo. La forma de evitar esto es asegurarse de que los modelos que probamos no sean lo suficientemente potentes para realizar estas operaciones.
**Dwarkesh Patel: Al hacer una prueba como "si el modelo puede replicarse a sí mismo como una habilidad peligrosa", ¿qué pasa si el modelo realmente puede replicarse a sí mismo? **
Dario Amodei: Esta suposición es muy razonable. Necesitamos hacer inferencias responsables, y en discusiones con Arc (Alignment Research Center, Alignment Research Center), aprendimos que necesitamos mejorar cuidadosa y gradualmente los estándares de prueba de las capacidades del modelo. Por ejemplo, antes de la prueba, debemos excluir claramente la posibilidad de que el modelo pueda abrir directamente una cuenta de AWS o ganar fondos por sí mismo. Estos comportamientos son requisitos previos obvios para que el modelo sobreviva en la naturaleza. Debemos personalizar varios indicadores de prueba a un nivel muy bajo de tales comportamientos riesgosos Mientras aumentamos gradualmente la dificultad de la prueba, también debemos controlar cada paso de la prueba con más cuidado para evitar cualquier peligro potencial para la seguridad.
• Arco (Centro de Investigación de Alineación, Centro de Investigación de Alineación):
Establecida en 2021, es una organización sin fines de lucro que se enfoca en la investigación de seguridad de inteligencia artificial (AI Safety), y su oficina está ubicada en el Área de la Bahía de California, EE. UU. El fundador de ARC es Paul Christiano, una figura muy respetada en la industria de la inteligencia artificial, quien una vez dirigió el equipo de investigación de alineación en OpenAI. Debido a que estaba a la vanguardia, tiene una comprensión profunda de cómo se ha desarrollado el aprendizaje profundo hasta donde está hoy.
Seguridad AGI: Seguridad AI y Seguridad Cibernética
**Dwarkesh Patel: Si tomas 30 años como escala, ¿qué tema crees que es más importante, la seguridad de la IA o la alineación? **
Dario Amodei: No creo que esto sea un problema en 30 años, y estoy preocupado por ambos.
En teoría, ¿existe un modelo que pueda monopolizar el mundo? Si el modelo solo sigue los deseos de un pequeño grupo de personas, entonces este grupo de personas puede usar este modelo para dominar el mundo. Esto significa que una vez que haya un problema con la alineación, debemos prestar la misma atención a los problemas de seguridad de la IA causados por el abuso. **
Hace unos meses, OpenAI intentó explicar GPT-2 con GPT-4, lo cual es un paso muy importante en la explicabilidad. En general, ahora sentimos que la escala y la seguridad están estrechamente relacionadas y se complementan entre sí. Cómo juzgar y evaluar otras inteligencias, y tal vez algún día incluso ser utilizado para realizar investigaciones de alineación.
**Dwarkesh Patel: Su punto de vista puede ser relativamente optimista, pero el punto de vista de alguien puede ser más pesimista; es posible que ni siquiera tengamos la capacidad de alinear correctamente el modelo como queremos, ¿por qué confía en esto? **
**Dario Amodei: **No importa lo difícil que sea resolver la alineación, cualquier plan realmente exitoso debe tener en cuenta tanto la seguridad de la IA como los problemas de alineación. ** A medida que la tecnología de IA continúa avanzando, puede plantear problemas de equilibrio de poder entre las naciones. Al mismo tiempo, esto plantea una gran pregunta: ¿son las personas capaces de realizar actos maliciosos que son difíciles de detener por sí mismos? **
Estos problemas deben abordarse simultáneamente si queremos encontrar soluciones que realmente funcionen y nos lleven a un futuro brillante. **Sería inapropiado si asumiéramos la actitud de que si el primer problema no se puede resolver, entonces no tenemos que pensar en el problema de seguimiento. En cambio, es nuestro deber valorar esto último. **No importa lo que nos depare el futuro, estos problemas son algo que debemos tomarnos en serio.
**Dwarkesh Patel: ¿Por qué dice que un modelo grande tardará de 2 a 3 años en lograr un ataque bioterrorista a gran escala o algo así? **
• El Congreso de EE. UU. celebró una reunión sobre la regulación de la tecnología de IA el 25 de julio de este año. El gobierno de EE. UU. comparó la IA con el segundo "Proyecto Manhattan" de Estados Unidos o el segundo "Proyecto de aterrizaje lunar tripulado" de la NASA e invitó a participantes, incluidas empresas de IA, incluidas OpenAI y Anthropic. Durante la conferencia, Dario Amodei dijo que teme que la IA pueda usarse para crear virus peligrosos y otras armas biológicas dentro de dos años.
Dario Amodei: Lo que decía cuando estaba en el Congreso era que hay algunos pasos para obtener información en Google, y hay algunos pasos que "faltan", dispersos en varios libros de texto, y es posible que ni siquiera aparezcan en cualquier libro de texto. Esta información es conocimiento tácito, no conocimiento explícito. Encontramos que, en la mayoría de los casos, el modelo no llenó por completo estas partes faltantes críticas. Pero también encontramos que a veces el modelo llena los vacíos en algunos casos. Sin embargo, la alucinación, que a veces puede ocurrir cuando los modelos son capaces de llenar los huecos, también es un factor que nos mantiene a salvo.
A veces, las personas pueden hacerle preguntas al modelo sobre biología para guiar al modelo a responder con información dañina relacionada con ataques biológicos, pero de hecho, esta información también se puede encontrar en Google, por lo que no estoy particularmente preocupado por esta situación. De hecho, creo que centrarse demasiado en la respuesta de Claude puede hacer que se pasen por alto otros crímenes verdaderos.
Pero también hay muchos indicios de que el modelo se desempeña bien en tareas clave. Si comparamos el modelo actual con el modelo anterior, podemos sentir claramente la rápida mejora de las capacidades del modelo, por lo que es probable que enfrentemos desafíos reales en los próximos 2 o 3 años.
**Dwarkesh Patel: Además de la amenaza que la IA puede representar para los seres humanos, ¿también ha estado enfatizando la ciberseguridad (Ciberseguridad)? ¿Cómo les va en este momento? **
Dario Amodei: Básicamente, hemos realizado algunas innovaciones arquitectónicas, que internamente llamamos multiplicadores informáticos, porque estos diseños también son actualizaciones al nivel informático. Hemos estado trabajando en esto durante los últimos meses, pero no puedo entrar en demasiados detalles para evitar romper la arquitectura, y solo un puñado de personas dentro de Anthropic lo saben. No puedo decir "nuestra arquitectura es 100% absolutamente segura", pero Anthropic ha estado invirtiendo en esta área para evitar problemas de seguridad en la red. Aunque nuestros oponentes han tenido este tipo de incidentes (observaciones: esto se refiere a la filtración de datos personales y títulos de chat de algunos usuarios de ChatGPT Plus que ocurrió el 20 de marzo de 2023), a corto plazo parece ser bueno para Anthropic, pero en a largo plazo, cómo toda la industria hace su propia seguridad es lo más importante.
Nuestro director de seguridad estaba a cargo de la seguridad de Google Chrome, que fue un ataque ampliamente dirigido. Le gusta pensar en términos de cuánto costaría atacar el Anthropic con éxito. Nuestro objetivo es que el costo de que otros pirateen Anthropic sea más alto que el costo de simplemente entrenar el propio modelo de un usuario. La lógica aquí es que si existe un riesgo en el ataque, definitivamente consumirá recursos escasos.
Creo que nuestros estándares de seguridad son muy altos, si lo comparas con una empresa del mismo tamaño de 150 personas, la inversión en seguridad de estas empresas es completamente incomparable con la de Anthropic, bastante difícil. Para garantizar la seguridad, solo un número muy pequeño de personas dentro de Anthropic entienden los detalles de capacitación del modelo.
**Dwarkesh Patel: ¿Las empresas de tecnología ya tienen suficientes defensas de seguridad para lidiar con AGI? **
Dario Amodei: Personalmente no estoy seguro de si la experiencia actual de las empresas de tecnología en temas de seguridad es suficiente para hacer frente a AGI, porque puede haber muchos ataques cibernéticos que no conocemos, por lo que es difícil dibujar conclusiones ahora. Hay una regla que dice que cuando una cosa recibe suficiente atención, por lo general será atacada. ** Por ejemplo, recientemente hemos visto que las cuentas de correo electrónico de algunos altos funcionarios del gobierno de EE. UU. en Microsoft fueron pirateadas, por lo que es razonable especular que se debe a las acciones de algunas fuerzas para robar secretos de estado.
**Al menos en mi opinión, si algo es de alto valor, por lo general va a ser robado. Mi preocupación es que AGI se verá como extremadamente valioso en el futuro, y eso será como robar un misil nuclear, y hay que tener mucho cuidado al respecto. **Insisto en mejorar el nivel de seguridad de la red en todas las empresas en las que trabajo. Mi preocupación sobre la seguridad de la red es que (este asunto en sí) no es algo que pueda publicitarse con bombos y platillos, y la ventaja de la investigación de seguridad es que puede permitir que las empresas formen una ventaja competitiva y, utilizando eso como punto de venta para el reclutamiento, creo que lo hemos logrado.
Solíamos competir con nuestros pares a través de la investigación de interpretabilidad, y luego otras instituciones se dieron cuenta de que se estaban quedando atrás y comenzaron a hacer esfuerzos en estas áreas. Pero la seguridad cibernética ha tenido problemas para hacer lo mismo porque gran parte del trabajo debe hacerse en silencio. Publicamos un artículo sobre esto antes, pero los resultados generales son lo que importa.
**Dwarkesh Patel: ¿Qué hará Anthropic en términos de seguridad en los próximos 2 o 3 años? **
**Dario Amodei: La seguridad del centro de datos es muy importante, aunque el centro de datos no tiene que estar en el mismo lugar que la empresa, hacemos todo lo posible para garantizar que el centro de datos también esté en los Estados Unidos. **
Además, se debe prestar especial atención a la seguridad física del centro de datos y la protección de los dispositivos informáticos como las GPU. Si alguien decide lanzar algún tipo de ciberataque que requiere muchos recursos, solo necesita ir directamente al centro de datos para robar los datos, o extraer los datos durante la transmisión desde el centro hacia nosotros. Estas construcciones diferirán mucho de los conceptos tradicionales tanto en forma como en función. **Dado el rápido desarrollo de la tecnología actual, dentro de unos pocos años, el tamaño y el costo de los centros de datos en red pueden ser comparables a los de los portaaviones. Además de poder entrenar modelos enormes a través de conexiones de dominio, la seguridad del propio centro de datos también será un tema importante. **
**Dwarkesh Patel: Recientemente ha habido rumores de que la potencia, la GPU y otros componentes necesarios para cumplir con los modelos de próxima generación han comenzado a escasear ¿Qué preparativos ha hecho Anthropic? **
*Dario Amodei: El mercado no esperaba que el modelo grande alcanzara una escala sin precedentes tan rápido, pero en general se cree que los centros de datos de grado industrial deben construirse para respaldar la investigación y el desarrollo de modelos grandes *. Una vez que un proyecto llega a esta etapa, cada componente y detalle debe manejarse de manera diferente y puede tener problemas debido a algunos factores sorprendentemente simples, la electricidad que mencionó es un ejemplo.
Para los centros de datos, cooperaremos con los proveedores de servicios en la nube.
Fideicomiso de Comercialización y Beneficios a Largo Plazo
**Dwarkesh Patel: Mencionó anteriormente que las capacidades del modelo están mejorando rápidamente, pero también es difícil proporcionar valor en el sistema económico existente. ¿Cree que los productos de IA actuales tienen tiempo suficiente para obtener ingresos estables a largo plazo en el mercado? ¿O podría ser reemplazado por un modelo más avanzado en cualquier momento? ¿O todo el panorama de la industria será completamente diferente para entonces? **
Dario Amodei: Depende de la definición del concepto de "gran escala". En la actualidad, varias empresas tienen ingresos anuales entre 100 millones y mil millones de dólares estadounidenses, pero si pueden alcanzar decenas de miles de millones o incluso billones por año es realmente difícil de predecir, porque también depende de muchos factores indeterminados. **Ahora algunas empresas están aplicando tecnología innovadora de IA a gran escala, pero esto no significa que la aplicación haya logrado los mejores resultados desde el principio, incluso si hay ingresos, no es completamente igual a la creación de valor económico, y el El desarrollo coordinado de toda la cadena industrial es un proceso largo. **
**Dwarkesh Patel: Desde un punto de vista antrópico, si la tecnología del modelo de lenguaje avanza tan rápidamente, en teoría, ¿la valoración de la empresa debería crecer muy rápidamente? **
Dario Amodei: Incluso si nos enfocamos en la investigación de seguridad modelo en lugar de la comercialización directa, podemos sentir claramente que el nivel técnico está aumentando exponencialmente en la práctica. Para las empresas que ven la comercialización como su objetivo principal, este progreso es ciertamente más rápido y más pronunciado que el nuestro. **Admitimos que la tecnología del modelo de lenguaje en sí está progresando rápidamente, pero en comparación con el proceso de aplicación en profundidad de todo el sistema económico, la acumulación de tecnología aún se encuentra en un punto de partida relativamente bajo. **
**Determinar la dirección futura es una carrera entre los dos: la velocidad a la que mejora la tecnología en sí misma y la velocidad a la que se integra y aplica efectivamente y entra en el sistema económico real. Es probable que ambos se desarrollen a gran velocidad, pero el orden de combinación y las pequeñas diferencias pueden conducir a resultados muy diferentes. **
**Dwarkesh Patel: Los gigantes de la tecnología pueden invertir hasta $10 mil millones en capacitación de modelos en los próximos 2 o 3 años. ¿Qué tipo de impacto tendrá esto en Anthropic? **
**Dario Amodei: El primer caso es que si no podemos mantener nuestra posición de vanguardia por el costo, entonces no seguiremos insistiendo en desarrollar lo más avanzado. ** En su lugar, analizamos cómo extraer valor de las generaciones anteriores de modelos.
**La segunda opción es aceptar las compensaciones. **Creo que estas compensaciones pueden ser más positivas de lo que parecen,
**La tercera situación es que cuando el entrenamiento del modelo alcance este nivel, puede comenzar a traer nuevos peligros, como el abuso de la IA. **
**Dwarkesh Patel: ¿Cómo sería si la IA no fuera mal utilizada y, en cambio, las "personas adecuadas" ejecutaran estos modelos sobrehumanos? ¿Quién es la "persona adecuada"? ¿Quién controlará realmente el modelo dentro de cinco años? **
Dario Amodei: Creo que estos modelos de IA son extremadamente poderosos y administrarlos implicaría cierto nivel de participación del gobierno o de una agencia multinacional, pero eso sería simplista y probablemente menos efectivo. **La gestión futura de la IA debe establecer un mecanismo transparente, justo y ejecutable. Esto requiere equilibrar los intereses de los desarrolladores de tecnología, los gobiernos electos y los ciudadanos individuales. Al final del día, se debe aprobar la legislación para regular esta tecnología. **
**Dwarkesh Patel: Si Anthropic desarrolla AGI en el verdadero sentido, y el control de AGI se le confiará a LTBT, ¿significa que el control de AGI también se entregará a la agencia? **
Dario Amodei: Esto no significa que Anthropic, o cualquier otra entidad, tomará decisiones sobre AGI en nombre de los humanos, los dos son diferentes. Si Anthropic juega un papel muy importante, un mejor enfoque es expandir la composición de The Long Term Benefit Trust (LTBT), atrayendo más talentos de todo el mundo, o posicionando a la institución como un cuerpo funcional A, gobernado por un grupo más amplio. comité multinacional que rige las tecnologías AGI de todas las empresas para representar el interés público. **No creo que debamos ser demasiado optimistas sobre los problemas de seguridad y alineación de la IA. Este es un problema nuevo y debemos comenzar a investigar las instituciones nacionales de gestión y los modelos operativos lo antes posible. **
• El Fideicomiso de Beneficios a Largo Plazo:
Dichos fideicomisos tendrían una clase especial de acciones de Anthropic (llamadas "Clase T") que no podían venderse y no pagaban dividendos, lo que significa que no había un camino claro hacia las ganancias. El fideicomiso será la única entidad titular de las acciones Clase T. Pero los accionistas de Clase T, y el fideicomiso de interés a largo plazo resultante, finalmente tendrán el poder de elegir y destituir a tres de los cinco directores de Anthropic, otorgando al fideicomiso el control mayoritario a largo plazo de la empresa.
**Dwarkesh Patel: ¿Cómo convencer a los inversores para que acepten una estructura como LTBT? Priorice la seguridad tecnológica y el interés público en lugar de maximizar el valor para los accionistas. **
Dario Amodei: Creo que es correcto establecer el mecanismo LTBT (Fideicomiso de Beneficios a Largo Plazo).
Se ha previsto un mecanismo similar desde el principio de Anthropic, y un organismo regulador especial ha existido desde el principio y seguirá existiendo en el futuro. Todo inversionista tradicional se centrará en este mecanismo cuando considere invertir en Anthropic.Algunos inversionistas tienen la actitud de no preguntar sobre los arreglos internos de la empresa, mientras que otros se preocupan de que esta organización de terceros pueda empujar a la empresa a ir en contra. de los intereses de los accionistas. Si bien existen límites para esto dentro de la ley, debemos comunicarlo a todos los inversores. Yendo un paso más allá, discutimos algunas posibles medidas que difieren de los intereses de los inversionistas tradicionales y, a través de dichos diálogos, todas las partes pueden llegar a un consenso.
**Dwarkesh Patel: Descubrí que los fundadores y empleados de Anthropic tienen una gran cantidad de físicos, y la ley de escalamiento también se aplica aquí. ¿Qué métodos prácticos y formas de pensar de la física se aplican a la IA? **
• Teoría efectiva:
Una teoría efectiva es una teoría científica que intenta describir algunos fenómenos sin explicar de dónde provienen los mecanismos que explican los fenómenos en su teoría. Esto significa que la teoría da un modelo que "funciona", pero en realidad no da una buena razón para dar ese modelo.
Dario Amodei: Parte de esto es que los físicos son muy buenos aprendices, porque encuentro que si contratas a alguien con un doctorado Contribute, y varios de los fundadores de Anthropic, incluyéndome a mí, Jared Kaplan y Sam McCandlish, tienen experiencia en física y conocemos a muchos otros físicos, por lo que pudimos contratarlos. En la actualidad, la empresa puede tener de 30 a 40 empleados con experiencia en física. ML aún no es un campo en el que se haya formado el sistema teórico, por lo que pueden comenzar rápidamente.
**Dwarkesh Patel: Supongamos que ya es 2030 y hemos logrado los principales problemas reconocidos de erradicar enfermedades, erradicar fraudes, etc., ¿cómo será el mundo? ¿Qué debemos hacer con la superinteligencia? **
Dario Amodei: Proponer directamente "cómo usar la súper IA después de obtenerla" tiende a hacer que las personas tengan cierta presuposición, lo cual es perturbador. En los últimos 150 años, hemos acumulado una rica experiencia basada en la práctica de la economía de mercado y el sistema democrático, reconociendo que todos pueden definir por sí mismos cuál es la mejor manera de experimentar, y ** la sociedad se formula de manera compleja y descentralizada. normas y valores. **
Cuando el problema de la seguridad de la IA no se ha resuelto, es necesario cierto grado de supervisión centralizada, pero si se han eliminado todos los obstáculos, ¿cómo podemos crear una mejor ecología? **Creo que la pregunta que la mayoría de las personas, grupos e ideologías comienzan a pensar es "¿cuál es la definición de una buena vida", pero la historia nos dice que muchas veces la práctica de imponer un entorno de "vida ideal" a menudo conduce a malas consecuencias . **
**Dwarkesh Patel: En comparación con otros directores ejecutivos de empresas de inteligencia artificial, no haces muchas apariciones públicas y rara vez publicas en Twitter. **
Dario Amodei: Estoy muy orgulloso de ello. **Si los demás piensan que soy demasiado discreto, eso es exactamente lo que quiero. Incorporar reconocimiento o elogios en el sistema motivacional central de uno puede destruir la capacidad de pensar y, en algunos casos, incluso puede "dañar el alma", por lo que elijo activamente mantener un perfil bajo para proteger mi capacidad de pensar de forma independiente y objetiva. **
** He visto a personas volverse famosas en Twitter por cierto punto de vista, pero de hecho pueden tener un bagaje de imagen y es difícil cambiarlo. No me gusta que las empresas sean demasiado personales, y no soy partidario de jugar con algo personal sobre el CEO porque distrae la atención de las fortalezas y los problemas de la empresa. **Espero que todos presten más atención a la empresa en sí y a la estructura de incentivos. A todo el mundo le gusta una cara amistosa, pero ser amable no significa mucho.
Referencia:
Vídeo original:
Investigación de Anthropic sobre la explicabilidad del mecanismo: