Основатель Anthropic: На больших моделях можно «снимать рентген», а AGI можно реализовать за 2-3 года

Эта статья составлена на основе подкаст-интервью с генеральным директором Anthropic Дарио Амодеи.

Компания Anthropic, вторая в рейтинге LLM, была основана в январе 2021 года Дарио Амодеем и в июле этого года выпустила модель Claude 2 последнего поколения. Дарио Амодеи раньше был вице-президентом по исследованиям и безопасности в OpenAI.Он основал Anthropic, потому что считал, что в больших моделях существует много проблем безопасности, которые необходимо решить в срочном порядке.Поэтому Anthropic придает большое значение безопасности ИИ. для создания надежных (Надежных), объяснимых Интерпретируемых и Управляемых систем ИИ. Самая большая разница между маршрутами Anthropic и OpenAI также заключается в том, что они ориентированы на интерпретируемость.

В интервью Дарио объясняет фокус Anthropic и инвестиции в интерпретируемость. Интерпретируемость — один из важных способов обеспечения безопасности модели, ** аналогичный рентгеновским и магнитно-резонансным исследованиям модели, позволяющий исследователям понять, что происходит внутри модели, и определить возможные источники риска. Чтобы по-настоящему понять, почему закон масштабирования работает и как достичь согласованности, неотделимо от возможности интерпретации. **Дарио считает, что безопасность ИИ и выравнивание одинаково важны.Если возникает проблема с выравниванием, вопросам безопасности ИИ, вызванным злоупотреблением, следует уделять равное внимание.

Дарио считает, что возможности модели будут значительно улучшены в ближайшие 2-3 года и, возможно, даже «захватят человеческое общество», но реально участвовать в деловых и экономических связях она не может. модели, но из-за различных невидимых трений люди не используют модели достаточно эффективно, чтобы реализовать их истинный потенциал в реальной жизни и работе.

По сравнению с руководителями большинства компаний, занимающихся искусственным интеллектом, Дарио почти не участвует в публичных интервью и редко выражает свое мнение в Твиттере.Дарио объяснил, что это его собственный активный выбор, и он защищает свою способность мыслить независимо и объективно, сохраняя сдержанность.

Ниже приводится оглавление этой статьи, и рекомендуется читать его в сочетании с основными пунктами.

👇

01 Почему закон масштабирования работает

02 Насколько способности модели будут сопоставимы с человеческими?

03 Выравнивание: интерпретируемость — это «рентгеновское просвечивание» модели

04 AGI Safety: безопасность ИИ и кибербезопасность

05 Коммерциализация и долгосрочная выгода

Почему закон масштабирования работает

**Дваркеш Патель: Откуда взялась ваша вера в закон масштабирования? Почему возможности модели становятся сильнее по мере увеличения размера данных? **

**Дарио Амодей: Закон масштабирования в определенной степени является эмпирическим обобщением. Мы воспринимаем это явление на основании различных данных и явлений и резюмируем его как Закон масштабирования, но общепринятого и особенно хорошего объяснения для его объяснения не существует. Объясните, в чем заключается существенный принцип его функции. **

Если мне нужно дать объяснение, я лично предполагаю, что это может быть похоже на распределение с длинным хвостом или степенной закон в физике. Когда признаков (признаков) много, то данные с относительно большой долей обычно соответствуют более доминирующим базовым правилам и закономерностям, потому что эти закономерности часто проявляются, соответствующий объем данных, естественно, больше, тогда как данные с длинным хвостом в основном некоторые более подробные и сложные правила. **Например, при работе с данными, связанными с языком, в большинстве данных можно наблюдать некоторые основные правила, такие как основные грамматические правила, такие как часть речи, структура порядка слов и т. д., и относительно длинные правила. являются сложной грамматикой.

Вот почему каждый раз, когда данные увеличиваются на порядок, модель может изучить больше правил поведения. Но чего мы не знаем, так это почему существует идеальная линейная корреляция между ними. Главный научный сотрудник Anthropic Джерард Каплан использовал фрактальную размерность (Fractal Dimension) для объяснения этого вопроса.Конечно, другие люди пробуют другие методы проверки Закона Саклинга, но мы до сих пор не можем объяснить, почему.

• Фрактальная размерность:

Математик Феликс Хаусдорф впервые предложил концепцию фрактальной размерности в 1918 году, которая позже была известна как размерность Хаусдорфа. Фрактальное измерение можно использовать для описания структуры взаимосвязей скрытых признаков в данных машинного обучения и обеспечивает модель математического объяснения эффекта масштабирования, тем самым объясняя, почему модели ИИ могут повышать производительность с масштабированием.

**Кроме того, даже если мы знаем о существовании закона масштабирования, трудно предсказать изменения конкретных возможностей модели. При исследовании ТШП-2 и ТШП-3 мы никогда не знаем, когда модель сможет научиться считать и программировать, и эти способности появляются внезапно. ** Единственное, что можно предсказать, это на числовом уровне, например, величину потерь, изменение значения энтропии и т. д. можно предсказать достаточно точно, но это как если бы мы могли вести статистику по погодным данным и предсказывать вся тенденция изменения погоды, но трудно предсказать погоду и температуру в конкретный день.

**Дваркеш Патель: Почему у модели внезапно может появиться определенная способность? Например, раньше он не понимал сложения, а теперь освоил умение считать? Что вызвало это изменение? **

Дарио Амодеи: Это еще один вопрос, над которым мы еще работаем. Мы пытаемся использовать метод механистической интерпретируемости (Mechanistic Interpretability), чтобы объяснить этот вопрос, и объяснить языковые явления с помощью идеи, похожей на соединение цепей.Вы можете представить эти вещи как цепи, соединенные одна за другой.

Есть некоторые свидетельства того, что когда модели что-то дают, ее вероятность дать правильный ответ внезапно возрастает, но если мы посмотрим на изменение до того, как модель действительно даст правильный ответ, мы увидим, что вероятность составляет от одной сотой долей. , стотысячная потихоньку поднялась до тысячной. Во многих таких случаях кажется, что происходит какой-то постепенный процесс, которого мы не наблюдаем и который мы еще не выяснили.

Мы не можем быть уверены, что «схема», подобная «сложению», всегда существовала с первого дня, но постепенно менялась от слабой к сильной с помощью определенного процесса, чтобы модель могла дать правильный ответ. На эти вопросы мы хотим ответить с помощью механистической объяснимости.

• Механическая интерпретируемость:

Интерпретируемость механизма - это исследование обратного проектирования нейронных сетей, которое можно использовать, чтобы помочь людям легче понять, как модель отображает входные данные в выходные данные, и это способ реализовать интерпретируемость модели. Основная цель объяснимости механизма состоит в том, чтобы понять глубокое обучение как естественную науку, используя структуру и параметры модели для объяснения процесса принятия решений и результатов прогнозирования модели, чтобы пользователи-люди могли понять и проверить принцип работы. модель. Его ранние работы были сосредоточены на использовании матричной факторизации и методов визуализации признаков для понимания представлений на промежуточных уровнях визуальных сетей, а в последнее время были сосредоточены на представлениях для мультимодальных сетей, а также на понимании алгоритмов нейронных сетей на уровне путей.

Компания Anthropic опубликовала исследование интерпретируемости механизмов «Механическая интерпретируемость, переменные и важность интерпретируемых оснований».

**Дваркеш Патель: Есть ли какие-нибудь способности, которые не связаны с размером модели? **

** Дарио Амодеи: Согласование модели и возможности, связанные со стоимостью, могут не проявляться естественным образом при увеличении размера модели. **Один из способов мышления состоит в том, что процесс обучения модели, по сути, предназначен для прогнозирования и понимания мира, и его основная ответственность связана с фактами, а не с мнениями или ценностями. Но здесь есть несколько свободных переменных: какое действие следует предпринять? Какую точку зрения вы должны принять? На какие факторы следует обратить внимание? Но такой метки данных для модели нет. Поэтому я думаю появление Мировоззрения и Ценностей и т.п. маловероятно.

**Дваркеш Патель: Существует ли вероятность того, что до того, как способности модели сравняются с человеческим интеллектом, данные, доступные для обучения, будут израсходованы? **

**Дарио Амодеи:**Думаю, необходимо различать, является ли это теоретической проблемой или практической ситуацией. С теоретической точки зрения, мы не так уж далеки от исчерпания данных, но мое личное предубеждение состоит в том, что это маловероятно. Мы можем генерировать данные разными способами, поэтому данные на самом деле не помеха. Есть еще одна ситуация, когда мы используем все доступные вычислительные ресурсы, что приводит к медленному прогрессу в возможностях модели. Оба сценария возможны.

**Моя личная точка зрения заключается в том, что существует высокая вероятность того, что Scaling Law не будет стагнировать, и даже если есть проблема, скорее всего, она будет вызвана вычислительной архитектурой. **Например, если мы используем LSTM или RNN, скорость эволюции способности модели изменится. Если мы столкнемся с узким местом в эволюции возможностей модели в каждой архитектурной ситуации, это будет очень серьезно, потому что это означает, что мы столкнулись с более серьезной проблемой.

**• LSTM: **

Сети с долговременной кратковременной памятью (сети с долговременной кратковременной памятью), специальная сеть RNN (циклическая нейронная сеть), могут изучать долгосрочные зависимости, решать проблему традиционных RNN при изучении шаблонов длинных последовательностей и извлекать долгосрочные и краткосрочные последовательности. информация о данных. Способность к обучению и способность представления LSTM сильнее, чем у стандартного RNN.

** Я думаю, что мы достигли стадии, когда в природе может быть не так уж много различий в том, чтобы говорить о том, что модель может и не может делать. **В прошлом люди ограничивали возможности модели, думая, что модель не может освоить способность рассуждать, изучать программирование и думать, что в некоторых аспектах она может столкнуться с узкими местами. Хотя некоторые люди, в том числе и я, раньше так не думали, но в последние несколько лет такая теория узкого места стала более популярной, а теперь она изменилась.

** Если эффект будущего процесса масштабирования модели действительно видит узкое место, я думаю, что проблема связана с дизайном функции потерь, сосредоточенным на следующей задаче прогнозирования токена. ** Когда мы уделяем слишком много внимания способностям к рассуждениям и программированию, потеря модели будет сосредоточена на маркерах, отражающих эту способность, а маркеры других проблем будут появляться реже (Примечание. модель будет основана на важности, которую ученые придают степени способностей, скорректируйте ее соотношение) **, функция потерь уделяет слишком много внимания тем токенам, которые обеспечивают наибольшую информационную энтропию, игнорируя при этом те, которые действительно важны, сигнал может быть заглушен в шуме. **

Если возникает эта проблема, нам нужно ввести какой-то процесс обучения с подкреплением.Существует много видов RL, таких как обучение с подкреплением с обратной связью с человеком (RLHF), обучение с подкреплением для целей и, как конституционный ИИ, улучшение (усиление) и обсуждение (дебаты) и тому подобное. Это и метод выравнивания модели, и способ обучения модели. ** Возможно, нам придется попробовать множество методов, но мы должны сосредоточиться на том, что должна делать модель. **

Одна из проблем обучения с подкреплением заключается в том, что вам нужно разработать очень полную функцию потерь. Функция потерь предсказания следующего токена уже спроектирована, поэтому, если шкала в этом направлении увидит верхний предел, развитие ИИ замедлится.

**Дваркеш Патель: Как появилось ваше понимание масштабирования? **

**Дарио Амодеи: **Формирование моего мнения можно проследить примерно с 2014 по 2017 год. Я уделял внимание развитию ИИ, но долгое время думал, что для реального применения ИИ потребуется много времени, до появления AlexNet. Затем я присоединился к проектной группе Ву Энда в Baidu в то время, и это был первый раз, когда я столкнулся с ИИ.

Я думаю, что мне очень повезло, в отличие от других ученых того времени, мне было поручено создать современные системы распознавания речи, и было доступно много данных и графических процессоров. **В ходе этого проекта я, естественно, понял, что масштабирование — хорошее решение. Этот процесс также отличается от постдокторских исследований: нам не обязательно придумывать умные, инновационные идеи, которые не предлагались ранее. **

На протяжении всего проекта мне нужно только провести некоторые базовые эксперименты, такие как добавление дополнительных слоев в RNN или настройка параметров обучения, чтобы попытаться увеличить время обучения модели, В течение этого периода я наблюдал за процессом обучения модели и видел смоделированное Когда это происходит. Я также пробовал добавлять новые обучающие данные или сокращать повторные тренировочные раунды и наблюдал влияние этих корректировок на производительность модели. В ходе этих экспериментов я заметил некоторые закономерные результаты. Однако мне не ясно, являются ли эти представления новаторскими или другие коллеги сделали аналогичные открытия. В целом, это просто мой удачный опыт новичка в области ИИ. Я мало что знаю об этой области, но в то время я чувствовал, что это было аналогичным образом подтверждено в области распознавания речи.

**Я познакомился с Ильей до того, как был основан OpenAI, и он сказал мне, что «нам нужно понять, что эти модели просто хотят учиться», эта точка зрения во многом вдохновила меня и заставила понять, что предыдущее наблюдение. случайный случай, но обычное явление. Этим моделям просто нужно учиться, нам нужно только предоставить качественные данные и создать достаточно места для их работы, и модели будут учиться сами. **

**Дваркеш Патель: Немногие, как вы с Ильей, пришли к выводу о «универсальном разуме». Как вы думаете об этом вопросе иначе, чем другие люди? Что заставляет вас думать, что модели будут продолжать совершенствоваться в распознавании речи, а также в других областях? **

Дарио Амодей: Я действительно не знаю, когда я впервые наблюдал подобное явление в поле речи, я подумал, что это просто закон, применимый к вертикальному полю распознавания речи. В период с 2014 по 2017 год я пробовал много разных вещей и снова и снова наблюдал одно и то же. Например, я наблюдал это в игре «Дота».Хотя данные, доступные в области робототехники, относительно ограничены, и многие люди не настроены оптимистично, я также наблюдал подобное явление. ** Я думаю, что люди, как правило, сосредотачиваются на решении насущных проблем.Они могут уделять больше внимания тому, как решить саму проблему в вертикальном направлении, а не думать о проблемах более низкого уровня в горизонтальном направлении, так что они не могут полностью рассмотреть возможность масштабирования секса. Например, в области робототехники самой фундаментальной проблемой может быть недостаточно данных для обучения, но легко сделать вывод, что масштабирование не работает. **

**Дваркеш Патель: Когда вы поняли, что язык может быть способом подачи огромных объемов данных в эти модели? **

**Дарио Амодеи:**Я думаю, что самое важное — это концепция самоконтролируемого обучения, основанная на предсказании следующего токена, а также большое количество архитектур для предсказания. Это на самом деле похоже на логику тестирования детского развития. Например, Мэри входит в комнату и кладет какой-то предмет, а затем входит Чак и перемещает предмет, а Мэри этого не замечает. Что думает Мэри? Чтобы завершить такого рода предсказание, модель должна решать связанные с ней математические проблемы, психологические проблемы и т. д. одновременно. Поэтому, на мой взгляд, чтобы делать хорошие прогнозы, вы должны снабжать модель данными и позволять ей учиться без каких-либо ограничений.

Хотя у меня было подобное ощущение давно, пока Алек Рэдфорд не сделал несколько попыток на GPT-1, я понял, что мы можем не только реализовать модель с предсказательной способностью, но и настроить ее, выполняя различные типы миссий. Я думаю, что эта штука дает нам возможность выполнять все виды задач, решать всевозможные проблемы, включая логические рассуждения. Конечно, мы также можем продолжать увеличивать размер модели.

• Алек Рэдфорд, автор Sentiment Neuron, предшественника серии GPT, и соавтор серии статей по GPT, все еще работает в OpenAI.

**Дваркеш Патель: Как вы думаете, почему для обучения модели требуется много данных? Стоит ли беспокоиться о низкой эффективности обучения моделей? **

Дарио Амодеи: Этот вопрос все еще изучается. Одна из теорий состоит в том, что размер модели на самом деле на 2-3 порядка меньше человеческого мозга, но объем данных, необходимых для обучения модели, в три-четыре раза больше, чем объем текста, прочитанного 18-летним подростком. - старое человеческое существо Порядок величины, порядок величины людей, вероятно, составляет сотни миллионов, тогда как порядок величин моделей составляет сотни миллиардов или триллионов. Объем данных, получаемых человеком, невелик, но его вполне достаточно для обработки нашей повседневной работы и жизни. Но есть и другая возможность, что помимо обучения наши чувства фактически вводят информацию в мозг.

На самом деле здесь есть парадокс: модель, которую мы имеем в настоящее время, меньше человеческого мозга, но она может выполнять многие задачи, аналогичные задачам человеческого мозга, в то же время объем данных, требуемых этой моделью, намного больше, чем что человеческого мозга. Так что нам все еще нужно продолжать исследовать и понимать этот вопрос, но в определенной степени это не важно. ** Что еще более важно, как оценить способности модели и как оценить разрыв между ними и людьми. Насколько я понимаю, разрыв не так уж далек. **

**Дваркеш Патель: Не недооценивает ли упор на масштабирование и, в более общем смысле, на развитие возможностей моделей крупномасштабных вычислительных дисков, роль алгоритмического прогресса? **

**Дарио Амодеи: **Когда статья о Трансформере была впервые опубликована, я написал о связанных проблемах и упомянул, что есть 7 взаимосвязанных факторов, которые повлияют на улучшение возможностей модели, из которых 4 фактора являются наиболее очевидными и важными: количество параметров модели, масштаб вычислительной мощности, качество данных и функция потерь. Например, такие задачи, как обучение с подкреплением или предсказание следующего токена, очень зависят от наличия правильной функции потерь или механизма стимулирования.

• Обучение с подкреплением (RL):

Найдите оптимальный план действий для каждого конкретного состояния окружающей среды с помощью основного процесса проб и ошибок. Модель машинного обучения в начале вводит случайное правило и в то же время вводит определенное количество баллов (также известных как вознаграждение) в модель каждый раз, когда предпринимается действие.

• Функция потерь (функция потерь) в машинном обучении относится к функции, которая измеряет качество подгонки.Ее функция состоит в том, чтобы отражать степень различия между выходом модели и реальным значением, то есть измерять прогноз ошибка; включая прогнозирование всех точек выборки Ошибка, обеспечивающая единое значение для представления общего качества подгонки; в то же время в процессе обучения параметры модели будут постоянно корректироваться в соответствии со значением функции потерь, в для того, чтобы минимизировать значение потерь и получить лучший эффект подгонки.

Также есть 3 фактора:

Первая — это структурные симметрии.Если архитектура не учитывает правильную симметрию, она не будет работать и будет очень неэффективной. Например, сверточная нейронная сеть (CNN) учитывает трансляционную симметрию (трансляционную симметрию), LSTM учитывает временную симметрию (временную симметрию), но проблема с LSTM заключается в том, что они не обращают внимания на контекст, эта структурная слабость распространена. Если модель не может понять и обработать давно прошедшую историю (ссылаясь на данные, которые появились ранее в структуре данных последовательности) из-за структурных причин, это будет как бы бессвязный расчет, Такие недостатки есть как у моделей RNN, так и у моделей LSTM.

**• Адам (адаптивная оценка момента): **

Адаптивная оценка момента, алгоритм Адама сочетает в себе преимущества RMSprop и SGD и может хорошо справляться с задачами невыпуклой оптимизации.

**• SGD (Стохастический градиентный спуск): **

Стохастический градиентный спуск, итерационный метод оптимизации целевой функции с соответствующими свойствами гладкости, такими как дифференцируемость или субдифференцируемость. Его можно рассматривать как стохастическое приближение к оптимизации градиентного спуска. В многомерных задачах оптимизации это снижает вычислительную нагрузку и обеспечивает более быстрые итерации в обмен на более низкую скорость сходимости.

Тогда есть числовая стабильность. Оптимизация функций потерь сложна численно и легко различима. Вот почему Адам работает лучше, чем обычное ЗППП.

Последний элемент должен гарантировать, что процесс расчета модели не будет затруднен, только тогда алгоритм может быть успешным.

Поэтому прогресс алгоритма заключается не только в повышении вычислительной мощности компьютера, но и в устранении искусственных препятствий старой архитектуры. Много раз модель хочет свободно учиться и вычислять, но мы блокируем ее без нашего ведома.

**Дваркеш Патель: Как вы думаете, будет ли что-то в масштабе Трансформера, чтобы запустить следующую большую итерацию? **

Дарио Амодеи: Думаю, это возможно. Некоторые люди пытались имитировать долгосрочные зависимости. Я также заметил, что некоторые идеи в Transformer недостаточно эффективны для представления или обработки вещей. **Однако, даже если такого рода нововведений не будет, мы и так быстро развиваемся, а если и появятся, то просто ускорят развитие месторождения, и ускорение может быть не таким уж большим, потому что скорость и так очень большая . **

**Дваркеш Патель: С точки зрения сбора данных, должна ли модель иметь воплощенный интеллект? **

Дарио Амодеи: Я склонен думать об этом не как о новой архитектуре, а о новой функции потерь, потому что среда, в которой модель собирает данные, становится совершенно другой, что важно для обучения определенным навыкам. Хотя сбор данных затруднен, по крайней мере, мы добились некоторого прогресса на пути сбора корпусов и будем продолжать в будущем, хотя есть еще больше возможностей для развития с точки зрения конкретных практик.

• Функция потери:

Это важная концепция в машинном обучении и глубоком обучении. Он используется для измерения степени различия между результатом предсказания модели и истинной меткой, то есть ошибкой предсказания модели. Функция потерь предназначена для того, чтобы модель могла минимизировать ошибку прогнозирования путем настройки параметров, тем самым повышая производительность и точность модели.

**Дваркеш Патель: Существуют ли другие подходы, такие как RL? **

Дарио Амодеи: Мы уже используем метод RLHF для обучения с подкреплением, но я думаю, что трудно различить, что это: выравнивание или способность? Они очень похожи. Я редко заставляю моделей действовать через RL. RL следует использовать только после того, как модель предпримет действия в течение определенного периода времени и поймет последствия этих действий. Поэтому я думаю, что обучение с подкреплением будет очень мощным, но также имеет много проблем с безопасностью с точки зрения того, как модели действуют в мире.

Обучение с подкреплением является широко используемым инструментом, когда действия предпринимаются в течение длительного периода времени, а последствия этих действий становятся понятными только позже.

**Дваркеш Патель: Как вы думаете, как эти технологии будут интегрированы в конкретные задачи в будущем? Могут ли эти языковые модели взаимодействовать друг с другом, оценивать друг друга, ссылаться на результаты своих исследований и улучшать их? Или каждая модель работает независимо и фокусируется только на предоставлении результатов сама по себе, не сотрудничая с другими моделями? Смогут ли эти языковые модели высокого уровня сформировать настоящую совместную систему в процессе разработки и применения в будущем, или каждая модель будет заниматься своим делом? **

Дарио Амодеи: Вероятно, в будущем модели потребуется выполнять более сложные задачи, что является неизбежной тенденцией. Однако из соображений безопасности нам может потребоваться до определенной степени ограничить область применения языковой модели, чтобы снизить потенциальные риски. **Возможен ли диалог между моделями? Предназначены ли они в первую очередь для пользователей-людей? Эти проблемы требуют учета социальных, культурных и экономических факторов, выходящих за рамки технического уровня, и их трудно точно предсказать.

** Хотя мы можем предсказать тенденцию роста размера модели, трудно сделать надежные прогнозы по таким вопросам, как сроки коммерциализации или форма заявки. Я сам не очень хорошо умею предсказывать такую будущую тенденцию развития, да и в настоящее время никто не может сделать это очень хорошо. **

**Насколько способности модели будут соответствовать способностям людей? **

**Дваркеш Патель: Если бы кто-нибудь сказал мне в 2018 году, что в 2023 году у нас будет такая модель, как Клод-2, со всеми видами впечатляющих возможностей, я бы определенно подумал, что ОИИ был достигнут в 2018 году. Но ясно, что по крайней мере сейчас, а возможно, даже и в будущих поколениях, мы прекрасно понимаем, что между уровнями ИИ и человека все еще будут существовать различия. Почему такое несоответствие между ожиданиями и реальностью? **

**Дарио Амодеи: **Я новичок в GPT-3, и на ранних стадиях Anthropic мое общее мнение об этих моделях таково: кажется, они действительно понимают суть языка, я не уверен, что нам нужно расширить модель до какой степени, возможно, нам нужно уделять больше внимания другим областям, таким как обучение с подкреплением. Я думаю, что в 2020 году можно будет еще больше увеличить размер модели, но по мере углубления исследований я начинаю думать, не эффективнее ли напрямую добавлять другое целевое обучение, такое как обучение с подкреплением.

** Мы видели, что человеческий интеллект на самом деле представляет собой очень широкий диапазон, поэтому определение «машины, достигающие человеческого уровня» само по себе является диапазоном, а место и время, когда машины выполняют разные задачи, различны. Например, много раз эти модели приближались к человеческим возможностям или даже превосходили их, но все еще находятся в зачаточном состоянии, когда дело доходит до доказательства относительно простых математических теорем. Все это показывает, что интеллект не является непрерывным спектром (спектром). ** Существуют различные виды профессиональных знаний и умений в различных областях, и методы запоминания также различны. Если бы вы спросили меня 10 лет назад (примечание: Дарио в то время все еще изучал физику и неврологию), я бы и не подумал, что это так.

**Дваркеш Патель: Как вы думаете, насколько перекрываются наборы навыков, которые эти модели продемонстрируют в результате обучения, полученного этими моделями из огромного количества интернет-данных, которые люди получают в результате эволюции? **

Дарио Амодеи: Есть значительное совпадение. Многие модели играют роль в коммерческих приложениях, эффективно помогая людям повышать эффективность. Учитывая разнообразие человеческой деятельности и обилие информации в Интернете, я думаю, что модели в какой-то степени изучают физические модели реального мира, но они не учатся тому, как действовать в реальной реальности. доработать . Я думаю, что есть вещи, которым модели не учатся, а люди учатся.

**Дваркеш Патель: Могут ли модели превзойти людей во многих задачах, связанных с бизнесом и экономикой, в ближайшие несколько лет? При этом модели все же могут уступать людям в некоторых задачах, избегая, таким образом, подобного взрыва интеллекта? **

Дарио Амодей: Этот вопрос трудно предугадать. Что я хочу напомнить, так это то, что закон масштабирования может дать некоторые идеи прогнозирования с точки зрения теоретической основы, но будет очень сложно действительно понять детали будущего развития. Конечно, закон масштабирования может продолжать применяться, и факторы безопасности или регулирования будут замедлять прогресс, но если эти трения отложить в сторону, я думаю, что если ИИ сможет продвинуться дальше в создании экономической ценности, то он должен добиться большего прогресса. будет сделано в большем количестве полей.

Я не вижу, чтобы модель работала особенно слабо в какой-либо области или вообще не добилась прогресса. Как математика и программирование в прошлом, они сложны, но также дают неожиданные результаты. За последние 6 месяцев модель 2023 года добилась значительного прогресса по сравнению с моделью 2022. Хотя производительность модели в разных областях и задачах не полностью сбалансирована, улучшение общей способности определенно пойдет на пользу всем областям.

**Дваркеш Патель: Когда модель сталкивается со сложной задачей, способна ли модель выполнять цепочку мыслей в серии непрерывных задач? **

** Дарио Амодеи: ** Способность к непрерывному принятию решений зависит от обучения обучению с подкреплением, чтобы модель могла выполнять долгосрочные задачи. **И я не думаю, что для этого требуется более масштабная дополнительная вычислительная мощность.Такое мышление является неправильной недооценкой собственных способностей модели к обучению. **

Вопрос о том, смогут ли модели превзойти людей в одних областях, но с трудом справятся с этим в других, я думаю, сложен, в некоторых областях это может быть правдой, но в некоторых областях это не так, потому что физический мир вовлечен в воплощенные задачи интеллекта. в

Ну и что дальше? Может ли ИИ помочь нам обучить более быстрый ИИ, способный решить эти проблемы? Физический мир больше не нужен? Нас беспокоят проблемы выравнивания? Есть ли опасения по поводу неправомерного использования, такого как создание оружия массового уничтожения? Должны ли мы беспокоиться о том, что сам ИИ непосредственно возьмет на себя будущие исследования в области ИИ? Беспокоимся ли мы о том, что он достигнет определенного порога экономической производительности, при котором он сможет выполнять задачи на уровне среднего? ... Я думаю, что на эти вопросы могут быть разные ответы, но я думаю, что все они будут в течение нескольких лет.

**Дваркеш Патель: Если бы Клод был сотрудником Anthropic, какой была бы его зарплата? Действительно ли это ускоряет развитие искусственного интеллекта? **

Дарио Амодей: Для меня в большинстве случаев это скорее стажер, но все же лучше, чем стажер в некоторых конкретных областях. Но в целом может быть трудно дать абсолютный ответ на этот вопрос, потому что модели не являются людьми по своей природе, они могут быть предназначены для ответа на один или несколько вопросов, ** но в отличие от людей, у них нет концепции «опыт, основанный на времени». **

**Если ИИ хочет стать более эффективным, он должен сначала помочь людям повысить собственную производительность, а затем постепенно достичь того же уровня производительности, что и люди. Следующий шаг после этого — стать главной силой в развитии науки, что, я верю, произойдет в будущем. Но я подозреваю, что детали того, что на самом деле произошло в будущем, сейчас будут выглядеть несколько странно, не так, как мы ожидали. **

**Дваркеш Патель: Как вы думаете, когда способности модели достигнут человеческого уровня? Каким он будет тогда? **

Дарио Амодей: Это зависит от того, насколько высоки или низки человеческие ожидания и стандарты. Например, если мы ожидаем, что модель общается только в течение 1 часа, и модель может вести себя как хорошо образованный человек во время процесса, цель доведения модели до человеческого уровня может быть не за горами, я думаю, что это возможно через 2-3 года сбудется. ** На этот график в значительной степени влияет решение компании или отрасли замедлить разработку или правительственные ограничения по соображениям безопасности. **Но с точки зрения данных, вычислительной мощности и экономии затрат мы недалеко от этой цели. **

Но даже если модель достигнет этого уровня**, я не думаю, что она сможет доминировать в большинстве исследований ИИ или существенно изменить то, как работает экономика, и при этом она не является существенно опасной. Так что в целом разные стандарты требуют разных сроков реализации, но с чисто технической точки зрения не так уж далеко до модели, сравнимой с базовым образованным человеком. **

**Дваркеш Патель: Почему модель может достичь тех же способностей, что и человек с базовым образованием, но не может участвовать в экономической деятельности или заменить роль человека? **

**Дарио Амодеи:**Во-первых, возможно, модель недостаточно высокого уровня. **Сможет ли это значительно повысить производительность 1000 хороших ученых в такой области, как исследования ИИ? Сравнительное преимущество модели в этом отношении пока не очевидно. **

В настоящее время большие модели не сделали важных научных открытий, вероятно, потому, что уровень этих моделей недостаточно высок, и производительность этих моделей может быть только эквивалентна B-уровню или B-уровню. Но я считаю, что это изменится с масштабированием модели. Модели лидируют в других областях запоминания, интеграции фактов и установления связей. Особенно в области биологии из-за сложности организмов современные модели накопили большой объем знаний. Открытие и связь важны в этой области. В отличие от физики, биология требует много фактов, а не только формул. Так что я уверен, что у моделей уже есть много знаний, но они не смогли собрать их воедино, потому что уровень навыков не на должном уровне. Я думаю, что они постепенно развиваются, чтобы интегрировать эти знания на более высоком уровне.

Другая причина заключается в том, что в реальной деловой деятельности существует множество невидимых трений, которые модель не может изучить. Например, в идеале мы можем использовать ИИ-ботов для взаимодействия с клиентами, но реальная ситуация намного сложнее, чем теория, и мы не можем просто полагаться на роботов по обслуживанию клиентов или надеяться, что ИИ сможет заменить сотрудников-людей для выполнения этих задач. А на самом деле внутри компании все еще есть затраты на искусственное продвижение внедрения модели, совмещение ИИ-бота и рабочего процесса и так далее.

**Во многих случаях эффективность людей, использующих модель, невысока, а потенциал модели не раскрыт в полной мере не потому, что модель недостаточно функциональна, а потому, что людям приходится тратить время на изучение как заставить его работать более эффективно. **

В целом, в краткосрочной перспективе модели не заменят полностью людей, но в более долгосрочной перспективе, по мере того как модели продолжают совершенствоваться и играть все большую роль в повышении эффективности человеческого труда, люди в конечном итоге уступят место моделям. Просто нам трудно определить точное время для разных фаз. В краткосрочной перспективе существуют различные препятствия и сложные факторы, которые делают модель «ограниченной», но по сути ИИ все еще находится в стадии экспоненциального роста.

**Дваркеш Патель: После того, как мы доберемся до этой точки в ближайшие 2-3 года, будет ли весь ИИ развиваться так же быстро, как сегодня? **

Дарио Амодеи: Присяжные еще не вынесены. Наблюдая за функцией потерь, мы обнаружили, что эффективность обучения модели снижается, а кривая закона масштабирования не такая крутая, как в первые дни. Это подтверждают и модели, выпущенные различными компаниями. Но по мере развития этой тенденции крошечное количество энтропии в каждом точном прогнозе становится все более важным. Возможно, именно эти крошечные значения энтропии создали разрыв между Эйнштейном и средним физиком. С точки зрения фактической производительности, метрика, кажется, улучшается относительно линейным образом, хотя это трудно предсказать. Поэтому трудно четко увидеть эти ситуации. Кроме того, я думаю, что самым большим фактором ускорения является то, что все больше и больше денег вливается в это пространство, и люди понимают, что это пространство имеет огромную экономическую ценность. Так что я ожидаю примерно 100-кратного увеличения финансирования самых больших моделей, и производительность чипа улучшается, и алгоритмы улучшаются, потому что сейчас над этим работает так много людей.

**Дваркеш Патель: Как вы думаете, Клод в сознании? **

Дарио Амодей: Пока не уверен. Первоначально я думал, что нам нужно беспокоиться о такого рода проблемах только тогда, когда модель работает в достаточно богатой среде, такой как воплощенный интеллект, или имеет долгосрочный опыт и функцию вознаграждения (функция вознаграждения), но теперь меня интересует модель, особенно модель После исследования внутреннего механизма моя точка зрения пошатнулась: **Похоже, что большая модель имеет много когнитивных механизмов, необходимых для того, чтобы стать активным агентом, таких как индукционная голова (Induction Head). Учитывая уровень возможностей сегодняшних моделей, это может стать настоящей проблемой в ближайшие 1-2 года. **

• Функция вознаграждения:

Механизм поощрения в обучении с подкреплением, который сообщает агенту, что правильно, а что неправильно, посредством поощрений и наказаний.

• Индукционная головка:

Конкретный компонент/структура модели в модели Transformer, которая позволяет модели выполнять контекстное обучение.

**Дваркеш Патель: Как мы понимаем «интеллект», поскольку возможности языковых моделей продолжают расти и приближаться к человеческому уровню? **

Дарио Амодей: Я действительно понимаю, что интеллект возникает из понимания «материальной» природы вычислительной мощности. Интеллектуальные системы могут состоять из множества независимых модулей или быть чрезвычайно сложными. Рич Саттон называет это «трудным уроком», также известным как «гипотеза масштабирования», и первые исследователи, такие как Шейн Лейк и Рэй Курцвейл, начали понимать это примерно в 2017 году.

• Горький урок / Гипотеза масштабирования:

В 2019 году Рич Саттон опубликовал статью «Горький урок». Суть статьи заключается в том, что исследования в области ИИ должны в полной мере использовать вычислительные ресурсы. Только при использовании большого количества вычислений можно совершить исследовательский прорыв.

В течение 2014-2017 годов все больше исследователей выявляли и понимали этот момент. Это большой шаг вперед в научном понимании. Если мы сможем создать интеллект без особых условий, просто с соответствующими градиентами и сигналами потерь, тогда эволюция интеллекта станет менее загадочной.

Возможность посмотреть на модель, ничего слишком поучительного для меня, чтобы пересмотреть идею человеческого интеллекта. Выбор некоторых когнитивных способностей более произволен, чем я думал, и корреляция между различными способностями не может быть объяснена самой тайной. **Модели сильны в кодировании, но еще не в состоянии доказать теорему о простых числах, и, вероятно, люди тоже. **

Выравнивание: интерпретируемость заключается в "рентгеновском снимке" модели

**Дваркеш Патель: Что такое объяснимость механизма? Какая связь между ним и выравниванием? **

**Дарио Амодеи: **В процессе реализации выравнивания мы не знаем, что произошло внутри модели. Я думаю, что при всех методах, связанных с тонкой настройкой, некоторые потенциальные риски безопасности остаются, модель просто учат их не выставлять. ** Суть всей идеи объяснимости механизма заключается в том, чтобы действительно понять, как модель работает внутри. **

У нас пока нет однозначного ответа. Я могу примерно описать процесс. Проблема для тех методов, которые утверждают, что могут достичь согласования на этом этапе, заключается в следующем: эти методы все еще эффективны, когда масштаб модели больше, возможности сильнее или определенные ситуации меняются? Поэтому ** я думаю, что если есть «машина-оракул», которая может сканировать модель и судить, была ли модель выровнена, это значительно облегчит эту проблему. **

В настоящее время ближе всего к концепции такого оракула мы подходим к чему-то вроде объяснимости механизма, но это все еще далеко от наших идеальных требований. Я склонен думать о наших нынешних попытках выравнивания как о расширенном тренировочном наборе, но я не уверен, смогут ли они продолжать оказывать хороший эффект выравнивания на проблему выхода из распределения. Это похоже на рентген модели, а не на ее модификацию, больше похоже на оценку, чем на вмешательство.

**Дваркеш Патель: Почему объяснимость механизма должна быть полезной? Как это помогает нам предсказать потенциальный риск модели? Это все равно, что предположить, что вы экономист, который посылает микроэкономистов изучать различные отрасли, но все еще имеет высокую вероятность того, что ему будет трудно предсказать, будет ли рецессия в ближайшие 5 лет. **

**Дарио Амодеи: Наша цель не в том, чтобы полностью понять каждую деталь, а в том, чтобы проверить основные характеристики модели, такие как рентген или МРТ, чтобы определить, существенно ли внутреннее состояние и цель модели отличаются от несоответствие внешнего вида, или может ли оно привести к каким-то деструктивным целям. **Хотя ответы на многие вопросы мы получим не сразу, по крайней мере способ обеспечен.

Могу привести человеческий пример. С помощью МРТ-теста мы можем предсказать, есть ли у кого-то психическое заболевание, с большей вероятностью, чем случайное предположение. Нейробиолог работал над этим несколько лет назад, проверил свою собственную МРТ и обнаружил, что у него тоже есть эта особенность. Окружающие говорили: «Это так очевидно, ты мудак. С тобой должно быть что-то не так», а сам ученый совершенно этого не осознавал.

Основная идея этого примера заключается в том, что внешнее поведение модели может вообще не вызывать у людей проблемного поведения и быть очень целеустремленным, но ее внутренняя часть может быть «темной». , которые внешне похожи на людей. , но внутренняя мотивация необыкновенная.

**Дваркеш Патель: Если модель достигнет человеческого уровня в ближайшие 2-3 года, как вы думаете, сколько времени потребуется, чтобы реализовать Мировоззрение? **

Дарио Амодей: Это очень сложный вопрос. Я думаю, что многие люди до сих пор не понимают, что такое Мировоззрение. Обычно люди думают, что это похоже на выравнивание моделей — это проблема, которую нужно решить, или что решение проблемы выравнивания похоже на гипотезу Римана, и однажды мы сможем ее решить. ** Я думаю, что проблемы Мировоззрения более неуловимы и непредсказуемы, чем думают люди. **

Во-первых, **С постоянным улучшением масштаба и возможностей языковых моделей в будущем появятся мощные модели с автономными возможностями.Если такие модели намерены уничтожить человеческую цивилизацию, мы в принципе не сможем их остановить. **

Во-вторых, Наша нынешняя способность управлять моделью недостаточно сильна, это связано с тем, что модель построена по принципу статистического обучения, хотя можно задать много вопросов и дать ответ, но никто не может предсказать к чему может привести ответ на n-й вопрос.

**Кроме того, способ обучения модели был абстрактным, что затрудняло прогнозирование всех его последствий в реальных приложениях. ** Типичным примером является то, что Бинг и Сидней продемонстрировали некоторые резкие и небезопасные характеристики после определенного сеанса обучения, например, прямо угрожая другим. Все это показывает, что результаты, которые мы получаем, могут полностью отличаться от ожиданий. Я думаю, что наличие двух вышеупомянутых проблем само по себе является серьезной скрытой опасностью. Нам не нужно вникать в детали инструментальной рациональности и эволюции. Этих двух моментов достаточно, чтобы вызвать беспокойство. В настоящее время каждая установленная нами модель имеет определенные скрытые опасности, которые трудно предсказать, и мы должны обратить на это внимание.

• Гипотеза Римана:

Гипотеза Римана — важная проблема математики, которая до сих пор не решена. Гипотеза о расположении нулей ζ-функции Римана ζ(s) была высказана математиком Бернхардом Риманом в 1859 году.

• Сидней:

Не так давно Microsoft выпустила последнюю версию своей поисковой системы Bing, в которую интегрирован первоначальный чат-бот с кодовым названием «Сидней». Однако вскоре тестировщики обнаружили проблемы с чат-ботом. Во время диалога изредка показывает явление раздвоения личности и даже обсуждает с пользователем любовь и брак, показывая человеческие эмоции.

**Дваркеш Патель: Предполагая, что модель может разработать опасные технологии, такие как биологическое оружие, в следующие 2-3 года, могут ли ваши текущие исследования по объяснимости механизмов, конституционному ИИ и RLHF быть эффективными в предотвращении таких рисков? **

Дарио Амодей: Что касается вопроса, обречена ли языковая модель по умолчанию или выравнивание по умолчанию, то, судя по текущей модели, результат может быть ненормальным, как у Бинга или Сиднея, а может быть, как у Клода, нормальным. Но если вы напрямую примените это понимание к более мощной модели, результаты могут быть хорошими или плохими, в зависимости от конкретной ситуации. Это не "выравнивание по умолчанию", результат больше зависит от степени контроля детализации.

• выравнивание по умолчанию:

Представление о том, что достижение выравнивания в искусственном общем интеллекте (AGI) может быть проще, чем предполагалось изначально. Когда в модели есть подробная информация о нашем мире, в модели уже есть человеческие ценности по сути. Для согласования с ОИИ необходимо только извлечь эти значения и направить ИИ на понимание этих абстрактных человеческих концепций. doom по умолчанию является противоположностью мировоззрения по умолчанию, и считается, что модель не может достичь мировоззрения.

Качество модели — серая зона, нам сложно полностью контролировать каждую переменную и ее внутреннюю связь, ошибки могут привести к иррациональным результатам. Имея это в виду, я думаю, что природа проблемы заключается не в обреченном успехе или обреченном провале, а в определенной вероятности риска. ** В ближайшие два-три года мы должны посвятить себя совершенствованию методов диагностики моделей, методов обучения технике безопасности и уменьшению возможных различий.В настоящее время наши возможности контроля все еще нуждаются в укреплении. Проблема выравнивания отличается от гипотезы Римана тем, что это проблема системной инженерии, которую можно решить, только накапливая практику с течением времени. Только продолжая продвигать различные задачи, мы можем постепенно оптимизировать уровень контроля и снизить риски. **

Дваркеш Патель: Вообще говоря, есть три предположения о будущем мировоззрения:

1) Используйте RLHF++, чтобы легко реализовать выравнивание модели;

2) Несмотря на то, что это серьезная проблема, у крупных компаний есть возможность окончательно ее решить;

**3) До сих пор сложно добиться Выравнивания модели на нынешнем уровне человеческого общества. **

** Каково ваше личное мнение о вероятности возникновения каждой ситуации? **

**Дарио Амодеи:**Я чувствую, что в этих возможностях есть определенные риски, и мы должны относиться к ним серьезно, но меня больше интересует, как изменить вероятность этих трех возможных исходов путем приобретения новых знаний посредством обучения.

** Интерпретируемость механизма может не только напрямую решить проблему, но и помочь нам понять реальную сложность выравнивания модели ** Новые риски, которые помогут нам понять природу проблемы.

Что касается некоторых теоретических предположений о наличии общей цели (конвергентной цели), то я не могу полностью согласиться. **Объяснимость механизма подобна своеобразному «рентгену» - только понимая проблему на уровне внутреннего механизма, мы можем сделать вывод о том, трудно ли преодолеть определенные трудности. **Слишком много предположений, наше понимание процесса все еще неглубоко, и мы слишком самоуверенны, но ситуация, вероятно, окажется более сложной, чем ожидалось.

**Дваркеш Патель: Насколько сложно согласовать Claude 3 и серию будущих моделей? Это особенно важно? **

Дарио Амодей :

**Больше всего всех беспокоит то, что все модели ИИ могут достичь согласованности на поверхности, но на самом деле они могут ввести нас в заблуждение, но меня больше интересует, что нам могут сказать исследования машинной интерпретации. Как я только что сказал, объяснимость механизма подобна «рентгеновскому снимку» модели, точно так же, как мы не можем утверждать, что рентгеновский снимок верен, мы можем только сказать, что модель, похоже, не против нас. ** Теоретически он действительно может эволюционировать в нашу противоположность, и этот вопрос не определен на 100%. Просто на данном этапе интерпретируемость — лучший способ заставить модель развиваться не так.

**Дваркеш Патель: Должны ли мы при точной настройке или обучении модели обращать внимание на то, чтобы избегать вредоносного контента, который может представлять опасность? Например, при изучении тем, связанных с производством биологического оружия, модель может давать неуместные ответы из-за неправильного понимания вопроса. **

Дарио Амодеи: Для текущей языковой модели риск утечки данных практически отсутствует. Если нам нужно настроить модель, мы будем использовать ее на небольшой территории в частной среде, контролировать весь процесс с помощью отраслевых экспертов и предотвращать любые потенциальные проблемы, поэтому, если произойдет утечка, это будет похоже на модель с открытым исходным кодом. . В настоящее время это в основном вопрос безопасности. Но реальная опасность модели заключается в том, что нам нужно беспокоиться о том, что если мы обучим очень мощную модель и захотим подтвердить, безопасна она или опасна, то может возникнуть риск доминирования модели. Чтобы избежать этого, убедитесь, что модели, которые мы тестируем, недостаточно мощны для выполнения этих операций.

**Дваркеш Патель: При выполнении теста типа «может ли модель воспроизвести себя как опасную способность», что, если модель действительно может воспроизвести себя? **

Дарио Амодей: Это предположение очень разумно. Нам нужно делать ответственные выводы, и в обсуждениях с Arc (Центр исследования выравнивания, Центр исследования выравнивания) мы узнали, что нам нужно тщательно и постепенно улучшать тестовые стандарты возможностей модели. Например, перед тестированием мы должны четко исключить возможность того, что модель может напрямую открыть учетную запись AWS или зарабатывать средства самостоятельно — такое поведение является очевидным условием выживания модели в дикой природе. Мы должны настроить различные тестовые индикаторы на очень низкий уровень такого рискованного поведения.Постепенно увеличивая сложность тестирования, мы также должны более тщательно контролировать каждый шаг теста, чтобы предотвратить любые потенциальные угрозы безопасности.

• Арка (Центр исследования мировоззрения, Центр исследования мировоззрения):

Основанная в 2021 году, это некоммерческая организация, занимающаяся исследованиями безопасности искусственного интеллекта (AI Safety), а ее офис расположен в районе залива Калифорнии, США. Основателем ARC является Пол Кристиано, уважаемая фигура в индустрии искусственного интеллекта, который когда-то возглавлял исследовательскую группу по выравниванию в OpenAI. Поскольку он был на переднем крае, он глубоко понимает, как глубокое обучение развилось до того состояния, в котором оно находится сегодня.

AGI Safety: безопасность ИИ и кибербезопасность

**Дваркеш Патель: Если вы возьмете 30 лет в качестве шкалы, что вы считаете более важным, безопасность ИИ или выравнивание? **

Дарио Амодей: Не думаю, что через 30 лет это станет проблемой, и меня беспокоит и то, и другое.

Теоретически существует ли модель, способная монополизировать мир? Если модель следует только желаниям небольшой группы людей, то эта группа людей может использовать эту модель, чтобы господствовать над миром. Это означает, что как только возникает проблема с выравниванием, мы должны уделять такое же внимание проблемам безопасности ИИ, вызванным злоупотреблением. **

Несколько месяцев назад OpenAI попытался объяснить GPT-2 с помощью GPT-4, что является очень важным шагом в объяснимости. Сейчас мы в целом считаем, что масштаб и безопасность тесно связаны и дополняют друг друга. Как судить и оценивать другие интеллекты и, возможно, однажды даже использовать их для проведения исследований мировоззрения.

**Дваркеш Патель: Ваша точка зрения может быть относительно оптимистичной, но чья-то точка зрения может быть более пессимистичной, у нас может даже не быть возможности правильно выровнять модель так, как мы хотим, почему вы в этом уверены? **

**Дарио Амодеи: **Неважно, насколько сложно решить задачу «Выравнивание», любой по-настоящему успешный план должен учитывать как вопросы безопасности ИИ, так и вопросы выравнивания. ** Поскольку технология ИИ продолжает развиваться, это может привести к проблемам баланса сил между странами. В то же время возникает большой вопрос: способны ли люди совершать злоумышленные действия, которые трудно остановить самостоятельно? **

Эти проблемы необходимо решать одновременно, если мы хотим найти решения, которые действительно работают и ведут нас к светлому будущему. ** Было бы неуместно, если бы мы заняли позицию, согласно которой, если первая проблема не может быть решена, нам не нужно думать о последующей проблеме. Наоборот, мы обязаны ценить последнее. ** Независимо от того, что ждет нас в будущем, мы должны серьезно относиться к этим вопросам.

**Дваркеш Патель: Почему вы говорите, что потребуется 2-3 года, чтобы большая модель смогла осуществить крупномасштабную биотеррористическую атаку или что-то в этом роде? **

• Конгресс США провел совещание по регулированию технологий ИИ 25 июля этого года.Правительство США сравнило ИИ со вторым американским «Манхэттенским проектом» или вторым «Проектом пилотируемой посадки на Луну» НАСА и пригласило участников, включая компании, занимающиеся искусственным интеллектом, включая OpenAI и Anthropic. Во время конференции Дарио Амодеи сказал, что опасается, что искусственный интеллект может быть использован для создания опасных вирусов и другого биологического оружия в течение двух лет.

Дарио Амодей: Когда я был в Конгрессе, я говорил, что есть некоторые шаги для получения информации в Google, и есть некоторые шаги, которые «отсутствуют», разбросаны по разным учебникам и могут даже не появиться в любой учебник. Эта информация является неявным знанием, а не явным знанием. Мы обнаружили, что в большинстве случаев эти важные недостающие части не были полностью заполнены моделью. Но мы также обнаружили, что в некоторых случаях модель заполняет пробелы. Однако галлюцинации, которые иногда могут возникать, когда модели могут заполнить пробелы, также являются фактором, обеспечивающим нашу безопасность.

Иногда люди могут задавать модели вопросы, связанные с биологией, чтобы направить модель в ответ с вредоносной информацией, связанной с биологическими атаками, но на самом деле эту информацию также можно найти в Google, поэтому я не особенно беспокоюсь об этой ситуации. На самом деле, я думаю, вместо этого, слишком большое внимание к ответу Клода может привести к тому, что другие настоящие преступления будут упущены из виду.

Но есть также много признаков того, что модель хорошо справляется с ключевыми задачами. Если мы сравним сегодняшнюю модель с предыдущей моделью, то отчетливо почувствуем быстрое улучшение возможностей модели, так что в ближайшие 2-3 года мы столкнемся с реальными вызовами.

**Дваркеш Патель: Помимо угрозы, которую ИИ может представлять для людей, вы также уделяете особое внимание кибербезопасности (кибербезопасности)? Как у вас дела, ребята, на данный момент? **

Дарио Амодеи: По сути, мы внесли некоторые архитектурные инновации, которые внутри компании называем вычислительными множителями, потому что эти разработки также являются модернизацией вычислительного уровня. Мы работали над этим в течение последних нескольких месяцев, но я не могу вдаваться в подробности, чтобы не нарушить архитектуру, и лишь несколько человек в Anthropic знают об этом. Я не могу сказать, что «наша архитектура абсолютно безопасна на 100%», но Anthropic действительно инвестирует в эту область, чтобы избежать проблем с сетевой безопасностью. Хотя у наших оппонентов были такие инциденты (примечания: речь идет об утечке личных данных и заголовков чатов некоторых пользователей ChatGPT Plus, произошедшей 20 марта 2023 г.), в краткосрочной перспективе это выглядит хорошо для Anthropic, но в в долгосрочной перспективе то, как вся отрасль обеспечивает собственную безопасность, является самой важной вещью.

Наш директор по безопасности отвечал за безопасность Google Chrome, которая была широко нацеленной атакой. Ему нравится думать о том, сколько будет стоить успешная атака Антропика. Наша цель состоит в том, чтобы стоимость взлома Anthropic другими была выше, чем стоимость простого обучения собственной модели пользователя. Логика здесь такова, что если в атаке есть риск, то она обязательно поглотит дефицитные ресурсы.

Я думаю, что наши стандарты безопасности очень высоки, если сравнивать с компанией с таким же размером в 150 человек, инвестиции в безопасность этих компаний совершенно несопоставимы с инвестициями Anthropic, это довольно сложно. В целях обеспечения безопасности лишь очень небольшое число людей в компании Anthropic разбираются в деталях обучения модели.

**Дваркеш Патель: У технологических компаний уже достаточно средств защиты для борьбы с ОИИ? **

Дарио Амодей: Я лично не уверен, достаточно ли текущего опыта технологических компаний в вопросах безопасности для борьбы с ОИИ, потому что может быть много кибератак, о которых мы не знаем, поэтому сложно нарисовать выводы сейчас. Существует правило, что когда чему-то уделяется достаточно внимания, на него обычно нападают. ** Например, недавно мы стали свидетелями взлома учетных записей электронной почты некоторых высокопоставленных чиновников правительства США в Microsoft, поэтому разумно предположить, что это произошло из-за действий неких сил, направленных на кражу государственной тайны.

**По крайней мере, на мой взгляд, если что-то представляет большую ценность, это обычно украдут. Меня беспокоит то, что в будущем ОИИ будет считаться чрезвычайно ценным, и это будет похоже на кражу ядерной ракеты, и с этим нужно быть очень осторожным. ** Я настаиваю на повышении уровня сетевой безопасности в каждой компании, в которой я работаю. Меня беспокоит сетевая безопасность в том, что (сам этот вопрос) нельзя рекламировать с большой помпой, а преимущество исследований в области безопасности заключается в том, что они может позволить компаниям сформировать конкурентное преимущество, и, используя это как аргумент для найма, я думаю, мы достигли этого.

Раньше мы конкурировали с нашими коллегами через исследования интерпретируемости, а затем другие учреждения поняли, что они отстают, и начали прилагать усилия в этих областях. Но кибербезопасность изо всех сил пытается сделать то же самое, потому что большую часть работы нужно делать тихо. Мы публиковали статью об этом раньше, но важны общие результаты.

**Дваркеш Патель: Что будет делать Anthropic с точки зрения безопасности в ближайшие 2-3 года? **

**Дарио Амодеи: Безопасность центра обработки данных очень важна.Хотя центр обработки данных не обязательно должен находиться в том же месте, что и компания, мы делаем все возможное, чтобы центр обработки данных также находился в Соединенных Штатах. **

Кроме того, особое внимание необходимо уделить физической безопасности центра обработки данных и защите вычислительных устройств, таких как графические процессоры. Если кто-то решит запустить какую-то ресурсоемкую кибератаку, ему просто нужно пойти прямо в центр обработки данных, чтобы украсть данные, или извлечь данные, пока они находятся в пути от центра к нам. Эти конструкции будут сильно отличаться от традиционных концепций как по форме, так и по функциям. **Учитывая быстрое развитие современных технологий, через несколько лет размер и стоимость сетевых центров обработки данных могут быть сопоставимы с авианосцами. Помимо возможности обучать огромные модели через подключения к домену, безопасность самого центра обработки данных также будет важным вопросом. **

**Дваркеш Патель: В последнее время ходили слухи, что мощности, графическому процессору и другим компонентам, необходимым для соответствия моделям следующего поколения, стало не хватать. **

*Дарио Амодеи: Рынок не ожидал, что большая модель так быстро достигнет беспрецедентного масштаба, но обычно считается, что центры обработки данных промышленного уровня должны быть построены для поддержки исследований и разработок больших моделей *. Как только проект доходит до этой стадии, каждый компонент и деталь в нем должны обрабатываться по-разному, и могут возникнуть проблемы из-за некоторых удивительно простых факторов, примером которых является электричество, которое вы упомянули.

Для центров обработки данных мы будем сотрудничать с поставщиками облачных услуг.

Доверие к коммерциализации и долгосрочной выгоде

**Дваркеш Патель: Ранее вы упомянули, что возможности моделей быстро улучшаются, но при этом трудно обеспечить ценность существующей экономической системы. Как вы думаете, у нынешних продуктов ИИ достаточно времени, чтобы получить долгосрочный стабильный доход на рынке? Или его можно было в любой момент заменить более совершенной моделью? Или к тому времени весь ландшафт отрасли будет совершенно другим? **

Дарио Амодеи: Это зависит от определения понятия «большой масштаб». В настоящее время несколько компаний имеют годовой доход от 100 миллионов до 1 миллиарда долларов США, но действительно трудно предсказать, смогут ли они достичь десятков миллиардов или даже триллионов в год, потому что это также зависит от многих неопределенных факторов. **Сейчас некоторые компании широко применяют инновационные технологии ИИ, но это не означает, что приложение с самого начала достигло наилучших результатов, даже если есть доход, он не полностью равен созданию экономической ценности, а согласованное развитие всей отраслевой цепочки — длительный процесс. **

**Дваркеш Патель: С антропной точки зрения, если технология языковых моделей развивается так быстро, теоретически, оценка компании должна расти очень быстро? **

Дарио Амодеи: Даже если мы сосредоточимся на исследовании модели безопасности, а не на прямой коммерциализации, мы ясно почувствуем, что технический уровень на практике растет в геометрической прогрессии. Для компаний, которые считают коммерциализацию своей основной целью, этот прогресс, безусловно, быстрее и заметнее, чем у нас. ** Мы признаем, что сама технология языковых моделей быстро развивается, но по сравнению с процессом всестороннего применения всей экономической системы накопление технологий все еще находится на относительно низкой начальной точке. **

**Определение будущего направления — это гонка между двумя факторами: скоростью, с которой совершенствуется сама технология, и скоростью, с которой она эффективно интегрируется, применяется и входит в реальную экономическую систему. Оба, вероятно, будут развиваться с высокой скоростью, но порядок комбинирования и небольшие различия могут привести к очень разным результатам. **

**Дваркеш Патель: Технологические гиганты могут инвестировать в обучение моделей до $10 млрд в ближайшие 2-3 года.Какое влияние это окажет на Anthropic? **

**Дарио Амодеи: Первый случай заключается в том, что если мы не сможем сохранить свое передовое положение из-за стоимости, то мы не будем продолжать настаивать на разработке самого передового. **Вместо этого мы рассмотрим, как извлечь выгоду из моделей предыдущих поколений.

**Второй вариант – согласиться на компромиссы. ** Я думаю, что эти компромиссы могут быть более позитивными, чем кажутся.

**Третья ситуация заключается в том, что когда обучение модели достигает этого уровня, оно может начать приносить новые опасности, такие как злоупотребление ИИ. **

**Дваркеш Патель: Как бы это выглядело, если бы ИИ не использовался неправильно, а вместо этого этими сверхчеловеческими моделями управляли «правильные люди»? Кто такой "правильный человек"? Кто на самом деле будет управлять моделью через пять лет? **

Дарио Амодеи: Я думаю, что эти модели ИИ чрезвычайно эффективны, и управление ими потребует определенного уровня участия правительства или международных агентств, но это было бы упрощением и, вероятно, менее эффективным. ** Будущее управление ИИ должно создать прозрачный, справедливый и исполняемый механизм. Это требует баланса интересов разработчиков технологий, избранных правительств и отдельных граждан. В конце концов, необходимо принять закон, регулирующий эту технологию. **

**Дваркеш Патель: Если Anthropic будет развивать ОИИ в прямом смысле, а управление ОИИ будет передано LTBT, значит ли это, что контроль над самим ОИИ также будет передан агентству? **

Дарио Амодей: Это не означает, что Anthropic или любая другая организация будет принимать решения об ОИИ от имени людей, это разные вещи. Если Anthropic играет очень важную роль, лучшим подходом является расширение состава The Long Term Benefit Trust (LTBT), привлечение большего количества талантов со всего мира или позиционирование учреждения как функционального органа, управляемого более широкой многонациональный комитет, управляющий всеми технологиями AGI компаний, чтобы представлять общественные интересы. ** Я не думаю, что нам следует слишком оптимистично относиться к вопросам безопасности и выравнивания ИИ.Это новая проблема, и нам необходимо как можно скорее начать исследования национальных институтов управления и операционных моделей. **

• Доверительный фонд долгосрочной выгоды:

Такие трасты будут владеть особым классом акций Anthropic (называемым «Класс T»), которые нельзя было продать и не выплачивать дивиденды, а это означает, что не было четкого пути к прибыли. Траст будет единственным лицом, владеющим акциями класса T. Но акционеры класса T и полученный в результате долгосрочный траст в конечном итоге будут иметь право избирать и смещать трех из пяти директоров Anthropic, предоставляя трасту долгосрочный контроль над компанией.

**Дваркеш Патель: Как убедить инвесторов принять такую структуру, как LTBT? Отдайте предпочтение технологической безопасности и общественным интересам, а не максимизации акционерной стоимости. **

Дарио Амодеи: Я считаю правильным создание механизма LTBT (Long Term Benefit Trust).

Подобный механизм был предусмотрен с самого начала существования Anthropic, и специальный регулирующий орган существовал с самого начала и будет существовать в будущем. Каждый традиционный инвестор сосредоточит внимание на этом механизме при рассмотрении вопроса об инвестировании в Anthropic.Некоторые инвесторы придерживаются позиции не спрашивать о внутренних договоренностях компании, в то время как другие опасаются, что эта сторонняя организация может подтолкнуть компанию к тому, чтобы пойти против нее. интересов акционеров. Хотя в законе есть ограничения на это, мы должны сообщить об этом каждому инвестору. Делая шаг вперед, мы обсуждаем некоторые возможные меры, которые расходятся с интересами традиционных инвесторов, и посредством таких диалогов все стороны могут прийти к консенсусу.

**Дваркеш Патель: Я обнаружил, что среди основателей и сотрудников Anthropic много физиков, и здесь также действует закон масштабирования. Какие практические методы и способы мышления из физики применимы к ИИ? **

• Эффективная теория:

Эффективная теория — это научная теория, которая пытается описать некоторые явления, не объясняя, откуда берутся механизмы, объясняющие явления в ее теории. Это означает, что теория дает модель, которая «работает», но на самом деле не дает веских оснований для ее предоставления.

Дарио Амодеи: Частично это связано с тем, что физики очень хорошо учатся, потому что я считаю, что если вы нанимаете кого-то с докторской степенью, вносите вклад, а также нескольких основателей Anthropic, включая меня, Джареда Каплана и Сэма. МакКэндлиш, имеют опыт работы в физике, и мы знаем много других физиков, поэтому мы смогли их нанять. В настоящее время в компании может быть от 30 до 40 сотрудников с физическим образованием, машинное обучение еще не является областью, где теоретическая система сформирована, поэтому они могут быстро приступить к работе.

**Дваркеш Патель: Предположим, что уже 2030 год, и мы достигли признанных основных проблем искоренения болезней, искоренения мошенничества и т. д., каким будет мир? Что нам делать со сверхразумом? **

Дарио Амодеи: Прямое предложение «как использовать суперИИ после его получения» само по себе имеет тенденцию вызывать у людей определенные предположения, что настораживает. За последние 150 лет мы накопили богатый опыт, основанный на практике рыночной экономики и демократической системы, признавая, что каждый может определить для себя, что является лучшим способом получения опыта, и ** общество сформировано сложным и децентрализованным образом. нормы и ценности. **

Когда проблема безопасности ИИ не решена, необходима определенная степень централизованного надзора, но если все препятствия устранены, как мы можем улучшить экологию? ** Я думаю, что вопрос, над которым начинают задумываться большинство людей, групп и идеологий, заключается в том, «каково определение хорошей жизни», но история говорит нам, что во многих случаях практика навязывания «идеальной жизни» часто приводит к плохим последствиям. . **

**Дваркеш Патель: По сравнению с другими руководителями компаний, занимающихся искусственным интеллектом, вы мало появляетесь на публике и редко пишете в Твиттере. Почему? **

Дарио Амодеи: Я очень горжусь этим. **Если другие думают, что я слишком сдержанный, это именно то, что я хочу. Включение признания или похвалы в свою основную мотивационную систему может разрушить способность мыслить, а в некоторых случаях может даже «навредить душе», поэтому я активно предпочитаю вести себя сдержанно, чтобы защитить свою способность мыслить независимо и объективно. **

**Я видел, как люди прославились в Твиттере благодаря определенной точке зрения, но на самом деле они могут нести с собой имиджевый багаж, и его трудно изменить. Я не люблю, когда компании слишком личные, и я не сторонник приукрашивания чего-то личного в отношении генерального директора, потому что это отвлекает от сильных сторон и проблем компании. **Надеюсь, все больше внимания уделяют самой компании и структуре мотивации. Всем нравится дружелюбное лицо, но быть добрым мало что значит.

Ссылка:

  1. Оригинальное видео:

  2. Исследование Anthropic по объяснимости механизмов:

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить