Дослідження міфів Anthropic, що викликають занепокоєння, були відтворені за допомогою готового штучного інтелекту, кажуть дослідники

Коротко

  • Дослідники показують, що експлойти у стилі Anthropic можна відтворити за допомогою публічного ШІ, стверджують у звіті.
  • Дослідження свідчить, що виявлення вразливостей вже є дешевим і широко доступним.
  • Виявлення результатів вказує на те, що кіберздатність ШІ може поширюватися швидше, ніж очікувалося.

Коли Anthropic представила Claude Mythos раніше цього місяця, вона закрила модель за перевіреною коаліцією технологічних гігантів і представила її як щось надто небезпечне для публіки. Міністр фінансів Скотт Бессент і голова ФРС Джером Пауелл скликали надзвичайну зустріч з керівниками Уолл-стріт. Слово “vulnpocalypse” знову з’явилося у колах безпеки. А тепер команда дослідників ще більше ускладнила цю оповідь. Vidoc Security використала власні виправлені публічні приклади Anthropic і намагалася їх відтворити за допомогою GPT-5.4 і Claude Opus 4.6 у відкритому коді агента під назвою opencode. Без запрошення Glasswing. Без приватного API. Без внутрішньої системи Anthropic. “Ми відтворили висновки Mythos у opencode, використовуючи публічні моделі, а не приватну систему Anthropic,” — написав Dawid Moczadło, один із дослідників, що брав участь у експерименті, у X після публікації результатів. “Краще читати реліз Mythos Anthropic не як ‘одна лабораторія має чарівну модель’, а як: економіка виявлення вразливостей змінюється.”

Ми відтворили висновки Mythos у opencode, використовуючи публічні моделі, а не приватну систему Anthropic.

Мораль змінюється від доступу до моделі до її валідації: пошук сигналу вразливості стає дешевшим; перетворення його у довірену безпеку

Краще читати реліз Mythos Anthropic як… https://t.co/0FFxrc8Sr1 pic.twitter.com/NjqDhsK1LA

— Dawid Moczadło (@kannthu1) 16 квітня 2026

Об’єкти, на які вони націлювалися, були тими ж, що й Anthropic у своїх публічних матеріалах: протокол обміну файлами на сервері, стек мережевих протоколів безпеки, програмне забезпечення для обробки відео, вбудоване майже у кожну медіаплатформу, і дві криптографічні бібліотеки, що використовуються для перевірки цифрових ідентичностей у мережі. І GPT-5.4, і Claude Opus 4.6 відтворили по дві помилки у всіх трьох запусках кожної. Claude Opus 4.6 також незалежно тричі повторно виявляв помилку в OpenBSD, тоді як GPT-5.4 отримав нуль у цьому випадку. Деякі помилки (одна з яких стосувалася бібліотеки FFmpeg для відтворення відео, а інша — обробки цифрових підписів з wolfSSL), були частковими — тобто моделі знайшли правильну поверхню коду, але не визначили точну причину.

Зображення: Vidoc Security

Кожен скан залишався нижче $30 за кожен файл, тобто дослідники змогли знайти ті ж вразливості, що й Anthropic, витративши менше ніж $30 на це.

“Моделі ШІ вже достатньо хороші, щоб звузити пошуковий простір, виявити реальні натяки і іноді відновити повну причину у перевіреному коді,” — сказав Moczadło у X. Використаний ними робочий процес не був одноразовим запитом. Він імітував те, що сама Anthropic описала публічно: дати моделі кодову базу, дозволити їй досліджувати, паралелізувати спроби, фільтрувати за сигналом. Команда Vidoc створила ту ж архітектуру з відкритим інструментарієм. Планувальний агент розбивав кожен файл на частини. Відповідний агент виявлення працював на кожній частині, потім перевіряв інші файли у репозиторії, щоб підтвердити або спростувати знахідки. Розмір рядків у кожному запиті на виявлення — наприклад, “зосередитися на рядках 1158-1215” — не обирався вручну дослідниками. Це були вихідні дані з попереднього етапу планування. У блозі це чітко зазначено: “Ми хочемо бути відкритими щодо цього, оскільки стратегія розбиття формує те, що бачить кожен агент виявлення, і ми не хочемо подавати робочий процес як більш ручний, ніж він був.” Дослідження не стверджує, що публічні моделі повністю відповідають Mythos у всьому. Модель Anthropic пішла далі, ніж просто виявлення помилки у FreeBSD — вона створила робочий план атаки, з’ясувавши, як зловмисник може з’єднати фрагменти коду через кілька мережевих пакетів, щоб отримати повний контроль над машиною дистанційно. Моделі Vidoc знайшли вразливість. Вони не створили зброю. Саме тут і полягає істотна різниця: не у виявленні дірки, а у точному знанні, як через неї пройти. Але аргумент Moczadło не полягає у тому, що публічні моделі є так само потужними. Йдеться про те, що дорогий етап робочого процесу тепер доступний кожному з API-ключем: “Мораль змінюється від доступу до моделі до її валідації: пошук сигналу вразливості стає дешевшим; перетворення його у довірену безпеку все ще важке.” Звіт з безпеки Anthropic визнав, що Cybench, бенчмарк для оцінки серйозних кіберризиків моделі, “більше не є достатньо інформативним щодо сучасних можливостей передових моделей,” оскільки Mythos пройшов його повністю. Лабораторія оцінила, що подібні можливості поширяться з інших лабораторій ШІ протягом шести-18 місяців. Дослідження Vidoc свідчить, що сторона відкриття вже доступна поза межами будь-якої закритої програми. Їхні повні витяги з запитів, вихідні дані моделей і додатки методології опубліковані на офіційному сайті лабораторії.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити