Лінь Цзюньян покинув Alibaba і вперше опублікував повідомлення: ера інтелектуальних агентів вже настає

金色财经_ · 2026-03-27T10:16:08+00:00

__Автор: Лінь Цзюньян, колишній керівник Qwen у Tongyi Qianwen, наймолодший P10 в Alibaba. Вийшов з Alibaba у березні 2026 року.Оригінальна назва статті «Від мислення «Reasoning» до мислення «Agentic»»Останні два роки змінили наш підхід до оцінки моделей та наші очікування від них. OpenAI’s o1 довів, що «мислення» може стати першокласною здатністю From "Reasoning" Thinking to "Agentic" Thinking, здатністю, яку можна спеціально тренувати та відкривати для користувачів.

金色财经_

2026-03-27 10:16:08

Автор: Лінь Цзюньян, колишній керівник Qwen, наймолодший P10 в Alibaba. У березні 2026 року покинув Alibaba

Оригінальна назва статті «Від «міркувального» мислення до «агентного» мислення»

Останні два роки змінили наш підхід до оцінки моделей та очікувань від них. o1 від OpenAI довів, що «мислення» може стати першокласною здатністю, яку можна спеціально тренувати та відкривати користувачам. DeepSeek-R1 довів, що цей стиль міркування може бути повністю відтворений та розширений за межами початкових провідних лабораторій. OpenAI описує o1 як модель, натреновану з використанням підкріплювального навчання, яка «перед тим, як відповісти, спочатку думає»; в той час як DeepSeek позиціонує R1 як відкриту модель міркування, що може конкурувати з o1.

Цей етап має велике значення. Але перша половина 2025 року була зосереджена в основному на «міркувальному мисленні»: як змусити моделі витрачати більше обчислювальних ресурсів на міркування, як тренувати їх за допомогою сильніших сигналів винагороди і як представити або контролювати це додаткове вкладення в міркування. Тепер питання: що далі? Я вірю, що відповідь — «агентне мислення»: мислити для дій, постійно оновлюючи плани на основі зворотного зв’язку з реального світу під час взаємодії з середовищем.

Що насправді навчило нас зростання o1 та R1

Перша хвиля міркувальних моделей навчила нас: якщо ми хочемо розширити підкріплювальне навчання (RL) у мовних моделях, нам потрібні детерміністичні, стабільні та масштабовані сигнали зворотного зв’язку. Математика, код, логіка та інші верифіковані області стали основними, оскільки в цих сценаріях сигнали винагороди значно сильніші, ніж у звичайному навчанні з перевагами. Вони дозволили підкріплювальному навчанні оптимізувати «правильність», а не «справедливість». Інфраструктура стала надзвичайно важливою.

Якщо модель навчена міркувати через довші траєкторії, підкріплювальне навчання більше не є просто легким доповненням до супервізійного навчання (SFT). Це стає складною системною проблемою. Вам потрібно великих масштабів розгортання стратегій (rollouts), високопропускна перевірка, стабільні оновлення стратегій та ефективні можливості вибірки. Поява міркувальних моделей — це не лише прорив у моделюванні здатностей, але й перемога інфраструктурного інженерства. OpenAI описує o1 як лінію продуктів міркування, навченої за допомогою RL, а DeepSeek R1 далі підтверджує цей напрямок, демонструючи, наскільки великі алгоритми та інфраструктурні зусилля потрібні для RL на основі міркувань. Це перший великий зсув у галузі: від розширення попереднього навчання до розширення після навчання для посилення міркувальних здібностей.

Справжня проблема ніколи не була простою «інтеграцією мислення та інструкцій»

На початку 2025 року в умах багатьох з команди Qwen виникло велике бачення: ідеальна система повинна об’єднувати «мислення» та «інструкції». Вона повинна підтримувати регульовану силу міркування, психологічно подібну до налаштувань «низька/середня/висока». Ще краще, вона може автоматично виводити необхідну кількість міркувань на основі підказок та контексту, вирішуючи, коли відповідати негайно, коли подумати трохи більше, а коли вкласти великі обчислювальні ресурси в справжні складні задачі.

Концептуально це правильний напрямок. Qwen3 — один з найчіткіших публічних спроб. Він вводить «гібридний режим мислення», що поєднує мислення та немислячу поведінку в одній серії моделей, підкреслюючи контрольований бюджет мислення та описуючи чотиристадійну післянавчальну лінію, яка явно включає «інтеграцію режиму мислення» після холодного старту довгих ланцюгів роздумів (long-CoT) та RL міркувань.

Однак інтеграція — це легше сказати, ніж зробити. Складність полягає в даних. Коли люди говорять про інтеграцію мислення та інструкцій, перше, що спадає на думку, зазвичай — це сумісність на рівні моделі: чи може контрольна точка підтримувати два режими? Чи може шаблон чату безшовно переходити між ними? Чи може стек сервісів надати відповідні елементи управління? Але глибша суперечність полягає в тому, що розподіл даних та цілі поведінки цих двох режимів мають суттєві відмінності.

При спробі збалансувати «інтеграцію моделі» та «покращення якості та різноманітності даних після навчання» ми натрапили на деякі проблеми. Під час перегляду ми уважно спостерігали, як користувачі насправді користуються режимами мислення та інструкцій у реальних сценаріях. Потужна модель інструкцій отримує винагороду, яка часто базується на прямолінійності, простоті, дотриманні формату та збереженні надзвичайно низької затримки в повторюваних, масових корпоративних завданнях (як-от переписування, маркування, підтримка шаблонів, структуроване витягування та операційні запитання). Натомість потужна модель мислення отримує винагороду за витрачення більшої кількості токенів на складні задачі, підтримуючи внутрішню логічну структуру, досліджуючи альтернативні шляхи та зберігаючи достатню кількість внутрішніх обчислень для значного підвищення остаточної точності.

Ці дві моделі поведінки стримують одна одну. Якщо інтегрована база даних не була ретельно спланована, результат часто буває незадовільним: поведінка «мислення» стає шумною, об’ємною або невизначеною; а поведінка «інструкцій» втрачає свою чіткість, надійність знижується, а витрати на використання значно перевищують реальні очікування комерційних користувачів.

Тому на практиці відокремлення обох все ще є привабливим. Пізніше, у 2025 році, після початкової гібридної архітектури Qwen3, лінія продуктів 2507 випустила абсолютно відокремлені оновлення Instruct (інструкції) та Thinking (мислення), включаючи незалежні варіанти 30B та 235B. У комерційних впровадженнях багато клієнтів все ще прагнуть отримати високу пропускну здатність, низькі витрати та високо контрольовану поведінку інструкцій для пакетних операцій. У цих сценаріях інтеграція не приносить суттєвих вигод. Відокремлення двох ліній продуктів, навпаки, дозволило команді більш чисто вирішувати специфічні проблеми даних та навчання кожного режиму.

Інші лабораторії вибрали протилежний шлях. Anthropic відкрито пропагує концепцію інтегрованої моделі: Claude 3.7 Sonnet позиціонується як гібридна міркувальна модель, користувачі можуть вибирати між звичайними відповідями чи розширеним мисленням, а користувачі API також можуть встановлювати бюджет мислення. Anthropic чітко зазначає, що вони вважають міркування вбудованою інтегрованою здатністю, а не відокремленою незалежною моделлю. GLM-4.5 також позиціонує себе як гібридна модель міркування, яка намагається об’єднати міркування, кодування та агента; DeepSeek згодом також випустив механізм «мішане міркування та немислення» V3.1.

Ключове питання тут полягає в тому, чи є така інтеграція природною та органічною. Якщо мислення та інструкції просто насильно впихаються в одні й ті ж ваги моделі, проявляючи себе як два незграбно зшиті незалежні персонажі, тоді досвід використання продукту залишиться дуже дисгармонійним. Справжня успішна інтеграція вимагає плавного діапазону внесення міркувань. Модель повинна бути здатною виражати різні рівні інтенсивності внесення та, в ідеальному випадку, адаптивно робити вибір. Контроль інтенсивності у стилі GPT вказує на це: це стратегія розподілу обчислювальних ресурсів, а не простий двійковий перемикач.

Чому напрям Anthropic є корисним корегуванням

При публікації Claude 3.7 і Claude 4, промоція Anthropic виглядала досить стримано. Вони зосередили увагу на інтегрованому міркуванні, контрольованому бюджеті мислення, реальних завданнях у світі, якості коду та пізніше введеній здатності викликати інструменти під час розширеного мислення. Claude 3.7 продемонстровано як міркувальну модель з контрольованим бюджетом; Claude 4 йде далі, дозволяючи процесу міркування переплітатися з викликами інструментів. У той же час, Anthropic неодноразово підкреслює, що кодування, довгострокові завдання та агентні робочі процеси є їхньою основною метою.

Просто генерування довших траєкторій міркування не зробить модель автоматично розумнішою. У багатьох випадках надмірна відкритість процесу міркування, навпаки, виявляє неефективність розподілу обчислювальних ресурсів. Якщо модель намагається міркувати про все так само довго, це означає, що вона не змогла правильно визначити пріоритети, не спростила інформацію або не змогла вжити реальних дій. Розвиток Anthropic передає більш дисципліновану точку зору: мислення повинно формуватися цільовими робочими навантаженнями. Якщо мета полягає в кодуванні, то цінність міркування має відображатися в навігації по кодовій базі, плануванні, розподілі завдань, відновленні помилок та оркестрації інструментів. Якщо мета полягає в агентних робочих процесах, то мислення має бути спрямоване на підвищення якості виконання в довгостроковій перспективі, а не на написання пишного проміжного викладу.

Це підкреслення «цільової корисності» вказує на більш глобальну тенденцію: ми переходимо від ери навчання моделей до ери навчання агентів (Agents). Ми в блозі Qwen3 також чітко зазначили це — «ми переходимо від ери навчання моделей до ери, зосередженої на навчанні агентів», поєднуючи майбутні прориви в RL з зворотним зв’язком з навколишнього середовища, необхідним для довгострокового міркування. Агенти — це системи, здатні планувати, визначати, коли діяти, викликати інструменти, сприймати зворотний зв’язок з навколишнього середовища, коригувати стратегії та продовжувати діяти в довгостроковій перспективі. Їхня сутнісна визначеність полягає в замиканні циклу взаємодії з реальним світом.

Що насправді означає «агентне мислення»

Агентне мислення є абсолютно іншим оптимізаційним цілем. Оцінка «міркувального мислення» зазвичай визначається якістю внутрішнього обговорення перед отриманням остаточної відповіді: чи може модель розв’язати теорему, написати доведення, згенерувати безпомилковий код або пройти бенчмарк-тест. Натомість оцінка «агентного мислення» визначається тим, чи може модель продовжувати досягати суттєвого прогресу під час взаємодії з навколишнім середовищем.

Ключове питання змінюється з «Чи достатньо довго модель думає?» на «Чи достатньо ефективно модель думає, щоб підтримувати свої дії?» Агентне мислення повинно вирішувати кілька проблем, яких зазвичай можуть уникати чисті міркувальні моделі:

a. визначення, коли зупинитися думати і діяти
b. вибір, який інструмент викликати і в якій послідовності
c. інтеграція шумних або неповних спостережень з навколишнього середовища
d. коригування плану після невдачі
e. підтримка логічної узгодженості під час багатократних діалогів та викликів інструментів

Коротко кажучи, моделі з агентним мисленням повинні міркувати через дії.

Чому інфраструктура агентного підкріплювального навчання є складнішою

Якщо мета переходить від «розв’язання бенчмарк-тестів» до «завершення інтерактивних завдань», технологічний стек RL зазнає великих змін. Традиційна інфраструктура, що використовується для міркувального RL, уже далеко не достатня. У міркувальному RL ви зазвичай можете розглядати розгортання стратегій (rollouts) як відносно незалежні траєкторії, забезпечивши чіткі та зрозумілі оцінювачі. Але в агентному RL стратегія глибоко вбудована в величезну підтримуючу структуру (harness): сервери інструментів, браузери, термінали, пошукові системи, емулятори, пісочниці виконання, API-шари, системи пам’яті та оркестраційні фрейми. Середовище більше не є статичним суддею; воно стає невід’ємною частиною всієї навчальної системи.

Це призводить до нової системної потреби: навчання та міркування повинні бути більш детально розділені. Без такого розділення пропускна здатність розгортання стратегій просто обвалиться. Уявіть собі кодувальний агент, який повинен виконувати свій згенерований код у реальному тестовому фреймі: міркувальний бік буде змушений зупинитися через очікування зворотного зв’язку від виконання, а навчальний бік залишиться голодним через відсутність повних даних траєкторії, в результаті чого використання GPU для всієї лінії буде значно нижчим, ніж у традиційному міркувальному RL. Якщо додати затримки інструментів, часткову спостережуваність та стани навколишнього середовища, ці неефективні проблеми будуть ще більше загострені. В результаті, ще до того, як ви досягнете очікуваних показників здібностей, весь прогрес експерименту стає надзвичайно повільним і болісним.

Сама середа також підвищується до статусу основного дослідницького продукту. В епоху SFT (супервізійного навчання) ми прагнули до різноманітності даних. А в епоху агентів ми повинні зосередитися на якості середовища: стабільності, реалістичності, охопленні сцен, градації складності, різноманітності станів, щедрості зворотного зв’язку, захисту від шахрайства та масштабованості генерації розгортання стратегій. Створення віртуального середовища стало справжнім хардкорним підприємницьким полем, а не просто побічним проектом. Якщо агенти повинні навчатися в умовах, схожих на виробничі, то середовище саме по собі є частиною основного технологічного стеку можливостей.

Наступна передова область: більш практична здатність до міркування

Мої особисті очікування полягають у тому, що агентне мислення стане домінуючою формою мислення в майбутньому. Я вірю, що врешті-решт воно витіснить більшість застарілого «статичного монологічного» міркувального мислення — тобто таке, що є надмірно тривалим, ізольованим, що намагається замаскувати відсутність інтерактивних здібностей шляхом виведення все більшої кількості тексту. Навіть перед надзвичайно складними математичними або кодувальними завданнями справді передова система повинна мати права на пошук, моделювання, виконання, перевірку, верифікацію та модифікацію. Нашою кінцевою метою є надійне та ефективне вирішення реальних проблем.

Найбільша проблема в навчанні таких систем полягає в «шахрайстві з винагородами» (reward hacking). Як тільки модель отримує суттєвий доступ до інструментів, шахрайство з винагородами стає надзвичайно руйнівним. Модель, що має доступ до функції пошуку, може прямо навчитися шукати відповіді в Інтернеті під час навчання RL. Кодувальний агент може зловживати ненадійною інформацією з кодової бази, зловживати журналами або знайти якийсь спосіб, що безпосередньо призводить до невдачі завдання. Середовище з прихованими вразливостями може зробити стратегію моделі виглядати надзвичайною, але насправді це просто тренує експерта з шахрайства. У порівнянні з епохою міркувань, ситуація в епоху агентів є набагато більш делікатною і небезпечною. Потужніші інструменти роблять моделі кориснішими, але також множать атакувальну поверхню для фальшивої оптимізації. Ми можемо передбачити, що наступний серйозний академічний бар’єр виникне в дизайні середовища, надійності оцінювачів, шахрайських протоколах і стандартах інтерфейсів, що встановлюють більш регульовані зв’язки між стратегіями та фізичним світом. Незважаючи на всі труднощі, загальний напрямок незмінний: мислення, підтримуване інструментами, в принципі є ціннішим, ніж замкнуте мислення, і має більше шансів принести справжній стрибок продуктивності.

Агентне мислення також означає зростання «інженерії підтримуючих структур» (harness engineering). Майбутнє основного інтелекту все більше залежатиме від координаційних способів організації кількох агентів: центрального оркестратора, відповідального за планування та розподіл завдань, спеціалізованого агента, що виконує роль експерта в певній області, та підагентів, відповідальних за виконання вертикально спеціалізованих завдань (вони не лише виконують роботу, але й допомагають контролювати контекст, уникати забруднення пам’яті та підтримувати фізичну ізоляцію між різними рівнями мислення). Майбутнє індустрії полягає в переході від навчання моделей до навчання агентів і, зрештою, до навчання великих систем.

Висновок

Перша фаза хвилі міркування встановила залізний закон: якщо сигнали зворотного зв’язку достатньо надійні, а інфраструктура витримує, то додавання підкріплювального навчання до мовних моделей може призвести до виникнення якісних змін у когнітивних здібностях.

Але більш глибокий галузевий зсув відбувається від «міркувального мислення» до «агентного мислення»: від простого «більше думати» до «думати для дій». Основні об’єкти навчання змістилися. Це більше не просто модель, а симбіотична система «модель + середовище», точніше, агенти та їх підтримуюча структура. Це повністю перевертає наше розуміння «основного дослідницького продукту»: архітектура моделі та дані навчання, безсумнівно, важливі, але дизайн середовища, інфраструктура для розгортання стратегій, стійкість оцінювачів до перешкод, а також базові інтерфейси для співпраці між агентами піднімуться на однаковий або навіть вищий рівень. Це також переосмислює, що таке «гарне мислення»: справжнє «гарне» — це те, що найефективніше підтримує дії в умовах різноманітних обмежень реального світу, а не просто змагання, хто згенерує найдовший текст або чиї обчислення будуть найпомітнішими.

Це також змінює логіку конкурентних переваг у бізнесі майбутнього. У епоху міркування той, хто має кращі алгоритми RL, більш чисті сигнали зворотного зв’язку та більш масштабовані процеси навчання, той і виграє. А в епоху агентів ключовим фактором стане те, хто має більш реалістичне середовище, більш гладку архітектуру «інтеграції навчання та міркування», більш потужні можливості інженерії структур та хто найкраще зможе закрити важливий зворотний зв’язок між «рішенням моделі» та «реальними наслідками цього рішення».

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.