У 2012 році в колі штучного інтелекту відбулося дві великі події.У хронологічному порядку першою з них був випуск Google Brain, давньої роботи команди Google, як її «дебютної роботи» - мережі глибокого навчання «Google Cat». ", який може розпізнавати котів із розпізнаванням 74,8%. Рівень точності на 0,8% вищий, ніж 74% алгоритму-переможця відомого конкурсу розпізнавання зображень ImageNet минулого року.
Але гучні моменти Google тривали лише кілька місяців. У грудні 2012 року був випущений переможець останнього ImageNet.Майстер глибокого навчання Хінтон і його учні представили згортову нейронну мережу AlexNet, яка підвищила точність розпізнавання до 84%, таким чином розпочавши революцію ШІ наступного року. Google Cat був похований у пилу історії.
Хінтон з двома студентами, 2012
Це була не тільки сама модель ImageNet, яка шокувала галузь. Ця нейронна мережа, яка вимагає 14 мільйонів зображень і загалом 262 петафлопс операцій з плаваючою комою, використовувала лише чотири NVIDIA Geforce GTX 580 протягом тижня навчання. Для довідки Google Cat використовував 10 мільйонів зображень, 16 000 ЦП і 1000 комп’ютерів. [1] .
Подейкують, що Google також таємно брав участь у конкурсі цього року, і шок, який він отримав, прямо відобразився на наступній дії: Google витратив 44 мільйони доларів на придбання команди Hinton і негайно розмістив у Nvidia замовлення на велику кількість графічних процесорів. для штучного інтелекту.Навчання, а заодно і «змітання товарів» займаються також такі гіганти, як Microsoft і Facebook.
** Nvidia стала найбільшим виграшем, а ціна її акцій зросла максимум у 121 раз за наступні 10 років. Народжується імперія. **
Але над імперією поступово збиралися дві темні хмари. Google, який тоді купував товари у Nvidia, зробив приголомшливий дебют з AlphaGo через три роки та переміг чемпіона-людина Ке Джі у 2017 році. Завзяті люди виявили, що чіп, який керує AlphaGo, більше не є графічним процесором Nvidia, а власно розробленим TPU чіпом Google.
Через три роки схожий сценарій повторився. Tesla, яку Хуан Реньсюнь колись вважав еталонним клієнтом, також попрощалася з графічним процесором Nvidia.Вона спочатку випустила автомобільний чіп FSD з NPU в якості ядра, а потім прибрала чіп D1, який використовувався для створення навчальних кластерів ШІ.Лі втратив два з них. найважливіші клієнти в епоху ШІ.
До 2022 року глобальний ІТ-цикл увійде в спадну фазу. Великі компанії хмарних обчислень одна за одною скорочуватимуть бюджети закупівлі GPU для центрів обробки даних. Хвиля майнінгу блокчейнів поступово охолоне. Крім того, заборона США на чіпи в Китаї призведе до неможливо продати A100/H100 до Китаю Щодо графічних карт високого класу запаси Nvidia зросли, а ціна її акцій впала на 2/3 від піку.
Наприкінці 2022 року народився ChatGPT, і графічні процесори, як паливо для масштабної «алхімії», знову були розграбовані.Nvidia отримала перепочинок, але за ним настала третя темна хмара: 18 квітня 2023 року відоме технологічне ЗМІ Інформація повідомила: * Microsoft, ініціатор цієї хвилі ШІ, таємно розробляє власну мікросхему ШІ* [2] .
Цей чіп під назвою Athena виробляється компанією TSMC і використовує передовий техпроцес 5 нм. Кількість дослідницьких команд Microsoft наближається до 300. Очевидно, мета цього чіпа — замінити дорогий A100/H100, забезпечити механізм обчислювальної потужності для OpenAI і, зрештою, вирвати пиріг Nvidia через хмарний сервіс Microsoft Azure.
Наразі Microsoft є найбільшим покупцем H100 від Nvidia, і навіть ходили чутки, що вона «згорне» виробничі потужності H100 за весь рік. Сигнал про розрив від Microsoft, безсумнівно, є грім серед ясного неба. Ви повинні знати, що навіть коли Intel була найтемнішою, жоден із її клієнтів не «наважувався» виробляти власні процесорні мікросхеми (за винятком Apple, яка не продає їх зовнішнім сторонам). .
Незважаючи на те, що наразі Nvidia монополізує 90% ринку обчислювальної потужності ШІ з GPU+NVlink+CUDA, в імперії ** з’явився перший кряк. **
01, GPU, який не був народжений для ШІ
З самого початку графічні процесори не створювалися для ШІ.
У жовтні 1999 року Nvidia випустила GeForce 256, чіп обробки графіки, заснований на 220-нм техпроцесі TSMC і інтегрував 23 мільйони транзисторів. Сьогодні Nvidia вилучила ініціали «GPU» із графічного процесора та назвала GeForce 256 **«першим у світі графічним процесором».
У цей час штучний інтелект мовчав протягом багатьох років, особливо в області глибоких нейронних мереж. Майбутні лауреати премії Тюрінга, такі як Джеффрі Хінтон і Янн ЛеКун, все ще сидять на академічній лаві, і вони ніколи не думають про свою кар'єру. буде повністю змінений графічним процесором, спочатку розробленим для геймерів.
Для кого створений GPU? зображення. Точніше, він був створений, щоб звільнити процесор від важкої роботи з графічним дисплеєм. Основний принцип відображення зображення полягає в тому, щоб розділити зображення кожного кадру на окремі пікселі, а потім виконати кілька процесів візуалізації, таких як обробка вершин, примітивна обробка, растеризація, обробка фрагментів, робота з пікселями тощо, і, нарешті, відображення на екрані.
Джерело процесу обробки від пікселів до зображень: графічний компендіум
Чому ви кажете, що це важка робота? Виконайте просту арифметичну задачу:
Якщо припустити, що на екрані є 300 000 пікселів, розрахованих при частоті кадрів 60 кадрів в секунду, необхідно виконати 18 мільйонів візуалізацій за секунду, щоразу включаючи п’ять вищезазначених кроків, що відповідають п’яти інструкціям, тобто ЦП повинен виконайте 90 мільйонів інструкцій за секунду, щоб реалізувати односекундну презентацію екрана.Для порівняння, найпродуктивніший процесор Intel на той час мав лише 60 мільйонів обчислень за секунду.
Це не тому, що ЦП слабкий, а тому, що він добре планує потоки, тому більше місця надається блоку керування та блоку зберігання, а обчислювальний блок, який використовується для обчислень, займає лише 20% простору. Навпаки, графічний процесор займає понад 80% простору, це обчислювальний блок, який забезпечує надпаралельні обчислювальні можливості та більше підходить для фіксованої, повторюваної та нудної роботи з відображенням зображень.
Внутрішня структура ЦП і ГП, зелена частина — це обчислювальний блок
Лише через кілька років деякі дослідники штучного інтелекту зрозуміли, що графічні процесори з такими характеристиками також підходять для глибокого навчання. Багато класичних архітектур глибоких нейронних мереж було запропоновано ще в другій половині 20-го століття, але через відсутність обчислювального обладнання для їх навчання багато досліджень можуть бути лише «на папері», і розвиток надовго зупинився. час.
Постріл у жовтні 1999 року привів графічні процесори до штучного інтелекту. Процес навчання глибокого навчання полягає у виконанні ієрархічних операцій над кожним вхідним значенням відповідно до функцій і параметрів кожного шару нейронної мережі та, нарешті, отримання вихідного значення, що вимагає великої кількості матричних операцій, як і рендеринг графіки. трапляється, що графічний процесор найкращий у цьому.
Типова архітектура глибокої нейронної мережі; джерело: наука про дані
Однак зображення показує, що хоча обсяг обробки даних величезний, більшість етапів є фіксованими.Як тільки глибока нейронна мережа буде застосована до області прийняття рішень, вона включатиме складні ситуації, такі як структури гілок і параметри кожен рівень потрібно навчати на основі масивних позитивних і негативних відгуків. Продовжуйте переглядати. Ці відмінності створили приховану небезпеку для адаптації графічних процесорів до ШІ в майбутньому.
Сучасний генеральний менеджер Amazon AI/ML Кумар Челлапілла став першим ученим, який їв крабів із GPU. У 2006 році він вперше використав відеокарту Nvidia GeForce 7800 для впровадження згорткової нейронної мережі (CNN) і виявив, що це в 4 рази швидше, ніж використання ЦП. Це найперша відома спроба використання GPU для глибокого навчання [3] .
Кумар Челлапілла та Nvidia Geforce 7800
Роботи Кумара не привернули широкої уваги, в основному через високу складність програмування на базі GPU. Але саме в цей час у 2007 році Nvidia запустила платформу CUDA, яка значно зменшила труднощі для розробників у використанні графічного процесора для навчання глибоких нейронних мереж, що змусило прихильників глибокого навчання бачити більше надії.
Потім у 2009 році Ву Енда зі Стенфорда та інші опублікували проривну статтю [6] , GPU скорочує час навчання ШІ з тижнів до годин завдяки більш ніж у 70 разів більшій обчислювальній потужності ЦП. Ця стаття вказує шлях до апаратної реалізації штучного інтелекту. GPU значно прискорив процес перетворення ШІ з паперу в реальність.
Ендрю Нг (吴恩达)
Варто зазначити, що Ву Енда приєднався до Google Brain у 2011 році і є одним із лідерів проекту Google Cat, про який йшлося на початку. Причина, чому Google Brain зрештою не використав графічний процесор, невідома стороннім особам, але до та після того, як Ву Енда залишив Google і приєднався до Baidu, ходили чутки, що це сталося тому, що ставлення Google до графічного процесора було неясним.
**Після незліченних досліджень людей естафету нарешті було передано майстру глибокого навчання Гінтону, і час уже вказав на 2012 рік. **
У 2012 році Хінтон і двоє студентів, Алекс Крижевський та Ілля Суцкеверз, розробили глибоку згорточну нейронну мережу AlexNet і планували взяти участь у конкурсі ImageNet цього року. Але проблема полягає в тому, що навчання AlexNet із процесором може зайняти кілька місяців, тому вони звернули увагу на графічний процесор.
Цей графічний процесор, який має вирішальне значення в історії розвитку глибокого навчання, є знаменитою «відеокартою ядерної бомби» GTX 580. Будучи флагманським продуктом останньої архітектури Fermi від Nvidia, GTX 580 оснащено 512 ядрами CUDA (108 у попередньому поколінні).Поки обчислювальна потужність стрімко зростає, перебільшене енергоспоживання та проблеми з виділенням тепла призвели до того, що Nvidia назвали «фабрикою ядерних бомб». ".
А — миш’як, Б — мед. Порівняно з «плавністю» під час навчання нейронних мереж із графічним процесором, проблема відведення тепла нема чого згадувати. Команда Hinton успішно завершила програмування на платформі CUDA від Nvidia.З підтримкою двох відеокарт GTX 580 навчання 14 мільйонів зображень зайняло лише один тиждень, і AlexNet успішно виграв першість.
**Завдяки впливу конкурсу ImageNet і самого Хінтона всі дослідники штучного інтелекту миттєво усвідомили важливість GPU. **
Через два роки Google взяла модель GoogLeNet для участі в ImageNet і виграла чемпіонат із показником точності 93%, використовуючи графічні процесори NVIDIA. Цього року кількість графічних процесорів, які використовували всі команди-учасниці, зросла до 110. Поза конкуренцією графічний процесор став «обов’язковим споживанням» для глибокого навчання, посилаючи Huang Renxun постійний потік замовлень.
Це дозволило Nvidia позбутися тіні фіаско на мобільному ринку.Після випуску iPhone в 2007 році корж чіпів для смартфонів стрімко розширився.Nvidia також намагалася отримати шматок пирога від Samsung, Qualcomm і MediaTek Проблема з розсіюванням тепла вийшла з ладу. Зрештою, це була сфера штучного інтелекту, яку врятував GPU, що дало Nvidia другу криву зростання.
Але ж GPU не народжений для навчання нейронних мереж, чим швидше розвиватиметься штучний інтелект, тим більше ці проблеми будуть виявлятися.
Наприклад, хоча GPU суттєво відрізняється від центрального процесора, обидва вони в основному дотримуються структури фон Неймана, а зберігання та робота розділені. Вузьке місце ефективності, викликане цим поділом, зрештою, етапи обробки зображень є відносно фіксованими, і їх можна вирішити за допомогою більшої кількості паралельних операцій, але це дуже фатально для нейронної мережі з багатьма розгалуженими структурами.
Кожного разу, коли нейронна мережа додає рівень або гілку, їй потрібно збільшити доступ до пам’яті для зберігання даних для зворотного відстеження, і часу, витраченого на це, не уникнути. Особливо в епоху великих моделей, чим більша модель, тим більше операцій доступу до пам’яті потрібно виконати – енергія, споживана під час доступу до пам’яті, у багато разів більша, ніж при обчисленні.
Проста аналогія полягає в тому, що графічний процесор — це мускулистий чоловік (з багатьма обчислювальними блоками), але для кожної отриманої інструкції йому доводиться повертатися назад і переглядати інструкцію з експлуатації (пам’ять). Нарешті, розмір і складність моделі збільшуються , чоловік Часу для справжньої роботи дуже мало, а натомість я так втомився гортати посібники, що аж піна з рота.
Проблеми з пам’яттю є лише одним із багатьох «незручностей» графічних процесорів у додатках глибокої нейронної мережі. Nvidia з самого початку усвідомлювала ці проблеми та швидко почала «чарівним чином модифікувати» графічний процесор, щоб зробити його більш придатним для сценаріїв застосування штучного інтелекту; гравці ШІ, які добре знають про пожежу, також підкрадаються, намагаючись використовувати дефекти графічного процесора, щоб відкрити куточок імперії Хуан Реньсюня.
**Починається наступальний і оборонний бій. **
02, темна битва між Google і Nvidia
Зіткнувшись із величезним попитом на обчислювальну потужність штучного інтелекту та вродженими дефектами GPU, Huang Renxun запропонував два набори рішень, які йдуть рука об руку.
**Перший набір полягає в тому, щоб продовжувати бурхливо нарощувати обчислювальну потужність за принципом «стара фея обчислювальної потужності має безмежну магічну силу». **В епоху, коли попит на обчислювальну потужність штучного інтелекту подвоюється кожні 3,5 місяці, обчислювальна потужність — це пряник, який висить перед очима компаній зі штучного інтелекту, змушуючи їх лаяти Хуан Реньсюня за його чудові навички володіння мечем, хапаючи його, як собака. Вся ємність Nvidia.
**Другий набір передбачає поступове усунення невідповідності між сценаріями GPU та штучного інтелекту за допомогою «покращених інновацій». **Ці проблеми включають, але не обмежуються, енергоспоживання, стіни пам’яті, вузькі місця пропускної здатності, низькоточні обчислення, високошвидкісні з’єднання, оптимізацію певної моделі... З 2012 року Nvidia раптово пришвидшила швидкість оновлення архітектури.
Після того як Nvidia випустила CUDA, вона використовувала уніфіковану архітектуру для підтримки двох основних сценаріїв: графіки та обчислень. Архітектура першого покоління дебютувала в 2007 році і отримала назву Tesla.Це не тому, що Хуан Реньсюнь хотів показати свою прихильність Маску, а щоб віддати данину поваги фізику Ніколі Теслі (найпершим поколінням була архітектура Кюрі).
Відтоді кожне покоління архітектури графічного процесора NVIDIA було названо на честь відомих учених, як показано на малюнку нижче. У кожній ітерації архітектури Nvidia продовжує нарощувати обчислювальну потужність, удосконалюючи її без «розриву м’язів і кісток».
Наприклад, архітектура Fermi другого покоління в 2011 році мала недолік розсіювання тепла, тоді як архітектура Kepler третього покоління в 2012 році змінила загальну ідею дизайну з високої продуктивності на енергоефективну, щоб покращити розсіювання тепла; і щоб вирішити Вищезазначені проблеми Для вирішення проблеми «м’язових дурнів» архітектура Maxwell четвертого покоління в 2014 році додала більше схем логічного керування для полегшення точного керування.
Щоб адаптуватися до сцени штучного інтелекту, «магічно модифікований» графічний процесор Nvidia певною мірою стає дедалі більше схожим на центральний процесор — так само, як чудова здатність ЦП планувати за рахунок обчислювальної потужності, Nvidia має стримуватися. укладання обчислювальних ядер. Однак, незалежно від того, як ви змінюєте GPU з тягарем універсальності, буде важко підібрати виділений чіп у сценарії ШІ.
** Першим, хто атакував Nvidia, був Google, який першим почав масово купувати графічні процесори для обчислень штучного інтелекту. **
Після демонстрації своїх м’язів із GoogLeNet у 2014 році Google більше не брала публічної участі в конкурсі на розпізнавання машин і змовилася розробляти чіпи для штучного інтелекту. У 2016 році Google захопила лідерство з AlphaGo. Після перемоги над Li Shishi вона негайно випустила свій власно розроблений AI-чіп TPU, який застав Nvidia зненацька новою архітектурою, «народженою для AI».
TPU — це акронім Tensor Processing Unit, а китайська назва — «тензорний процесор». Якщо «чарівна реформа» графічного процесора Nvidia полягає в тому, щоб знести східну стіну, щоб компенсувати західну стіну, то TPU має принципово зменшити потребу в сховищі та з’єднанні, а також передати простір чіпа для обчислень у найбільшій мірі. Зокрема, два Великих означає:
**По-перше, це кількісна технологія. **Сучасні комп’ютерні обчислення зазвичай використовують високоточні дані, які займають багато пам’яті, але насправді більшість обчислень нейронних мереж не вимагають точності для досягнення 32-бітних чи 16-бітних обчислень із плаваючою комою. Суть квантування технологія в основному полягає в поєднанні 32-бітних/16-бітних чисел, наближених до 8-бітних цілих, зберігаючи належну точність і зменшуючи вимоги до пам’яті.
Другий — це систолічний масив, який є масивом множення матриці, що є однією з найважливіших відмінностей між TPU та GPU. Простіше кажучи, операції нейронної мережі вимагають великої кількості матричних операцій. Графічний процесор може лише крок за кроком розібрати обчислення матриці на кілька векторних обчислень. Кожного разу, коли група завершується, йому потрібно отримати доступ до пам’яті та зберегти результати цей шар, доки не будуть завершені всі векторні обчислення. , а потім об’єднайте результати кожного шару, щоб отримати вихідне значення.
У TPU тисячі обчислювальних блоків безпосередньо з’єднані, щоб утворити масив множення матриць. Як обчислювальне ядро, обчислення матриці можна виконувати безпосередньо. За винятком завантаження даних і функцій на початку, немає необхідності звертатися до блоків зберігання, які Частота значно пришвидшує швидкість обчислення TPU, а споживання енергії та зайнятість фізичного простору також значно зменшуються.
Порівняння часу доступу до пам'яті CPU, GPU, TPU
TPU від Google дуже швидкий, і від проектування, перевірки, масового виробництва до остаточного розгортання у власному центрі обробки даних знадобилося лише 15 місяців. Після тестування продуктивність і енергоспоживання TPU у CNN, LSTM, MLP та інших сценаріях AI значно перевершили GPU Nvidia за той самий період. **Увесь тиск був наданий Nvidia одразу. **
Отримати удар у спину великого клієнта незручно, але Nvidia не витримає і її поб’ють, і почалося перетягування канату.
Через п’ять місяців після того, як Google запустила TPU, Nvidia також представила архітектуру Pascal 16-нм процесу. З одного боку, нова архітектура представляє відому технологію високошвидкісного двостороннього з’єднання NVLink, яка значно покращує пропускну здатність з’єднання; з іншого боку, вона імітує технологію квантування TPU та покращує обчислювальну ефективність нейронної мережі. через зниження точності даних.
У 2017 році Nvidia запустила Volta, першу архітектуру, розроблену спеціально для глибокого навчання, яка вперше представила TensorCore, який спеціально використовується для матричних операцій, хоча масив множення 4×4 такий самий, як масив імпульсів TPU 256×256. Співвідношення трохи пошарпане, але це також компроміс, досягнутий на основі збереження гнучкості та універсальності.
Операція матриці 4x4 реалізована TensorCore в Nvidia V100
Керівництво NVIDIA заявило клієнтам: ** «Volta — це не оновлення Pascal, а абсолютно нова архітектура».**
Google також змагається з часом. Після 2016 року TPU було оновлено до 3 поколінь протягом п’яти років. Він запустив TPUv2 у 2017 році, TPUv3 у 2018 році та TPUv4 у 2021 році, поставивши дані на обличчя Nvidia. [4] : **TPU v4 у 1,2-1,7 разів швидший за A100 від Nvidia, водночас зменшуючи енергоспоживання в 1,3-1,9 рази. **
Google не продає чіпи TPU зовнішньому світу, і в той же час продовжує купувати графічні процесори Nvidia у великих кількостях, що робить конкуренцію між чіпами штучного інтелекту між ними «холодною війною», а не «відкритою конкуренцією». Але зрештою, Google розгортає TPU у своїй власній системі хмарних сервісів, щоб надавати послуги обчислювальної потужності AI для зовнішнього світу, що, безсумнівно, скорочує потенційний ринок Nvidia.
Генеральний директор Google Сундар Піча демонструє TPU v4
Поки вони «борються в темряві», прогрес у сфері штучного інтелекту також стрімко прогресує. У 2017 році Google запропонував революційну модель Transformer, а OpenAI розробив GPT-1 на основі Transformer. Спалахнула гонка озброєнь великих моделей, і попит на обчислювальну потужність штучного інтелекту став початком другого прискорення з моменту появи AlexNet в 2012 році.
Після реалізації нової тенденції Nvidia запустила архітектуру Hopper у 2022 році, вперше представивши механізм прискорення Transformer на апаратному рівні, стверджуючи, що він може збільшити час навчання великої мовної моделі на основі Transformer у 9 разів. Базуючись на архітектурі Hopper, Nvidia випустила «найпотужніший GPU на поверхні» - H100.
H100 — це найкращий «монстр стібків» від Nvidia. З одного боку, він представляє різні технології оптимізації ШІ, такі як квантування, обчислення матриці (Tensor Core 4.0) і механізм прискорення Transformer; з іншого боку, він сповнений традиційних сильних сторін Nvidia, такі як 7296 CUDA Core, 80 ГБ пам’яті HBM2 і технологія з’єднання NVLink 4.0 зі швидкістю до 900 ГБ/с.
Тримаючи в руках H100, Nvidia на деякий час зітхнула з полегшенням: на ринку немає чіпа масового виробництва, кращого за H100.
Таємна гойдалка між Google і Nvidia також є взаємним досягненням: Nvidia імпортувала багато інноваційних технологій від Google, а передові дослідження Google у галузі штучного інтелекту також повністю скористалися інноваціями графічного процесора Nvidia. зводиться до рівня, який може використовуватися великою мовною моделлю «навшпиньки». Ті, хто в центрі уваги, наприклад OpenAI, також стоять на плечах цих двох.
Але почуття належать почуттям, а справа належить справі. Наступальна та оборонна боротьба навколо GPU зробила галузь більш впевненою в одному: **GPU не є оптимальним рішенням для ШІ, а налаштовані ASIC мають можливість порушити монополію Nvidia. **Тріщини були відкриті, і Google не буде єдиним, хто слідкує за смаком.
**Особливо обчислювальна потужність стала найбільш певним попитом в епоху AGI, і кожен хоче сидіти за одним столом з NVIDIA під час їжі. **
03, тріщина, яка розширюється
На додаток до OpenAI, у цьому витку буму штучного інтелекту є ще дві готові компанії. Одна – компанія Midjourney, яка займається малюванням штучного інтелекту, чия здатність контролювати різні стилі малювання викликає страх у незліченних художників, що використовують вуглець; друга є Authropic, засновником якої є OpenAI.Діалоговий робот Клод грав туди-сюди за допомогою ChatGPT.
**Але жодна з цих двох компаній не придбала графічні процесори Nvidia для створення суперкомп’ютерів, а використовувала обчислювальні послуги Google. **
Щоб задовольнити вибух обчислювальної потужності штучного інтелекту, Google створив суперкомп’ютер (TPU v4 Pod) із 4096 TPU. Чіпи з’єднані між собою за допомогою перемикачів оптичних схем (OCS), які можна використовувати не лише для навчання власного LaMDA , Великі мовні моделі, такі як MUM і PaLM, також можуть надавати дешеві та високоякісні послуги стартапам зі штучним інтелектом.
Суперкомп’ютер GoogleTPU v4 Pod
Є також Тесла, який сам робить суперкалькулятори. Після запуску чіпа FSD, встановленого на автомобілі, Tesla продемонструвала зовнішньому світу суперкомп’ютер Dojo ExaPOD, побудований із 3000 власних чіпів D1 у серпні 2021 року. Серед них чіп D1 виробляється компанією TSMC за 7-нм технологією, а 3000 чіпів D1 безпосередньо роблять Dojo п’ятим за обчислювальною потужністю комп’ютером у світі.
**Однак поєднання цих двох не можна порівняти з впливом чіпа Athena, розробленого власними силами Microsoft. **
Microsoft є одним із найбільших клієнтів Nvidia. Її власний хмарний сервіс Azure придбав щонайменше десятки тисяч графічних процесорів високого класу A100 і H100. SwiftKey та інші продукти, які використовують AI.
Після ретельного підрахунку «податок на Nvidia», який Microsoft повинна сплатити, є астрономічною цифрою, а мікросхеми власної розробки майже неминучі. Подібно до того, як Ali підрахував майбутній попит Taobao Tmall на хмарні обчислення, бази даних і сховище, і виявив, що це астрономічна цифра, тому він рішуче почав підтримувати Alibaba Cloud і запустив енергійну внутрішню кампанію «de-IOE».
** Зниження витрат є одним аспектом, а вертикальна інтеграція для створення диференціації є іншим аспектом. **В епоху мобільних телефонів ЦП (AP), пам’ять і екран мобільних телефонів Samsung виробляються та продаються самостійно, що робить великий внесок у глобальну гегемонію Android Android. Виробники ядра Google і Microsoft також здійснюють оптимізацію на рівні мікросхем для своїх власних хмарних служб, щоб створити відмінності.
Таким чином, на відміну від Apple і Samsung, які не продають мікросхеми зовнішньому світу, хоча мікросхеми штучного інтелекту Google і Microsoft не будуть продаватися зовнішньому світу, вони перетравлять деяких потенційних клієнтів Nvidia через «хмарні сервіси обчислювальної потужності ШІ». і Authropic є прикладами Є більше невеликих компаній (особливо на прикладному рівні AI ), які вибирають хмарні сервіси.
**Концентрація світового ринку хмарних обчислень дуже висока. На п’ять провідних виробників (Amazon AWS, Microsoft Azure, Google Cloud, Alibaba Cloud і IBM) припадає понад 60%, і всі вони виробляють власні мікросхеми ШІ. Серед них Google досягає найшвидшого прогресу, IBM має найсильніші резерви, Microsoft має найбільший вплив, Amazon має найкращу секретність, а Ali має найбільше труднощів. **
Великі вітчизняні виробники розробляють власні мікросхеми, і закінчення Oppo Zheku кине тінь на кожного гравця, який вийде на поле. Однак великі закордонні компанії займаються самодослідженнями, а ланцюжки постачання талантів і технологій можна побудувати за кошти. Наприклад, коли Tesla займалася FSD, вона залучила бога Силіконової долини Джима Келлера, а Google розробив TPU і запросив безпосередньо Лауреат премії Тюрінга, винахідник архітектури RISC професор Девід Паттерсон.
Окрім великих виробників, деякі малі та середні компанії також намагаються відібрати у Nvidia пиріг, наприклад Graphcore, оцінка якого колись становила 2,8 мільярда доларів США, і вітчизняний Cambrian також належить до цієї категорії. У наведеній нижче таблиці перераховано найвідоміші у світі компанії-початківці, що займаються розробкою мікросхем ШІ.
Складність для стартапів, що створюють чіпи штучного інтелекту, полягає в тому, що без постійних інвестицій великих компаній із сильними фінансовими ресурсами вони не можуть самостійно виробляти та продавати себе, як Google. Якщо технічний шлях не є унікальним або переваги особливо сильні, в основному немає шанси на перемогу в боротьбі з Nvidia.Вартість і екологічні переваги останньої можуть практично згладити всі сумніви покупців.
**Вплив нової компанії на Nvidia обмежений, і приховані занепокоєння Хуан Реньсюня все ще стосуються тих великих клієнтів, які є нечесними. **
Звичайно, великі виробники все ще невіддільні від Nvidia. Наприклад, незважаючи на те, що TPU Google було оновлено до 4-го покоління, йому все одно потрібно придбати графічні процесори у великих кількостях, щоб забезпечити обчислювальну потужність у поєднанні з TPU; виберіть придбання 10 000 графічних процесорів у NVIDIA.
Однак Хуан Реньсюнь вже відчув пластикову дружбу великих виробників у Маску. У 2018 році Маск публічно оголосив, що розробить власний автомобільний чіп (тоді використовувався DRIVE PX від Nvidia). Хуан Реньсюня допитали аналітики на місці під час телефонної конференції, і він не міг зійти зі сцени поки. Згодом Маск випустив «уточнення», але через рік Tesla все ж покинула Nvidia без оглядки [5] .
Великі заводи ніколи не виявляли милосердя щодо економії витрат. Незважаючи на те, що в епоху ПК чіпи Intel продаються представникам B-класу, споживачі мають великий вибір автономії, а виробники повинні рекламувати «Intel Inside»; але в епоху хмарних технологій обчислювальної потужності гіганти можуть блокувати всю базову інформацію про апаратне забезпечення та вони також будуть купувати в майбутньому. З обчислювальною потужністю 100 TFlops чи можуть споживачі визначити, яка частина походить від TPU, а яка — від GPU?
Таким чином, Nvidia нарешті постала перед питанням: **GPU справді не створений для ШІ, але чи буде GPU оптимальним рішенням для ШІ? **
Протягом останніх 17 років Huang Renxun відокремив графічний процесор від однієї гри та сцени обробки зображень, зробивши його потужним обчислювальним інструментом загального призначення. Нові сценарії продовжують «магічно модифікувати» графічний процесор, намагаючись знайти баланс між «загальністю» » і «специфіка».
За останні два десятиліття Nvidia представила незліченну кількість нових технологій, які змінили галузь: платформу CUDA, TensorCore, RT Core (трасування променів), NVLink, платформу cuLitho (обчислювальна літографія), mixed precision, Omniverse, Transformer engine... Ці Технології допомогли Nvidia перетворитися з компанії чіпів другого рівня на зап’ястя Nanbo у ринковій вартості всієї галузі, що не надихає.
Але покоління повинно мати обчислювальну архітектуру епохи. Розвиток штучного інтелекту стрімко просувається вперед, а технологічні прориви вимірюються годинами. Якщо ви хочете, щоб штучний інтелект проникав у життя людини так само, як це було, коли ПК/смартфони стали популярними, тоді обчислювальна потужність Можливо, доведеться знизити витрати на 99%, і графічні процесори справді можуть бути не єдиним рішенням.
**Історія говорить нам, що незалежно від того, наскільки процвітаючою може бути імперія, їй, можливо, доведеться бути обережною з цією непомітною тріщиною. **
Посилання
[1] Класифікація ImageNet із глибокими згортковими нейронними мережами, Хінтон
[2] Корпорація Майкрософт готує чіп зі штучним інтелектом, оскільки витрати на машинне навчання різко зросли, інформація
[3] Високопродуктивні згорткові нейронні мережі для обробки документів
[4] Cloud TPU v4 від Google забезпечує ML у масштабі exaFLOPS із найкращою в галузі ефективністю
[5] Амбіції Tesla щодо штучного інтелекту, Токавський науково-дослідний інститут
[6] Масштабне глибоке неконтрольоване навчання з використанням графічних процесорів
Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
Кряк в імперії Nvidia
Джерело: Silicon-based Institute
Автор: Хе Лухен/Бос Дай
У 2012 році в колі штучного інтелекту відбулося дві великі події.У хронологічному порядку першою з них був випуск Google Brain, давньої роботи команди Google, як її «дебютної роботи» - мережі глибокого навчання «Google Cat». ", який може розпізнавати котів із розпізнаванням 74,8%. Рівень точності на 0,8% вищий, ніж 74% алгоритму-переможця відомого конкурсу розпізнавання зображень ImageNet минулого року.
Але гучні моменти Google тривали лише кілька місяців. У грудні 2012 року був випущений переможець останнього ImageNet.Майстер глибокого навчання Хінтон і його учні представили згортову нейронну мережу AlexNet, яка підвищила точність розпізнавання до 84%, таким чином розпочавши революцію ШІ наступного року. Google Cat був похований у пилу історії.
Це була не тільки сама модель ImageNet, яка шокувала галузь. Ця нейронна мережа, яка вимагає 14 мільйонів зображень і загалом 262 петафлопс операцій з плаваючою комою, використовувала лише чотири NVIDIA Geforce GTX 580 протягом тижня навчання. Для довідки Google Cat використовував 10 мільйонів зображень, 16 000 ЦП і 1000 комп’ютерів. [1] .
Подейкують, що Google також таємно брав участь у конкурсі цього року, і шок, який він отримав, прямо відобразився на наступній дії: Google витратив 44 мільйони доларів на придбання команди Hinton і негайно розмістив у Nvidia замовлення на велику кількість графічних процесорів. для штучного інтелекту.Навчання, а заодно і «змітання товарів» займаються також такі гіганти, як Microsoft і Facebook.
** Nvidia стала найбільшим виграшем, а ціна її акцій зросла максимум у 121 раз за наступні 10 років. Народжується імперія. **
Але над імперією поступово збиралися дві темні хмари. Google, який тоді купував товари у Nvidia, зробив приголомшливий дебют з AlphaGo через три роки та переміг чемпіона-людина Ке Джі у 2017 році. Завзяті люди виявили, що чіп, який керує AlphaGo, більше не є графічним процесором Nvidia, а власно розробленим TPU чіпом Google.
Через три роки схожий сценарій повторився. Tesla, яку Хуан Реньсюнь колись вважав еталонним клієнтом, також попрощалася з графічним процесором Nvidia.Вона спочатку випустила автомобільний чіп FSD з NPU в якості ядра, а потім прибрала чіп D1, який використовувався для створення навчальних кластерів ШІ.Лі втратив два з них. найважливіші клієнти в епоху ШІ.
До 2022 року глобальний ІТ-цикл увійде в спадну фазу. Великі компанії хмарних обчислень одна за одною скорочуватимуть бюджети закупівлі GPU для центрів обробки даних. Хвиля майнінгу блокчейнів поступово охолоне. Крім того, заборона США на чіпи в Китаї призведе до неможливо продати A100/H100 до Китаю Щодо графічних карт високого класу запаси Nvidia зросли, а ціна її акцій впала на 2/3 від піку.
Наприкінці 2022 року народився ChatGPT, і графічні процесори, як паливо для масштабної «алхімії», знову були розграбовані.Nvidia отримала перепочинок, але за ним настала третя темна хмара: 18 квітня 2023 року відоме технологічне ЗМІ Інформація повідомила: * Microsoft, ініціатор цієї хвилі ШІ, таємно розробляє власну мікросхему ШІ* [2] .
Цей чіп під назвою Athena виробляється компанією TSMC і використовує передовий техпроцес 5 нм. Кількість дослідницьких команд Microsoft наближається до 300. Очевидно, мета цього чіпа — замінити дорогий A100/H100, забезпечити механізм обчислювальної потужності для OpenAI і, зрештою, вирвати пиріг Nvidia через хмарний сервіс Microsoft Azure.
Наразі Microsoft є найбільшим покупцем H100 від Nvidia, і навіть ходили чутки, що вона «згорне» виробничі потужності H100 за весь рік. Сигнал про розрив від Microsoft, безсумнівно, є грім серед ясного неба. Ви повинні знати, що навіть коли Intel була найтемнішою, жоден із її клієнтів не «наважувався» виробляти власні процесорні мікросхеми (за винятком Apple, яка не продає їх зовнішнім сторонам). .
Незважаючи на те, що наразі Nvidia монополізує 90% ринку обчислювальної потужності ШІ з GPU+NVlink+CUDA, в імперії ** з’явився перший кряк. **
01, GPU, який не був народжений для ШІ
З самого початку графічні процесори не створювалися для ШІ.
У жовтні 1999 року Nvidia випустила GeForce 256, чіп обробки графіки, заснований на 220-нм техпроцесі TSMC і інтегрував 23 мільйони транзисторів. Сьогодні Nvidia вилучила ініціали «GPU» із графічного процесора та назвала GeForce 256 **«першим у світі графічним процесором».
У цей час штучний інтелект мовчав протягом багатьох років, особливо в області глибоких нейронних мереж. Майбутні лауреати премії Тюрінга, такі як Джеффрі Хінтон і Янн ЛеКун, все ще сидять на академічній лаві, і вони ніколи не думають про свою кар'єру. буде повністю змінений графічним процесором, спочатку розробленим для геймерів.
Для кого створений GPU? зображення. Точніше, він був створений, щоб звільнити процесор від важкої роботи з графічним дисплеєм. Основний принцип відображення зображення полягає в тому, щоб розділити зображення кожного кадру на окремі пікселі, а потім виконати кілька процесів візуалізації, таких як обробка вершин, примітивна обробка, растеризація, обробка фрагментів, робота з пікселями тощо, і, нарешті, відображення на екрані.
Чому ви кажете, що це важка робота? Виконайте просту арифметичну задачу:
Якщо припустити, що на екрані є 300 000 пікселів, розрахованих при частоті кадрів 60 кадрів в секунду, необхідно виконати 18 мільйонів візуалізацій за секунду, щоразу включаючи п’ять вищезазначених кроків, що відповідають п’яти інструкціям, тобто ЦП повинен виконайте 90 мільйонів інструкцій за секунду, щоб реалізувати односекундну презентацію екрана.Для порівняння, найпродуктивніший процесор Intel на той час мав лише 60 мільйонів обчислень за секунду.
Це не тому, що ЦП слабкий, а тому, що він добре планує потоки, тому більше місця надається блоку керування та блоку зберігання, а обчислювальний блок, який використовується для обчислень, займає лише 20% простору. Навпаки, графічний процесор займає понад 80% простору, це обчислювальний блок, який забезпечує надпаралельні обчислювальні можливості та більше підходить для фіксованої, повторюваної та нудної роботи з відображенням зображень.
Лише через кілька років деякі дослідники штучного інтелекту зрозуміли, що графічні процесори з такими характеристиками також підходять для глибокого навчання. Багато класичних архітектур глибоких нейронних мереж було запропоновано ще в другій половині 20-го століття, але через відсутність обчислювального обладнання для їх навчання багато досліджень можуть бути лише «на папері», і розвиток надовго зупинився. час.
Постріл у жовтні 1999 року привів графічні процесори до штучного інтелекту. Процес навчання глибокого навчання полягає у виконанні ієрархічних операцій над кожним вхідним значенням відповідно до функцій і параметрів кожного шару нейронної мережі та, нарешті, отримання вихідного значення, що вимагає великої кількості матричних операцій, як і рендеринг графіки. трапляється, що графічний процесор найкращий у цьому.
Однак зображення показує, що хоча обсяг обробки даних величезний, більшість етапів є фіксованими.Як тільки глибока нейронна мережа буде застосована до області прийняття рішень, вона включатиме складні ситуації, такі як структури гілок і параметри кожен рівень потрібно навчати на основі масивних позитивних і негативних відгуків. Продовжуйте переглядати. Ці відмінності створили приховану небезпеку для адаптації графічних процесорів до ШІ в майбутньому.
Сучасний генеральний менеджер Amazon AI/ML Кумар Челлапілла став першим ученим, який їв крабів із GPU. У 2006 році він вперше використав відеокарту Nvidia GeForce 7800 для впровадження згорткової нейронної мережі (CNN) і виявив, що це в 4 рази швидше, ніж використання ЦП. Це найперша відома спроба використання GPU для глибокого навчання [3] .
Роботи Кумара не привернули широкої уваги, в основному через високу складність програмування на базі GPU. Але саме в цей час у 2007 році Nvidia запустила платформу CUDA, яка значно зменшила труднощі для розробників у використанні графічного процесора для навчання глибоких нейронних мереж, що змусило прихильників глибокого навчання бачити більше надії.
Потім у 2009 році Ву Енда зі Стенфорда та інші опублікували проривну статтю [6] , GPU скорочує час навчання ШІ з тижнів до годин завдяки більш ніж у 70 разів більшій обчислювальній потужності ЦП. Ця стаття вказує шлях до апаратної реалізації штучного інтелекту. GPU значно прискорив процес перетворення ШІ з паперу в реальність.
Варто зазначити, що Ву Енда приєднався до Google Brain у 2011 році і є одним із лідерів проекту Google Cat, про який йшлося на початку. Причина, чому Google Brain зрештою не використав графічний процесор, невідома стороннім особам, але до та після того, як Ву Енда залишив Google і приєднався до Baidu, ходили чутки, що це сталося тому, що ставлення Google до графічного процесора було неясним.
**Після незліченних досліджень людей естафету нарешті було передано майстру глибокого навчання Гінтону, і час уже вказав на 2012 рік. **
У 2012 році Хінтон і двоє студентів, Алекс Крижевський та Ілля Суцкеверз, розробили глибоку згорточну нейронну мережу AlexNet і планували взяти участь у конкурсі ImageNet цього року. Але проблема полягає в тому, що навчання AlexNet із процесором може зайняти кілька місяців, тому вони звернули увагу на графічний процесор.
Цей графічний процесор, який має вирішальне значення в історії розвитку глибокого навчання, є знаменитою «відеокартою ядерної бомби» GTX 580. Будучи флагманським продуктом останньої архітектури Fermi від Nvidia, GTX 580 оснащено 512 ядрами CUDA (108 у попередньому поколінні).Поки обчислювальна потужність стрімко зростає, перебільшене енергоспоживання та проблеми з виділенням тепла призвели до того, що Nvidia назвали «фабрикою ядерних бомб». ".
А — миш’як, Б — мед. Порівняно з «плавністю» під час навчання нейронних мереж із графічним процесором, проблема відведення тепла нема чого згадувати. Команда Hinton успішно завершила програмування на платформі CUDA від Nvidia.З підтримкою двох відеокарт GTX 580 навчання 14 мільйонів зображень зайняло лише один тиждень, і AlexNet успішно виграв першість.
**Завдяки впливу конкурсу ImageNet і самого Хінтона всі дослідники штучного інтелекту миттєво усвідомили важливість GPU. **
Через два роки Google взяла модель GoogLeNet для участі в ImageNet і виграла чемпіонат із показником точності 93%, використовуючи графічні процесори NVIDIA. Цього року кількість графічних процесорів, які використовували всі команди-учасниці, зросла до 110. Поза конкуренцією графічний процесор став «обов’язковим споживанням» для глибокого навчання, посилаючи Huang Renxun постійний потік замовлень.
Це дозволило Nvidia позбутися тіні фіаско на мобільному ринку.Після випуску iPhone в 2007 році корж чіпів для смартфонів стрімко розширився.Nvidia також намагалася отримати шматок пирога від Samsung, Qualcomm і MediaTek Проблема з розсіюванням тепла вийшла з ладу. Зрештою, це була сфера штучного інтелекту, яку врятував GPU, що дало Nvidia другу криву зростання.
Але ж GPU не народжений для навчання нейронних мереж, чим швидше розвиватиметься штучний інтелект, тим більше ці проблеми будуть виявлятися.
Наприклад, хоча GPU суттєво відрізняється від центрального процесора, обидва вони в основному дотримуються структури фон Неймана, а зберігання та робота розділені. Вузьке місце ефективності, викликане цим поділом, зрештою, етапи обробки зображень є відносно фіксованими, і їх можна вирішити за допомогою більшої кількості паралельних операцій, але це дуже фатально для нейронної мережі з багатьма розгалуженими структурами.
Кожного разу, коли нейронна мережа додає рівень або гілку, їй потрібно збільшити доступ до пам’яті для зберігання даних для зворотного відстеження, і часу, витраченого на це, не уникнути. Особливо в епоху великих моделей, чим більша модель, тим більше операцій доступу до пам’яті потрібно виконати – енергія, споживана під час доступу до пам’яті, у багато разів більша, ніж при обчисленні.
Проста аналогія полягає в тому, що графічний процесор — це мускулистий чоловік (з багатьма обчислювальними блоками), але для кожної отриманої інструкції йому доводиться повертатися назад і переглядати інструкцію з експлуатації (пам’ять). Нарешті, розмір і складність моделі збільшуються , чоловік Часу для справжньої роботи дуже мало, а натомість я так втомився гортати посібники, що аж піна з рота.
Проблеми з пам’яттю є лише одним із багатьох «незручностей» графічних процесорів у додатках глибокої нейронної мережі. Nvidia з самого початку усвідомлювала ці проблеми та швидко почала «чарівним чином модифікувати» графічний процесор, щоб зробити його більш придатним для сценаріїв застосування штучного інтелекту; гравці ШІ, які добре знають про пожежу, також підкрадаються, намагаючись використовувати дефекти графічного процесора, щоб відкрити куточок імперії Хуан Реньсюня.
**Починається наступальний і оборонний бій. **
02, темна битва між Google і Nvidia
Зіткнувшись із величезним попитом на обчислювальну потужність штучного інтелекту та вродженими дефектами GPU, Huang Renxun запропонував два набори рішень, які йдуть рука об руку.
**Перший набір полягає в тому, щоб продовжувати бурхливо нарощувати обчислювальну потужність за принципом «стара фея обчислювальної потужності має безмежну магічну силу». **В епоху, коли попит на обчислювальну потужність штучного інтелекту подвоюється кожні 3,5 місяці, обчислювальна потужність — це пряник, який висить перед очима компаній зі штучного інтелекту, змушуючи їх лаяти Хуан Реньсюня за його чудові навички володіння мечем, хапаючи його, як собака. Вся ємність Nvidia.
**Другий набір передбачає поступове усунення невідповідності між сценаріями GPU та штучного інтелекту за допомогою «покращених інновацій». **Ці проблеми включають, але не обмежуються, енергоспоживання, стіни пам’яті, вузькі місця пропускної здатності, низькоточні обчислення, високошвидкісні з’єднання, оптимізацію певної моделі... З 2012 року Nvidia раптово пришвидшила швидкість оновлення архітектури.
Після того як Nvidia випустила CUDA, вона використовувала уніфіковану архітектуру для підтримки двох основних сценаріїв: графіки та обчислень. Архітектура першого покоління дебютувала в 2007 році і отримала назву Tesla.Це не тому, що Хуан Реньсюнь хотів показати свою прихильність Маску, а щоб віддати данину поваги фізику Ніколі Теслі (найпершим поколінням була архітектура Кюрі).
Відтоді кожне покоління архітектури графічного процесора NVIDIA було названо на честь відомих учених, як показано на малюнку нижче. У кожній ітерації архітектури Nvidia продовжує нарощувати обчислювальну потужність, удосконалюючи її без «розриву м’язів і кісток».
Щоб адаптуватися до сцени штучного інтелекту, «магічно модифікований» графічний процесор Nvidia певною мірою стає дедалі більше схожим на центральний процесор — так само, як чудова здатність ЦП планувати за рахунок обчислювальної потужності, Nvidia має стримуватися. укладання обчислювальних ядер. Однак, незалежно від того, як ви змінюєте GPU з тягарем універсальності, буде важко підібрати виділений чіп у сценарії ШІ.
** Першим, хто атакував Nvidia, був Google, який першим почав масово купувати графічні процесори для обчислень штучного інтелекту. **
Після демонстрації своїх м’язів із GoogLeNet у 2014 році Google більше не брала публічної участі в конкурсі на розпізнавання машин і змовилася розробляти чіпи для штучного інтелекту. У 2016 році Google захопила лідерство з AlphaGo. Після перемоги над Li Shishi вона негайно випустила свій власно розроблений AI-чіп TPU, який застав Nvidia зненацька новою архітектурою, «народженою для AI».
TPU — це акронім Tensor Processing Unit, а китайська назва — «тензорний процесор». Якщо «чарівна реформа» графічного процесора Nvidia полягає в тому, щоб знести східну стіну, щоб компенсувати західну стіну, то TPU має принципово зменшити потребу в сховищі та з’єднанні, а також передати простір чіпа для обчислень у найбільшій мірі. Зокрема, два Великих означає:
**По-перше, це кількісна технологія. **Сучасні комп’ютерні обчислення зазвичай використовують високоточні дані, які займають багато пам’яті, але насправді більшість обчислень нейронних мереж не вимагають точності для досягнення 32-бітних чи 16-бітних обчислень із плаваючою комою. Суть квантування технологія в основному полягає в поєднанні 32-бітних/16-бітних чисел, наближених до 8-бітних цілих, зберігаючи належну точність і зменшуючи вимоги до пам’яті.
Другий — це систолічний масив, який є масивом множення матриці, що є однією з найважливіших відмінностей між TPU та GPU. Простіше кажучи, операції нейронної мережі вимагають великої кількості матричних операцій. Графічний процесор може лише крок за кроком розібрати обчислення матриці на кілька векторних обчислень. Кожного разу, коли група завершується, йому потрібно отримати доступ до пам’яті та зберегти результати цей шар, доки не будуть завершені всі векторні обчислення. , а потім об’єднайте результати кожного шару, щоб отримати вихідне значення.
У TPU тисячі обчислювальних блоків безпосередньо з’єднані, щоб утворити масив множення матриць. Як обчислювальне ядро, обчислення матриці можна виконувати безпосередньо. За винятком завантаження даних і функцій на початку, немає необхідності звертатися до блоків зберігання, які Частота значно пришвидшує швидкість обчислення TPU, а споживання енергії та зайнятість фізичного простору також значно зменшуються.
TPU від Google дуже швидкий, і від проектування, перевірки, масового виробництва до остаточного розгортання у власному центрі обробки даних знадобилося лише 15 місяців. Після тестування продуктивність і енергоспоживання TPU у CNN, LSTM, MLP та інших сценаріях AI значно перевершили GPU Nvidia за той самий період. **Увесь тиск був наданий Nvidia одразу. **
Отримати удар у спину великого клієнта незручно, але Nvidia не витримає і її поб’ють, і почалося перетягування канату.
Через п’ять місяців після того, як Google запустила TPU, Nvidia також представила архітектуру Pascal 16-нм процесу. З одного боку, нова архітектура представляє відому технологію високошвидкісного двостороннього з’єднання NVLink, яка значно покращує пропускну здатність з’єднання; з іншого боку, вона імітує технологію квантування TPU та покращує обчислювальну ефективність нейронної мережі. через зниження точності даних.
У 2017 році Nvidia запустила Volta, першу архітектуру, розроблену спеціально для глибокого навчання, яка вперше представила TensorCore, який спеціально використовується для матричних операцій, хоча масив множення 4×4 такий самий, як масив імпульсів TPU 256×256. Співвідношення трохи пошарпане, але це також компроміс, досягнутий на основі збереження гнучкості та універсальності.
Керівництво NVIDIA заявило клієнтам: ** «Volta — це не оновлення Pascal, а абсолютно нова архітектура».**
Google також змагається з часом. Після 2016 року TPU було оновлено до 3 поколінь протягом п’яти років. Він запустив TPUv2 у 2017 році, TPUv3 у 2018 році та TPUv4 у 2021 році, поставивши дані на обличчя Nvidia. [4] : **TPU v4 у 1,2-1,7 разів швидший за A100 від Nvidia, водночас зменшуючи енергоспоживання в 1,3-1,9 рази. **
Google не продає чіпи TPU зовнішньому світу, і в той же час продовжує купувати графічні процесори Nvidia у великих кількостях, що робить конкуренцію між чіпами штучного інтелекту між ними «холодною війною», а не «відкритою конкуренцією». Але зрештою, Google розгортає TPU у своїй власній системі хмарних сервісів, щоб надавати послуги обчислювальної потужності AI для зовнішнього світу, що, безсумнівно, скорочує потенційний ринок Nvidia.
Поки вони «борються в темряві», прогрес у сфері штучного інтелекту також стрімко прогресує. У 2017 році Google запропонував революційну модель Transformer, а OpenAI розробив GPT-1 на основі Transformer. Спалахнула гонка озброєнь великих моделей, і попит на обчислювальну потужність штучного інтелекту став початком другого прискорення з моменту появи AlexNet в 2012 році.
Після реалізації нової тенденції Nvidia запустила архітектуру Hopper у 2022 році, вперше представивши механізм прискорення Transformer на апаратному рівні, стверджуючи, що він може збільшити час навчання великої мовної моделі на основі Transformer у 9 разів. Базуючись на архітектурі Hopper, Nvidia випустила «найпотужніший GPU на поверхні» - H100.
H100 — це найкращий «монстр стібків» від Nvidia. З одного боку, він представляє різні технології оптимізації ШІ, такі як квантування, обчислення матриці (Tensor Core 4.0) і механізм прискорення Transformer; з іншого боку, він сповнений традиційних сильних сторін Nvidia, такі як 7296 CUDA Core, 80 ГБ пам’яті HBM2 і технологія з’єднання NVLink 4.0 зі швидкістю до 900 ГБ/с.
Тримаючи в руках H100, Nvidia на деякий час зітхнула з полегшенням: на ринку немає чіпа масового виробництва, кращого за H100.
Таємна гойдалка між Google і Nvidia також є взаємним досягненням: Nvidia імпортувала багато інноваційних технологій від Google, а передові дослідження Google у галузі штучного інтелекту також повністю скористалися інноваціями графічного процесора Nvidia. зводиться до рівня, який може використовуватися великою мовною моделлю «навшпиньки». Ті, хто в центрі уваги, наприклад OpenAI, також стоять на плечах цих двох.
Але почуття належать почуттям, а справа належить справі. Наступальна та оборонна боротьба навколо GPU зробила галузь більш впевненою в одному: **GPU не є оптимальним рішенням для ШІ, а налаштовані ASIC мають можливість порушити монополію Nvidia. **Тріщини були відкриті, і Google не буде єдиним, хто слідкує за смаком.
**Особливо обчислювальна потужність стала найбільш певним попитом в епоху AGI, і кожен хоче сидіти за одним столом з NVIDIA під час їжі. **
03, тріщина, яка розширюється
На додаток до OpenAI, у цьому витку буму штучного інтелекту є ще дві готові компанії. Одна – компанія Midjourney, яка займається малюванням штучного інтелекту, чия здатність контролювати різні стилі малювання викликає страх у незліченних художників, що використовують вуглець; друга є Authropic, засновником якої є OpenAI.Діалоговий робот Клод грав туди-сюди за допомогою ChatGPT.
**Але жодна з цих двох компаній не придбала графічні процесори Nvidia для створення суперкомп’ютерів, а використовувала обчислювальні послуги Google. **
Щоб задовольнити вибух обчислювальної потужності штучного інтелекту, Google створив суперкомп’ютер (TPU v4 Pod) із 4096 TPU. Чіпи з’єднані між собою за допомогою перемикачів оптичних схем (OCS), які можна використовувати не лише для навчання власного LaMDA , Великі мовні моделі, такі як MUM і PaLM, також можуть надавати дешеві та високоякісні послуги стартапам зі штучним інтелектом.
Є також Тесла, який сам робить суперкалькулятори. Після запуску чіпа FSD, встановленого на автомобілі, Tesla продемонструвала зовнішньому світу суперкомп’ютер Dojo ExaPOD, побудований із 3000 власних чіпів D1 у серпні 2021 року. Серед них чіп D1 виробляється компанією TSMC за 7-нм технологією, а 3000 чіпів D1 безпосередньо роблять Dojo п’ятим за обчислювальною потужністю комп’ютером у світі.
**Однак поєднання цих двох не можна порівняти з впливом чіпа Athena, розробленого власними силами Microsoft. **
Microsoft є одним із найбільших клієнтів Nvidia. Її власний хмарний сервіс Azure придбав щонайменше десятки тисяч графічних процесорів високого класу A100 і H100. SwiftKey та інші продукти, які використовують AI.
Після ретельного підрахунку «податок на Nvidia», який Microsoft повинна сплатити, є астрономічною цифрою, а мікросхеми власної розробки майже неминучі. Подібно до того, як Ali підрахував майбутній попит Taobao Tmall на хмарні обчислення, бази даних і сховище, і виявив, що це астрономічна цифра, тому він рішуче почав підтримувати Alibaba Cloud і запустив енергійну внутрішню кампанію «de-IOE».
** Зниження витрат є одним аспектом, а вертикальна інтеграція для створення диференціації є іншим аспектом. **В епоху мобільних телефонів ЦП (AP), пам’ять і екран мобільних телефонів Samsung виробляються та продаються самостійно, що робить великий внесок у глобальну гегемонію Android Android. Виробники ядра Google і Microsoft також здійснюють оптимізацію на рівні мікросхем для своїх власних хмарних служб, щоб створити відмінності.
Таким чином, на відміну від Apple і Samsung, які не продають мікросхеми зовнішньому світу, хоча мікросхеми штучного інтелекту Google і Microsoft не будуть продаватися зовнішньому світу, вони перетравлять деяких потенційних клієнтів Nvidia через «хмарні сервіси обчислювальної потужності ШІ». і Authropic є прикладами Є більше невеликих компаній (особливо на прикладному рівні AI ), які вибирають хмарні сервіси.
**Концентрація світового ринку хмарних обчислень дуже висока. На п’ять провідних виробників (Amazon AWS, Microsoft Azure, Google Cloud, Alibaba Cloud і IBM) припадає понад 60%, і всі вони виробляють власні мікросхеми ШІ. Серед них Google досягає найшвидшого прогресу, IBM має найсильніші резерви, Microsoft має найбільший вплив, Amazon має найкращу секретність, а Ali має найбільше труднощів. **
Великі вітчизняні виробники розробляють власні мікросхеми, і закінчення Oppo Zheku кине тінь на кожного гравця, який вийде на поле. Однак великі закордонні компанії займаються самодослідженнями, а ланцюжки постачання талантів і технологій можна побудувати за кошти. Наприклад, коли Tesla займалася FSD, вона залучила бога Силіконової долини Джима Келлера, а Google розробив TPU і запросив безпосередньо Лауреат премії Тюрінга, винахідник архітектури RISC професор Девід Паттерсон.
Складність для стартапів, що створюють чіпи штучного інтелекту, полягає в тому, що без постійних інвестицій великих компаній із сильними фінансовими ресурсами вони не можуть самостійно виробляти та продавати себе, як Google. Якщо технічний шлях не є унікальним або переваги особливо сильні, в основному немає шанси на перемогу в боротьбі з Nvidia.Вартість і екологічні переваги останньої можуть практично згладити всі сумніви покупців.
**Вплив нової компанії на Nvidia обмежений, і приховані занепокоєння Хуан Реньсюня все ще стосуються тих великих клієнтів, які є нечесними. **
Звичайно, великі виробники все ще невіддільні від Nvidia. Наприклад, незважаючи на те, що TPU Google було оновлено до 4-го покоління, йому все одно потрібно придбати графічні процесори у великих кількостях, щоб забезпечити обчислювальну потужність у поєднанні з TPU; виберіть придбання 10 000 графічних процесорів у NVIDIA.
Однак Хуан Реньсюнь вже відчув пластикову дружбу великих виробників у Маску. У 2018 році Маск публічно оголосив, що розробить власний автомобільний чіп (тоді використовувався DRIVE PX від Nvidia). Хуан Реньсюня допитали аналітики на місці під час телефонної конференції, і він не міг зійти зі сцени поки. Згодом Маск випустив «уточнення», але через рік Tesla все ж покинула Nvidia без оглядки [5] .
Великі заводи ніколи не виявляли милосердя щодо економії витрат. Незважаючи на те, що в епоху ПК чіпи Intel продаються представникам B-класу, споживачі мають великий вибір автономії, а виробники повинні рекламувати «Intel Inside»; але в епоху хмарних технологій обчислювальної потужності гіганти можуть блокувати всю базову інформацію про апаратне забезпечення та вони також будуть купувати в майбутньому. З обчислювальною потужністю 100 TFlops чи можуть споживачі визначити, яка частина походить від TPU, а яка — від GPU?
Таким чином, Nvidia нарешті постала перед питанням: **GPU справді не створений для ШІ, але чи буде GPU оптимальним рішенням для ШІ? **
Протягом останніх 17 років Huang Renxun відокремив графічний процесор від однієї гри та сцени обробки зображень, зробивши його потужним обчислювальним інструментом загального призначення. Нові сценарії продовжують «магічно модифікувати» графічний процесор, намагаючись знайти баланс між «загальністю» » і «специфіка».
За останні два десятиліття Nvidia представила незліченну кількість нових технологій, які змінили галузь: платформу CUDA, TensorCore, RT Core (трасування променів), NVLink, платформу cuLitho (обчислювальна літографія), mixed precision, Omniverse, Transformer engine... Ці Технології допомогли Nvidia перетворитися з компанії чіпів другого рівня на зап’ястя Nanbo у ринковій вартості всієї галузі, що не надихає.
Але покоління повинно мати обчислювальну архітектуру епохи. Розвиток штучного інтелекту стрімко просувається вперед, а технологічні прориви вимірюються годинами. Якщо ви хочете, щоб штучний інтелект проникав у життя людини так само, як це було, коли ПК/смартфони стали популярними, тоді обчислювальна потужність Можливо, доведеться знизити витрати на 99%, і графічні процесори справді можуть бути не єдиним рішенням.
**Історія говорить нам, що незалежно від того, наскільки процвітаючою може бути імперія, їй, можливо, доведеться бути обережною з цією непомітною тріщиною. **
Посилання
[1] Класифікація ImageNet із глибокими згортковими нейронними мережами, Хінтон
[2] Корпорація Майкрософт готує чіп зі штучним інтелектом, оскільки витрати на машинне навчання різко зросли, інформація
[3] Високопродуктивні згорткові нейронні мережі для обробки документів
[4] Cloud TPU v4 від Google забезпечує ML у масштабі exaFLOPS із найкращою в галузі ефективністю
[5] Амбіції Tesla щодо штучного інтелекту, Токавський науково-дослідний інститут
[6] Масштабне глибоке неконтрольоване навчання з використанням графічних процесорів