Sebuah celah di kerajaan Nvidia

Sumber: Institut Berbasis Silikon

Penulis: He Luheng/Bos Dai

Pada tahun 2012, dua peristiwa besar terjadi di lingkaran AI. Dalam urutan kronologis, yang pertama adalah rilis Google Brain, tim Google lama, sebagai "pekerjaan debutnya" - jaringan pembelajaran mendalam "Google Cat " yang dapat mengenali kucing, dengan pengenalan 74,8% Tingkat akurasinya 0,8% lebih tinggi dari 74% algoritme pemenang kompetisi pengenalan gambar terkenal ImageNet tahun sebelumnya.

Tetapi momen profil tinggi Google hanya berlangsung beberapa bulan. Pemenang ImageNet terbaru dirilis pada Desember 2012. Master pembelajaran mendalam Hinton dan murid-muridnya membawa jaringan saraf convolutional AlexNet, yang meningkatkan tingkat akurasi pengenalan hingga 84%, sehingga memulai revolusi AI berikutnya dekade Google Cat terkubur dalam debu sejarah.

Hinton dengan dua siswa, 2012

Bukan hanya model ImageNet itu sendiri yang mengejutkan industri. Neural network ini, yang membutuhkan 14 juta gambar dan total 262 petaflop operasi floating-point, hanya menggunakan empat NVIDIA Geforce GTX 580 selama seminggu pelatihan. Sebagai referensi, Google Cat menggunakan 10 juta gambar, 16.000 CPU, dan 1.000 komputer [1] 。

Dikabarkan bahwa Google juga diam-diam berpartisipasi dalam kompetisi tahun ini, dan kejutan yang diterimanya langsung tercermin dalam tindakan selanjutnya: Google menghabiskan $44 juta untuk mengakuisisi tim Hinton, dan segera memesan sejumlah besar GPU ke Nvidia untuk kecerdasan buatan Pelatihan, dan pada saat yang sama "barang menyapu" juga raksasa seperti Microsoft dan Facebook.

** Nvidia menjadi pemenang terbesar, dan harga sahamnya naik maksimal 121 kali lipat dalam 10 tahun ke depan. Sebuah kerajaan lahir. **

Tapi di atas kekaisaran, dua awan gelap berangsur-angsur berkumpul. Google, yang membeli barang dari Nvidia saat itu, melakukan debut menakjubkan dengan AlphaGo tiga tahun kemudian, dan mengalahkan juara manusia Ke Jie pada tahun 2017. Orang-orang yang tertarik menemukan bahwa chip yang menggerakkan AlphaGo bukan lagi GPU Nvidia, tetapi chip TPU yang dikembangkan sendiri oleh Google.

Tiga tahun kemudian, skenario serupa terulang kembali. Tesla, yang pernah dianggap sebagai pelanggan tolok ukur oleh Huang Renxun, juga mengucapkan selamat tinggal pada GPU Nvidia. Ini pertama kali meluncurkan chip kendaraan FSD dengan NPU sebagai intinya, dan kemudian mengeluarkan chip D1 yang digunakan untuk membangun kelompok pelatihan AI. Li kehilangan dua dari pelanggan terpenting di era AI.

Pada tahun 2022, siklus TI global akan memasuki fase penurunan. Perusahaan cloud computing besar akan memangkas anggaran pengadaan GPU untuk pusat data satu demi satu. Gelombang penambangan blockchain secara bertahap akan mendingin. Selain itu, larangan chip A.S. di China akan membuat tidak mungkin menjual A100/H100 ke China Untuk kartu grafis kelas atas, inventaris Nvidia melonjak, dan harga sahamnya turun 2/3 dari puncaknya.

Pada akhir tahun 2022, ChatGPT lahir, dan GPU, sebagai bahan bakar untuk "alkimia" skala besar, dijarah lagi.Nvidia mendapat kelonggaran, tetapi awan gelap ketiga menyusul: Pada 18 April 2023, media teknologi terkenal Informasi menyampaikan berita:* Microsoft, penggagas putaran gelombang AI ini, diam-diam mengembangkan chip AI-nya sendiri* [2] 。

Chip yang disebut Athena ini diproduksi oleh TSMC dan menggunakan proses 5nm yang canggih.Jumlah tim R&D Microsoft mendekati 300. Jelas, tujuan dari chip ini adalah untuk menggantikan A100/H100 yang mahal, menyediakan mesin tenaga komputasi untuk OpenAI, dan pada akhirnya akan merebut kue Nvidia melalui layanan cloud Azure Microsoft.

Microsoft saat ini adalah pembeli terbesar Nvidia H100, dan bahkan dikabarkan akan "menyelesaikan" kapasitas produksi H100 setahun penuh. Sinyal perpisahan dari Microsoft tidak diragukan lagi merupakan baut dari biru.Anda harus tahu bahwa bahkan ketika Intel berada pada titik tergelapnya, tidak ada pelanggannya yang "berani" membuat chip CPU mereka sendiri (kecuali Apple, yang tidak menjualnya secara eksternal). .

Meskipun Nvidia saat ini memonopoli 90% pasar untuk daya komputasi AI dengan GPU+NVlink+CUDA, celah pertama telah muncul di kerajaan **. **

01, GPU yang tidak dilahirkan untuk AI

Sejak awal, GPU tidak dibuat untuk AI.

Pada bulan Oktober 1999, Nvidia merilis GeForce 256, sebuah chip pemrosesan grafis berdasarkan proses 220nm TSMC dan mengintegrasikan 23 juta transistor. Nvidia mengekstrak inisial "GPU" dari Graphics Processing Unit, dan menamai GeForce 256 **"GPU pertama di dunia".

Saat ini, kecerdasan buatan telah diam selama bertahun-tahun, terutama di bidang jaringan saraf yang dalam. Pemenang Penghargaan Turing Masa Depan seperti Geoffery Hinton dan Yann LeCun masih duduk di bangku akademik, dan mereka tidak pernah memikirkan karier mereka. , akan sepenuhnya diubah oleh GPU yang awalnya dikembangkan untuk para gamer.

** Untuk siapa GPU dilahirkan? gambar**. Lebih tepatnya, ia lahir untuk membebaskan CPU dari tampilan grafis yang menjemukan. Prinsip dasar tampilan gambar adalah membagi gambar dari setiap frame menjadi piksel individual, dan kemudian melakukan beberapa proses rendering seperti pemrosesan vertex, pemrosesan primitif, rasterisasi, pemrosesan fragmen, operasi piksel, dll., Dan akhirnya ditampilkan di layar.

Sumber proses pemrosesan dari piksel ke gambar: ringkasan grafis

Mengapa Anda mengatakan ini kerja keras? Kerjakan soal aritmatika sederhana:

Dengan asumsi ada 300.000 piksel di layar, dihitung pada kecepatan bingkai 60fps, 18 juta rendering per detik harus diselesaikan, setiap kali termasuk lima langkah di atas, sesuai dengan lima instruksi, artinya, CPU perlu menyelesaikan 90 juta instruksi per detik untuk Mewujudkan presentasi layar satu detik.Sebagai referensi, CPU Intel dengan performa tertinggi saat itu hanya memiliki 60 juta kalkulasi per detik.

Ini bukan karena CPU lemah, tetapi karena bagus dalam penjadwalan thread, sehingga lebih banyak ruang yang diberikan ke unit kontrol dan unit penyimpanan, dan unit komputasi yang digunakan untuk kalkulasi hanya menempati 20% dari ruang tersebut. Sebaliknya, GPU lebih dari 80% dari ruang adalah unit komputasi, yang menghadirkan kemampuan komputasi super paralel, dan lebih cocok untuk pekerjaan tampilan gambar langkah tetap, berulang, dan membosankan.

Struktur internal CPU dan GPU, bagian hijau adalah unit komputasi

Baru beberapa tahun kemudian beberapa ahli kecerdasan buatan menyadari bahwa GPU dengan karakteristik seperti itu juga cocok untuk pelatihan deep learning. Banyak arsitektur jaringan saraf dalam klasik telah diusulkan sejak paruh kedua abad ke-20, tetapi karena kurangnya perangkat keras komputasi untuk melatihnya, banyak penelitian hanya dapat "di atas kertas", dan pengembangannya mandek untuk waktu yang lama. waktu.

Tembakan pada Oktober 1999 membawa GPU ke kecerdasan buatan. Proses pelatihan pembelajaran mendalam adalah melakukan operasi hierarkis pada setiap nilai input sesuai dengan fungsi dan parameter setiap lapisan jaringan saraf, dan akhirnya mendapatkan nilai output, yang membutuhkan sejumlah besar operasi matriks seperti rendering grafik-ini kebetulan GPU adalah yang terbaik.

Arsitektur jaringan syaraf dalam yang tipikal; sumber: menuju ilmu data

Namun, gambar tersebut menunjukkan bahwa meskipun jumlah pemrosesan data sangat besar, sebagian besar langkahnya tetap.Setelah jaringan saraf dalam diterapkan ke bidang pengambilan keputusan, itu akan melibatkan situasi kompleks seperti struktur cabang, dan parameter setiap lapisan perlu dilatih berdasarkan data masif umpan balik positif dan negatif.Terus merevisi. Perbedaan-perbedaan ini telah menimbulkan bahaya tersembunyi bagi kemampuan adaptasi GPU ke AI di masa mendatang.

Manajer umum AI/ML Amazon saat ini, Kumar Chellapilla, adalah sarjana pertama yang memakan kepiting GPU. Pada tahun 2006, dia menggunakan kartu grafis Nvidia GeForce 7800 untuk mengimplementasikan jaringan saraf convolutional (CNN) untuk pertama kalinya, dan menemukan bahwa itu 4 kali lebih cepat daripada menggunakan CPU. Ini adalah upaya paling awal yang diketahui untuk menggunakan GPU untuk pembelajaran mendalam [3] 。

Kumar Chellapilla dan Nvidia Geforce 7800

Karya Kumar belum menarik perhatian luas, terutama karena tingginya kompleksitas pemrograman berbasis GPU. Namun saat ini, Nvidia meluncurkan platform CUDA pada tahun 2007, yang sangat mengurangi kesulitan bagi pengembang untuk menggunakan GPU untuk melatih jaringan saraf yang dalam, yang membuat para penganut pembelajaran mendalam melihat lebih banyak harapan.

Kemudian pada tahun 2009, Wu Enda dari Stanford dan yang lainnya menerbitkan makalah terobosan [6] , GPU mempersingkat waktu pelatihan AI dari beberapa minggu menjadi berjam-jam berdasarkan lebih dari 70 kali daya komputasi CPU. Makalah ini menunjukkan jalan untuk implementasi perangkat keras kecerdasan buatan. GPU telah sangat mempercepat proses AI dari kertas menjadi kenyataan.

Andrew Ng (吴恩达)

Perlu disebutkan bahwa Wu Enda bergabung dengan Google Brain pada tahun 2011 dan merupakan salah satu pemimpin proyek Google Cat yang disebutkan di awal. Alasan mengapa Google Brain gagal menggunakan GPU pada akhirnya tidak diketahui oleh orang luar, tetapi sebelum dan sesudah Wu Enda keluar dari Google untuk bergabung dengan Baidu, ada desas-desus bahwa itu karena sikap Google terhadap GPU tidak jelas.

**Setelah penjelajahan yang tak terhitung jumlahnya, tongkat estafet akhirnya diserahkan kepada master pembelajaran mendalam Hinton, dan waktu telah menunjuk ke tahun 2012. **

Pada 2012, Hinton dan dua siswanya, Alex Krizhevsky dan Ilya Sutskeverz, merancang jaringan saraf konvolusional yang dalam, AlexNet, dan berencana untuk berpartisipasi dalam kompetisi ImageNet tahun ini. Tetapi masalahnya adalah mungkin perlu waktu beberapa bulan untuk melatih AlexNet dengan CPU, jadi mereka mengalihkan perhatian ke GPU.

GPU ini, yang sangat penting dalam sejarah pengembangan pembelajaran mendalam, adalah "kartu grafis bom nuklir" GTX 580 yang terkenal. Sebagai produk unggulan dari arsitektur Fermi terbaru Nvidia, GTX 580 diisi dengan 512 CUDA core (108 pada generasi sebelumnya), sementara daya komputasi melonjak, konsumsi daya yang berlebihan dan masalah panas yang dihasilkan juga membuat Nvidia menamakannya "Pabrik Bom Nuklir". ".

A arsenik, B madu. Dibandingkan dengan "kelancaran" saat melatih jaringan saraf dengan GPU, masalah pembuangan panas tidak perlu disebutkan. Tim Hinton berhasil menyelesaikan pemrograman dengan platform CUDA dari Nvidia.Dengan dukungan dua kartu grafis GTX 580, pelatihan 14 juta gambar hanya membutuhkan waktu satu minggu, dan AlexNet berhasil menjadi juara.

**Karena pengaruh kompetisi ImageNet dan Hinton sendiri, semua pakar kecerdasan buatan menyadari pentingnya GPU dalam sekejap. **

Dua tahun kemudian, Google mengambil model GoogLeNet untuk berpartisipasi dalam ImageNet dan memenangkan kejuaraan dengan tingkat akurasi 93%, menggunakan GPU NVIDIA. Tahun ini, jumlah GPU yang digunakan oleh semua tim peserta melonjak menjadi 110. Di luar kompetisi, GPU telah menjadi "konsumsi yang harus dimiliki" untuk pembelajaran mendalam, mengirimkan aliran pesanan yang stabil kepada Huang Renxun.

Hal ini memungkinkan Nvidia menyingkirkan bayang-bayang kegagalan di pasar ponsel. Setelah iPhone dirilis pada 2007, kue chip smartphone berkembang pesat. Nvidia juga mencoba mendapatkan bagian dari Samsung, Qualcomm, dan MediaTek Masalah pembuangan panas gagal. Pada akhirnya, itu adalah bidang kecerdasan buatan yang diselamatkan oleh GPU, yang memberi Nvidia kurva pertumbuhan kedua.

Tapi bagaimanapun, GPU tidak dilahirkan untuk pelatihan jaringan saraf... Semakin cepat kecerdasan buatan berkembang, semakin banyak masalah ini terungkap.

Misalnya, meskipun GPU sangat berbeda dari CPU, keduanya pada dasarnya mengikuti struktur von Neumann, dan penyimpanan serta pengoperasiannya terpisah. Hambatan efisiensi yang ditimbulkan oleh pemisahan ini, bagaimanapun, langkah-langkah pemrosesan gambar relatif tetap, dan dapat diselesaikan dengan operasi yang lebih paralel, tetapi sangat fatal dalam jaringan saraf dengan banyak struktur cabang.

Setiap kali jaringan saraf menambahkan lapisan atau cabang, itu perlu meningkatkan akses memori untuk menyimpan data untuk mundur, dan waktu yang dihabiskan untuk ini tidak dapat dihindari. Terutama di era model besar, semakin besar modelnya, semakin banyak operasi akses memori yang perlu dilakukan - energi yang dikonsumsi dalam akses memori jauh lebih tinggi daripada komputasi.

Analogi sederhananya adalah bahwa GPU adalah manusia berotot (dengan banyak unit komputasi), tetapi untuk setiap instruksi yang diterima, dia harus kembali dan melihat instruksi manual (memori).Akhirnya, seiring bertambahnya ukuran dan kompleksitas model , pria Waktu untuk pekerjaan nyata sangat terbatas, dan sebaliknya, saya sangat lelah membalik-balik manual sehingga mulut saya berbusa.

Masalah memori hanyalah salah satu dari banyak "ketidaknyamanan" GPU dalam aplikasi jaringan saraf yang dalam. Nvidia menyadari masalah ini sejak awal, dan dengan cepat mulai "memodifikasi secara ajaib" GPU agar lebih cocok untuk skenario aplikasi kecerdasan buatan; dan pemain AI yang sangat sadar akan api juga menyelinap masuk, mencoba menggunakan cacat GPU untuk membongkar sudut kerajaan Huang Renxun.

** Pertempuran ofensif dan defensif dimulai. **

02, pertarungan kelam antara Google dan Nvidia

Menghadapi permintaan yang luar biasa untuk daya komputasi AI dan cacat bawaan GPU, Huang Renxun menawarkan dua set solusi untuk berjalan seiring.

**Set pertama adalah untuk terus menumpuk daya komputasi dengan keras di sepanjang jalur "peri tua daya komputasi memiliki kekuatan sihir tak terbatas". ** Di era ketika permintaan daya komputasi AI berlipat ganda setiap 3,5 bulan, daya komputasi adalah wortel yang tergantung di depan mata perusahaan kecerdasan buatan, membuat mereka memarahi Huang Renxun karena keterampilan pedangnya yang luar biasa sambil menyambarnya seperti anjing Semua kapasitas Nvidia.

**Set kedua adalah untuk secara bertahap menyelesaikan ketidaksesuaian antara GPU dan skenario kecerdasan buatan melalui "inovasi yang ditingkatkan". **Masalah ini termasuk tetapi tidak terbatas pada konsumsi daya, dinding memori, hambatan bandwidth, kalkulasi presisi rendah, koneksi berkecepatan tinggi, pengoptimalan model tertentu... Sejak 2012, Nvidia tiba-tiba mempercepat kecepatan pembaruan arsitektur.

Setelah Nvidia merilis CUDA, ia menggunakan arsitektur terpadu untuk mendukung dua skenario utama Grafik dan Komputasi. Arsitektur generasi pertama memulai debutnya pada tahun 2007 dan diberi nama Tesla.Ini bukan karena Huang Renxun ingin menunjukkan dukungannya kepada Musk, tetapi untuk memberi penghormatan kepada fisikawan Nikola Tesla (generasi paling awal adalah arsitektur Curie).

Sejak saat itu, setiap generasi arsitektur GPU NVIDIA diberi nama menurut ilmuwan terkenal, seperti yang ditunjukkan pada gambar di bawah ini. Di setiap iterasi arsitektur, Nvidia terus menumpuk daya komputasi, sambil meningkatkan tanpa "memutuskan otot dan tulang".

Misalnya, arsitektur Fermi generasi kedua pada tahun 2011 memiliki kelemahan dalam pembuangan panas, sedangkan arsitektur Kepler generasi ketiga pada tahun 2012 mengubah ide desain keseluruhan dari kinerja tinggi menjadi hemat daya untuk meningkatkan pembuangan panas; dan untuk memecahkan masalah yang disebutkan sebelumnya Untuk masalah "orang bodoh otot", arsitektur Maxwell generasi keempat pada tahun 2014 menambahkan lebih banyak sirkuit kontrol logika di dalamnya untuk memfasilitasi kontrol yang tepat.

Untuk beradaptasi dengan adegan AI, GPU Nvidia yang "dimodifikasi secara ajaib" menjadi semakin seperti CPU sampai batas tertentu - sama seperti kemampuan penjadwalan CPU yang sangat baik dengan mengorbankan daya komputasi, Nvidia harus menahan diri. penumpukan inti komputasi. Namun, bagaimanapun Anda mengubah GPU dengan beban keserbagunaan, akan sulit untuk menyamai chip khusus dalam skenario AI.

** Yang pertama menyerang Nvidia adalah Google, yang merupakan yang pertama membeli GPU dalam skala besar untuk komputasi AI. **

Setelah memamerkan kekuatannya dengan GoogLeNet pada tahun 2014, Google tidak lagi berpartisipasi secara terbuka dalam kompetisi pengenalan mesin, dan berkonspirasi untuk mengembangkan chip khusus AI. Pada tahun 2016, Google memimpin dengan AlphaGo. Setelah memenangkan Li Shishi, ia segera meluncurkan TPU chip AI yang dikembangkan sendiri, yang mengejutkan Nvidia dengan arsitektur baru "lahir untuk AI".

TPU adalah singkatan dari Tensor Processing Unit, dan nama Chinanya adalah "tensor processing unit". Jika "reformasi ajaib" Nvidia dari GPU adalah meruntuhkan tembok timur untuk menebus tembok barat, maka TPU secara mendasar mengurangi permintaan untuk penyimpanan dan koneksi, dan mentransfer ruang chip ke perhitungan secara maksimal. Secara khusus, dua cara Hebat:

**Yang pertama adalah teknologi kuantitatif. **Perhitungan komputer modern biasanya menggunakan data berpresisi tinggi, yang menghabiskan banyak memori, tetapi pada kenyataannya, sebagian besar perhitungan jaringan saraf tidak memerlukan ketelitian untuk mencapai perhitungan floating-point 32-bit atau 16-bit. teknologi pada dasarnya adalah untuk menggabungkan Angka 32-bit/16-bit yang didekati dengan bilangan bulat 8-bit, menjaga akurasi yang tepat dan mengurangi kebutuhan penyimpanan.

Yang kedua adalah larik sistolik, yang merupakan larik perkalian matriks, yang merupakan salah satu perbedaan paling penting antara TPU dan GPU. Sederhananya, operasi jaringan saraf memerlukan operasi matriks dalam jumlah besar. GPU hanya dapat membongkar perhitungan matriks menjadi beberapa perhitungan vektor langkah demi langkah. Setiap kali grup selesai, perlu mengakses memori dan menyimpan hasil lapisan ini sampai semua perhitungan vektor selesai, lalu gabungkan hasil dari setiap lapisan untuk mendapatkan nilai keluaran.

Di TPU, ribuan unit komputasi terhubung langsung untuk membentuk array perkalian matriks. Sebagai inti komputasi, perhitungan matriks dapat dilakukan secara langsung. Kecuali untuk memuat data dan fungsi di awal, tidak perlu mengakses unit penyimpanan, yang mana sangat mengurangi akses Frekuensi sangat mempercepat kecepatan perhitungan TPU, dan konsumsi energi dan pendudukan ruang fisik juga sangat berkurang.

Perbandingan waktu akses CPU, GPU, memori TPU (memori).

TPU Google sangat cepat, dan hanya membutuhkan waktu 15 bulan mulai dari desain, verifikasi, produksi massal, hingga penerapan akhir ke pusat datanya sendiri. Setelah pengujian, kinerja dan konsumsi daya TPU di skenario CNN, LSTM, MLP, dan AI lainnya mengungguli GPU Nvidia dalam periode yang sama. **Semua tekanan diberikan kepada Nvidia sekaligus. **

Ditusuk dari belakang oleh pelanggan besar memang tidak nyaman, tetapi Nvidia tidak akan bertahan dan dipukuli, dan tarik ulur telah dimulai.

Lima bulan setelah Google meluncurkan TPU, Nvidia juga memperkenalkan arsitektur Pascal dari proses 16nm. Di satu sisi, arsitektur baru memperkenalkan teknologi interkoneksi dua arah berkecepatan tinggi NVLink yang terkenal, yang sangat meningkatkan bandwidth koneksi; di sisi lain, meniru teknologi kuantisasi TPU, dan meningkatkan efisiensi komputasi jaringan saraf dengan mengurangi akurasi data.

Pada tahun 2017, Nvidia meluncurkan Volta, arsitektur pertama yang dirancang khusus untuk pembelajaran mendalam, yang memperkenalkan TensorCore untuk pertama kalinya, yang khusus digunakan untuk operasi matriks-walaupun larik perkalian 4×4 sama dengan larik pulsa TPU 256×256 .Rasionya sedikit lusuh, tetapi juga merupakan kompromi yang dibuat atas dasar mempertahankan fleksibilitas dan keserbagunaan.

Operasi matriks 4x4 diimplementasikan oleh TensorCore di Nvidia V100

Eksekutif NVIDIA menyatakan kepada pelanggan: ** "Volta bukanlah peningkatan dari Pascal, tetapi arsitektur yang benar-benar baru."**

Google juga berpacu dengan waktu. Setelah 2016, TPU telah diperbarui selama 3 generasi dalam lima tahun. Ini meluncurkan TPUv2 pada 2017, TPUv3 pada 2018, dan TPUv4 pada 2021, dan menempatkan data di depan Nvidia. [4] : **TPU v4 1,2-1,7 kali lebih cepat dari Nvidia A100, sekaligus mengurangi konsumsi daya 1,3-1,9 kali. **

Google tidak menjual chip TPU ke dunia luar, dan pada saat yang sama terus membeli GPU Nvidia dalam jumlah besar, yang membuat persaingan chip AI antara keduanya tetap dalam "perang dingin" daripada "persaingan terbuka". Namun bagaimanapun, Google menerapkan TPU dalam sistem layanan cloud-nya sendiri untuk menyediakan layanan daya komputasi AI ke dunia luar, yang tidak diragukan lagi mengurangi potensi pasar Nvidia.

CEO Google Sundar Picha mendemonstrasikan TPU v4

Sementara keduanya "bertarung dalam kegelapan", kemajuan di bidang kecerdasan buatan juga mengalami kemajuan pesat. Pada tahun 2017, Google mengusulkan model Transformer yang revolusioner, dan OpenAI kemudian mengembangkan GPT-1 berdasarkan Transformer. Perlombaan model besar pecah, dan permintaan akan daya komputasi AI mengantar percepatan kedua sejak munculnya AlexNet pada tahun 2012. .

Setelah menyadari tren baru, Nvidia meluncurkan arsitektur Hopper pada tahun 2022, memperkenalkan mesin akselerasi Transformer di tingkat perangkat keras untuk pertama kalinya, mengklaim dapat meningkatkan waktu pelatihan model bahasa besar berbasis Transformer sebanyak 9 kali lipat. Berdasarkan arsitektur Hopper, Nvidia meluncurkan "GPU paling kuat di permukaan" - H100.

H100 adalah "monster jahitan" utama Nvidia. Di satu sisi, H100 memperkenalkan berbagai teknologi pengoptimalan AI, seperti kuantisasi, penghitungan matriks (Tensor Core 4.0), dan mesin akselerasi Transformer; di sisi lain, penuh dengan kekuatan tradisional Nvidia, seperti 7296 CUDA Core, memori HBM2 80 GB, dan teknologi koneksi NVLink 4.0 hingga 900 GB/dtk.

Memegang H100 di tangan, Nvidia menghela nafas lega untuk sementara.Tidak ada chip yang diproduksi secara massal di pasaran yang lebih baik dari H100.

Jungkat-jungkit rahasia Google dan Nvidia juga merupakan pencapaian bersama: Nvidia telah mengimpor banyak teknologi inovatif dari Google, dan penelitian mutakhir Google tentang kecerdasan buatan juga mendapat manfaat penuh dari inovasi GPU Nvidia. direduksi ke tingkat yang dapat digunakan oleh model bahasa besar "berjinjit". Mereka yang menjadi pusat perhatian, seperti OpenAI, juga berdiri di atas bahu keduanya.

Tetapi perasaan adalah milik perasaan, dan bisnis adalah milik bisnis. Pertempuran ofensif dan defensif di sekitar GPU telah membuat industri lebih yakin akan satu hal: **GPU bukanlah solusi optimal untuk AI, dan ASIC yang disesuaikan memiliki kemungkinan untuk mematahkan monopoli Nvidia. **Celah telah dibuka, dan Google tidak akan menjadi satu-satunya yang mengikuti selera.

**Terutama daya komputasi telah menjadi permintaan yang paling pasti di era AGI, dan semua orang ingin duduk di meja yang sama dengan NVIDIA saat makan. **

03, retakan yang melebar

Selain OpenAI, ada dua perusahaan out-of-the-box di babak ledakan AI ini, salah satunya adalah perusahaan gambar AI Midjourney, yang kemampuannya mengendalikan berbagai gaya lukisan membuat seniman berbasis karbon yang tak terhitung jumlahnya ketakutan; yang lainnya adalah Authropic, yang pendirinya dari OpenAI. Robot dialog Claude bermain bolak-balik dengan ChatGPT.

**Tetapi tidak satu pun dari kedua perusahaan ini yang membeli GPU Nvidia untuk membuat superkomputer, tetapi menggunakan layanan komputasi Google. **

Untuk memenuhi ledakan daya komputasi AI, Google membangun superkomputer (TPU v4 Pod) dengan TPU 4096. Chip tersebut saling terhubung dengan sakelar sirkuit optik (OCS) yang dikembangkan sendiri, yang tidak hanya dapat digunakan untuk melatih LaMDA mereka sendiri , Model bahasa besar seperti MUM dan PaLM juga dapat menyediakan layanan murah dan berkualitas tinggi untuk startup AI.

Superkomputer GoogleTPU v4 Pod

Ada juga Tesla yang membuat superkalkulator DIY sendiri. Setelah meluncurkan chip FSD yang dipasang di kendaraan, Tesla mendemonstrasikan ke dunia luar superkomputer Dojo ExaPOD yang dibangun dengan 3.000 chip D1 miliknya sendiri pada Agustus 2021. Diantaranya, chip D1 diproduksi oleh TSMC, menggunakan teknologi 7nm, dan 3.000 chip D1 secara langsung menjadikan Dojo sebagai komputer dengan daya komputasi terbesar kelima di dunia.

**Namun, kombinasi keduanya tidak dapat dibandingkan dengan dampak yang dibawa oleh chip Athena yang dikembangkan sendiri oleh Microsoft. **

Microsoft adalah salah satu pelanggan terbesar Nvidia. Layanan cloud Azure-nya sendiri telah membeli setidaknya puluhan ribu GPU high-end A100 dan H100. SwiftKey dan produk lain yang menggunakan AI.

Setelah perhitungan yang cermat, "pajak Nvidia" yang harus dibayar Microsoft adalah angka yang sangat besar, dan chip yang dikembangkan sendiri hampir tidak dapat dihindari. Sama seperti Ali menghitung permintaan masa depan Taobao Tmall untuk komputasi awan, basis data, dan penyimpanan, dan menemukan bahwa itu adalah angka astronomi, sehingga dengan tegas mulai mendukung Alibaba Cloud, dan meluncurkan kampanye "de-IOE" yang gencar secara internal.

** Penghematan biaya adalah satu aspek, dan integrasi vertikal untuk menciptakan diferensiasi adalah aspek lainnya. **Di era ponsel, CPU (AP), memori, dan layar ponsel Samsung diproduksi dan dijual sendiri, memberikan kontribusi besar bagi hegemoni Android global Samsung. Pembuatan inti Google dan Microsoft juga melakukan pengoptimalan level chip untuk layanan cloud mereka sendiri untuk menciptakan perbedaan.

Oleh karena itu, tidak seperti Apple dan Samsung, yang tidak menjual chip ke dunia luar, meskipun chip AI Google dan Microsoft tidak akan dijual ke dunia luar, mereka akan mencerna beberapa pelanggan potensial Nvidia melalui "layanan cloud daya komputasi AI". dan Authropic adalah contohnya.Ada lebih banyak perusahaan kecil (terutama di lapisan aplikasi AI) yang memilih layanan cloud.

**Konsentrasi pasar komputasi awan global sangat tinggi. Lima pabrikan teratas (Amazon AWS, Microsoft Azure, Google Cloud, Alibaba Cloud, dan IBM) menyumbang lebih dari 60%, dan mereka semua membuat chip AI mereka sendiri. Diantaranya, Google membuat kemajuan tercepat , IBM memiliki cadangan terkuat, Microsoft memiliki pengaruh terbesar, Amazon memiliki kerahasiaan terbaik, dan Ali memiliki kesulitan terbesar. **

Pabrikan besar dalam negeri mengembangkan chip mereka sendiri, dan akhir dari Oppo Zheku akan membayangi setiap pemain yang memasuki lapangan. Namun, perusahaan besar di luar negeri melakukan penelitian sendiri, dan bakat serta rantai pasokan teknologi dapat dibangun dengan dana. Misalnya, saat Tesla terlibat dalam FSD, Tesla merekrut dewa Lembah Silikon Jim Keller, dan Google mengembangkan TPU dan mengundang langsung Turing Pemenang penghargaan, penemu arsitektur RISC Profesor David Patterson.

Selain pabrikan besar, beberapa perusahaan kecil dan menengah juga mencoba mengambil kue Nvidia, seperti Graphcore, yang pernah memiliki valuasi 2,8 miliar dolar AS, dan Kambrium domestik juga termasuk dalam kategori ini. Tabel berikut mencantumkan perusahaan desain chip AI start-up yang lebih terkenal di dunia.

Kesulitan untuk start-up chip AI adalah bahwa tanpa investasi berkelanjutan dari perusahaan besar dengan sumber daya keuangan yang kuat, mereka tidak dapat memproduksi dan menjual diri mereka sendiri seperti Google Kecuali jalur teknisnya unik atau keunggulannya sangat kuat, pada dasarnya tidak ada peluang menang saat bertarung dengan Nvidia.Keunggulan biaya dan ekologis yang terakhir hampir dapat memuluskan semua keraguan pelanggan.

**Dampak startup pada Nvidia terbatas, dan kekhawatiran tersembunyi Huang Renxun tetaplah pelanggan besar yang tidak jujur. **

Tentu pabrikan besar masih tak terpisahkan dari Nvidia. Misalnya, meskipun TPU Google telah diperbarui ke generasi ke-4, masih perlu membeli GPU dalam jumlah besar untuk menyediakan daya komputasi sehubungan dengan TPU; Pilih untuk membeli 10.000 GPU dari NVIDIA.

Namun, Huang Renxun telah mengalami persahabatan plastik dengan pabrikan besar di Musk. Pada tahun 2018, Musk secara terbuka mengumumkan bahwa dia akan mengembangkan chip mobilnya sendiri (DRIVE PX NVIDIA digunakan pada saat itu).Huang Renxun ditanyai oleh analis di tempat dalam panggilan konferensi, dan dia tidak dapat turun dari panggung untuk waktu yang lama. ketika. Setelah itu, Musk mengeluarkan "klarifikasi", tetapi setahun kemudian Tesla masih meninggalkan Nvidia tanpa menoleh ke belakang [5] 。

Pabrik-pabrik besar tidak pernah menunjukkan belas kasihan dalam menghemat biaya. Meskipun chip Intel dijual ke B-end di era PC, konsumen memiliki pilihan otonomi yang kuat, dan pabrikan perlu mengiklankan "Intel Inside"; namun di era cloud daya komputasi, raksasa dapat memblokir semua informasi perangkat keras yang mendasarinya, dan mereka juga akan membeli di masa depan Dengan daya komputasi 100TFlops, dapatkah konsumen mengetahui bagian mana yang berasal dari TPU dan bagian mana yang berasal dari GPU?

Oleh karena itu, Nvidia akhirnya harus menghadapi pertanyaan: **GPU memang tidak dilahirkan untuk AI, tetapi apakah GPU akan menjadi solusi optimal untuk AI? **

Selama 17 tahun terakhir, Huang Renxun telah memisahkan GPU dari satu adegan permainan dan pemrosesan gambar, menjadikannya alat daya komputasi serba guna. Skenario baru terus "secara ajaib memodifikasi" GPU, mencoba menemukan keseimbangan antara "keumuman " dan "kekhususan".

Dalam dua dekade terakhir, Nvidia telah memperkenalkan banyak teknologi baru yang telah mengubah industri: platform CUDA, TensorCore, RT Core (ray tracing), NVLink, platform cuLitho (komputasi litografi), presisi campuran, Omniverse, mesin Transformer ... Ini teknologi telah membantu Nvidia dari perusahaan chip lapis kedua menjadi pergelangan tangan Nanbo dalam nilai pasar seluruh industri, yang tidak menginspirasi.

Tetapi satu generasi harus memiliki arsitektur komputasi suatu zaman. Perkembangan kecerdasan buatan berkembang pesat, dan terobosan teknologi diukur dalam hitungan jam. Jika Anda ingin AI menembus kehidupan manusia sebanyak yang terjadi saat PC/smartphone menjadi populer, maka daya komputasi Biaya mungkin harus turun hingga 99%, dan GPU mungkin bukan satu-satunya jawaban.

**Sejarah memberi tahu kita bahwa tidak peduli seberapa makmur sebuah kerajaan, mungkin harus berhati-hati dengan celah yang tidak mencolok itu. **

Referensi

[1] Klasifikasi ImageNet dengan Deep Convolutional Neural Networks, Hinton

[2] Microsoft Siapkan AI Chip Saat Biaya Machine Learning Melonjak, Informasinya

[3] Jaringan Saraf Konvolusional Kinerja Tinggi untuk Pemrosesan Dokumen

[4] Cloud TPU v4 Google menyediakan ML berskala exaFLOPS dengan efisiensi terdepan di industri

[5] Ambisi AI Tesla, Tokawa Research Institute

[6] Pembelajaran Tanpa Pengawasan Mendalam Skala Besar menggunakan Prosesor Grafis

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate.io
Komunitas
Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)