จากนั้นในปี 2009 Wu Enda จาก Stanford และคนอื่นๆ ได้ตีพิมพ์บทความที่ก้าวหน้า [6] , GPU ลดเวลาการฝึก AI จากสัปดาห์เป็นชั่วโมงโดยอาศัยพลังการประมวลผลของ CPU มากกว่า 70 เท่า บทความนี้ชี้ให้เห็นถึงแนวทางสำหรับการนำฮาร์ดแวร์ของปัญญาประดิษฐ์ไปใช้ GPU ได้เร่งกระบวนการของ AI จากกระดาษไปสู่ความเป็นจริงอย่างมาก
แอนดรูว์ อึ้ง (吴恩达)
เป็นมูลค่าการกล่าวขวัญว่า Wu Enda เข้าร่วม Google Brain ในปี 2011 และเป็นหนึ่งในผู้นำของโครงการ Google Cat ที่กล่าวถึงในตอนต้น สาเหตุที่ Google Brain ล้มเหลวในการใช้ GPU ในที่สุดนั้นไม่เป็นที่รู้จักสำหรับคนนอก แต่ก่อนและหลัง Wu Enda ออกจาก Google เพื่อเข้าร่วม Baidu มีข่าวลือว่าเป็นเพราะทัศนคติของ Google ที่มีต่อ GPU ไม่ชัดเจน
หลังจากที่ Nvidia เปิดตัว CUDA ก็ใช้สถาปัตยกรรมแบบรวมเพื่อสนับสนุนสองสถานการณ์หลักด้านกราฟิกและคอมพิวเตอร์ สถาปัตยกรรมรุ่นแรกเปิดตัวในปี 2550 และมีชื่อว่า Tesla ไม่ใช่เพราะ Huang Renxun ต้องการแสดงความโปรดปรานต่อ Musk แต่เพื่อยกย่องนักฟิสิกส์ Nikola Tesla (รุ่นแรกสุดคือสถาปัตยกรรม Curie)
เพื่อปรับให้เข้ากับฉาก AI GPU "ที่ได้รับการดัดแปลงอย่างมหัศจรรย์" ของ Nvidia นั้นเป็นเหมือน CPU มากขึ้นเรื่อย ๆ เช่นเดียวกับความสามารถในการตั้งเวลาที่ยอดเยี่ยมของ CPU ที่ต้องเสียค่าใช้จ่ายในการคำนวณ Nvidia จึงต้องควบคุมตัวเอง การซ้อนกันของแกนประมวลผล อย่างไรก็ตาม ไม่ว่าคุณจะเปลี่ยน GPU ด้วยภาระความสามารถรอบด้านอย่างไร การจับคู่ชิปเฉพาะในสถานการณ์ AI ก็เป็นเรื่องยาก
** คนแรกที่โจมตี Nvidia คือ Google ซึ่งเป็นรายแรกที่ซื้อ GPU ในปริมาณมากสำหรับการประมวลผล AI **
หลังจากอวดกล้ามเนื้อด้วย GoogLeNet ในปี 2014 Google ไม่ได้เข้าร่วมการแข่งขันการจดจำเครื่องต่อสาธารณะอีกต่อไป และสมคบคิดที่จะพัฒนาชิปเฉพาะของ AI ในปี 2559 Google เป็นผู้นำด้วย AlphaGo หลังจากชนะ Li Shishi ก็เปิดตัวชิป AI ที่พัฒนาขึ้นเองทันที ซึ่งสร้างความประทับใจให้กับ Nvidia ด้วยสถาปัตยกรรมใหม่ที่ "เกิดมาเพื่อ AI"
** การประหยัดต้นทุนเป็นแง่มุมหนึ่ง และการผสานรวมในแนวดิ่งเพื่อสร้างความแตกต่างเป็นอีกแง่มุมหนึ่ง **ในยุคของโทรศัพท์มือถือ CPU (AP) หน่วยความจำ และหน้าจอของโทรศัพท์มือถือ Samsung นั้นผลิตและขายเอง ซึ่งมีส่วนอย่างมากในการเป็นเจ้าโลก Android ของ Samsung การสร้างแกนหลักของ Google และ Microsoft ยังดำเนินการเพิ่มประสิทธิภาพระดับชิปสำหรับบริการคลาวด์ของตนเองเพื่อสร้างความแตกต่าง
ดังนั้นจึงไม่เหมือนกับ Apple และ Samsung ที่ไม่ขายชิปให้กับโลกภายนอก แม้ว่าชิป AI ของ Google และ Microsoft จะไม่ขายให้กับโลกภายนอก แต่พวกเขาจะ แยกแยะลูกค้าที่มีศักยภาพของ Nvidia ผ่าน “บริการคลาวด์พลังประมวลผล AI” และ Authropic เป็นตัวอย่าง มีบริษัทขนาดเล็กจำนวนมากขึ้น (โดยเฉพาะใน AI Application Layer) เลือกใช้บริการคลาวด์
**ความเข้มข้นของตลาดคลาวด์คอมพิวติ้งทั่วโลกนั้นสูงมาก ผู้ผลิต 5 อันดับแรก (Amazon AWS, Microsoft Azure, Google Cloud, Alibaba Cloud และ IBM) มีสัดส่วนมากกว่า 60% และพวกเขาทั้งหมดกำลังสร้างชิป AI ของตัวเอง ในบรรดาพวกเขา Google กำลังดำเนินการอย่างรวดเร็วที่สุด IBM มีทุนสำรองที่แข็งแกร่งที่สุด Microsoft มีผลกระทบมากที่สุด Amazon มีความลับที่ดีที่สุด และ Ali มีปัญหามากที่สุด **
รอยร้าวในอาณาจักรของ Nvidia
ที่มา: สถาบันที่ใช้ซิลิคอน
ผู้แต่ง: เหอ ลู่เหิง/บอสได
ในปี 2012 มีเหตุการณ์สำคัญสองเหตุการณ์เกิดขึ้นในแวดวง AI ตามลำดับเหตุการณ์ เหตุการณ์แรกคือการเปิดตัว Google Brain ซึ่งเป็นทีม Google ที่มีมาอย่างยาวนานในฐานะ "ผลงานเปิดตัว" ซึ่งเป็นเครือข่ายการเรียนรู้เชิงลึก "Google Cat " ที่สามารถจดจำแมวได้ โดยมีการจดจำ 74.8% อัตราความแม่นยำนั้นสูงกว่า 74% ของอัลกอริทึมที่ชนะของ ImageNet การแข่งขันการจดจำภาพที่เป็นที่รู้จักในปีที่แล้ว 0.8%
แต่ช่วงเวลาสำคัญของ Google นั้นกินเวลาเพียงไม่กี่เดือน ในเดือนธันวาคม 2012 ผู้ชนะของ ImageNet ล่าสุดได้รับการปล่อยตัว Hinton ปรมาจารย์ด้านการเรียนรู้เชิงลึกและสาวกของเขาได้นำเครือข่ายประสาทเทียม AlexNet ซึ่งเพิ่มอัตราความแม่นยำในการจดจำเป็น 84% จึงเป็นการเริ่มต้นการปฏิวัติ AI ของครั้งต่อไป ทศวรรษ Google Cat ถูกฝังอยู่ในฝุ่นของประวัติศาสตร์
ไม่ใช่แค่โมเดล ImageNet เท่านั้นที่ทำให้อุตสาหกรรมต้องตกตะลึง โครงข่ายประสาทเทียมนี้ต้องการภาพ 14 ล้านภาพและการทำงานแบบทศนิยมทั้งหมด 262 เพตาฟลอป ใช้ NVIDIA Geforce GTX 580 เพียงสี่เครื่องในช่วงหนึ่งสัปดาห์ของการฝึกอบรม สำหรับการอ้างอิง Google Cat ใช้รูปภาพ 10 ล้านภาพ 16,000 CPU และคอมพิวเตอร์ 1,000 เครื่อง [1] 。
มีข่าวลือว่า Google แอบเข้าร่วมการแข่งขันในปีนี้ด้วย และความตกใจที่ได้รับสะท้อนให้เห็นโดยตรงในการดำเนินการครั้งต่อไป: Google ใช้เงิน 44 ล้านดอลลาร์เพื่อซื้อทีม Hinton และสั่งซื้อ GPU จำนวนมากกับ Nvidia ทันที สำหรับปัญญาประดิษฐ์ การฝึกอบรม และในขณะเดียวกัน "กวาดสินค้า" ก็มียักษ์ใหญ่เช่น Microsoft และ Facebook
** Nvidia กลายเป็นผู้ชนะรายใหญ่ที่สุด และราคาหุ้นของบริษัทเพิ่มขึ้นสูงสุด 121 เท่าใน 10 ปีข้างหน้า อาณาจักรถือกำเนิดขึ้น **
แต่เหนือจักรวรรดิ เมฆดำสองก้อนค่อยๆ รวมตัวกัน Google ซึ่งซื้อสินค้าจาก Nvidia ในตอนนั้น ได้เปิดตัวอย่างน่าทึ่งด้วย AlphaGo ในสามปีต่อมา และเอาชนะแชมป์เปี้ยนมนุษย์ Ke Jie ในปี 2560 ผู้คนกระตือรือร้นค้นพบว่าชิปที่ขับเคลื่อน AlphaGo ไม่ใช่ GPU ของ Nvidia อีกต่อไป แต่เป็นชิป TPU ที่ Google พัฒนาขึ้นเอง
สามปีต่อมา สถานการณ์ที่คล้ายกันก็เกิดขึ้นซ้ำรอย Tesla ซึ่งครั้งหนึ่งเคยได้รับการยกย่องว่าเป็นลูกค้ามาตรฐานโดย Huang Renxun ก็อำลา Nvidia GPU เช่นกัน โดยเปิดตัวชิปยานยนต์ FSD ที่มี NPU เป็นแกนหลัก จากนั้นนำชิป D1 ที่ใช้สร้างคลัสเตอร์การฝึกอบรม AI ออกไป Li สูญเสียสองรายการ ลูกค้าที่สำคัญที่สุดในยุค AI
ภายในปี 2565 วงจรไอทีทั่วโลกจะเข้าสู่ช่วงขาลง บริษัท Cloud Computing รายใหญ่จะลดงบประมาณการจัดซื้อ GPU สำหรับศูนย์ข้อมูลทีละแห่ง กระแสของ Blockchain Mining จะค่อยๆ เย็นลง นอกจากนี้ การห้ามใช้ชิปของสหรัฐฯ ในจีนจะทำให้ เป็นไปไม่ได้ที่จะขาย A100/H100 ให้กับจีน สำหรับกราฟิกการ์ดระดับไฮเอนด์ สินค้าคงคลังของ Nvidia พุ่งขึ้น และราคาหุ้นลดลง 2/3 จากจุดสูงสุด
ในตอนท้ายของปี 2022 ChatGPT ได้ถือกำเนิดขึ้น และ GPU ซึ่งเป็นเชื้อเพลิงสำหรับ "การเล่นแร่แปรธาตุ" ขนาดใหญ่ก็ถูกปล้นอีกครั้ง Nvidia ได้รับการผ่อนปรน แต่ Dark Cloud ที่สามตามมา: ในวันที่ 18 เมษายน 2023 สื่อเทคโนโลยีชื่อดัง ข้อมูลหลุดข่าว:* Microsoft ผู้ริเริ่มคลื่น AI รอบนี้กำลังแอบพัฒนาชิป AI ของตัวเอง* [2] 。
ชิปนี้ชื่อว่า Athena ผลิตโดย TSMC และใช้กระบวนการขั้นสูง 5 นาโนเมตร จำนวนทีม R&D ของ Microsoft เกือบ 300 คน เห็นได้ชัดว่าเป้าหมายของชิปนี้คือเพื่อแทนที่ A100/H100 ที่มีราคาแพง จัดหาเอ็นจิ้นพลังการประมวลผลสำหรับ OpenAI และในที่สุดก็จะคว้าเค้กของ Nvidia ผ่านบริการคลาวด์ Azure ของ Microsoft
ปัจจุบัน Microsoft เป็นผู้ซื้อรายใหญ่ที่สุดของ H100 ของ Nvidia และมีข่าวลือว่าจะ "สรุป" กำลังการผลิตทั้งปีของ H100 สัญญาณการเลิกราของ Microsoft นั้นเป็นสัญญาณบอกเลิกอย่างไม่ต้องสงสัย คุณต้องรู้ว่า แม้ในยามที่ Intel ตกต่ำที่สุด ไม่มีลูกค้ารายใดที่ "กล้า" ที่จะสร้างชิป CPU ของตนเอง (ยกเว้น Apple ที่ไม่จำหน่ายภายนอก) .
แม้ว่าปัจจุบัน Nvidia จะผูกขาด 90% ของตลาดสำหรับพลังการประมวลผล AI ด้วย GPU+NVlink+CUDA แต่รอยแตกแรกได้ปรากฏขึ้นในอาณาจักร ** **
01 GPU ที่ไม่ได้เกิดมาเพื่อ AI
ตั้งแต่เริ่มแรก GPU ไม่ได้ถูกสร้างขึ้นสำหรับ AI
ในเดือนตุลาคม พ.ศ. 2542 Nvidia ได้เปิดตัว GeForce 256 ซึ่งเป็นชิปประมวลผลกราฟิกที่ใช้กระบวนการ 220 นาโนเมตรของ TSMC และการรวมทรานซิสเตอร์ 23 ล้านตัว Nvidia แยกชื่อย่อ "GPU" จากหน่วยประมวลผลกราฟิก และตั้งชื่อว่า GeForce 256 **"GPU ตัวแรกของโลก" วันนี้
ในเวลานี้ ปัญญาประดิษฐ์เงียบไปหลายปีโดยเฉพาะอย่างยิ่งในด้านโครงข่ายประสาทเทียมระดับลึก ผู้ชนะรางวัล Future Turing Award เช่น Geoffery Hinton และ Yann LeCun ยังคงนั่งอยู่บนม้านั่งวิชาการและพวกเขาไม่เคยคิดถึงอาชีพของพวกเขา , จะถูกเปลี่ยนโดย GPU ที่พัฒนาขึ้นสำหรับเกมเมอร์โดยเฉพาะ
GPU เกิดมาเพื่อใคร? ภาพ. แม่นยำยิ่งขึ้น มันเกิดมาเพื่อปลดปล่อย CPU จากหน้าจอกราฟิกที่น่าเบื่อหน่าย หลักการพื้นฐานของการแสดงภาพคือการแบ่งภาพของแต่ละเฟรมออกเป็นแต่ละพิกเซล จากนั้นทำกระบวนการเรนเดอร์หลายขั้นตอน เช่น การประมวลผลจุดยอด การประมวลผลดั้งเดิม แรสเตอร์ การประมวลผลส่วนย่อย การทำงานของพิกเซล ฯลฯ และสุดท้ายก็แสดงบนหน้าจอ
ทำไมถึงบอกว่างานหนัก? ทำโจทย์เลขคณิตอย่างง่าย:
สมมติว่ามี 300,000 พิกเซลบนหน้าจอ คำนวณที่อัตราเฟรม 60fps จำเป็นต้องเสร็จสิ้นการเรนเดอร์ 18 ล้านครั้งต่อวินาที ในแต่ละครั้งรวมถึงห้าขั้นตอนข้างต้นซึ่งสอดคล้องกับห้าคำสั่ง กล่าวคือ CPU จำเป็นต้อง เสร็จสิ้น 90 ล้านคำสั่งต่อวินาทีเพื่อรับรู้การนำเสนอหน้าจอหนึ่งวินาที จากการอ้างอิง CPU ที่มีประสิทธิภาพสูงสุดของ Intel ในขณะนั้นมีการคำนวณเพียง 60 ล้านครั้งต่อวินาที
ไม่ใช่เพราะ CPU อ่อนแอ แต่เป็นเพราะมันดีในการจัดตารางเธรด ดังนั้นพื้นที่เพิ่มเติมจึงมอบให้กับหน่วยควบคุมและหน่วยเก็บข้อมูล และหน่วยคำนวณที่ใช้สำหรับการคำนวณใช้พื้นที่เพียง 20% ของพื้นที่ ในทางตรงกันข้าม GPU มีพื้นที่มากกว่า 80% เป็นหน่วยประมวลผลซึ่งนำความสามารถในการประมวลผลแบบขนานสูงมาใช้ และเหมาะสำหรับการแสดงภาพที่มีขั้นตอนตายตัว ซ้ำซาก และน่าเบื่อมากกว่า
จนกระทั่งไม่กี่ปีต่อมา นักวิชาการด้านปัญญาประดิษฐ์บางคนตระหนักว่า GPU ที่มีคุณสมบัติดังกล่าวยังเหมาะสำหรับการฝึกอบรมการเรียนรู้เชิงลึกอีกด้วย สถาปัตยกรรมโครงข่ายประสาทเทียมเชิงลึกแบบคลาสสิกจำนวนมากได้รับการเสนอตั้งแต่ช่วงครึ่งหลังของศตวรรษที่ 20 แต่เนื่องจากขาดฮาร์ดแวร์คอมพิวเตอร์ในการฝึกอบรม การศึกษาจำนวนมากจึงทำได้เพียง "บนกระดาษ" และการพัฒนาก็ชะงักงันมาเป็นเวลานาน เวลา.
เสียงปืนในเดือนตุลาคม 1999 นำ GPU มาสู่ปัญญาประดิษฐ์ กระบวนการฝึกอบรมของการเรียนรู้เชิงลึกคือการดำเนินการตามลำดับชั้นของค่าอินพุตแต่ละค่าตามฟังก์ชันและพารามิเตอร์ของแต่ละชั้นของโครงข่ายประสาทเทียม และในที่สุดก็ได้รับค่าเอาต์พุต ซึ่งต้องใช้การดำเนินการเมทริกซ์จำนวนมาก เช่นเดียวกับการเรนเดอร์กราฟิก เกิดขึ้นเป็นสิ่งที่ GPU ทำได้ดีที่สุด
อย่างไรก็ตาม ภาพแสดงให้เห็นว่าแม้ว่าการประมวลผลข้อมูลจะมีปริมาณมาก แต่ขั้นตอนส่วนใหญ่ได้รับการแก้ไขแล้ว เมื่อ Deep Neural Network ถูกนำไปใช้กับฟิลด์การตัดสินใจ มันจะเกี่ยวข้องกับสถานการณ์ที่ซับซ้อน เช่น โครงสร้างสาขา และพารามิเตอร์ของ แต่ละเลเยอร์จำเป็นต้องได้รับการฝึกอบรมโดยพิจารณาจากข้อมูลขนาดใหญ่ทั้งเชิงบวกและเชิงลบ แก้ไขต่อไป ความแตกต่างเหล่านี้ทำให้เกิดอันตรายที่ซ่อนอยู่สำหรับความสามารถในการปรับตัวของ GPU กับ AI ในอนาคต
Kumar Chellapilla ผู้จัดการทั่วไปของ Amazon AI/ML ในปัจจุบันคือนักวิชาการคนแรกที่กินปู GPU ในปี 2549 เขาใช้กราฟิกการ์ด GeForce 7800 ของ Nvidia เพื่อใช้งานเครือข่ายประสาทเทียม (CNN) เป็นครั้งแรก และพบว่าเร็วกว่าการใช้ CPU ถึง 4 เท่า นี่เป็นความพยายามแรกสุดในการใช้ GPU เพื่อการเรียนรู้เชิงลึก [3] 。
งานของ Kumar ไม่ได้รับความสนใจอย่างกว้างขวาง สาเหตุหลักมาจากความซับซ้อนสูงของการเขียนโปรแกรมโดยใช้ GPU แต่ในเวลานี้ Nvidia ได้เปิดตัวแพลตฟอร์ม CUDA ในปี 2550 ซึ่งช่วยลดความยุ่งยากอย่างมากสำหรับนักพัฒนาในการใช้ GPU เพื่อฝึกโครงข่ายประสาทเทียมระดับลึก ซึ่งทำให้ผู้ที่เชื่อในการเรียนรู้เชิงลึกมีความหวังมากขึ้น
จากนั้นในปี 2009 Wu Enda จาก Stanford และคนอื่นๆ ได้ตีพิมพ์บทความที่ก้าวหน้า [6] , GPU ลดเวลาการฝึก AI จากสัปดาห์เป็นชั่วโมงโดยอาศัยพลังการประมวลผลของ CPU มากกว่า 70 เท่า บทความนี้ชี้ให้เห็นถึงแนวทางสำหรับการนำฮาร์ดแวร์ของปัญญาประดิษฐ์ไปใช้ GPU ได้เร่งกระบวนการของ AI จากกระดาษไปสู่ความเป็นจริงอย่างมาก
เป็นมูลค่าการกล่าวขวัญว่า Wu Enda เข้าร่วม Google Brain ในปี 2011 และเป็นหนึ่งในผู้นำของโครงการ Google Cat ที่กล่าวถึงในตอนต้น สาเหตุที่ Google Brain ล้มเหลวในการใช้ GPU ในที่สุดนั้นไม่เป็นที่รู้จักสำหรับคนนอก แต่ก่อนและหลัง Wu Enda ออกจาก Google เพื่อเข้าร่วม Baidu มีข่าวลือว่าเป็นเพราะทัศนคติของ Google ที่มีต่อ GPU ไม่ชัดเจน
**หลังจากการสำรวจของผู้คนนับไม่ถ้วน ในที่สุดกระบองก็ถูกส่งมอบให้กับฮินตันปรมาจารย์ด้านการเรียนรู้เชิงลึก และเวลาได้ชี้ไปที่ปี 2012 แล้ว **
ในปี 2012 Hinton และนักเรียนสองคน Alex Krizhevsky และ Ilya Sutskeverz ได้ออกแบบ AlexNet ซึ่งเป็นโครงข่ายประสาทเทียมเชิงลึก และวางแผนที่จะเข้าร่วมการแข่งขัน ImageNet ในปีนี้ แต่ปัญหาคืออาจใช้เวลาหลายเดือนในการฝึก AlexNet กับ CPU ดังนั้นพวกเขาจึงหันไปสนใจ GPU
GPU นี้ซึ่งมีความสำคัญอย่างยิ่งในประวัติศาสตร์การพัฒนาของการเรียนรู้เชิงลึกคือ "กราฟิกการ์ดระเบิดนิวเคลียร์" GTX 580 ที่มีชื่อเสียง ในฐานะผลิตภัณฑ์เรือธงของสถาปัตยกรรม Fermi ล่าสุดของ Nvidia GTX 580 อัดแน่นไปด้วย 512 CUDA cores (108 ในรุ่นก่อนหน้า) ในขณะที่พลังการประมวลผลก้าวกระโดดปัญหาการใช้พลังงานและความร้อนที่มากเกินไปทำให้ Nvidia ได้รับการขนานนามว่าเป็น "Nuclear Bomb Factory ".
A คือสารหนู B คือน้ำผึ้ง เมื่อเทียบกับ "ความราบรื่น" เมื่อฝึกโครงข่ายประสาทเทียมด้วย GPU ปัญหาการกระจายความร้อนนั้นไม่ต้องพูดถึง ทีม Hinton ประสบความสำเร็จในการเขียนโปรแกรมด้วยแพลตฟอร์ม CUDA ของ Nvidia ด้วยการรองรับกราฟิกการ์ด GTX 580 สองใบ การฝึกภาพ 14 ล้านภาพใช้เวลาเพียงหนึ่งสัปดาห์ และ AlexNet คว้าแชมป์ได้สำเร็จ
**เนื่องจากอิทธิพลของการแข่งขัน ImageNet และ Hinton เอง นักวิชาการด้านปัญญาประดิษฐ์ทุกคนจึงตระหนักถึงความสำคัญของ GPU ในทันที **
สองปีต่อมา Google ได้นำโมเดล GoogLeNet เข้าร่วมใน ImageNet และได้รับรางวัลชนะเลิศด้วยอัตราความแม่นยำ 93% โดยใช้ GPU ของ NVIDIA ในปีนี้ จำนวน GPU ที่ใช้โดยทีมที่เข้าร่วมทั้งหมดเพิ่มสูงขึ้นเป็น 110 นอกเหนือจากการแข่งขันแล้ว GPU ได้กลายเป็น "การบริโภคที่ต้องมี" สำหรับการเรียนรู้เชิงลึก ทำให้ Huang Renxun ได้รับคำสั่งซื้ออย่างต่อเนื่อง
สิ่งนี้ทำให้ Nvidia สามารถกำจัดเงาของความล้มเหลวในตลาดมือถือได้ หลังจากเปิดตัว iPhone ในปี 2550 เค้กของชิปสมาร์ทโฟนก็ขยายตัวอย่างรวดเร็ว Nvidia ยังพยายามแย่งส่วนแบ่งจาก Samsung, Qualcomm และ MediaTek ปัญหาการกระจายความร้อนล้มเหลว ในท้ายที่สุด มันเป็นสาขาของปัญญาประดิษฐ์ที่ได้รับการช่วยเหลือโดย GPU ซึ่งทำให้ Nvidia เติบโตเป็นเส้นโค้งที่สอง
แต่ท้ายที่สุดแล้ว GPU ไม่ได้เกิดมาเพื่อฝึกฝนโครงข่ายประสาทเทียม ยิ่งปัญญาประดิษฐ์พัฒนาเร็วเท่าไหร่ ปัญหาเหล่านี้ก็ยิ่งถูกเปิดเผยมากขึ้นเท่านั้น
ตัวอย่างเช่น แม้ว่า GPU จะแตกต่างจาก CPU อย่างมาก แต่โดยพื้นฐานแล้วทั้งสองจะเป็นไปตามโครงสร้าง von Neumann และที่เก็บข้อมูลและการทำงานจะถูกแยกออกจากกัน คอขวดของประสิทธิภาพที่เกิดจากการแยกนี้ ท้ายที่สุดแล้ว ขั้นตอนของการประมวลผลภาพค่อนข้างคงที่ และสามารถแก้ไขได้ด้วยการดำเนินการแบบคู่ขนานมากขึ้น แต่มันเป็นอันตรายถึงชีวิตมากในโครงข่ายประสาทเทียมที่มีโครงสร้างสาขาจำนวนมาก
ทุกครั้งที่โครงข่ายประสาทเทียมเพิ่มเลเยอร์หรือแบรนช์ จะต้องเพิ่มการเข้าถึงหน่วยความจำเพื่อเก็บข้อมูลสำหรับการย้อนรอย และเวลาที่ใช้ในสิ่งนี้เป็นสิ่งที่หลีกเลี่ยงไม่ได้ โดยเฉพาะอย่างยิ่งในยุคของโมเดลขนาดใหญ่ ยิ่งโมเดลมีขนาดใหญ่เท่าใด ก็ยิ่งจำเป็นต้องดำเนินการเข้าถึงหน่วยความจำมากขึ้นเท่านั้น พลังงานที่ใช้ในการเข้าถึงหน่วยความจำนั้นสูงกว่าพลังงานในการประมวลผลหลายเท่า
เปรียบเทียบง่ายๆ ก็คือ GPU เป็นคนมีกล้าม (มีหลาย Computing Unit) แต่ทุกคำสั่งที่ได้รับก็ต้องกลับไปดูคู่มือการใช้งาน (Memory) สุดท้ายเมื่อขนาดและความซับซ้อนของโมเดลเพิ่มขึ้น ผู้ชาย เวลาทำงานจริงมีจำกัด ฉันเบื่อที่จะพลิกอ่านคู่มือจนน้ำลายฟูมปาก
ปัญหาหน่วยความจำเป็นเพียงหนึ่งใน "ความไม่สะดวก" ของ GPU ในแอปพลิเคชันโครงข่ายประสาทเทียมเชิงลึก Nvidia ตระหนักถึงปัญหาเหล่านี้ตั้งแต่เริ่มต้น และเริ่ม "แก้ไขอย่างน่าอัศจรรย์" GPU อย่างรวดเร็วเพื่อให้เหมาะกับสถานการณ์แอปพลิเคชันปัญญาประดิษฐ์มากขึ้น และผู้เล่น AI ที่ทราบดีถึงไฟก็แอบเข้ามาพยายามใช้ ข้อบกพร่องของ GPU ที่จะแงะเปิดมุมอาณาจักรของ Huang Renxun
**การต่อสู้เชิงรุกและการป้องกันเริ่มต้นขึ้น **
02 การต่อสู้อันดำมืดระหว่าง Google และ Nvidia
เมื่อเผชิญกับความต้องการอย่างล้นหลามสำหรับพลังการประมวลผลของ AI และข้อบกพร่องที่มีมาแต่กำเนิดของ GPU Huang Renxun จึงเสนอชุดโซลูชันสองชุดเพื่อทำงานร่วมกัน
**ชุดแรกคือการเพิ่มพูนพลังการคำนวณอย่างต่อเนื่องตามเส้นทางของ **ในยุคที่ความต้องการพลังการประมวลผลของ AI เพิ่มขึ้นสองเท่าทุกๆ 3.5 เดือน พลังการประมวลผลคือแครอทที่แขวนอยู่ต่อหน้าต่อตาของบริษัทปัญญาประดิษฐ์ ทำให้พวกเขาตำหนิ Huang Renxun สำหรับทักษะดาบที่ยอดเยี่ยมของเขาในขณะที่คว้ามันขึ้นมาเหมือน ความสามารถทั้งหมดของ Nvidia
**ชุดที่สองคือการค่อยๆ แก้ปัญหาที่ไม่ตรงกันระหว่างสถานการณ์ GPU และปัญญาประดิษฐ์ผ่าน "นวัตกรรมที่ได้รับการปรับปรุง" **ปัญหาเหล่านี้รวมถึงแต่ไม่จำกัดเพียงการใช้พลังงาน ผนังหน่วยความจำ แบนด์วิธคอขวด การคำนวณที่มีความแม่นยำต่ำ การเชื่อมต่อความเร็วสูง การปรับแต่งโมเดลเฉพาะ... ตั้งแต่ปี 2012 Nvidia ได้เร่งความเร็วของการอัปเดตสถาปัตยกรรมอย่างกะทันหัน
หลังจากที่ Nvidia เปิดตัว CUDA ก็ใช้สถาปัตยกรรมแบบรวมเพื่อสนับสนุนสองสถานการณ์หลักด้านกราฟิกและคอมพิวเตอร์ สถาปัตยกรรมรุ่นแรกเปิดตัวในปี 2550 และมีชื่อว่า Tesla ไม่ใช่เพราะ Huang Renxun ต้องการแสดงความโปรดปรานต่อ Musk แต่เพื่อยกย่องนักฟิสิกส์ Nikola Tesla (รุ่นแรกสุดคือสถาปัตยกรรม Curie)
ตั้งแต่นั้นเป็นต้นมา สถาปัตยกรรม GPU ของ NVIDIA แต่ละรุ่นได้รับการตั้งชื่อตามนักวิทยาศาสตร์ที่มีชื่อเสียง ดังแสดงในรูปด้านล่าง ในการทำซ้ำของสถาปัตยกรรมแต่ละครั้ง Nvidia ยังคงเพิ่มพูนพลังการประมวลผล ในขณะที่ปรับปรุงโดยไม่ "แยกกล้ามเนื้อและกระดูก"
เพื่อปรับให้เข้ากับฉาก AI GPU "ที่ได้รับการดัดแปลงอย่างมหัศจรรย์" ของ Nvidia นั้นเป็นเหมือน CPU มากขึ้นเรื่อย ๆ เช่นเดียวกับความสามารถในการตั้งเวลาที่ยอดเยี่ยมของ CPU ที่ต้องเสียค่าใช้จ่ายในการคำนวณ Nvidia จึงต้องควบคุมตัวเอง การซ้อนกันของแกนประมวลผล อย่างไรก็ตาม ไม่ว่าคุณจะเปลี่ยน GPU ด้วยภาระความสามารถรอบด้านอย่างไร การจับคู่ชิปเฉพาะในสถานการณ์ AI ก็เป็นเรื่องยาก
** คนแรกที่โจมตี Nvidia คือ Google ซึ่งเป็นรายแรกที่ซื้อ GPU ในปริมาณมากสำหรับการประมวลผล AI **
หลังจากอวดกล้ามเนื้อด้วย GoogLeNet ในปี 2014 Google ไม่ได้เข้าร่วมการแข่งขันการจดจำเครื่องต่อสาธารณะอีกต่อไป และสมคบคิดที่จะพัฒนาชิปเฉพาะของ AI ในปี 2559 Google เป็นผู้นำด้วย AlphaGo หลังจากชนะ Li Shishi ก็เปิดตัวชิป AI ที่พัฒนาขึ้นเองทันที ซึ่งสร้างความประทับใจให้กับ Nvidia ด้วยสถาปัตยกรรมใหม่ที่ "เกิดมาเพื่อ AI"
TPU เป็นตัวย่อของ Tensor Processing Unit และชื่อภาษาจีนคือ "tensor processing unit" หาก "การปฏิรูปเวทมนตร์" ของ Nvidia ของ GPU คือการทลายกำแพงด้านตะวันออกเพื่อทดแทนกำแพงด้านตะวันตก ดังนั้น TPU ก็จะลดความต้องการในการจัดเก็บและการเชื่อมต่อโดยพื้นฐาน และถ่ายโอนพื้นที่ชิปไปยังการคำนวณในระดับสูงสุด โดยเฉพาะอย่างยิ่ง สอง Great หมายถึง:
**ประการแรกคือเทคโนโลยีเชิงปริมาณ **การคำนวณด้วยคอมพิวเตอร์สมัยใหม่มักจะใช้ข้อมูลที่มีความแม่นยำสูงซึ่งใช้หน่วยความจำจำนวนมาก แต่จริงๆ แล้วการคำนวณโครงข่ายประสาทเทียมส่วนใหญ่ไม่ต้องการความแม่นยำในการคำนวณจุดลอยตัวแบบ 32 บิตหรือ 16 บิต โดยพื้นฐานแล้วเทคโนโลยีจะรวมตัวเลข 32 บิต/16 บิตเข้ากับจำนวนเต็ม 8 บิตโดยประมาณ โดยคงไว้ซึ่งความแม่นยำที่เหมาะสมและลดความต้องการในการจัดเก็บ
อย่างที่สองคืออาร์เรย์ systolic ซึ่งเป็นอาร์เรย์การคูณเมทริกซ์ ซึ่งเป็นหนึ่งในความแตกต่างที่สำคัญที่สุดระหว่าง TPU และ GPU พูดง่ายๆ ก็คือ การทำงานของโครงข่ายประสาทเทียมต้องการการทำงานของเมทริกซ์จำนวนมาก GPU สามารถแยกส่วนการคำนวณเมทริกซ์ออกเป็นการคำนวณแบบเวกเตอร์ทีละขั้นตอนเท่านั้น ทุกครั้งที่กลุ่มทำเสร็จ จะต้องเข้าถึงหน่วยความจำและบันทึกผลลัพธ์ของ ชั้นนี้จนกว่าการคำนวณเวกเตอร์ทั้งหมดจะเสร็จสิ้น , แล้วรวมผลลัพธ์ของแต่ละชั้นเพื่อให้ได้ค่าผลลัพธ์
ใน TPU หน่วยประมวลผลนับพันเชื่อมต่อโดยตรงกับรูปแบบอาร์เรย์การคูณเมทริกซ์ ในฐานะที่เป็นแกนประมวลผล การคำนวณเมทริกซ์สามารถทำได้โดยตรง ยกเว้นการโหลดข้อมูลและฟังก์ชันในตอนเริ่มต้น ไม่จำเป็นต้องเข้าถึงหน่วยเก็บข้อมูล ซึ่ง ลดการเข้าถึงลงอย่างมากความถี่ช่วยเพิ่มความเร็วในการคำนวณของ TPU อย่างมากและการใช้พลังงานและการยึดครองพื้นที่ทางกายภาพก็ลดลงอย่างมากเช่นกัน
TPU ของ Google รวดเร็วมาก และใช้เวลาเพียง 15 เดือน ตั้งแต่การออกแบบ การยืนยัน การผลิตจำนวนมาก ไปจนถึงการติดตั้งใช้งานขั้นสุดท้ายในศูนย์ข้อมูลของตนเอง หลังจากการทดสอบ ประสิทธิภาพและการใช้พลังงานของ TPU ในสถานการณ์ CNN, LSTM, MLP และ AI อื่นๆ มีประสิทธิภาพเหนือกว่า GPU ของ Nvidia อย่างมากในช่วงเวลาเดียวกัน **แรงกดดันทั้งหมดตกเป็นของ Nvidia ทันที **
การถูกแทงข้างหลังโดยลูกค้ารายใหญ่นั้นเป็นเรื่องที่น่าอึดอัด แต่ Nvidia จะไม่ยืนหยัดและถูกทุบตี และการชักเย่อก็ได้เริ่มขึ้นแล้ว
ห้าเดือนหลังจาก Google เปิดตัว TPU Nvidia ก็เปิดตัวสถาปัตยกรรม Pascal ของกระบวนการ 16nm ในแง่หนึ่ง สถาปัตยกรรมใหม่นี้นำเสนอเทคโนโลยีการเชื่อมต่อสองทางความเร็วสูง NVLink ที่มีชื่อเสียง ซึ่งช่วยปรับปรุงแบนด์วิธการเชื่อมต่ออย่างมาก ในทางกลับกัน มันเลียนแบบเทคโนโลยีการวัดปริมาณของ TPU และปรับปรุงประสิทธิภาพการประมวลผลของโครงข่ายประสาทเทียม โดยลดความถูกต้องของข้อมูล
ในปี 2560 Nvidia ได้เปิดตัว Volta ซึ่งเป็นสถาปัตยกรรมตัวแรกที่ออกแบบมาโดยเฉพาะสำหรับการเรียนรู้เชิงลึก ซึ่งเปิดตัว TensorCore เป็นครั้งแรก ซึ่งใช้เป็นพิเศษสำหรับการทำงานของเมทริกซ์ แม้ว่าอาร์เรย์การคูณ 4 × 4 จะเหมือนกับอาร์เรย์พัลส์ TPU 256 × 256 . อัตราส่วนค่อนข้างโทรมเล็กน้อยแต่ก็เป็นการประนีประนอมบนพื้นฐานของการรักษาความยืดหยุ่นและความอเนกประสงค์
ผู้บริหารของ NVIDIA ประกาศกับลูกค้า: ** "Volta ไม่ใช่การอัพเกรดของ Pascal แต่เป็นสถาปัตยกรรมใหม่ล่าสุด"**
Google ยังทำงานแข่งกับเวลาอีกด้วย หลังจากปี 2016 TPU ได้รับการอัปเดตเป็น 3 รุ่นภายใน 5 ปี เปิดตัว TPUv2 ในปี 2017, TPUv3 ในปี 2018 และ TPUv4 ในปี 2021 และนำข้อมูลไปไว้บนหน้าของ Nvidia [4] : **TPU v4 เร็วกว่า A100 ของ Nvidia 1.2-1.7 เท่า ในขณะที่ลดการใช้พลังงานลง 1.3-1.9 เท่า **
Google ไม่ขายชิป TPU ให้กับโลกภายนอก และในขณะเดียวกันก็ยังคงซื้อ GPU ของ Nvidia ในปริมาณมาก ซึ่งทำให้การแข่งขันชิป AI ระหว่างทั้งสองอยู่ใน "สงครามเย็น" มากกว่า "การแข่งขันแบบเปิด" แต่สุดท้ายแล้ว Google ปรับใช้ TPU ในระบบบริการคลาวด์ของตนเองเพื่อให้บริการพลังประมวลผล AI แก่โลกภายนอก ซึ่งลดศักยภาพของตลาดของ Nvidia อย่างไม่ต้องสงสัย
ในขณะที่ทั้งสองกำลัง "ต่อสู้ในความมืด" ความก้าวหน้าในด้านปัญญาประดิษฐ์ก็ก้าวหน้าอย่างรวดเร็วเช่นกัน ในปี 2560 Google เสนอ Transformer model ที่ปฏิวัติวงการ จากนั้น OpenAI ได้พัฒนา GPT-1 บนพื้นฐานของ Transformer การแข่งขันด้านอาวุธของโมเดลขนาดใหญ่เกิดขึ้นและความต้องการพลังการประมวลผลของ AI นำไปสู่การเร่งความเร็วครั้งที่สองนับตั้งแต่การเกิดขึ้นของ อเล็กซ์เน็ตในปี 2012 . .
หลังจากตระหนักถึงเทรนด์ใหม่ Nvidia ได้เปิดตัวสถาปัตยกรรม Hopper ในปี 2022 โดยเปิดตัว Transformer Acceleration Engine ที่ระดับฮาร์ดแวร์เป็นครั้งแรก โดยอ้างว่าสามารถเพิ่มเวลาการฝึกของโมเดลภาษาขนาดใหญ่ที่ใช้ Transformer ได้ถึง 9 เท่า ตามสถาปัตยกรรม Hopper Nvidia ได้เปิดตัว "GPU ที่ทรงพลังที่สุดบนพื้นผิว" - H100
H100 เป็น "stitch monster" ขั้นสุดยอดของ Nvidia ในแง่หนึ่ง นำเสนอเทคโนโลยีการปรับแต่ง AI ที่หลากหลาย เช่น quantization การคำนวณเมทริกซ์ (Tensor Core 4.0) และระบบเร่ง Transformer ในทางกลับกัน มันเต็มไปด้วยจุดแข็งแบบดั้งเดิมของ Nvidia เช่น CUDA Core 7296, หน่วยความจำ HBM2 ขนาด 80GB และเทคโนโลยีการเชื่อมต่อ NVLink 4.0 สูงสุด 900GB/s
เมื่อถือ H100 ไว้ในมือ Nvidia ก็ถอนหายใจโล่งอกชั่วคราว ไม่มีชิปใดที่ผลิตจำนวนมากในตลาดที่ดีกว่า H100
ความลับของ Google และ Nvidia ก็เป็นความสำเร็จร่วมกันเช่นกัน: Nvidia ได้นำเข้าเทคโนโลยีที่เป็นนวัตกรรมมากมายจาก Google และการวิจัยที่ล้ำสมัยของ Google เกี่ยวกับปัญญาประดิษฐ์ก็ได้รับประโยชน์อย่างเต็มที่จากนวัตกรรมของ GPU ของ Nvidia ลดลงถึงระดับที่สามารถใช้โดยโมเดลภาษาขนาดใหญ่ "บนเขย่งเท้า" ผู้ที่อยู่ในไฟแก็ซเช่น OpenAI ก็ยืนอยู่บนไหล่ของสองคนนี้เช่นกัน
แต่ความรู้สึกเป็นของความรู้สึกและธุรกิจเป็นของธุรกิจ การต่อสู้เชิงรุกและการป้องกันรอบ ๆ GPU ทำให้อุตสาหกรรมมีบางอย่างที่แน่นอนมากขึ้น: **GPU ไม่ใช่โซลูชันที่ดีที่สุดสำหรับ AI และ ASIC ที่ปรับแต่งเองมีความเป็นไปได้ที่จะทำลายการผูกขาดของ Nvidia **รอยร้าวถูกเปิดออกแล้ว และ Google จะไม่ใช่เจ้าเดียวที่ติดตามรสชาตินี้
**โดยเฉพาะอย่างยิ่งพลังการประมวลผลกลายเป็นความต้องการที่แน่นอนที่สุดในยุค AGI และทุกคนต้องการนั่งโต๊ะเดียวกับ NVIDIA เมื่อรับประทานอาหาร **
03 รอยแตกที่กำลังขยายตัว
นอกจาก OpenAI แล้ว ยังมีบริษัทนอกกรอบอีกสองแห่งที่ AI บูมในรอบนี้ หนึ่งคือ Midjourney บริษัทวาดภาพ AI ซึ่งความสามารถในการควบคุมสไตล์การวาดภาพที่หลากหลายทำให้ศิลปินที่ใช้คาร์บอนจำนวนนับไม่ถ้วนตกตะลึง ส่วนอีกราย คือ Authropic ซึ่งผู้ก่อตั้งมาจาก OpenAI หุ่นยนต์บทสนทนา Claude เล่นไปมากับ ChatGPT
**แต่ทั้งสองบริษัทไม่ได้ซื้อ GPU ของ Nvidia เพื่อสร้างซูเปอร์คอมพิวเตอร์ แต่ใช้บริการคอมพิวเตอร์ของ Google **
เพื่อตอบสนองการระเบิดของพลังการประมวลผลของ AI Google ได้สร้างซูเปอร์คอมพิวเตอร์ (TPU v4 Pod) ที่มี 4096 TPUs ชิปดังกล่าวเชื่อมต่อกับสวิตช์วงจรออปติก (OCS) ที่พัฒนาขึ้นเองซึ่งไม่เพียงใช้เพื่อฝึก LaMDA ของตนเองเท่านั้น โมเดลภาษาขนาดใหญ่ เช่น MUM และ PaLM ยังสามารถให้บริการราคาถูกและมีคุณภาพสูงแก่สตาร์ทอัพด้าน AI
นอกจากนี้ยังมีเทสลาที่ทำซุปเปอร์คาลคูเตอร์ด้วยตัวเอง หลังจากเปิดตัวชิป FSD ที่ติดตั้งในรถยนต์ เทสลาได้แสดงให้โลกภายนอกเห็นถึงซูเปอร์คอมพิวเตอร์ Dojo ExaPOD ที่สร้างขึ้นด้วยชิป D1 ของตนเองจำนวน 3,000 ชิ้นในเดือนสิงหาคม 2564 ในบรรดาชิปเหล่านี้ ชิป D1 ผลิตโดย TSMC โดยใช้เทคโนโลยี 7 นาโนเมตร และชิป D1 จำนวน 3,000 ชิปโดยตรงทำให้ Dojo เป็นคอมพิวเตอร์พลังการประมวลผลที่ใหญ่เป็นอันดับห้าของโลก
**อย่างไรก็ตาม การรวมกันของทั้งสองไม่สามารถเปรียบเทียบผลกระทบที่เกิดจากชิป Athena ที่ Microsoft พัฒนาขึ้นเอง **
Microsoft เป็นหนึ่งในลูกค้ารายใหญ่ที่สุดของ Nvidia บริการคลาวด์ Azure ของตนเองได้ซื้อ GPU ระดับไฮเอนด์ A100 และ H100 อย่างน้อยหลายหมื่นตัว SwiftKey และผลิตภัณฑ์อื่นๆ ที่ใช้ AI
หลังจากคำนวณอย่างรอบคอบแล้ว "ภาษี Nvidia" ที่ Microsoft ต้องจ่ายเป็นตัวเลขทางดาราศาสตร์ และชิปที่พัฒนาเองแทบจะเป็นสิ่งที่หลีกเลี่ยงไม่ได้ เช่นเดียวกับที่ Ali คำนวณความต้องการในอนาคตของ Taobao Tmall สำหรับการประมวลผลแบบคลาวด์ ฐานข้อมูล และพื้นที่เก็บข้อมูล และพบว่าตัวเลขดังกล่าวเป็นตัวเลขทางดาราศาสตร์ ดังนั้น บริษัทจึงเริ่มสนับสนุน Alibaba Cloud อย่างเด็ดขาด และเปิดตัวแคมเปญ "de-IOE" ที่เข้มข้นเป็นการภายใน
** การประหยัดต้นทุนเป็นแง่มุมหนึ่ง และการผสานรวมในแนวดิ่งเพื่อสร้างความแตกต่างเป็นอีกแง่มุมหนึ่ง **ในยุคของโทรศัพท์มือถือ CPU (AP) หน่วยความจำ และหน้าจอของโทรศัพท์มือถือ Samsung นั้นผลิตและขายเอง ซึ่งมีส่วนอย่างมากในการเป็นเจ้าโลก Android ของ Samsung การสร้างแกนหลักของ Google และ Microsoft ยังดำเนินการเพิ่มประสิทธิภาพระดับชิปสำหรับบริการคลาวด์ของตนเองเพื่อสร้างความแตกต่าง
ดังนั้นจึงไม่เหมือนกับ Apple และ Samsung ที่ไม่ขายชิปให้กับโลกภายนอก แม้ว่าชิป AI ของ Google และ Microsoft จะไม่ขายให้กับโลกภายนอก แต่พวกเขาจะ แยกแยะลูกค้าที่มีศักยภาพของ Nvidia ผ่าน “บริการคลาวด์พลังประมวลผล AI” และ Authropic เป็นตัวอย่าง มีบริษัทขนาดเล็กจำนวนมากขึ้น (โดยเฉพาะใน AI Application Layer) เลือกใช้บริการคลาวด์
**ความเข้มข้นของตลาดคลาวด์คอมพิวติ้งทั่วโลกนั้นสูงมาก ผู้ผลิต 5 อันดับแรก (Amazon AWS, Microsoft Azure, Google Cloud, Alibaba Cloud และ IBM) มีสัดส่วนมากกว่า 60% และพวกเขาทั้งหมดกำลังสร้างชิป AI ของตัวเอง ในบรรดาพวกเขา Google กำลังดำเนินการอย่างรวดเร็วที่สุด IBM มีทุนสำรองที่แข็งแกร่งที่สุด Microsoft มีผลกระทบมากที่สุด Amazon มีความลับที่ดีที่สุด และ Ali มีปัญหามากที่สุด **
ผู้ผลิตรายใหญ่ในประเทศต่างพัฒนาชิปของตนเอง และจุดจบของ Oppo Zheku จะสร้างเงาให้กับผู้เล่นทุกคนที่ลงสนาม อย่างไรก็ตาม บริษัทขนาดใหญ่ในต่างประเทศทำการวิจัยด้วยตนเองและสามารถสร้างห่วงโซ่อุปทานที่มีความสามารถและเทคโนโลยีได้ด้วยเงินทุน ตัวอย่างเช่น เมื่อเทสลาเข้าร่วมใน FSD ก็คัดเลือก จิม เคลเลอร์ เทพเจ้าแห่งหุบเขาซิลิคอน และ Google พัฒนา TPU และได้รับเชิญโดยตรง ผู้ได้รับรางวัล Turing ผู้ประดิษฐ์สถาปัตยกรรม RISC ศาสตราจารย์ David Patterson
ความยากสำหรับสตาร์ทอัพชิป AI คือหากไม่มีการลงทุนอย่างต่อเนื่องของบริษัทขนาดใหญ่ที่มีทรัพยากรทางการเงินที่แข็งแกร่ง บริษัทต่างๆ จะไม่สามารถผลิตและขายด้วยตนเองได้เหมือน Google เว้นแต่เส้นทางทางเทคนิคจะไม่เหมือนใครหรือมีข้อได้เปรียบที่แข็งแกร่งเป็นพิเศษ โดยทั่วไปแล้วจะไม่มี โอกาสในการชนะเมื่อต่อสู้กับ Nvidia ข้อดีด้านต้นทุนและระบบนิเวศของรุ่นหลังสามารถขจัดข้อสงสัยของลูกค้าได้เกือบทั้งหมด
**ผลกระทบของสตาร์ทอัพต่อ Nvidia มีจำกัด และความกังวลที่ซ่อนอยู่ของ Huang Renxun ยังคงเป็นลูกค้ารายใหญ่ที่ไม่ซื่อสัตย์ **
แน่นอนว่าผู้ผลิตรายใหญ่ยังคงแยกออกจาก Nvidia ไม่ได้ ตัวอย่างเช่น แม้ว่า TPU ของ Google จะได้รับการอัปเดตเป็นรุ่นที่ 4 แล้ว แต่ก็ยังจำเป็นต้องซื้อ GPU ในปริมาณมากเพื่อให้พลังการประมวลผลร่วมกับ TPU เลือกซื้อ GPU 10,000 ตัวจาก NVIDIA
อย่างไรก็ตาม Huang Renxun ได้สัมผัสกับมิตรภาพพลาสติกของผู้ผลิตรายใหญ่ใน Musk แล้ว ในปี 2018 Musk ประกาศต่อสาธารณชนว่าเขาจะพัฒนาชิปรถยนต์ของเขาเอง (ตอนนั้นใช้ DRIVE PX ของ Nvidia) Huang Renxun ถูกนักวิเคราะห์ซักถาม ณ จุดนั้นในการประชุมทางโทรศัพท์และเขาไม่สามารถลงจากเวทีได้ ในขณะที่. หลังจากนั้น Musk ได้ออก "คำชี้แจง" แต่อีกหนึ่งปีต่อมา Tesla ยังคงออกจาก Nvidia โดยไม่หันกลับมามอง [5] 。
โรงงานขนาดใหญ่ไม่เคยแสดงความเมตตาในการประหยัดค่าใช้จ่าย แม้ว่าชิปของ Intel จะขายถึงระดับ B-end ในยุคพีซี แต่ผู้บริโภคมีทางเลือกที่ชัดเจนในการควบคุมตนเอง และผู้ผลิตจำเป็นต้องโฆษณา "Intel Inside" แต่ในยุคการประมวลผลบนคลาวด์ ยักษ์ใหญ่สามารถบล็อกข้อมูลฮาร์ดแวร์พื้นฐานทั้งหมดได้ และ พวกเขาจะซื้อในอนาคตด้วยพลังการประมวลผล 100TFlops ผู้บริโภคสามารถบอกได้ไหมว่าส่วนไหนมาจาก TPU และส่วนไหนมาจาก GPU
ดังนั้น ในที่สุด Nvidia ก็ต้องเผชิญกับคำถามว่า **GPU ไม่ได้เกิดมาเพื่อ AI จริงๆ แต่ GPU จะเป็นทางออกที่ดีที่สุดสำหรับ AI หรือไม่ **
กว่า 17 ปีที่ผ่านมา Huang Renxun ได้แยก GPU ออกจากเกมเดียวและฉากการประมวลผลภาพ ทำให้เป็นเครื่องมือไฟฟ้าสำหรับใช้งานทั่วไป สถานการณ์ใหม่ยังคง "แก้ไขอย่างน่าอัศจรรย์" GPU โดยพยายามหาสมดุลระหว่าง "ความเป็นส่วนรวม" " และ "ความเฉพาะเจาะจง".
ในช่วงสองทศวรรษที่ผ่านมา Nvidia ได้เปิดตัวเทคโนโลยีใหม่นับไม่ถ้วนที่เปลี่ยนแปลงอุตสาหกรรม: แพลตฟอร์ม CUDA, TensorCore, RT Core (การติดตามรังสี), NVLink, แพลตฟอร์ม cuLitho (การพิมพ์หินคอมพิวเตอร์), ความแม่นยำแบบผสม, Omniverse, เครื่องยนต์ Transformer ... เหล่านี้ เทคโนโลยีช่วยให้ Nvidia จากบริษัทชิประดับสองมาเป็นข้อมือ Nanbo ในมูลค่าตลาดของอุตสาหกรรมทั้งหมด ซึ่งไม่ได้สร้างแรงบันดาลใจ
แต่คนรุ่นหนึ่งควรมีสถาปัตยกรรมคอมพิวเตอร์ของยุคสมัย การพัฒนาปัญญาประดิษฐ์กำลังรุดหน้าอย่างรวดเร็ว และความก้าวหน้าทางเทคโนโลยีวัดกันเป็นชั่วโมง หากคุณต้องการให้ AI แทรกซึมชีวิตมนุษย์มากเท่ากับตอนที่พีซี/สมาร์ทโฟนเป็นที่นิยม ต้นทุนพลังงานในการคำนวณอาจต้องลดลงถึง 99% และ GPU อาจไม่ใช่คำตอบเดียว
**ประวัติศาสตร์บอกเราว่าไม่ว่าอาณาจักรจะรุ่งเรืองเพียงใด ก็อาจต้องระวังรอยร้าวที่มองไม่เห็นนั้น **
ข้อมูลอ้างอิง
[1] การจำแนกประเภท ImageNet ด้วย Deep Convolutional Neural Networks, Hinton
[2] Microsoft เตรียมพร้อมชิป AI เนื่องจากต้นทุนการเรียนรู้ของเครื่องพุ่งสูงขึ้น ข้อมูล
[3] Convolutional Neural Networks ประสิทธิภาพสูงสำหรับการประมวลผลเอกสาร
[4] Cloud TPU v4 ของ Google ให้ ML ระดับ exaFLOPS พร้อมประสิทธิภาพระดับแนวหน้าของอุตสาหกรรม
[5] ความทะเยอทะยานของ AI ของ Tesla, Tokawa Research Institute
[6] การเรียนรู้แบบไม่มีผู้ดูแลเชิงลึกขนาดใหญ่โดยใช้ตัวประมวลผลกราฟิก