Cuộc cách mạng tính toán quy mô lớn: cách "bom nguyên tử" của Vera Rubin định hình lại cuộc đua AI

Thách thức không thể bỏ qua: Luật Moore chậm lại, nhu cầu AI bùng nổ

Ngành công nghiệp đang đối mặt với một nghịch lý khó chịu: trong khi tốc độ cải tiến của silicon chậm lại, các mô hình trí tuệ nhân tạo yêu cầu tăng hiệu suất theo cấp số nhân mỗi năm. Đối với một trung tâm dữ liệu 1 GW có chi phí 50 tỷ đô la, sự khác biệt giữa kiến trúc cũ và mới có thể đồng nghĩa với việc tăng gấp đôi khả năng tạo doanh thu của nó.

Jensen Huang, CEO của một trong những tập đoàn công nghệ hàng đầu thế giới, thừa nhận rõ ràng nghịch lý này: các phương pháp tối ưu truyền thống không còn theo kịp nữa. Vì vậy, thay vì chỉ thay 1 hoặc 2 chip mỗi thế hệ như trước, lần này họ đã đặt cược vào một thiết kế lại toàn diện 6 thành phần chính của nền tảng tính toán Vera Rubin, đã bước vào giai đoạn sản xuất hàng loạt.

Vera Rubin: kiến trúc định lại quy tắc chơi

Nhân vật chính thực sự của chu kỳ này không phải là một card đồ họa thông thường, mà là một hệ sinh thái xử lý hoàn chỉnh. Vera Rubin, đặt theo tên nhà thiên văn học phát hiện ra vật chất tối, thể hiện một sự thay đổi tư duy: đổi mới đồng thời ở tất cả các cấp của nền tảng.

6 trụ cột của kiến trúc này là:

Vera CPU cung cấp trí tuệ và điều phối. Trang bị 88 lõi Olympus tùy chỉnh, hỗ trợ 176 luồng song song nhờ công nghệ đa luồng không gian. Băng thông NVLink C2C 1.8 TB/s và bộ nhớ hệ thống 1.5 TB (gấp ba lần thế hệ trước) đảm bảo không có điểm nghẽn trong các hoạt động cơ bản. Với 227 tỷ bóng bán dẫn, tích hợp sức mạnh xử lý cần thiết để điều phối các hoạt động quy mô lớn.

Rubin GPU, trung tâm tính toán, đạt 50 PFLOPS công suất suy luận ở độ chính xác giảm, gấp năm lần kiến trúc Blackwell. Với 336 tỷ bóng bán dẫn, tích hợp thế hệ thứ ba của các động cơ Transformer điều chỉnh độ chính xác theo nhu cầu cụ thể của mô hình.

Card mạng ConnectX-9 cung cấp kết nối siêu nhanh với Ethernet 800 Gb/s dựa trên công nghệ PAM4 200G. Bao gồm RDMA lập trình được và bộ tăng tốc đường dẫn dữ liệu, cùng các chứng nhận an ninh CNSA và FIPS với 23 tỷ bóng bán dẫn.

BlueField-4 DPU xuất hiện như một bộ xử lý chuyên dụng cho lưu trữ AI thế hệ mới. Với khả năng SmartNIC 800 Gb/s, kết hợp CPU Grace 64 lõi với ConnectX-9, tích hợp 126 tỷ bóng bán dẫn dành riêng cho chức năng quan trọng này.

Chip chuyển mạch NVLink-6 là điều phối mạng nội bộ. Có thể kết nối 18 nút tính toán và điều phối tới 72 GPU Rubin hoạt động như một hệ thống thống nhất. Với kiến trúc NVLink 6, mỗi GPU đạt băng thông 3.6 TB/s all-to-all, cho phép giao tiếp tập thể siêu nhanh trong mạng.

Cuối cùng, bộ chuyển đổi quang Spectrum-6 xử lý 512 kênh 200Gbps mỗi kênh cho các truyền tải vượt quá tốc độ thông thường. Sản xuất bằng công nghệ silicon quang tích hợp của TSMC COOP, cung cấp 352 tỷ bóng bán dẫn dành riêng cho liên kết quang hợp pack.

Những con số nói lên: cải tiến hiệu suất chưa từng có

Hệ thống NVL72 kết quả của sự tích hợp sâu này thiết lập các tiêu chuẩn mới. Trong các nhiệm vụ suy luận với độ chính xác giảm, đạt 3.6 EFLOPS, gấp năm lần thế hệ trước. Đối với huấn luyện, đạt 2.5 EFLOPS, tăng 3.5 lần.

Bộ nhớ khả dụng đã tăng gấp ba: 54TB LPDDR5X trong hệ thống chính so với 20.7TB HBM băng thông cao. Băng thông HBM4 lên tới 1.6 PB/s (gấp 2.8 lần), trong khi băng thông Scale-Up đạt 260 TB/s, gấp đôi thế hệ trước.

Điều đáng chú ý nhất: những bước nhảy hiệu suất này đạt được chỉ với 1.7 lần số bóng bán dẫn (2.2 nghìn tỷ tổng cộng), chứng minh rằng đổi mới kiến trúc quan trọng không kém gì mật độ silicon.

Từ kỹ thuật số đến vật lý: giới hạn tiếp theo

Dù các con số ấn tượng, tác động thực sự nằm ở các ứng dụng. AI giờ đây cần chuyển từ thế giới kỹ thuật số sang vật lý. Để làm điều này, cần có ba loại tính toán tích hợp:

Máy tính huấn luyện được xây dựng bằng các kiến trúc như GB300 tạo ra các mô hình nền tảng. Máy tính suy luận, “não bộ” hoạt động trong robot hoặc xe tự hành theo thời gian thực. Và máy tính mô phỏng, bao gồm các nền tảng như Omniverse và Cosmos, cung cấp môi trường ảo nơi AI học phản hồi vật lý trước khi vận hành trong thế giới thực.

Alpamayo: lái xe tự hành có khả năng lý luận

Dựa trên kiến trúc ba máy tính này, xuất hiện Alpamayo, hệ thống lái xe tự hành đầu tiên có khả năng lý luận thực sự. Khác với các hệ thống truyền thống thực thi lệnh cứng nhắc, Alpamayo lý luận như một người lái xe con người. Nó có thể giải thích những gì sẽ làm tiếp theo và lý do tại sao.

Mercedes CLA trang bị công nghệ này sẽ chính thức ra mắt tại Mỹ trong quý đầu năm nay, sau đó mở rộng sang châu Âu và châu Á. Xe này được NCAP xếp hạng là an toàn nhất thế giới, nhờ kiến trúc “hai lớp an toàn” luân phiên giữa hệ thống AI toàn diện và các giao thức an toàn truyền thống khi độ tin cậy giảm.

Robot học: vượt ra ngoài humanoid

Chiến lược mở rộng sang robot humanoid và bốn chân, tất cả đều trang bị máy tính mini Jetson và huấn luyện trong mô phỏng Isaac. Tích hợp cũng mở rộng đến các hệ thống công nghiệp như công cụ của Synopsys, Cadence và Siemens.

Jensen Huang đùa trong buổi giới thiệu: “Robot lớn nhất chính là nhà máy. Robot sẽ được thiết kế trên máy tính, sản xuất trên máy tính, thậm chí thử nghiệm và xác minh ảo trên máy tính trước khi đối mặt với trọng lực thực.”

Bức tranh toàn cảnh: 10 nghìn tỷ đô la trong hiện đại hóa

Trong thập kỷ qua, khoảng 10 nghìn tỷ đô la hạ tầng tính toán toàn cầu đang được hiện đại hóa hoàn toàn. Nhưng đây không chỉ là nâng cấp phần cứng. Nó là một sự thay đổi mô hình trong cách phát triển và triển khai phần mềm.

Sự trỗi dậy của các mô hình mở, điển hình là hệ thống DeepSeek gây ngạc nhiên thế giới với hiệu quả suy luận, đã thúc đẩy làn sóng đổi mới. Mặc dù các mô hình này có thể chậm hơn 6 tháng so với các mô hình tiên tiến nhất, mỗi nửa năm lại xuất hiện một thế hệ mới có khả năng cạnh tranh.

Tốc độ lặp lại này giữ cho các startup, tập đoàn công nghệ lớn và các nhà nghiên cứu luôn chuyển động không ngừng. Nền tảng mô hình mã nguồn mở Nemotron bao gồm y học sinh học, AI vật lý, tác nhân thông minh, robot học và lái xe tự hành, với nhiều phiên bản nổi bật trong các bảng xếp hạng độc lập và được các công ty quy mô lớn rộng rãi áp dụng.

Hiệu quả bù đắp: tokens trên vâtio và đô la

Dù Vera Rubin tiêu thụ gấp đôi năng lượng so với các thế hệ trước, hiệu suất tăng lên theo cấp số nhân. Chỉ số quan trọng là throughput tokens tạo ra trên vâtio và đô la: tăng gấp 10 lần.

Đối với một trung tâm dữ liệu 1 GW, điều này có nghĩa Spectrum-X cải thiện throughput lên 25%, tương đương tiết kiệm 5 tỷ đô la chi phí hạ tầng. “Hệ thống mạng này gần như miễn phí”, theo lời của giám đốc điều hành.

Giải quyết KV Cache: trở ngại lớn nhất của AI tạo sinh

Nỗi đau thực sự của ngành là “KV Cache”, bộ nhớ làm việc mà AI tiêu thụ trong các cuộc trò chuyện dài. Khi các mô hình lớn hơn và các cuộc trò chuyện mở rộng, bộ nhớ HBM sẵn có bị cạn kiệt.

Vera Rubin giải quyết điều này bằng cách triển khai các bộ xử lý BlueField-4 trong từng khung máy chủ. Mỗi nút chứa 4 BlueField-4, cung cấp 150TB bộ nhớ ngữ cảnh phân tán giữa các GPU, với 16TB bổ sung cho mỗi GPU duy trì băng thông 200Gbps. Như vậy, hàng nghìn GPU phân tán trong hàng chục khung máy chủ hoạt động như một bộ nhớ nhất quán duy nhất.

Ý nghĩa địa chính trị của “bom nguyên tử” này

Buổi giới thiệu Vera Rubin thể hiện điều gì đó sâu sắc hơn là đổi mới kỹ thuật. Trong thời đại hoài nghi về tính bền vững của bong bóng AI, Jensen Huang cần chứng minh bằng các bằng chứng rõ ràng về khả năng thực sự mà AI mở ra: từ lái xe tự hành an toàn đến robot công nghiệp, từ tổng hợp protein đến các hệ thống mã nguồn mở dân chủ hóa công nghệ.

Nhiều năm trước, công ty bán “cần câu trong cơn sốt vàng”. Giờ đây, họ tham gia trực tiếp vào quá trình chuyển đổi các ngành công nghiệp vật lý, từ ô tô đến sản xuất. Sự tiến hóa từ nhà cung cấp linh kiện thành nhà điều phối hệ sinh thái đánh dấu một bước chuyển đổi căn bản trong cách ngành công nghệ định vị cho thập kỷ tới.

LA3,96%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim