NVIDIA Blackwell: Nowa Era w Centrach Danych z NVLINK 1.4 TB/s

NVIDIA w końcu rozwiewa plotki o opóźnieniu swojego przełomowego układu Blackwell, ujawniając, że jest on już operacyjny w centrach danych na całym świecie. Co więcej, firma zapowiedziała, że jeszcze w tym roku Blackwell trafi do klientów, co potwierdza brak jakichkolwiek defektów czy problemów z produktem.

Zbliżająca się konferencja Hot Chips, która rozpocznie się w przyszłym tygodniu, będzie obfitować w ciekawe sesje zaplanowane przez firmę NVIDIA. Firma zamierza ujawnić kolejne detale na temat swojej technologii.

W obliczu ostatnich plotek, NVIDIA zorganizowała konferencję prasową, aby pokazać Blackwell w akcji w swoich centrach danych. Firma utrzymuje, że Blackwell jest na dobrej drodze do szerokiej dystrybucji i nie ma powodów, aby sądzić, że produkt nie pojawi się na rynku w tym roku.

Blackwell to nie tylko jeden chip, ale cała platforma, podobnie jak Hopper. Obejmuje ona szeroką gamę rozwiązań dedykowanych centrom danych, chmurze oraz klientom AI. Każdy produkt Blackwell składa się z wielu układów, takich jak:

– GPU Blackwell
– CPU Grace
– Przełącznik NVLINK
– Bluefield-3
– ConnectX-7
– ConnectX-8
– Spectrum-4
– Quantum-3

NVIDIA pochwaliła się również nowymi zdjęciami różnych tac, które są częścią rodziny Blackwell. To pierwsze zdjęcia ukazujące poziom inżynierii potrzebnej do zaprojektowania nowoczesnych platform dla centrów danych.

Generacja Blackwell została zaprojektowana, aby sprostać potrzebom współczesnych modeli AI, oferując wyjątkową wydajność w dużych modelach językowych, takich jak Llama-3.1 od Meta. Wraz ze wzrostem rozmiaru modeli, centra danych będą potrzebować więcej mocy obliczeniowej i niższych opóźnień.

Czytaj więcej: MSI prezentuje gigantyczny monitor 49″ QD-OLED za $1199

Podejście Multi-GPU do inferencji rozbija obliczenia na wiele GPU, co z jednej strony zapewnia niskie opóźnienia i wysoką przepustowość, ale z drugiej strony wprowadza dodatkowe komplikacje. Każdy GPU w środowisku multi-GPU musi dzielić się wynikami obliczeń z innymi GPU, co wymaga dużej przepustowości komunikacji między układami.

Rozwiązanie NVIDIA, już dostępne dla instancji multi-GPU, w postaci NVSwitch, oferuje przepustowość do 900 GB/s, co pozwala na wyższą przepustowość inferencji w porównaniu z tradycyjnym podejściem. NVSwitch pozwala GPU na przesłanie wyników obliczeń bezpośrednio do NVSwitch, a następnie do drugiego GPU, co znacznie skraca czas komunikacji.

NVIDIA udostępniła również specyfikacje techniczne GPU Blackwell, które obejmują między innymi:

– Dwa mikroprocesory połączone w jedno opakowanie
– 208 miliardów tranzystorów w technologii TSMC 4NP
– 20 PetaFLOPS FP4 AI
– Przepustowość pamięci 8 TB/s
– Pamięć HBM3e
– Dwukierunkowa przepustowość NVLINK wynosząca 1,8 TB/s
– Szybki link NVLINK-C2C do CPU Grace

Wprowadzenie Blackwell oznacza również nowy NVLINK Switch z dwukrotnie większą przepustowością wynoszącą 1,8 TB/s. Przełącznik NVLINK jest układem o powierzchni 800 mm2, zbudowanym w technologii TSMC 4NP i rozszerza NVLINK na 72 GPU w serwerowniach GB200 NVL72. Układ zapewnia pełną dwukierunkową przepustowość wynoszącą 7,2 TB/s przez 72 porty i ma zdolność obliczeniową w sieci wynoszącą 3,6 TFLOPs.

Podczas konferencji Hot Chips firma NVIDIA zaprezentuje również nowatorskie rozwiązania chłodzenia cieczą, takie jak chłodzenie za pomocą ciepłej wody bezpośrednio do układów. Ta metoda oferuje lepszą wydajność chłodzenia, niższe koszty operacyjne, dłuższą żywotność serwerów oraz możliwość odzyskiwania ciepła. Dzięki temu centrum danych może zmniejszyć koszty energii o nawet 28%.

Czytaj więcej: ASUS prezentuje nowe płyty główne X870E i X870: ROG, TUF, Prime

NVIDIA po raz pierwszy dzieli się także obrazem generowanym przez AI przy użyciu obliczeń w precyzji FP4. Wynikowy obraz FP4-quantized wykazuje wysoką jakość porównywalną do modeli FP16, ale jest generowany znacznie szybciej. Oto efekty pracy nad rozwiązaniami FP4 w ramach systemu Quasar Quantization.

Ogłaszając przyszłe plany, NVIDIA zapowiedziała, że w przyszłym roku wprowadzi Blackwell Ultra GPU z 288 GB pamięci HBM3e oraz kolejne układy Rubin/Rubin Ultra w latach 2026 i 2027.

Więcej informacji na temat rozwiązań NVIDIA można znaleźć na stronie konferencji Hot Chips: https://hotchips.org/