AMD Instinct MI300X i EPYC Turin Zen 5 w testach MLPerf v4.1

Akceleratory AI AMD Instinct MI300X zadebiutowały na MLPerf v4.1 i zostały przetestowane z procesorami 5. generacji EPYC „Turin”.

amd instinct mi300x & epyc turin „zen 5” na mlPerf v4.1, pierwsze spojrzenie na wydajność lama 2

Dzisiaj AMD dzieli się pierwszymi wynikami wydajności najnowszego sprzętu dla centrów danych i AI na MLPerf Inference v4.1. Te testy są zaprojektowane tak, aby pokazać potencjał najnowszego i przyszłego sprzętu od różnych gigantów technologicznych, takich jak AMD, Intel i NVIDIA.

Zespół AMD przedstawił pierwsze zgłoszenia wyników akceleratorów Instinct MI300X na MLPerf od momentu wprowadzenia chipa, jednocześnie dając nam przedsmak nadchodzących procesorów EPYC „Turin”, które są linią serwerową 5. generacji opartą na architekturze rdzeniowej Zen 5.

Image Source: AMD

W celu oceny wydajności, AMD złożyło wyniki akceleratorów AI Instinct MI300X działających na systemie Supermicro AS-8125GS-TNMR2. Złożono cztery wyniki na MLPerf v4.1: dwa w scenariuszu Offline i dwa w scenariuszu Server. Różnica polega na tym, że dwa testy przeprowadzono z 4. generacją EPYC „Genoa”, a dwa pozostałe przy użyciu nadchodzących procesorów 5. generacji EPYC „Turin”.

  1. Połączenie wydajności CPU-GPU:
  • ID zgłoszenia 4.1-0002: 8x AMD Instinct MI300X z 2x AMD EPYC 9374F (Genoa) w kategorii Available
  • Ta konfiguracja pokazała potężną synergię między akceleratorami GPU AMD Instinct MI300X a procesorami EPYC 4. generacji (dawniej kodowaną nazwą „Genoa”) dla obciążeń AI, osiągając wyniki wydajności w granicach 2-3% od NVIDIA DGX H100 z procesorami Intel Xeon 4. generacji w scenariuszach serwerowych i offline przy precyzji FP8
  1. Podgląd wydajności z przyszłą generacją CPU:
  • ID zgłoszenia 4.1-0070: 8x AMD Instinct MI300X z 2x AMD EPYC „Turin” w kategorii Preview
  • Wykazano wzrost wydajności dzięki nadchodzącemu procesorowi 5. generacji EPYC „Turin” z akceleratorami GPU AMD Instinct MI300X, z lekką przewagą nad NVIDIA DGX H100 z Intel Xeon w scenariuszu serwerowym i porównywalną wydajnością w scenariuszu offline przy precyzji FP8
  1. Efektywność jednego GPU
  • ID zgłoszenia 4.1-0001: 1x AMD Instinct MI300X z 2x procesorami 4. generacji AMD EPYC 9374F (Genoa) w kategorii Available
  • To zgłoszenie podkreśliło ogromną pamięć 192 GB akceleratora AMD Instinct MI300X, umożliwiając jednemu GPU efektywne uruchomienie całego modelu LLaMA2-70B, unikając przeciążenia sieci związanego z podziałem modelu na wiele GPU przy precyzji FP8 (patrz Figura 2 poniżej).
  1. Wyniki kompaktowego serwera Dell z akceleratorami AMD Instinct MI300X

ID zgłoszenia 4.1-0022: 8x AMD Instinct MI300X z 2x Intel(R) Xeon(R) Platinum 8460Y+ w kategorii Available

Oprócz zgłoszeń AMD, Dell zatwierdził wyniki na poziomie platformy akceleratorów AMD Instinct, składając wyniki dla LLaMA2-70B na konfiguracji 8x AMD Instinct MI300X za pomocą serwera PowerEdge XE9680.

Patrząc na wyniki wydajności w LLama2-70B, AMD osiągnęło 21,028 tokenów/s w scenariuszu serwerowym i 23,514 tokenów/s w scenariuszu offline działając na procesorach EPYC Genoa, podczas gdy procesory 5. generacji EPYC „Turin” z tą samą konfiguracją Instinct osiągnęły 22,021 tokenów/s w scenariuszu serwerowym i 24,110 tokenów/s w scenariuszu offline. Oznacza to poprawę o 4,7% i 2,5% w porównaniu do platformy CPU Genoa.

Czytaj więcej:  Nowe ceny: ASUS ROG Ally za $499, Lenovo Legion Go za $599!
Image Source: AMD

W porównaniu do NVIDIA H100, Instinct MI300X jest nieco wolniejszy w wydajności serwera, podczas gdy różnica staje się większa w scenariuszu offline. Konfiguracja Turin okazała się szybsza o 2% w scenariuszu serwerowym, ale pozostaje w tyle w scenariuszu offline. Wyniki te w dużej mierze pokrywają się z wynikami opublikowanymi przez NVIDIA. AMD również przedstawiło niemal doskonałą skalowalność w Llama2-70B przy porównaniu jednego GPU i 8 GPU.

Image Source: AMD

Ostatnie, ale nie mniej ważne, AMD podkreśla przewagę pamięciową oferowaną przez akceleratory MI300X AI, która znacznie przewyższa to, co oferuje platforma NVIDIA H100. MI300X oferuje wystarczającą ilość pamięci, aby sprostać wymaganiom największych modeli językowych w różnych formatach danych.

Cieszymy się, że możemy nadal pokazywać wszechstronność i wydajność akceleratorów AMD Instinct w przyszłych benchmarkach, jako że rozszerzamy nasze testy i wysiłki optymalizacyjne. To dopiero początek naszej podróży. W nadchodzących miesiącach planujemy wprowadzić kolejne projekty z serii AMD Instinct, zawierające między innymi dodatkową pamięć, obsługę typów danych o niższej precyzji i zwiększoną moc obliczeniową. Przyszłe wydania ROCm mają na celu wprowadzenie ulepszeń w oprogramowaniu, w tym ulepszeń jądra i zaawansowaną obsługę kwantyzacji. Z niecierpliwością oczekujemy na naszą kolejną prezentację w MLPerf – cieszymy się, że możemy się dzielić naszymi postępami i spostrzeżeniami.

via AMD

AMD nie kończy na tym, ponieważ stara się ugruntować swoją pozycję w branży AI za pomocą optymalizacji stosu ROCm, dzięki czemu możemy zobaczyć aktualizacje wydajności w kolejnych zgłoszeniach MLPerf. Choć AMD potrzebowało sporo czasu, aby przedstawić wyniki MI300X, możemy mieć nadzieję, że MI325X, który zadebiutuje w przyszłym kwartale, będzie miał wyniki przedłożone znacznie wcześniej, ponieważ jest to ważny produkt, który oferuje 50% większą pojemność w porównaniu do MI300X. Procesor EPYC Turin „Zen 5” ma również pojawić się pod koniec tego roku, więc warto być na bieżąco.

Czytaj więcej:  ASUS prezentuje nowe płyty główne X870E i X870: ROG, TUF, Prime
Avatar photo
Bartosz