Ускорители NVIDIA считаются весьма энергозатратными в своей категории, однако суперкомпьютеры на базе их чипов продолжают занимать лидирующие позиции в списке энергоэффективных устройств Green500. Однако компания сталкивается с серьёзной конкуренцией со стороны AMD и не всегда может конкурировать даже с собственными продуктами, как сообщает The Register.
На первый взгляд, проекты на базе NVIDIA кажутся бесспорными лидерами. Из десяти суперкомпьютеров, входящих в десятку самых энергоэффективных машин, восемь используют чипы NVIDIA, в том числе пять — популярные среди пользователей HPC-решений 1000-ваттные гибридные суперускорители GH200.
В последнем рейтинге Green500 эти системы заняли первые два места по энергоэффективности: JEDI (EuroHPC) и Romeo-2025 (Romeo HPC Center). В тесте High-Performance Linpack они показали результаты 72,7 Гфлопс/Вт и 70,9 Гфлопс/Вт (FP64) соответственно.
Системы очень похожи и работают на платформе BullSequana XH3000 от компании Eviden. Решение GH200 также занимает четвёртое, шестое и седьмое места в рейтинге: Isambard-AI Phase 1 (68,8 Гфлопс/Вт), Jupiter Exascale Transition Instrument (67,9 Гфлопс/Вт) и Helios (66,9 Гфлопс/Вт). Системы с использованием проверенных NVIDIA H100 занимают пятое, восьмое и девятое места — это Capella, Henri и HoreKa-Teal.
Однако существуют сомнения относительно дальнейшего безоговорочного лидерства решений на NVIDIA в этом рейтинге. Уже разрабатываются новые продукты Grace-Blackwell в виде моделей GB200 (2,7 кВт) и GB200 NVL4 (5,4 кВт). Эти новые продукты не всегда обеспечивают максимальную производительность на единицу затраченной энергии.
С момента выпуска A100 в 2020 году и H100 в 2022 году производительность (FP64) увеличилась примерно в 3,5 раза, однако по сравнению с 1,2-киловаттной платформой Blackwell 700-ваттные H100 фактически работают быстрее в режиме FP64. Фактически, для FP64 улучшилась только «векторная математика», где новые модели стали на 32% производительнее.
Иначе говоря, хотя NVIDIA сегодня занимает высокое положение в рейтинге Green500, решение на базе ускорителей MI300A от AMD уже заняло третье место (Adastra 2). MI300A был представлен чуть меньше года назад, он оснащён 24-ядерным процессором и шестью чиплетами CDNA-3 в едином модуле APU с возможностью установки до 128 ГБ памяти HBM3, а также настраиваемым уровнем TDP от 550 до 760 Вт. Более того, эта система на 1,8 раза производительнее NVIDIA H100 (по крайней мере, на бумаге).
Суперкомпьютер Adastra 2, созданный компанией HPE Cray с использованием блейд-серверов EX255a, обеспечивает производительность 69 Гфлопс/Вт. Десятое место также занимает система на базе MI300A — RZAdams Ливерморской национальной лаборатории (62,8 Гфлопс/Вт). Все десять систем, представленных в рейтинге Green500, значительно превосходят целевой показатель энергоэффективности в 50 Гфлопс/Вт, необходимый для достижения эксафлопсных вычислений при ограничении энергопотребления до 20 мегаватт.
Проблема заключается в том, что менее мощные системы демонстрируют более высокую эффективность: JEDI потребляет всего 67 кВт, в то время как самая мощная система на GH200 в рейтинге Top500 — Alps Швейцарского национального суперкомпьютерного центра — достигает 434 Пфлопс в тесте HPL, используя 7,1 МВт. Это означает, что Alps занимает лишь 14-е место среди самых энергоэффективных систем с показателем 61 Гфлопс/Вт.
Однако у Adastra 2 ситуация аналогичная: этот компьютер потребляет ещё меньше энергии — 37 кВт. Если бы удалось поддерживать уровень 69 Гфлопс/Вт в более крупных масштабах, потребовалось бы всего 25,2 МВт для обеспечения производительности в 1742 Эфлопс, аналогичной El Capitan. В то же время последнему нужно около 29,6 МВт для достижения своих рекордных показателей.
По материалам:
servernews