На прошедшей вчера в Вашингтоне (округ Колумбия) конференции GTC компания NVIDIA презентовала свой новейший суперчип под названием «Vera Rubin». Впервые публике продемонстрировали фото конструкции, объединяющей два графических процессора «Рубин» с одним центральным процессором «Vera». Последний оснащён 88 специализированными ядрами NVIDIA и поддерживает 176 потоков — всё это размещено в едином корпусе.
По заявлениям NVIDIA, один графический процессор Rubin способен обеспечить производительность порядка 50 петафлопс в вычислениях FP4. Соответственно, суперчип с двумя такими процессорами достигает суммарной производительности около 100 петафлопс FP4. В настоящее время инженерные образцы проходят лабораторные испытания. Компания планирует запустить массовое производство в 2026 году, а к 2027 году — расширить поставки и развёртывание решений.
Конструкция графического процессора Rubin, судя по всему, включает два вычислительных чиплета размером с сетку (предположительно 2×830 мм2) и восемь стеков HBM4. Это обеспечивает примерно 288 ГБ памяти HBM4 на один графический процессор и около 576 ГБ — на весь суперчип. Для организации системной памяти с низкой задержкой плата оснащена модулями SOCAMM2 LPDDR5X. Согласно некоторым прежним презентациям, на стандартных лотках для одного процессора Vera предусматривается порядка 1,5 ТБ LPDDR5X.
Процессор Vera построен на 88‑ядерной архитектуре с 176 потоками на базе Arm и демонстрирует признаки многочиплетной компоновки, включая отдельный чиплет ввода‑вывода. В отличие от процессора Grace, где использовалась архитектура Neoverse от Arm, для Vera команда разработчиков создала собственное процессорное ядро — это позволило добиться максимальной производительности.
Кроме того, NVIDIA существенно увеличила пропускную способность NVLink — до примерно 1,8 ТБ/с. Такое решение обеспечивает эффективную передачу данных между центральным и графическими процессорами при выполнении ресурсоёмких задач, в том числе при обучении ИИ и выводе данных.
Суперчип Vera Rubin позиционируется NVIDIA как базовый элемент для построения масштабных систем класса NVL, способных достигать экзафлопсной производительности. В частности, представленная конфигурация NVL144 обеспечивает:
- около 3,6 экзафлопс при выводе FP4;
- порядка 1,2 экзафлопс при обучении FP8;
- примерно 13 ТБ/с совокупной пропускной способности HBM4;
- около 75 ТБ быстрой системной памяти в стойке.
Для решения ещё более масштабных задач компания представила семейство Rubin Ultra NVL576. В этой конфигурации увеличено число графических процессоров, что позволяет достичь производительности порядка 15 экзафлопс FP4. Объём быстрой памяти в таких системах достигает сотен терабайт — это ориентировано на гиперскейлеров и исследовательские центры.
Помимо этого, NVIDIA продемонстрировала вычислительный модуль CPX (о котором уже шла речь ранее), а также иные варианты модулей, оптимизированные для работы с большими контекстными окнами моделей и выполнения ресурсоёмких рабочих нагрузок.
По материалам:
techpowerup





