Компания NVIDIA представила ускоритель H100 NVL, который, судя по всему, создан специально для обучения языковых моделей. Как сказано на сайте NVIDIA, cерверы, оснащенные графическими процессорами H100 NVL, повышают производительность модели GPT-175B до 12 раз по сравнению с системами DGX A100, сохраняя при этом низкую задержку в средах центров обработки данных с ограниченным энергопотреблением.
Фактически H100 NVL представляет собой пару H100 на одной плате. Речь идёт о двух GPU, объединённых интерфейсом NVLink, благодаря чему NVIDIA говорит о 68 TFLOPS при вычислениях с двойной точностью (FP64), 143 TFLOPS (Tensor Core FP64), 7916 TOPS (IN8), 188 ГБ памяти с пропускной способностью 7,8 ТБ/с. Всё это позволяет обрабатывать до 175 млрд параметров ChatGPT в режиме реального времени.
Также NVIDIA анонсировала запуск платформ логического вывода для больших языковых моделей и генеративных рабочих нагрузок ИИ. Речь сразу о четырёх платформах логического вывода, оптимизированных для разнообразного набора быстро развивающихся приложений генеративного ИИ.
Каждая платформа сочетает в себе полный стек ПО для логических выводов, новейшие графические процессоры компании, причём как игровые Ada Lovelace, так и специализированные Hopper, а также Grace Hopper Superchip.
Источник ixbt