26 января компания NVIDIA запустила программу сертифицирования систем, участвующие в которой поставщики смогут предлагать сертифицированные NVIDIA серверы с графическими процессорами A100. Также доступны отдельные контракты на поддержку сертифицированных систем напрямую от NVIDIA.
NVIDIA заявила, что предварительно протестированные системы и контрактная поддержка должны повысить уверенность и упростить развёртывание для тех, кто решил заняться ИИ. Системы, сертифицированные NVIDIA, смогут запускать контейнеры NVIDIA NGC с рабочими инструментами ИИ.

«Сегодня у нас есть 13 или 14 систем как минимум пяти OEM-производителей, сертифицированных NVIDIA. Мы рассчитываем сертифицировать до 70 систем от почти десятка OEM-производителей, которые уже участвуют в этой программе», — сообщил в блоге Адель Эль-Халлак (Adel El-Hallak), директор по управлению продуктами NGC. Он упомянул в блоге первые сертифицированные системы:
- Стоечные серверы Dell EMC PowerEdge R7525 и R740
- Системы GIGABYTE R281-G30, R282-Z96, G242-Z11, G482-Z54, G492-Z51
- Система HPE Apollo 6500 Gen10 и сервер HPE ProLiant DL380 Gen10
- Inspur NF5488A5
- Supermicro A+ серверы AS -4124GS-TNR и AS -2124GQ-NART
Ожидается, что крупные, технически продвинутые заказчики, такие как гиперскейлеры и крупные предприятия, не станут покупателями систем, сертифицированных NVIDIA, но ими могут заинтересоваться менее крупные компании и новички в области ИИ.
«Существует определённый призыв к конечным пользователям быть уверенными в том, что аппаратное и программное обеспечение оптимизированы и что этот пакет официально „сертифицирован“. Это избавляет их от необходимости самостоятельно оптимизировать систему или исследовать различные предложения на рынке для достижения оптимальной производительности на основе трудноинтерпретируемых критериев», — Питер Руттен (Peter Rutten), директор по исследованиям группы инфраструктурных систем, платформ и технологий IDC.
NVIDIA не представила подробный список тестов для проведения сертификации, но Эль-Халлак дал следующее описание:
«Все начинается с разных нагрузок. Мы тестируем обучение и инференс ИИ, алгоритмы машинного обучения, инференс ИИ на периферии, например, потоковую передачу видео, потоковую передачу голоса и рабочие нагрузки HPC. По сути, мы устанавливаем базовый уровень, порог, если хотите, внутри компании. Мы предоставляем нашим OEM-партнерам советы по обучению, которые затем запускают рабочие нагрузки. Поэтому мы делаем такие вещи, как тестирование с разными размерами пакетов, с разными условиями и тестирование на одном или нескольких графических процессорах».
«Мы [также] тестируем множество различных вариантов использования. Мы рассмотрим варианты использования компьютерного зрения. Смотрим на модели машинного перевода. Мы тестируем линейную скорость, когда два узла соединены вместе, чтобы обеспечить оптимальную сеть и полосу пропускания. С точки зрения масштабируемости, мы тестируем экземпляр MIG, то есть часть графического процессора, один графический процессор, несколько графических процессоров [и] несколько узлов. Мы также тестируем GPUDirect RDMA, чтобы убедиться, что существует прямой путь для обмена данными между графическим процессором и устройствами сторонних производителей. Наконец, для обеспечения безопасности мы проверяем шифрование данных с помощью встроенных средств безопасности, таких как TLS и IPsec. Мы также изучаем TPM, чтобы обеспечить аппаратную безопасность устройства», — добавил Эль-Халлак.
Доказанная способность запускать NGC является ключевым элементом. NGC — это хаб NVIDIA для программного обеспечения с ускорением на GPU, контейнерных приложений, структур искусственного интеллекта, SDK для конкретных предметных областей, предварительно обученных моделей и других ресурсов.
NVIDIA заявила, что OEM-производители или другие партнёры не платят за участие в программе сертификации NVIDIA. Стоимость поддержки программного обеспечения сертифицированных NVIDIA систем для клиентов зависит от системы и от её конфигурации. Например, NVIDIA сообщила, что стоимость поддержки «объёмных» серверов с двумя графическими процессорами A100 составляет около «$4299 на систему с трёхлетним сроком поддержки, который клиенты могут продлить».