NVIDIA и Microsoft сообщили о запуске нового типа ускоренного с помощью ГП суперкомпьютера в облаке Microsoft Azure. Эти новые виртуальные машины Azure NDv2 предназначены для самых сложных вычислений и высокопроизводительных задач ИИ. Пользователь может получить доступ к системе, объединяющей через единую сеть Mellanox InfiniBand до 800 графических ускорителей NVIDIA V100 с тензорными ядрами.
В результате пользователи Azure получили возможность арендовать настоящий суперкомпьютер для задач ИИ прямо на своём рабочем месте, избежав необходимости тратить месяцы на создание собственных громоздких локальных суперкомпьютеров. Ранее системы с подобными возможностями в области ИИ и HPC были доступны только для больших организаций.
Microsoft Azure NDv2 также предлагает гораздо более высокое соотношение производительности и цены по сравнению с традиционными решениями на базе ЦП — особенно в области искусственного интеллекта, машинного обучения и задач HPC. Исследователи могут развернуть сразу несколько виртуальных машин NDv2, чтобы обучить сложные диалоговые ИИ-модели буквально в течение часов.
Например, инженеры Microsoft и NVIDIA с помощью 64 виртуальных машин NDv2 на предварительной версии кластера обучили BERT — популярную диалоговую модель ИИ всего за три часа. Частично это было достигнуто благодаря оптимизациям для высокопараллельных расчётов с помощью множества ГП, достигнутых с помощью NCCL, библиотеки NVIDIA CUDA X и высокоскоростных интерфейсов Mellanox.
Пользователи также ощутят преимущества использования нескольких NDv2 при выполнении сложных вычислений HPC, например, в LAMMPS — популярном приложении молекулярной динамики, которое используется для моделирования материалов на уровне атомов в таких областях, как создание лекарств. Всего лишь одна виртуальная машина NDv2 обеспечивает производительность на порядок выше по сравнению с традиционным узлом HPC без ГП в приложениях такого типа, как глубинное обучение. Заявлено также, что производительность можно линейно увеличивать, объединяя сотни узлов для масштабного моделирования.
Все NDv2 оптимизированы для ускоренных с помощью ГП приложений HPC, ПО для машинного обучения и библиотек глубинного обучения, таких как TensorFlow, PyTorch и MxNet из репозитория контейнеров NVIDIA NGC и Azure Marketplace. Репозитарий также поддерживает пакеты Helm для установки ИИ-программ на кластерах Kubernetes.
NDv2 уже доступны в предварительном режиме. Виртуальные машины с восьмью ГП NVIDIA Tesla V100 (в каждом — 32 Гбайт памяти HBM2), 40-ядерным ЦП Intel Xeon Platinum 8168 и 672 Гбайт системной памяти можно объединять в кластеры.