Совместно с Сандийскими национальными лабораториями Министерства энергетики США компания Cerebras Systems провела успешное обучение ИИ-модели с одним триллионом параметров с использованием системы CS-3 и суперкомпьютера WSE-3. Было задействовано 55 терабайт внешней памяти MemoryX.
Модели такого размера обычно требуют использования тысяч графических процессоров, большого количества энергии и участия множества специалистов, а также нескольких недель для настройки аппаратных и программных средств, отмечает Cerebras. Однако исследователям из SNL удалось обучить модель на одной системе без внесения изменений ни в саму модель, ни в программное обеспечение инфраструктуры. Более того, они также обнаружили практически линейное масштабирование: шестнадцать систем CS-3 позволили повысить скорость обучения в 15,3 раза.
Такие модели нуждаются в терабайтах памяти, что в тысячу раз превышает объём, доступный одному графическому процессору. Проще говоря, классические кластеры из тысяч ускорителей должны быть правильно подключены друг к другу ещё до начала обучения. По словам компании, системы Cerebras для хранения весов используют внешнюю память MemoryX на основе одностоечных узлов с обычной DDR5, благодаря чему модель с триллионом параметров обучается так же легко, как и небольшая модель на одном ускорителе.
Ранее SNL и Cerebras уже создали кластер Kingfisher на основе систем CS-3. Этот кластер будет служить тестовой площадкой для разработки ИИ-технологий в сфере национальной безопасности.
По материалам:
servernews