На недавней конференции Huawei Cloud Ecosystem Conference 2025 компания Huawei представила новый суперускоритель CloudMatrix 384. Устройство заявлено как отечественный аналог популярной системы NVIDIA GB200 NVL72.
По данным экспертов, новинка демонстрирует впечатляющие показатели общей производительности – 300 петафлопс, что существенно превышает характеристики конкурента (180 петафлопс). Однако у продукта Huawei есть и определенные недостатки: более низкая производительность на отдельный чип и заметно повышенный уровень энергопотребления, как отмечают аналитики из SemiAnalysis.
В архитектуре суперускорителя Huawei CloudMatrix 384 применяется массив из 384 ускорителей Ascend 910C. Для сравнения, в системе NVIDIA GB200 NVL72 используется комбинация из 36 процессоров Grace и 72 ускорителей B200 (Blackwell).
Примечательно, что для достижения двукратного превосходства в производительности над GB200 NVL72, Huawei потребовалось задействовать в пять раз больше ускорителей собственной разработки. Как отмечают аналитики SemiAnalysis, это может говорить о менее эффективном использовании отдельных ускорителей, однако демонстрирует сильные стороны компании в области проектирования и развертывания масштабных систем.
По мнению экспертов, Huawei находится на поколение позади NVIDIA в плане производительности отдельных чипов. Тем не менее, компания демонстрирует более высокий уровень в разработке и внедрении масштабируемых систем, что позволяет ей успешно конкурировать на рынке.
При анализе производительности отдельных ускорителей NVIDIA GB200 демонстрирует значительное превосходство над Huawei Ascend 910C. Это проявляется в следующих показателях:
- Производительность в формате BF16 превышает в 3 раза (2500 Тфлопс против 780 Тфлопс)
- Объем HBM на чипе больше на 64 Гбайт (192 Гбайт против 128 Гбайт)
- Пропускная способность памяти выше в 2,5 раза (8 Тбайт/с против 3,2 Тбайт/с)
Однако на уровне системных характеристик ситуация меняется в пользу CloudMatrix CM384:
- Общая производительность выше в 1,7 раза
- Объем HBM больше в 3,6 раза
- Пропускная способность памяти выше в 2,1 раза
- Количество используемых ускорителей превышает в 5 раз
При этом у системы Huawei есть существенный недостаток – значительно более высокое энергопотребление. CloudMatrix 384 потребляет почти в 4 раза больше энергии (560 кВт против 145 кВт), что отражается на:
- Потреблении энергии на 1 флопс (в 2,3 раза выше)
- Потреблении на 1 Тбайт/с ПСП (в 1,8 раза выше)
- Потреблении на 1 Тбайт HBM (на 10% выше)
Таким образом, хотя отдельные чипы NVIDIA превосходят Huawei по техническим характеристикам, система Huawei демонстрирует лучшие показатели при массовом развертывании, хотя и с заметно большим энергопотреблением.
По информации SCMP, основанной на данных Huawei, суперускоритель CloudMatrix CM384 демонстрирует впечатляющие показатели производительности. В BF16-вычислениях без разреженности устройство достигает 800 Пфлопс, а при работе с моделью DeepSeek-R1 обрабатывает 1920 токенов в секунду.
Архитектурно система размещается в 16 серверных стойках. Из них четыре стойки полностью отведены под систему межсоединений, обеспечивая в общей сложности 6912 портов со скоростью 400G. В оставшихся стойках размещается вычислительная инфраструктура: в каждой стойке установлено по 32 ускорителя Ascend 910C, организованных в четыре узла (конфигурация 8×4), а также присутствует ToR-коммутатор для управления трафиком.
По данным аналитического ресурса SemiAnalysis, компоненты для ускорителей Ascend 910C и системы CloudMatrix 384 производятся за пределами Китая. В частности, микросхемы памяти HBM поставляются компанией Samsung, полупроводниковые пластины изготавливает TSMC, а ключевое оборудование для производства импортируется из США, Нидерландов и Японии.
Несмотря на то, что китайский производитель SMIC освоил 7-нанометровый технологический процесс, основная часть ускорителей Ascend 910B/910C была произведена по 7-нм технологии именно TSMC. Примечательно, что после прекращения прямых поставок от TSMC в 2020 году, Huawei, как предполагается, нашла способ обойти американские санкции. Компания осуществила заказ чипов на сумму около 500 миллионов долларов через посредника Sophgo, что позволило продолжить производство необходимой компонентной базы.
По материалам:
servernews