Производители графических ускорителей традиционно устанавливают фиксированный объём видеопамяти на этапе производства. В топовых моделях используется интеграция памяти типа HBM непосредственно на подложке с главным кристаллом. Несмотря на растущие потребности в большем объёме памяти, производители продолжают повышать цены на модели с расширенными возможностями. Однако компания Bolt Graphics предложила революционное решение, представив новую серию ускорителей Zeus, которая ломает устоявшиеся традиции.
В отличие от других производителей, сосредоточенных на ИИ-решениях, Bolt Graphics позиционирует свой новый GPU Zeus как универсальное решение для высокопроизводительных вычислений (HPC), рендеринга, трассировки лучей и игр. Примечательно, что архитектура GPU открыта и построена на базе спецификации RISC-V RVA23 для скалярной части и модифицированной RVV 1.0 для векторной части с FP64 ALU. Дополнительные функции реализованы через специализированные расширения и ускорители, объединённые общим 128-мегабайтным кэшем. Система дополнена блоком телеметрии и внутренним интерконнектом для взаимодействия с другими вычислительными модулями.
В архитектуре Zeus применяется модульный чиплетный дизайн. Базовая конфигурация 1c26-032 состоит из GPU-чиплета, связанного с 32 ГБ встроенной памяти LPDDR5x (пропускная способность 273 ГБ/с) и контроллером внешней памяти DDR5 (90 ГБ/с), что позволяет расширить объём оперативной памяти до 128 ГБ с помощью двух SO-DIMM модулей. GPU-чиплет оснащён встроенными контроллерами DisplayPort 2.1a и HDMI 2.1b, взаимодействуя с внешним IO-чиплетом через канал пропускной способностью 256 ГБ/с. IO-чиплет предлагает уникальный набор интерфейсов, включая два порта PCIe 5.0 x16 (по 64 ГБ/с каждый), порт RJ-45 для BMC и 400GbE-порт QSFP-DD. Дополнительно имеется специализированный видеокодек, поддерживающий обработку двух потоков 8K@60 в форматах AV1/H.264/H.265.
Производительность в векторных вычислениях впечатляет: 5/10/20 терафлопс в операциях FP64/FP32/FP16 и 307,2/614,4 тераопераций в секунду для INT16/INT8. Блок ускорения трассировки лучей обеспечивает до 77 гигалучей, что значительно превосходит показатель NVIDIA RTX 5090 (32 гигалуча), а производительность в FP64 в 5 раз выше (1,6 терафлопс у RTX 5090). Хотя в вычислениях с пониженной точностью NVIDIA пока остаётся быстрее, главное преимущество Zeus 1c26-032 — энергоэффективность при TDP всего 120 ватт. Второй интерфейс PCIe 5.0 x16 позволяет объединять две карты напрямую, расширяя возможности системы.


Модели линейки Zeus различаются количеством чиплетов: двухчиплетные версии обозначаются как 2c26-064/128, а четырёхчиплетные — 4c26-256, где последние цифры указывают на объём встроенной памяти LPDDR5X. Возможности расширения оперативной памяти зависят от конкретной модели и могут достигать восьми слотов SO-DIMM, что позволяет дополнить базовую конфигурацию 256 ГБ LPDDR5x ещё 2 ТБ DDR5 в топовой версии. При увеличении количества GPU-чиплетов производительность растёт почти линейно, хотя есть некоторые особенности: например, в моделях 2c26-064 и 2c26-128 (при TDP 250 Вт) используется один IO-чиплет, а связь между GPU-чиплетами осуществляется через шину пропускной способностью 768 ГБ/с.


Zeus 4c26-256 оснащён четырьмя I/O чиплетами, которые обеспечивают восемь контроллеров PCIe 5.0 x4 (32 линии от каждого чиплета) и шесть портов 800GbE OSFP (три чиплета). Графические процессоры соединены между собой шиной со скоростью 512 Гбайт/с. Каждый GPU-чиплет связан с собственным IO-чиплетом на скорости 256 Гбайт/с. Флагманская модель имеет тепловой пакет 500 ватт. Согласно информации от Bolt Graphics, ускоритель достигает производительности 20 Тфлопс в режиме FP64 и почти 2500 Топс при вычислениях FP8. Также он способен обрабатывать до 307 гигалучей.


Разработчики предусмотрели широкие возможности кластеризации, что подтверждается наличием мощной сетевой подсистемы. Поддерживаются различные конфигурации: от двух GPU, соединённых напрямую через Ethernet 400GbE, до масштабных систем с 80 платами Zeus 4c26-256, подключёнными к коммутатору или напрямую друг к другу. Такой кластер потребляет 44 кВт, но обеспечивает высокую производительность для запуска сложных физических симуляций и обучения моделей ИИ благодаря общему объёму памяти 160 Тбайт. Вычислительная мощность такого кластера достигает 1,6 Пфлопс в режиме FP64 и 196 Попс в режиме FP8.


Одна из ключевых особенностей этих новинок — трассировщик лучей Glowstick, работающий в режиме реального времени с большинством современных программ для трёхмерного моделирования и редактирования видео, таких как Maya, 3ds Max, Blender, SketchUp, Houdini и Nuke. Он будет дополнен собственной библиотекой Bolt MaterialX, включающей более 5000 высококачественных текстур. Благодаря поддержке стандарта OpenUSD, Glowstick легко интегрируется в любую систему рендеринга и постобработки. Также планируется разработка электромагнитного симулятора Bolt Apollo. В качестве драйверов будут использоваться Vulkan/DirectX, а также SDK с применением LLVM.


Доступ к комплектам для разработчиков от Bolt Graphics планируется открыть в четвёртом квартале текущего года. В третьем квартале 2026 года должны появиться серверы формата 2U на базе Zeus, а массовые поставки серверов и карт PCIe начнутся не ранее четвертого квартала того же года. Пока сложно оценить, насколько хорошо новая архитектура покажет себя в работе, но предварительные тесты Zeus показывают существенные преимущества, особенно в плане энергопотребления, по сравнению с существующими ускорителями.
По материалам:
servernews