Google представила ИИ-ускорители TPU v6 (Trillium) для облачной платформы GCP

Google объявила о доступности своих новейших ИИ-ускорителей TPU версии 6 под кодовым названием Trillium для клиентов в рамках облачной платформы GCP. Сообщается, что на сегодняшний день эта новинка является наиболее эффективным решением Google с точки зрения соотношения цены и производительности.

Презентация Trillium состоялась в мае этого года. Устройство оснащено 32 ГБ памяти HBM с пропускной способностью 1,6 ТБ/с, а межчиповый интерфейс ICI обеспечивает передачу данных со скоростью до 3,58 ТБ/с (по четыре порта на чип). Используются блоки SparseCore третьего поколения для ускорения работы с моделями искусственного интеллекта, применяемыми в системах ранжирования и рекомендаций.

Google отмечает ряд значительных преимуществ Trillium (TPU v6e) по сравнению с ускорителями TPU v5e:

более чем четырёхкратное увеличение производительности при обучении моделей ИИ;
рост производительности инференса до трёх раз;
улучшение энергоэффективности на 67 %;
повышение пиковой вычислительной мощности на чип в 4,7 раза;
двукратное увеличение объёма HBM;
удвоение пропускной способности межчипового интерконнекта ICI.

Один узел состоит из восьми ускорителей TPU v6e (в двух доменах NUMA), двух неназванных процессоров (всего 180 vCPU), 1,44 ТБ оперативной памяти и четырёх 200G-адаптеров (по два на процессор) для связи с внешним миром. Согласно информации, через ICI можно напрямую объединить до 256 устройств Trillium, а общая скорость сетевого подключения такого кластера (Pod) составляет 25,6 Тбит/с. Благодаря платформе Google Jupiter с оптической коммутацией десятки тысяч ускорителей могут быть объединены в крупный ИИ-кластер с общей пропускной способностью 13 Пбит/с. Trillium доступны в составе интегрированной ИИ-платформы AI Hypercomputer.

Утверждается, что использование программного обеспечения Multislice Trillium обеспечивает почти линейное масштабирование производительности для задач, связанных с обучением искусственного интеллекта. Кластеры на базе Trillium могут достигать производительности 91 эксафлопс в операциях ИИ, что в четыре раза превышает показатели самых крупных развёртываний систем на основе TPU v5p. Производительность одного чипа TPU v6e в формате BF16 составляет 918 терафлопс, а в формате INT8 — 1836 триллионов операций в секунду.

В тестах производительности Trillium продемонстрировал более чем четырёхкратное увеличение скорости обучения моделей Gemma 2-27b, MaxText Default-32b и Llama2-70b по сравнению с TPU v5e, а также более чем трёхкратный прирост для LLama2-7b и Gemma2-9b. Кроме того, Trillium обеспечивает трёхкратное увеличение производительности вывода для Stable Diffusion XL по сравнению с TPU v5e. Что касается соотношения цены и производительности, TPU v6e показывает 1,8-кратный рост по сравнению с TPU v5e и примерно двукратный рост по сравнению с TPU v5p. Однако информация о появлении более производительной версии TPU v6p отсутствует.

По материалам:

servernews

Вам может понравиться

Пн	Вт	Ср	Чт	Пт	Сб	Вс
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Главные новости

Представлены новые кабели «Ultra96» с поддержкой разрешения до 16K, максимальной пропускной способностью 96 Гбит/с, превосходящей DisplayPort

Легендарная звуковая карта Sound Blaster ISA, выпущенная 30 лет назад, получила обновление драйвера

Asus выступила с официальными заявлениями относительно масштабной кибератаки, связанной с ботнетом AyySSHush

Google представила ИИ-ускорители TPU v6 (Trillium) для облачной платформы GCP

Главные новости

НОВОСТИ ПО ТЕМЕ:

Добавить комментарий Отменить ответ

Вам может понравиться