Google объявила о доступности своих новейших ИИ-ускорителей TPU версии 6 под кодовым названием Trillium для клиентов в рамках облачной платформы GCP. Сообщается, что на сегодняшний день эта новинка является наиболее эффективным решением Google с точки зрения соотношения цены и производительности.
Презентация Trillium состоялась в мае этого года. Устройство оснащено 32 ГБ памяти HBM с пропускной способностью 1,6 ТБ/с, а межчиповый интерфейс ICI обеспечивает передачу данных со скоростью до 3,58 ТБ/с (по четыре порта на чип). Используются блоки SparseCore третьего поколения для ускорения работы с моделями искусственного интеллекта, применяемыми в системах ранжирования и рекомендаций.
Google отмечает ряд значительных преимуществ Trillium (TPU v6e) по сравнению с ускорителями TPU v5e:
- более чем четырёхкратное увеличение производительности при обучении моделей ИИ;
- рост производительности инференса до трёх раз;
- улучшение энергоэффективности на 67 %;
- повышение пиковой вычислительной мощности на чип в 4,7 раза;
- двукратное увеличение объёма HBM;
- удвоение пропускной способности межчипового интерконнекта ICI.
Один узел состоит из восьми ускорителей TPU v6e (в двух доменах NUMA), двух неназванных процессоров (всего 180 vCPU), 1,44 ТБ оперативной памяти и четырёх 200G-адаптеров (по два на процессор) для связи с внешним миром. Согласно информации, через ICI можно напрямую объединить до 256 устройств Trillium, а общая скорость сетевого подключения такого кластера (Pod) составляет 25,6 Тбит/с. Благодаря платформе Google Jupiter с оптической коммутацией десятки тысяч ускорителей могут быть объединены в крупный ИИ-кластер с общей пропускной способностью 13 Пбит/с. Trillium доступны в составе интегрированной ИИ-платформы AI Hypercomputer.
Утверждается, что использование программного обеспечения Multislice Trillium обеспечивает почти линейное масштабирование производительности для задач, связанных с обучением искусственного интеллекта. Кластеры на базе Trillium могут достигать производительности 91 эксафлопс в операциях ИИ, что в четыре раза превышает показатели самых крупных развёртываний систем на основе TPU v5p. Производительность одного чипа TPU v6e в формате BF16 составляет 918 терафлопс, а в формате INT8 — 1836 триллионов операций в секунду.
В тестах производительности Trillium продемонстрировал более чем четырёхкратное увеличение скорости обучения моделей Gemma 2-27b, MaxText Default-32b и Llama2-70b по сравнению с TPU v5e, а также более чем трёхкратный прирост для LLama2-7b и Gemma2-9b. Кроме того, Trillium обеспечивает трёхкратное увеличение производительности вывода для Stable Diffusion XL по сравнению с TPU v5e. Что касается соотношения цены и производительности, TPU v6e показывает 1,8-кратный рост по сравнению с TPU v5e и примерно двукратный рост по сравнению с TPU v5p. Однако информация о появлении более производительной версии TPU v6p отсутствует.
По материалам:
servernews