Сегодня первое место в списке самых мощных на планете суперкомпьютеров занимает японский Fugaku, построенный на базе уникальных Arm-процессоров Fujitsu A64FX. Но времена его господства, похоже, продлятся недолго — в этом году будет запущен американский Frontier, который должен будет сместить с трона нынешнего короля супервычислений: сочетание AMD EPYC и ускорителей Instinct MI100 позволит ему преодолеть экзафлопсный барьер.
Как мы уже знаем, в основе ORNL Frontier лежит платформа HPE Cray EX. Каждый стандартный шкаф новой системы может содержать до 64 вычислительных модулей с двумя платами, несущими по два процессора AMD EPYC. Дополнят их ускорители AMD Instinct MI100, а в качестве интерконнекта будет использоваться Cray Slingshot. В отличие от Fugaku, Frontier относится к гетерогенным системам.
Суперкомпьютеры такой мощности позволят проводить исследования, недоступные учёным ранее. Одной из программ, разработанных в Ок-Ридже для Frontier, является CHOLLA. Речь идёт о комплекте специализированного программного обеспечения под общим названием «Computational Hydrodynamics on Parallel Architecture» (Вычислительная гидродинамика на параллельной архитектуре). Одна из ключевых областей применения такого ПО — астрофизика.
Использование мощностей Frontier позволит понять, как происходят изменения в галактиках, устроенных подобно нашему Млечному Пути, причём, увидеть эти изменения — образование, эволюцию и гибель отдельных звёзд в масштабах целой галактики — можно будет в достаточно высоком разрешении. Будет смоделировано поведение 10 тыс. кубических ячеек космического пространства (примерно 50 тыс. парсек) в течение 500 миллионов лет. Это первый проект вычислительной астрономии, имеющий столь серьёзные масштабы.
Интересно, что изначально программное обеспечение CHOLLA было рассчитано на платформу NVIDIA CUDA, но портирование на открытый аналог в лице AMD ROCm, оказалось очень простым. Как сообщает один из учёных Окриджской лаборатории, основную работу удалось проделать всего за несколько часов, а ведь речь о ПО, которое будет моделировать жизнь целой галактики. К тому же, производительность CHOLLA удалось без всяких оптимизаций поднять в 1,4 раза по сравнению с версией, выполняемой на NVIDIA Tesla V100. Оптимизированный вариант может оказаться ещё производительнее.