NVIDIA TensorRT-LLM анонсируется, как высокооптимизированная библиотека с открытым исходным кодом, которая обеспечивает самую быструю производительность вывода среди всех больших языковых моделей, использующих графические процессоры NVIDIA AI, такими как Hopper. NVIDIA работала со всеми LLM-специалистами в сообществе открытого исходного кода над оптимизацией своих графических процессоров, используя новейшие ядра искусственного интеллекта с передовыми технологиями, такими как SmoothQuant, FlashAttention и fMHA. Фонд с открытым исходным кодом включает в себя готовые к использованию версии LLM, оптимизированные для вывода SOTA, такие как GPT-3 (175B), Llama Falcom (180B) и Bloom, и это лишь некоторые из них.
TensorRT-LLM также оптимизирован для автоматического распараллеливания нескольких серверов NVLINK с соединением Infiniband. Раньше серверам приходилось вручную назначать большую языковую модель для нескольких серверов/графических процессоров, чего больше не должно быть в случае с Tensor-RT LLM.
Одно из самых больших обновлений, которые предлагает TensorRT-LLM, представляет собой новый планировщик, известный как пакетная обработка в полете, который позволяет входить и выходить из графического процессора независимо от других задач. Он поддерживает динамическую обработку нескольких небольших запросов при обработке больших ресурсоемких запросов на одном графическом процессоре. Все это делает графический процессор более эффективным и приводит к огромному увеличению пропускной способности таких графических процессоров, как H100.
Стек TensorRT-LLM также оптимизирован под движок Hopper Transformer и его вычислительные возможности FP8. Библиотека предлагает автоматическое преобразование FP8, DL-компилятор для слияния ядер и оптимизатор смешанной точности, а также поддержку собственного алгоритма NVIDIA Smoothquaint, обеспечивающего производительность 8-битного квантования без потери точности.
Что касается производительности, то NVIDIA сравнивает A100 с производительностью H100 и производительностью H100 с TensorRT-LLM. В GPT-J 6B (вывод) H100 уже обеспечил 4-кратный прирост, но с TensorRT-LLM компания удваивает производительность, что приводит к 8-кратному приросту в этом конкретном тесте. В Llama2 мы видим пятикратный прирост с TensorRT LLM и почти двукратный прирост по сравнению со стандартным H100 без TensorRT-LLM.
Что касается доступности, TensorRT-LLM сейчас доступен в раннем доступе, а полный релиз ожидается в октябре. TensorRT-LLM будет поддерживаться всеми процессорами NVIDIA Data Center и AI, которые выпускаются сегодня, такими как A100, H100, L4, L40, L40S, HGX, Grace Hopper и так далее.
Источник overclockers