NASA в партнёрстве с IBM создала INDUS — эффективный инструмент на базе больших языковых моделей (LLM), предназначенный для использования в научной сфере. INDUS состоит из двух типов моделей: кодировщиков и преобразователей предложений.
Модели обучались на массиве данных, включающем 60 миллиардов токенов. Эти данные охватывают такие области знаний, как астрофизика, планетология, науки о Земле, биология и физика. Применение специального токенизатора помогает моделям точнее идентифицировать научные понятия, например «биомаркеры» и «фосфорилированные».
INDUS превзошёл общедоступные LLMs в биомедицинских задачах, вопросах и ответах и распознавании сущностей в области наук о Земле. Эти модели обеспечивают высокую скорость работы и точность, что особенно важно для задач с низкой задержкой. Они интегрированы в системы NASA для улучшения доступа к научным данным и повышения производительности кураторов.
Кроме того, INDUS используется для категоризации публикаций и поиска данных GES-DISC, улучшая пользовательский опыт и эффективность научных исследований. Эти модели доступны в открытом доступе на платформе Hugging Face, обеспечивая прозрачность и доступность искусственного интеллекта.
По материалам:
ferra