20 октября 2023 года исследователи из различных университетов и компании Eleuther AI, известной своими открытыми моделями, представили LLEMMA — открытую модель большого языкового обучения (LLM), специально разработанную для решения математических задач.
LLEMMA превосходит другие ведущие математические модели, включая Minerva от Google, предоставляя надежную платформу для дальнейших исследований. Несмотря на то что LLEMMA не является идеальным решателем математических задач, это важный шаг в разработке специализированных моделей и может стимулировать исследования ИИ в новых направлениях.
LLEMMA была создана на основе Code Llama, адаптации открытой модели Llama 2, настроенной на специфические наборы данных кода. Исследователи разработали две версии модели: одну с 7 миллиардами параметров и другую с 34 миллиардами. Эти модели были дополнительно настроены на Proof-Pile-2, набор данных, созданный исследователями, который состоит из научных статей, веб-данных с математическим содержанием и математического кода.
В своих экспериментах исследователи обнаружили, что LLEMMA показывает лучшую производительность по сравнению со всеми известными открытыми моделями на математических эталонах. LLEMMA также может использовать инструменты и доказывать формальные теоремы без дополнительной настройки, а также использовать вычислительные инструменты, такие как интерпретатор Python, для решения математических задач.
Исследователи выпустили все свои активы, включая модели с 7 и 34 миллиардами параметров, набор данных Proof-Pile-2 и код для воспроизведения своих экспериментов. Согласно исследователям, LLEMMA является первой открытой моделью, которая соответствует производительности закрытых моделей последнего поколения.
Они выразили надежду, что LLEMMA и Proof-Pile-2 станут полезной базой для будущих работ по пониманию обобщения языковых моделей, исследованию пределов доменно-специфичных языковых моделей и улучшению математических возможностей языковых моделей.
В целом, LLEMMA является частью более широкой инициативы по разработке LLM, специализирующихся в конкретной области, демонстрируя, что с улучшенными данными и большими наборами данных даже меньшие модели могут давать значительные результаты.
Источник securitylab