В библиотеке аббатства Санкт-Галл в Швейцарии хранится около 160 000 томов литературных и исторических рукописей, датируемых восьмым веком — все они написаны от руки на пергаменте на языках, которые редко услышишь в наше время.
Подобные исторические реликты надежно хранятся в библиотеках и монастырях по всему миру. Значительная часть этих коллекций доступна широкой публике благодаря оцифрованным изображениям, но эксперты утверждают, что существует огромное количество материалов, которые никогда не были прочитаны — сокровищница, скрывающая в себе понимание мировой истории.
Исследователи из Университета Нотр-Дам разрабатывают искусственную нейронную сеть для чтения сложного древнего почерка. «Мы имеем дело с историческими документами, написанными в стилях, которые давно вышли из моды, и на таких языках, как латынь, которые теперь редко используются, — говорит Уолтер Шейрер, доцент кафедры компьютерных наук и инженерии Университета Нотр-Дама. — Вы можете получить прекрасные фотографии этих материалов, но мы поставили перед собой задачу автоматизировать расшифровку таким образом, чтобы она имитировала восприятие страницы глазами читателя-эксперта и обеспечивала быстрое чтение текста с возможностью поиска».
В исследовании, опубликованном в журнале Transactions on Pattern Analysis and Machine Intelligence, Шейрер описывает, как его команда объединила традиционные методы машинного обучения с психофизикой. Команда изучала оцифрованные латинские рукописи, которые были написаны писцами в монастыре Святого Галла в девятом веке. Исследователи вводили свои ручные расшифровки в специально разработанный программный интерфейс. Затем команда измерила время реакции во время перевода, чтобы понять, насколько слова, символы и отрывки были легкими или трудными. Шейрер объяснил, что включение таких данных позволило создать нейронную сеть, более соответствующую поведению человека, сократить количество ошибок и обеспечить более точное и реалистичное прочтение текста.
«Это стратегия обычно не используется в машинном обучении, — сказал Шейрер. -Мы маркируем данные с помощью этих психофизических измерений, которые взяты непосредственно из психологических исследований восприятия путем проведения поведенческих измерений. Затем мы сообщаем сети об общих трудностях в восприятии этих символов и можем вносить коррективы на основе этих измерений».
Использование глубокого обучения для расшифровки древних текстов представляет большой интерес для ученых-гуманитариев.
«Есть разница между тем, чтобы просто сделать фотографии и прочитать их, и тем, чтобы иметь программу, обеспечивающую чтение с возможностью поиска, — говорит Хильдегунд Мюллер, доцент кафедры классики в Нотр-Даме. — Если рассматривать тексты, использованные в данном исследовании, рукописи девятого века — это ранний этап Средневековья. Это задолго до появления печатного станка. Это время, когда было создано огромное количество манускриптов. В этих рукописях скрыта самая разная информация — неопознанные тексты, которые никто раньше не видел».
Шейрер сказал, что проблемы остаются. Его команда работает над повышением точности расшифровки, особенно в случае поврежденных документов, а также над тем, как учитывать иллюстрации или другие аспекты страницы, которые могут запутать нейронную сеть. Однако команда смогла настроить программу для расшифровки эфиопских текстов, адаптировав ее к языку с совершенно другим наборам символов.
«В области литературы это может быть очень полезно. Каждое хорошее литературное произведение окружено огромным количеством исторических документов, но где это действительно будет полезно, так это в исторических архивных исследованиях, — сказал Мюллер. — Существует большая потребность в развитии цифровизации гуманитарных наук. Когда вы говорите о Средневековье и хотите понять детали и последствия исторических событий, вы должны просмотреть письменные материалы, а эти тексты — единственное, что у нас есть. Проблема может быть еще более серьезной за пределами западного мира. Подумайте о языках и культурах, находящихся под угрозой исчезновения».