Искусственный интеллект обучат распознавать тексты на древних языках

Библиотека аббатства Санкт-Галла в Швейцарии хранит около 160 000 томов литературных и исторических рукописей, относящихся к восьмому веку, - все они написаны от руки на пергаменте на языках, на которых редко говорят в наше время.

Чтобы сохранить эти исторические письменные данные о человечестве, такие тексты, насчитывающие миллионы, надежно хранятся в библиотеках и монастырях по всему миру. Значительная часть этих коллекций доступна широкой публике через цифровые изображения, но эксперты говорят, что существует огромное количество материала, который никогда не читался, - сокровищница понимания мировой истории, спрятанная внутри.

Теперь исследователи из Университета Нотр-Дам разрабатывают искусственную нейронную сеть для чтения сложного древнего почерка, основанного на человеческом восприятии, чтобы улучшить возможности транскрипции глубокого обучения.

«Мы имеем дело с историческими документами, написанными в стилях, которые давно вышли из моды, уходящие в прошлое, и на таких языках, как латынь, которые сейчас редко используются», - сказал Уолтер Шайрер, доцент кафедры Денниса О.

Даути в Департаменте компьютерных наук и инженерии Нотр-Дама. «Вы можете получить красивые фотографии этих материалов, но мы решили автоматизировать транскрипцию таким образом, чтобы имитировать восприятие страницы глазами опытного читателя и обеспечить быстрое чтение текста с возможностью поиска»

В исследовании, опубликованном в журнале Transaction on Pattern Analysis and Machine Intelligence Института инженеров по электротехнике и электронике, Шайрер описывает, как его команда объединила традиционные методы машинного обучения с визуальной психофизикой - методом измерения связи между физическими стимулами и психическими явлениями, такими как количество времени, которое требуется опытному читателю, чтобы распознать определенный символ, оценить качество почерка или определить использование определенных сокращений.

Команда Шайрера изучила оцифрованные латинские рукописи, написанные писцами монастыря Святого Галла в девятом веке. Читатели вводили свои ручные расшифровки в специально разработанный программный интерфейс. Затем команда измерила время реакции во время транскрипции,

чтобы понять, какие слова, символы и отрывки были легкими или трудными. Шайрер объяснил, что включение такого рода данных создало сеть, более соответствующую поведению человека, уменьшило количество ошибок и обеспечило более точное и реалистичное чтение текста.

«Эта стратегия обычно не используется в машинном обучении», - сказал Шайрер. «Мы маркируем данные с помощью этих психофизических измерений, которые поступают непосредственно из психологических исследований восприятия - путем проведения поведенческих измерений. Затем мы информируем сеть об общих трудностях в восприятии этих персонажей и можем вносить исправления на основе этих измерений».

Использование глубокого обучения для расшифровки древних текстов представляет большой интерес для ученых-гуманитариев.

«Есть разница между простым фотографированием и чтением, а также программой, обеспечивающей чтение с возможностью поиска», - говорит Хильдегунд Мюллер, доцент кафедры классической литературы Нотр-Дама. «Если вы рассмотрите тексты, использованные в этом исследовании - рукописи IX века - это ранняя стадия средневековья.

До печатного станка прошло много времени. Это время, когда было создано огромное количество рукописей, информации, скрытой в этих рукописях - неопознанные тексты, которые никто раньше не видел».

Шайрер сказал, что проблемы остаются. Его команда работает над повышением точности транскрипции, особенно в случае поврежденных или неполных документов, а также над тем, как учесть иллюстрации или другие аспекты страницы, которые могут сбивать с толку сеть.

Однако команде удалось настроить программу для расшифровки эфиопских текстов, адаптировав ее к языку с совершенно другим набором символов - первый шаг к разработке программы, способной расшифровывать и переводить информацию для пользователей.

«В литературной сфере это могло бы быть действительно полезно. Каждое хорошее литературное произведение окружено огромным количеством исторических документов, но где оно действительно будет полезно, так это в исторических архивных исследованиях», - сказал Мюллер. «Существует большая потребность в развитии цифровых гуманитарных наук. Когда вы говорите о Средневековье и начале Нового времени, если вы хотите разобраться в деталях и последствиях исторических событий, вам необходимо просмотреть письменный материал, а эти тексты - единственное, что у нас есть. Проблема может быть еще более серьезной за пределами западного мира. Подумайте о языках, которые исчезают в культурах, находящихся под угрозой. Мы должны в первую очередь сохранить эти произведения, сделать их доступными и в какой-то момент включить переводы, чтобы сделать их частью культурных процессов, которые все еще продолжаются, - а мы бежим в ногу со временем».

По материалам: Techxplore




Comments

    No results found.