Перевод потерянных языков с помощью машинного обучения

Недавние исследования показывают, что большинство языков, которые когда-либо существовали, больше не используются. Десятки мертвых языков также считаются утерянными или “нерасшифрованными” — мы не знаем достаточно об их грамматике, лексике или синтаксисе, чтобы действительно понимать тексты на них.

Утраченные языки — это нечто большее, чем просто академическое любопытство; без них мы упускаем целый массив знаний о людях, которые говорили на них. К сожалению, большинство из них имеют настолько минимальные записи, что ученые не могут расшифровать их с помощью алгоритмов машинного перевода, например, известный Google Translate. Некоторые из них не имеют хорошо изученного “относительного” языка для сравнения и часто не имеют традиционных разделителей, как пробелы и знаки препинания. ((Чтобы проиллюстрировать это, представьте себечтовыпытаетесьрасшифроватьиностранныйязыкнаписанныйтакимобразом.)

Однако исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) недавно сделали крупное открытие в этой области: новая система, которая, как было показано, способна автоматически расшифровывать утраченный язык, не нуждаясь в передовых знаниях о его связи с другими языками. Они также показали, что их система способна сама определять отношения между языками, и они использовали ее для того, чтобы подтвердить недавние исследования, предполагающие, что иберийский язык на самом деле не связан с баскским.

Конечная цель команды состоит в том, чтобы система могла расшифровать потерянные языки, которые ускользали от лингвистов в течение десятилетий, используя всего несколько тысяч слов.

Возглавляемая профессором Массачусетского технологического института, Реджиной Барзилай, эта система постановлена на нескольких принципах, основанных на идеях исторической лингвистики, например, тот факт, что языки обычно развиваются только определенным предсказуемым образом. Например, в то время как некоторый язык может редко произносить определенный звук целиком, звуковые замены все равно могут происходить. Слово с буквой “з” в изначальном языке может измениться на букву “с” в языке потомков, но изменения с буквой “к” менее вероятны из-за значительного отличия от первоначального варианта произношения.
Проект основан на статье, написанной Барзилай и Ло в прошлом году, которая расшифровала мертвые языки угаритского и линейного письма B , в то время как последний прежде не мог быть расшифрован в течение десятилетий. Однако ключевым отличием от этого проекта было то, что группа знала, что эти языки были связаны с ранними формами иврита и греческого, соответственно.

В новой системе связь между языками определяется алгоритмом — одной из самых больших проблем в расшифровке. В случае линейного письма B потребовалось несколько десятилетий, чтобы найти достоверно известного потомка. Что касается иберийского языка, то ученые до сих пор не могут прийти к единому мнению относительно родственного языка: одни выступают за баскский, другие опровергают эту гипотезу и утверждают, что иберийский язык не относится ни к одному из известных.

Предложенный алгоритм позволяет определить степень близости между двумя языками; фактически, при тестировании на известных языках он может даже точно идентифицировать языковые семьи. Команда применила свой алгоритм к иберийским, баскским языкам, а также к романским, германским, тюркским и уральским семьям языков. Хотя баскский и латынь были ближе к иберийскому, чем другие языки, они все же были оказались не столь схожими, чтобы их можно было считать родственными.
Исследовательская команда надеется расширить свою работу за пределы связывания текстов со словами известных языков — подход, называемый “расшифровкой на основе родства”. Эта парадигма предполагает, что подобный язык существует, но пример иберийского языка показывает заставляет думать наоборот. Новый подход будет включать определение семантического значения слов, даже если прочесть данные слова они не способны.

Источник: https://news.mit.edu/2020/translating-lost-languages-using-machine-learning-1021