Lost in translation
May 13, 2021

Машинный перевод на основе правил

Преимущества появившихся в послевоенный период первых компьютеров были быстро оценены исследователями, разработка машинного перевода была ими поставлена как одна из своих основных прикладных задач. Подобный интерес был вызван, во-первых, все более возраставшим объемом различной информации, которую нужно было оперативно переводить, во-вторых, начинавшими тогда появляться серьезными теоретическими исследованиями в области лингвистики.

Однако первопроходцы в области машинного перевода быстро столкнулись с сильно ограниченными возможностями первых компьютеров. В итоге ими был разработан достаточно прагматичный подход к машинному переводу, основанный на двуязычных словарях и грамматических правилах. Данные системы могли включать тысячи в высшей степени продуманных и сложных грамматических правил, но которые было достаточно сложно обслуживать. Системы, основанные на правилах, доминировали в машинном переводе десятилетия, сейчас в чистом виде уже практически нигде не представлены.

Системы на основе правил часто подразделяют еще на три дополнительные подгруппы:

1. Системы пословного перевода (Direct translation systems).

2. Трансферные системы (Transfer systems).

3. Интерлингвистические системы (Interlingua).

Системы пословного перевода пытались воспроизвести перевод напрямую с переводимого языка на язык перевода без промежуточного представления. Эти системы обычно основывались на словарной базе: словарь производит пословный перевод, а потом более-менее предусмотренные правила пытаются реорганизовать переведенные слова так, чтобы порядок слов был как можно ближе к языку перевода. У этой системы нет никакого синтаксического анализа, реорганизующие правила применяются только на поверхностном (синтаксическом) уровне.[1]

К преимуществам систем пословного перевода можно отнести их простоту, высокую скорость работы и нересурсоемкость. Главным недостатком, конечно, является низкое качество перевода. Коммерческое решение данной стратегии на рынке уже давно не представлено.

Трансферные системы были устроены уже гораздо сложнее, поскольку в некоторой степени задействовали синтаксический анализ. В процессе перевода система в состоянии, проанализировав структуру переводимого языка с помощью компонентного синтаксического анализа, произвести перевод, избежав ограниченности прямого пословного перевода. Такой результат перевода оказывался обычно более идиоматичным и близким к исходному языку.

Процесс перевод в системах трансферного типа обычно проходил пять основных этапов: анализ морфологии, лексическая категоризация, лексический трансфер, структурный трансфер морфологическая генерация.

На этапе морфологического анализа определялась части речи, морфологические признаки и леммы слов оригинального текста. В процессе лексической категоризации выявлялся контекст с целью уточнения смысла многозначных слов. На этапе лексического трансфера производился перевод лемм содержащихся в тексте слов. На этапе структурного трансфера происходило согласование переведенных слов между собой. В процессе морфологической генерации происходило создание словоформ переводного текста из результатов структурного трансфера.

Этап трансфера промежуточного представления изначального языка в промежуточное представление переводящего происходил на разных уровнях лингвистического анализа. Первый из них – поверхностный (или синтаксический). На нем происходил трансфер синтаксических структур с одного языка на другой. Он хорошо подходил для родственных языков. Второй – глубинный (или семантический). На этом уровне выводилось семантическое представление исходного текста, зависящее от языка оригинала. Данный уровень был необходим при переводе генетически отдаленных друг от друга языков.

Преимуществом трансферных систем считается достаточно хорошее качество получаемых переводов при условии наличия подходящей словарной базы и правил. Возможность выбора тематики также позволяла значительно повысить качество результата.

К недостаткам подобных систем можно отнести достаточно большую стоимость, низкую скорость работы, сложность технической разработки, требующей участия большого количества различных специалистов, требовательность к техническим ресурсам.

Интерлингвистические системы предполагали анализ входного языка в терминах метаязыка и синтез метаструктуры текста на языке перевода. В качестве метаязыка обычно выступал английский. Что, как замечает в своей работе Т. Пуабу, достаточно спорно, поскольку представление тем самым получается ни формальным, ни независимым.[1]

Данный подход подразумевал, что межъязыковое представление таким образом становится способом описать анализ первоначального текста. Функцией данного представления было сохранить морфологические, лексические, синтаксические и семантические характеристики оригинального текста.

Треугольник Вокуа

В теории интерлингвистическая система подразумевала наличие следующих компонентов: словарная база для анализа и генерирования текстов, грамматические правила, база знаний, содержащая в себе понятия, которые будут использоваться при получении межъязыкового представления, а также правила проецирования понятий для разных языков и их представления.

Поскольку до сих пор ни одна полностью интерлингвистическая система так и не была воплощена на практике, можно говорить только о предположительных преимуществах данных систем, к которым можно отнести: возможность получения высококачественного перевода вне зависимости от исходного языка, возможность извлечь смысл текста, низкие издержки добавления каждого нового направления перевода.

Главным недостатком интерлингвистических систем оказалась непреодолимая сложность их разработки.

Все три подхода могут рассматриваться как некая пирамида, основание которой начинается со стратегии, которая идет очень близко к поверхности текста (пословный перевод) и заканчивается вершиной (interlingua) – системой, которая пытается предоставить полностью синтетическое, абстрактное представление вне зависимости от любого языка. Данная концепция впервые была описана и систематизирована французским математиком и исследователем машинного перевода Бернардом Вокуа[2] и носит его имя – «треугольник Вокуа».


References

[1] Poibeau, Thierry. Machine Translation. The MIT Press, 2017

[2] Vauquois B. “Automatic Translation—A Survey of Different Approaches» In Readings in Machine Translation (S. Nirenburg, H. L. Somers, Y. Wilks, eds.), Cambridge, MA: MIT Press (2003)

Machine Translation Omnibus

От Декарта до Google Translate. Удивительная история машинного перевода

Сколько всего видов машинного перевода?