Машинный перевод на корпусах текстов

Впервые работы с параллельными корпусами начали вестись в конце 80-х – начале 90-х годов в рамках разработки систем, основанных на статистическом методе. Исследователями IBM Ф. Дженилеком и П. Брауном была создана первая система машинного перевода, извлекавшая знания о языке оригинала, языке перевода и правилах перевода, основываясь только на огромном массиве двуязычных корпусов текста.

Несмотря на то, что разработанная фирмой IBM система Candide демонстрировала результаты не хуже доминировавших на тот момент rule-based систем[1], данные системы столкнулись с серьезной критикой со стороны представителей традиционной лингвистики, поскольку данные системы опровергали основные подходы к машинному переводу, доминировавшие в данной области десятилетиями. В частности, качестве модели языка в этих системах применялись биграммы и триграммы, о непригодности которых для задач моделирования языка в своих работах говорил еще Ноам Хомский в 50-е годы, так как система во время перевода практически не использовала никакого структурного знания о языке.

Основным преимуществом статистического подхода была возможность снизить трудоемкость перевода, отказавшись от трудоемкого процесса вручную составлять переводные словари и грамматические правила. При обнаружении ошибки в алгоритме системы, для ее исправления просто происходил перезапуск процедуры извлечения данных из имеющихся обучающих данных, а не ручное переписывание этих ресурсов профессиональным лингвистом. Алгоритмы машинного обучения на параллельных корпусах нашли свое применение в первую очередь в базах перевода Translation Memory, для дальнейшего использования профессиональными переводчиками.

Параллельные корпуса стали основой всех современных систем статистического машинного перевода, генерирующих перевод на основе статистических методов, основные параметры которых являются производными от полученного с помощью анализа корпусов параллельного текста. Параллельные корпуса находят свое применение также в системах машинного перевода на базе нейронных сетей (в качестве обучающих данных для нейронных сетей), а также гибридного перевода.

Еще одним преимуществом систем машинного перевода, основанного на параллельных корпусах является их способность к самонастройке, так как данные системы обладают способностью запоминать терминологию и даже стиль текста из ранее переведенных сегментов.

Основные недостатки данной системы также достаточно очевидны. Далеко не все языки широко представлены в интернете, и это особенно касается параллельных корпусов текстов. На деле, в большинстве своем, существующий в сети корпус параллельных текстов собран для пар языков, одним из которых обязательно является английский. Несмотря на большое количество доступных данных, до сих пор очень тяжело собрать достаточное количество качественных корпусов параллельного текста, где исходный язык или язык перевода не является английским.


References

[1] 1. Brown, P. F., Cocke, J., Pietra, S. A. D., Pietra, V. J. D., Jelinek, F., Lafferty, J. D., Mercer, R. L., and Roossin, P. S. (1990). A statistical approach to machine translation. Comput. Linguist., 16(2):79–85.

2. Harris, Brian. Bi-text, a new concept in translation theory, 1987.

Machine Translation Omnibus

Машинный перевод на основе правил

Сколько всего видов машинного перевода?

От Декарта до Google Translate. Удивительная история машинного перевода