Сколько всего видов машинного перевода?
В прошлом посте мы говорили об истории машинного перевода. Прежде чем преступить к более подробному обзору эволюции машинного перевода, мне показалось необходимым быстро рассмотреть его общую классификацию.
В настоящее время существует большое количество систем машинного перевода, которые можно классифицировать по различным параметрам. Начнем с самого просто типа классификации – по лингвистическому принципу, в котором выделяются следующие подвиды систем машинного перевода:
По количеству привлекаемых языковых пар:
– двуязычные (перевод осуществляется только для данной пары языков);
– многоязычные (которые в свою очередь делятся на бинарные (анализ входного языка ведется в категориях выходного) и универсальные (устройство
анализа не зависит от выходного языка).
По тематической ориентации:
– монотематические (настроенные на одну предметную область);
– политематические (охватывающие несколько предметных областей).
По различным технологическим характеристикам:
– исследовательские прототипы (сформулирован основной принцип функционирования программы, независящий от получаемого результата);
– экспериментальные системы (прошли проверку на достаточном объеме экспериментальных данных);
– промышленные системы (прошли тестовые испытания и проверку на реальных текстах, помехоустойчивы, обладают достаточным уровнем качества и скорости выполнения);
– коммерческие системы (промышленные системы, представляющие собой конечный продукт, предназначенный для коммерческого распространения).
По степени участия человека в процессе машинного перевода:
– полностью автоматизированный машинный перевод (fully-automated machine translation - FAMT);
– машинный перевод, осуществляемый при участии человека (human-assisted machine translation - НАМТ);
– перевод, осуществляемый человеком с помощью компьютера (machine-assisted human translation - МАНТ).
Следует также отметить, что исследователями было разработано множество различных теорий, ставящих своей целью формализацию естественного языка, но, как оказывается на практике, при их реализации в виде действующих систем машинного перевода, продолжает возникать достаточно большое количество различных трудностей.
За время своего существования системы машинного перевода прошли впечатляющую эволюцию от простейших моделей пословного перевода до сложнейших систем, оперирующих на уровне предложения и учитывающих контекст.
В настоящее время можно выделить достаточно много различных подходов к системам машинного перевода, но мы рассмотрим шесть основных, наиболее часто встречающихся в русской и англоязычной литературе, посвященной машинному переводу, а именно:
1. Машинный перевод на основе правил (Rule-based machine translation – RBMT) c 1950-х годов XX века.
2. Машинный перевод на корпусах текстов (Corpus-based machine translation – CBMT) с 1980-х годов XX века.
3. Машинный перевод на основе примеров (Example-based machine translation – EBMT) с 1984 года XX века.
4. Статистический машинный перевод (Statistical-based machine translation – SBMT) с 1990-х годов XX века.
5. Машинный перевод на основе нейронных сетей (Neural-based machine translation – NBMT) с 2016 года.
6. Гибридный машинный перевод (Hybrid machine translation – HMT) интеграция нескольких разных подходов машинного перевода.