От Декарта до Google Translate. Удивительная история машинного перевода
Любой из нас практически каждый день использует машинный перевод, но мало кто когда-либо задавался вопросом о том, какой действительно большой и трудный путь ему понадобилось пройти, чтобы попасть в мобильное приложение вашего смартфона.
Есть идея!
Идея использования механических словарей для преодоления границ языкового барьера впервые была высказана в XVII веке. Еще Декарт и Лейбниц высказывали идею создания словарей, основанных на числовых кодах. Ими же впервые была выдвинута идея универсального философско-математического языка-посредника (interlingua).
Данная идея чрезвычайно воодушевила пионеров машинного перевода, поскольку в теории предложение Декарта и Лейбница, призванное заменить многозначные слова однозначными символами, с соответствующим определенным числовым кодом, тем самым делая перевод независимыми от любого рассматриваемого языка, выглядела очень перспективной. В погоне за этой мечтой в Европе были предприняты несколько попыток создания «числового словаря», датированные концом XVII века.
Из первых, кто предпринял попытку подобного словаря — Кейв Бек в 1657, Йохан Бехер в 1661, Атанасис Кирхер в 1663, Джон Уилкинс в 1668. Хотя основной целью учения Лейбница и Декарта было решить философские, логические, моральные проблемы, и все же оно имело огромное влияние на развитие языкознания и лингвоконструирования в последующие столетия.
«Механический мозг» Арцруни, система машинного перевода Троянского
В 30-е годы XX века идеи исследователей механических систем также былисосредоточены на создании мультиязычных словарей и полуавтоматического перевода. Первой удачной попыткой стала машина Георгия Арцуни — французского инженера армянского происхождения, обучавшегося в России, а затем эмигрировавшего во Францию. В июне 1933 года он подал заявление на патент своего изобретения. «Механический мозг», придуманный Арцруни, получил Гран-при в 1937 году на Международной выставке в Париже.
Система Арцруни изначально не предназначалась для перевода, хотя ее создатель с самого начала осознавал перспективность этого направления, и заверял, что она могла использоваться в криптографии для шифрования и расшифровки различных сообщений, в том числе могла использоваться и для перевода, хранить различную лингвистическую информацию (например, слова) на разных языках.
В России идея создания машины для перевода первому пришла в голову П. П. Смирнову-Троянскому, который независимо от Арцруни также в 1933 году подал прошение на патент своего изобретения. П. П. Троянский изобрел устройство, которое было очень похоже на чудо-машину Арцруни: механизм задавал определенное слово машине, которая была в состоянии производить перевод на нескольких доступных языках, однако, в отличие от изобретения Арцруни, машина Троянского была изначально предназначена только для перевода. Что делало машину Троянского примечательной, так это то, что она уходила за рамки простого перекодирования одного языка в другой.
Арцруни не был лингвистом, и не смог продвинуться дальше создания словаря, он не знал, как решать вопросы синонимии и омонимии, как перестроить входные данные, чтобы они соответствовали синтаксу языка перевода. Троянский, наоборот, учитывал грамматический анализ слов. Он придумал систему из 200 основ, способных представлять функцию слова в предложении, для того чтобы произвести правильный перевод. Человек затем должен был определить, должно ли слово переводиться как подлежащее или дополнение, глагол должен быть в настоящем или прошедшем времени и т. д. Потом машина запоминала правильное слово для перевода. Изобретение заключалось в некой рабочей среде переводчика, нежели в простом устройстве. Машина Троянского была сконструирована таким образом, что переводчик просто мог взглянуть на составные детали перевода на уровне слов с помощью данного механизма.
Данное открытие позволило Й. Бар-Хиллелу назвать Троянского «Бэббиджем машинного перевода» («One may express the hope that more should become known of this Babbage of MT»). Так как подобно Ч. Бэббиджу, придумавшему в XIX веке прототип первой вычислительной машины, Троянский первым описал как может быть сконструирована система машинного перевода.
В поисках кода
Но все же настоящим отцом машинного перевода, — или более обще обработки естественного языка, — стал Уоррен Уивер, который вместе с Клодом Шенноном был автором математической модели коммуникации в 1949 году. Эта модель предполагала, что сообщение, первоначально зашифрованное каким-либо источником (как человеком, так и машиной), отправляется по какому-либо каналу связи, а затем декодируется его получателем (например, сообщение могло быть передано по радио кодом Морзе, а затем расшифровано получившим на другом конце канале связи специалистом-связистом). Данная модель изначально предназначалась для криптографии, но в своем широком понимании была применима для любых типов коммуникации, в том числе и перевода.
В 1949 году У. Уивер публикует свой меморандум, который лаконично называет «Translation». Меморандум, начинающийся с военной байки, как признается в своем вступлении сам автор, был неполным и несколько наивным, но был очень интересен тем, что в нем приводился пример дешифрования и отмечалось такое важное качество языковых сообщений, а именно инвариантность языковых характеристик на разных уровнях, позволяющих найти хотя бы самые общие свойства кода. Именно данный меморандум принято считать отправной точкой исследований машинного перевода. Публикация имела очень большой резонанс не только потому, что прозвучавшие в ней мысли были в высшей степени инновационными для своего времени, но и потому, что Уивер был связан с финансирующими организациями, которые вложили деньги в начало исследований. Влияние Уивера было даже не столько научным, сколь оно было политическим.
Джорджтаунский эксперимент. Мы придумали машину, которая будет переводить сама!
В 1954 году в США фирмой IBM в сотрудничестве с Джорджтаунским университетом была успешно осуществлена первая демонстрация применения машинного перевода. Для данной демонстрации был избран используемый ВВС США компьютер IBM-701, занимавший площадь, сравнимую по размеру с теннисным кортом и осуществляющий 2000 операций в секунду.
Продемонстрированная тогда система была очень наивной и примитивной: в распоряжении устройства имелось около 250 слов с их переводом и шесть элементарных синтаксических операций. Предложения для перевода были взяты из учебной литературы, также были добавлены несколько предложений на общую тематику. Несмотря на это, данная демонстрация имела широкий мировой резонанс. Свои разработки начали вестись в Германии, Англии, Франции, Италии, Японии, Китае, а также Болгарии.
Джорджтаунская демонстрация IBM произвела сильное впечатление и в СССР, где незамедлительно решили начать свои исследования. Несколько научных групп в основном в Москве, но также и Ленинграде, спешно начали работу над своей системой машинного перевода. Первая в Москве конференция по вопросам машинного перевода проходит в 1958 году, в ней принимают участие 340 специалистов из 79 учреждений. Подходы к проблемам машинного перевода были такими же разнообразными, как и в США, но все же в основном были сосредоточены на теоретическом аспекте, из-за недостаточной на тот момент технической оснащенности программным обеспечением. Однако, некоторым группам лингвистов, которым все же посчастливилось получить доступ к компьютерам развили эмпирический и теоретические подходы, основанные на двуязычных словарях.
А что в Советском Союзе?
В то же время, те теоретические учения, разработанные советскими учеными, определили последующие стратегии для автоматического
синтаксического и семантического анализа. Лингвистические теории, датированные этим периодом, до сих пор пользуются большим интересом у исследователей.
В начале 60-х И. А. Мельчук создает свою знаменитую теорию лингвистических моделей «Смысл-Текст», рассматривающую язык как многоуровневую модель преобразований смысла в текст и обратно на базе использования синтаксиса зависимостей и толково-комбинаторного словаря. Работы И. А Мельчука и Ю. Д. Апресяна, в частности, были хорошо известны даже за пределами СССР, особенно после того, как И. А. Мельчук поселился в Канаде в конце 70-х годов.
Всё пропало. Доклад ALPAC
60-е годы положили конец первоначальному этапу развития машинного перевода. Отправной точкой стал вышедший в 1966 году в США доклад Специального комитета по прикладной лингвистике (ALPAC), в котором говорилось о принципиальной невозможности создания систем, производящих качественный машинный перевод в ближайшем будущем и советовалось остановиться на разработке электронных словарей. Джорджтаунская система также упоминалась в докладе — спустя восемь лет со своего изобретения система так и не научилась производить адекватный перевод.
Профессиональному переводчику постоянно приходилось вмешиваться в процесс и исправлять ошибки перевода. Главными последствиями данной публикации стали значительное сокращение финансирования и общее снижение интереса к машинному переводу, исследователи из США практически на десятилетие сворачивают свои исследования.
Одной из основных причин плохих результатов в области развития машинного перевода в те годы можно назвать, — с одной стороны, — ограниченные на тот момент возможности программного обеспечения, — с другой, — уровень развития лингвистики на тот момент. Традиционной лингвистике оказалось не под силу предоставить исходные данные не только касательно семантики, но и касательно синтаксиса. Более фундаментальные работы по автоматическому синтаксическому анализу предложений только начали появляться. Ноам Хомский независимо начал развивать свою работу о синтаксисе, но она не имела заметного влияния на машинный перевод до 1960-го. Тем не менее, необходимость в формальном анализе исходного языка постепенно становилась мейнстримом.
Как отмечает в своей работе Дж. Хатчинс, после доклада ALPAC продолжали свои исследования по машинному переводу в основном в Канаде и многочисленных европейских странах, вынужденных справляться со своим мультиязычным ландшафтом. Так, в Монреале, в 1965 году был открыт свой исследовательский центр машинного перевода, тогда как почти все подобные центры в США на тот момент преостановили свою работу. В СССР, Франции, Германии также продолжали работать над созданием своих систем машинного перевода.
В 1968 году создается система SYSTRAN, ставшая первым в истории коммерческим машинным переводчиком, которая сразу же была взята на вооружение службами ВВС США, а в 1976 году начинает использоваться и комиссией Европейского сообщества для перевода быстро растущего объема документации. В том же году другая успешная система машинного перевода появилась в Канаде — система Meteo, разработанная в университете Монреаля, использовавшаяся для перевода ежедневных прогнозов погоды.
Главные инновационные разработки этого периода в основном фокусировались на интерлингвистических подходах. В конце 60-х — начале 70-х исследовательской группой Бернарда Вокуа в университете Гренобля (под влиянием работ О. С. Кулагиной и И. А. Мельчука) была разработана система для перевода физико-математических работ с русского языка на французский.
Новый виток
В 70-е годы начался новый этап в истории машинного перевода. Очередной подъем в основном был вызван серьезным прорывом в области компьютерного моделирования. Данная область знаний, получившая со временем название
искусственный интеллект, ставила перед собой задачу разработку систем машинного перевода как одну из своих прикладных задач. Вместе с этим изменились и приоритеты: теперь исследователи ставили перед собой целью создание рассчитанных на участие человека в процессе перевода систем машинного перевода.
Современная эра машинного перевода начинается с 80-90-хх годов. Развитие техники, значительное увеличение мощностей персональных компьютеров, развитие глобальной сети Интернет обеспечили новый импульс изучению проблем машинного перевода. Развитие компьютерных технологий приводит к образованию сразу нескольких новых коммерческих систем машинного перевода, в частности, помимо мультиязычного SYSTRAN, входят в эксплуатацию такие системы машинного перевода как Logos (для немецкого и английского, английского и французского пар языков), METAL (немецкий-английский), свои решения машинного перевода выпускают в Японии.
В большинстве своем эти системы так или иначе продолжали традиции основанных на правилах систем, с присущими данным системам недостатками: неспособностью корректно работать с многозначными словами, омонимами и фразеологическими оборотами. Исследователи по-прежнему предпочитали заниматься разработкой систем, основанных на правилах и использующих семантический, синтаксический, морфологический анализ.
Но действительно поворотным моментом в истории машинного перевода становится начало 90-х годов. Во-первых, группой исследователей IBM публикуются результаты экспериментов системы Candide, использовавшей чисто статистические методы перевода. Во-вторых, в Японии начинают использоваться системы машинного на базе примеров. Отличительной чертой обоих подходов было отсутствие синтаксических и семантических правил для анализа текста, или для выбора лексических эквивалентов. В-третьих, на рынке появляются первые системы Translation Memory (Trados, Transit, Déjà Vu, WordFast и т. п.), предоставлявших переводчикам более простой доступ к ранее переведенным текстам.
Эпоха Google Translate
Те же тенденции сохраняются во второй половине 90-хх. Все более растущий спрос на программы машинного перевода для персональных компьютеров (преимущественно не для профессионального использования) вызвал появление новых систем машинного перевода и улучшенных версий уже существовавших решений.
Но даже более заметный рост наблюдался среди систем автоматического перевода непосредственно в Интернете (перевод электронной почты, веб-страниц и т. д.), где в первую очередь был необходим быстрый перевод информации, чем его качество. Появление первых онлайновых сервисов машинного перевода — Babelfish в 2003 году, Google Translate в 2007, в России Яндекс. Перевода в 2011 году, сделали ранее недоступные и дорогостоящие программы машинного перевода продуктом масс—маркета.
Начиная с этого момента статистические модели стали доминирующим направлением исследований машинного перевода.
За новейшими моделями статистического машинного перевода видели «будущее переводчиков», но достичь подлинного успеха ему не дал вошедший в эксплуатацию в 2016 году машинный перевод на основе нейронных сетей.
References
- Hutchins, John, Somers Harold L. An Introduction to Machine Translation, Cambridge University Press.
- Hutchins, John. "Two precursors of machine translation: Artsrouni and Trojanskij".
- Poibeau, Thierry. Machine Translation. The MIT Press.
- Bar-Hillel, Yehoshua «The Present Status of Automatic Translation of Languages». In Readings in Machine Translation (S. Nirenburg, H. L. Somers, Y. Wilks, eds.), Cambridge, MA: MIT Press.
- Warren Weaver «Translation» In Readings in Machine Translation (S. Nirenburg, H. L. Somers, Y. Wilks, eds.), Cambridge, MA: MIT Press.
- Марчук Ю.Н. Модели перевода. – М.: Изд-во Академия, 2010.
- Hutchins, John. «Milestones in machine translation. Part 2: Weaver’s 1949 memorandum». Language Today, no.6 (March 1998).
- Мельчук И.А. Опыт теории лингвистических моделей Смысл-Текст. М.: Наука, 1974.
- Апресян Ю.Д. Идеи и методы современной структурной лингвистики. М.: Просвещение, 1966.
- Hutchins, John. “ALPAC: The (In)famous report.” In Readings in Machine Translation (S. Nirenburg, H. L. Somers, Y. Wilks, eds.), Cambridge, MA: MIT Press.