Глава 1. Машинный перевод.
1.1. Определение машинного перевода
Термин машинный перевод (МП) понимается по крайней мере в двух смыслах. Машинный перевод в узком смысле – это процесс перевода некоторого текста с одного естественного языка на другой, реализуемый компьютером полностью или почти полностью. В ходе данного процесса на вход машины подается текст, словесная честь которого не сопровождается никакими дополнительными указаниями, а на выходе получается текст на другом языке, являющийся переводом входного, причем преобразование входного текста в выходной происходит без вмешательства человека (иногда допускается постредактирование).
Машинный перевод в широком смысле – это область научных исследований, находящаяся на стыке лингвистики, математики, кибернетики, и имеющая целью построение систем, реализующих машинный перевод в узком смысле [7, C. 21].
Для осуществления машинного перевода в компьютер вводится специальная программа, реализующая алгоритм перевода, под которым понимается последовательность однозначно и строго определенных действий над текстом для нахождения переводных соответствий в данной паре языков L1 - L2 при заданном направлении перевода (с одного конкретного языка на другой). Система машинного перевода включает в себя двуязычные словари, снабженные необходимой грамматической информацией (морфологической, синтаксической и семантической) для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Имеются также отдельные системы машинного перевода, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными [1, C. 65].
Стоит также уделить внимание и качеству машинного перевода. Оно зависит от тематики и стиля исходного текста. Машинный перевод произвольных художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей по определённой тематике и незначительной настройке системы на особенности того или иного типа текстов возможно получение перевода вполне приемлемого качества. Результат машинного перевода в этом случае нуждается лишь в небольшой редакторской корректировке. Чем более формализован стиль исходного документа, тем качественнее возможен перевод. Наилучших результатов можно достичь при использовании машинного перевода для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.
Стимулы к развитию исследований. Можно выделить два основных стимула к развитию работ по машинному переводу в современном мире. Первый – собственно научный; он определяется комплексностью и сложностью компьютерного моделирования перевода. Как вид языковой деятельности перевод затрагивает все уровни языка – от распознавания графем (и фонем при переводе устной речи) до передачи смысла высказывания и текста. Кроме 5 того, для перевода характерна обратная связь и возможность сразу проверить теоретическую гипотезу об устройстве тех или иных языковых уровней и эффективности предлагаемых алгоритмов. Эта характеристическая черта перевода вообще и машинного перевода в частности привлекает внимание теоретиков, в результате чего продолжают возникать все новые теории автоматизации перевода и формализации языковых данных и процессов.
Второй стимул – социальный, и обусловлен он возрастающей ролью самой практики машинного перевода в современном мире как необходимого условия обеспечения межъязыковой коммуникации, объем которой возрастает с каждым годом. Другие способы преодоления языковых барьеров на пути коммуникации – разработка или принятие единого языка, а также изучение иностранных языков – не могут сравниться с переводом по эффективности. С этой точки зрения можно утверждать, что альтернативы переводу нет, так что разработка качественных и высокопроизводительных систем машинного перевода способствует разрешению важнейших социально-коммуникативных задач.
Преимущества машинного перевода:
1. Высокая скорость перевода. Использование системы машинного перевода позволяет значительно сократить время, требуемое для перевода текстов.
2. Низкая стоимость перевода. Прибегая к услугам профессиональных переводчиков, мы вынуждены платить деньги за каждую страницу перевода. Однако часто необходимости в получении идеального перевода текста нет, а нужно быстро уловить смысл присланного письма или содержания страницы в Интернете. В этом случае система перевода, без сомнений, станет надежным и эффективным помощником.
3. Конфиденциальность. Многие пользователи регулярно используют системы МП для перевода личных писем, ведь далеко не каждый человек готов отдать постороннему переводчику личную переписку или доверить перевод финансовых документов. 6
4. Универсальность. Профессиональный переводчик, как правило, имеет специализацию по переводу текстов определенной тематики. Программа-переводчик справится с переводом текстов из самых разных областей: для правильного перевода специализированных терминов достаточно подключить необходимые настройки.
5. Перевод в режиме онлайн и перевод содержания Интернет-страниц. Достоинства услуги онлайн-перевода информации очевидны. Сервисы онлайн-перевода всегда под рукой и помогут в нужный момент быстро перевести информацию, если у вас нет программы-переводчика. Помимо этого, сегодня с помощью систем перевода можно переводить содержание Интернет страниц и запросы поисковых систем [8, C. 10].
1.2. История возникновения машинного перевода.
50-е годы XX века считаются отправной точкой в истории машинного перевода, хотя есть данные и о более ранних разработках. Эксперимент, проведенный в Джорджтауне в 1954 году, включал в себя перевод 60 предложений с русского на английский язык.
Эксперимент имел большой успех и предвещал эру значительных инвестиций в исследования, связанные с машинным переводом. Разработчики утверждали, что по истечении 3-5 лет проблема машинного перевода будет решена.
Однако реальное движение вперед проходило медленнее, чем ожидалось, и после отчета комиссии ALPAC, сделанного в 1966 году, которая признала, что десятилетние исследования не смогли оправдать ожиданий, финансирование проекта значительным образом сократилось. Начиная с конца 80-х годов, когда вычислительные возможности возросли и стали менее дорогими, больший интерес стал проявляться к статистическим моделям машинного перевода.
На сегодняшний день до сих пор нет системы, способной предоставить столь желанный «полный автоматический высококачественный перевод текстов без ограничений» (FAHQUT). BabelFish.
Начало. История машинного перевода берет начало в XVII веке, когда такими философами, как Лейбниц и Декарт было выдвинуто предположение о существовании некоего кода, соединяющего между собой слова разных языков [12, C. 195]. Все предположения носили гипотетический характер, и никому не удавалось в действительности создать машину для перевода.
Первые заявления на получение патента на «переводческую машину» были поданы в середине 30-х годов ХХ века. Одно заявление было подано французским изобретателем Ж. Арцруни, просто создавшим автоматический двуязычный словарь на перфоленте. Другое было сделано советским ученым Петром Троянским, чье изобретение было более детальным. Оно включало в себя, как двуязычный словарь, так и способы работы с грамматическими ролями между двумя языками на основе Эсперанто. Данная система представляла собой три этапа: первый заключался в следующем – редактор, носитель языка, должен был связать слова исходного языка (ИЯ) в логические формы в соответствии с синтаксическими функциями; на втором этапе машина должна была «перевести» все эти формы на язык перевода (ПЯ); а на третьем этапе носитель языка перевода занимался редактированием полученного результата [14, C. 159]. Его схема оставалась неизвестной до конца 50-х годов, когда появились ЭВМ.
Ранние годы. Первый план по созданию машин для перевода на базе компьютеров был предложен Уорреном Уивером, исследователем Фонда Рокфеллера, в его меморандуме от июля 1949года. Данные предложения базировались на теории информации, получившей успех во время Второй Мировой войны в связи с криптографией и распространения идеи об универсальных принципах естественных языков.
Несколько лет спустя, во всех университетах США началась исследовательская деятельность, связанная с машинным переводом. 7 января 1954 года фирма IBM совместно с Джорджтаунским университетом (США) успешно осуществили первую демонстрацию новой системы машинного перевода, которая проходила в Нью-Йорке в головном офисе IBM. Результаты демонстрации были освещены в печати и привлекли большой общественный интерес. Система сама по себе была не более чем, по сегодняшним меркам, игрушечной, поскольку она использовала словарь из 250 слов и осуществила перевод с русского на английский 49 заранее отобранных предложений, имеющих химическую тематику. Однако демонстрация стимулировала распространение идеи о неотвратимости появления машинного перевода, а в частности привлечение финансирования в исследовательские институты не только на территории США, но и по всему миру.
Ранние системы использовали большие двуязычные словари и запрограммированные вручную правила, по выстраиванию на выходе слов в правильном порядке. В конечном итоге, такой способ был признан ограниченным, и развитие лингвистических наук, например, генеративной лингвистики или трансформационной грамматики, было нацелено на улучшение качества перевода [10, C. 56].
В это время устанавливались операционные системы. Военно-воздушные силы США пользовались программой, разработанной компанией IBM и Вашингтонским университетом, в то время как комиссия по атомной энергии США и Евроатом в Италии пользовались системой, разработанной Джорджтаунским университетом. И хотя качество выхода было низким, система пользовалась популярностью среди потребителей, в связи с увеличением скорости перевода.
В конце 50-х годов, Й.Бар-Хиллелом по просьбе Американского правительства были приведены доказательства невозможности предоставления машинным переводом «Полностью Автоматического Высококачественного Перевода». Доказательство основывалось на двусмысленности высказываний. Рассмотрим следующее предложение:
Little John was looking for his toy box. Finally he found it. The box was in the pen.
Слово pen может иметь 2 значения: первое – нечто, чем мы пользуемся для письма, второе – помещение определенного рода. Человеку смысл очевиден, но исследователь заявил, что без «универсального справочника» машина не сможет решить поставленную задачу. Сейчас, такой вид семантической неточности может быть решен с помощью написания исходного текста для машинного перевода на контролируемом языке, который включает в себя слова, имеющие только одно точное значение.
60-е годы, отчет комиссии ALPAC и 70-е годы. Исследования, которые проходили в 60х годах в СССР и США, в основном были сосредоточены на языковой паре русский-английский. В основном предметом перевода были научные и технические документы, например, статьи из научных журналов. Шероховатости перевода не мешали общему представлению о том, что говорится в статье. Если в статье обсуждались вопросы, связанные с интересами безопасности, тогда статья отправлялась переводчику для более детального перевода; если нет, выбрасывалась за ненадобностью.
Большой удар был нанесен по исследованиям в области машинного перевода после публикации отчета ALPAC в 1966 году. Отчет был составлен правительственной комиссией США и представлен Специальным комитетом по прикладной лингвистике (ALPAC) Национальной академии наук США. В него входили семь ученых, собранных правительством США в 1964 году. Правительство США было озабочено тем, что прогресс был несоразмерен со значительными затратами на разработку проекта. В результате было установлено, что машинный перевод дороже, медленнее и менее точный в сравнении с переводом, выполненным человеком, и несмотря на большие капиталовложения, в ближайшее время машинный перевод не достигнет того же качества, что и перевод, выполненный человеком [11, C. 89].
Однако отчет советовал развитие вспомогательных программ для переводчиков – например, автоматических словарей – и поддержку исследований в области компьютерной лингвистики.
Публикация отчета в большей степени повлияла на исследования машинного перевода в США и в гораздо меньшей в СССР и Великобритании. По крайней мере, в США такого рода исследования были остановлены на целое десятилетие. В Канаде, Франции и Германии исследования все-таки продолжались. В США главными исключениями стали основатели компаний Systran (Питер Тома).
Если в 60е годы упор был на определенные языковые пары и ввод, то требованием в 70е годы стали малые затраты на системы, способные переводить ряд текстов технической и коммерческой направленности. Спрос был спровоцирован ростом глобализации и спрос на перевод в Канаде, Европе и Японии.
80-е начало 90-х годов. К 80-м годам разнообразие и число программ для машинного перевода увеличилось. Использовались такие переводческие системы, основывающиеся на технологии универсальной вычислительной машины, как Metal.
В результате увеличения пригодности микрокомпьютеров, появился рынок бюджетных программ машинного перевода [5, C. 172]. Многие компании Европы, Японии и США воспользовались данной возможностью. Системы были представлены на рынке Китая, Восточной Европы, Кореи и СССР.
В 80-е годы в Японии был большой ажиотаж, связанный с машинным переводом. С появлением компьютеров пятого поколения Япония планировала прыгнуть выше всех в области техники и программирования, проект, связанный с созданием программ для перевода с/на английский, заинтересовал многие компании (Fujitsu, Toshiba, NTT, Brother, Catena, Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki).
Исследования 80-х годов основывались на переводе лингвистических единиц при помощи морфологического, синтаксического и семантического анализа.
В конце 80-х годов произошел рост числа методов, используемых при машинном переводе [20, C. 165]. Система, разработанная компанией IBM, базировалась на статистическом методе. Другие группы использовали методы, основывающиеся на большом числе примеров переводов, такая техника называется машинный перевод на основе примеров. Определяющая черта обоих подходов стал недостаток семантических и синтаксических правил и опора на манипуляции с корпусами текстов.
В 90-х годах после успеха программ по распознаванию речи и ее синтеза и с развитием Verbmobil, начались разработки по переводу речи.
В результате появления бюджетных и более мощных компьютеров вырос спрос на программы машинного перевода. Именно в начале 90х годов перевод стал осуществляться не громоздкими ЭВМ, а персональными компьютерами и дисплейными терминалами. Двумя компаниями, которые стояли во главе рынка ПК на тот момент были Systran) [23, C. 98].
Недавние исследования. За последние несколько лет машинный перевод пережил значительные изменения. В настоящий момент большое количество исследований ведется в области статистического машинного перевода и машинного перевода на базе примеров перевода. Сегодня немногие компании используют статистический машинный перевод в коммерческих целях, например, Microsoft (использует свою собственную патентованную статистическую программу МП для перевода статей базы). Возобновился интерес к гибридизации, исследователи совмещают синтаксические и морфологические (т. е. лингвистические) знания в статистических системах с уже существующими правилами.
1.3. Лексико-синтаксические проблемы машинного перевода
Проблема многозначности при машинном переводе.
Проблема разрешения лексической многозначности является одной из самых сложных прикладных задач, связанных с лексическим значением. Задача автоматического (реже полуавтоматического) разрешения лексической многозначности была впервые сформулирована в рамках направления науки и технологии, связанного с созданием систем машинного перевода [25, C. 145]. В дальнейшем проблема разрешения лексической многозначности стала одной из ключевых не только при создании систем машинного перевода, но и систем обработки текстов на естественном языке других назначений (поиск, классификация).
В прикладных задачах компьютерной лингвистики не делается различия между омонимичными и полисемичными значениями слова. Это связано с тем, что в подавляющем большинстве прикладных задач важна не столько этимология слова, сколько его семантика. Распознавание и разделение групп омонимичных значений также входит в задачу разрешения лексической многозначности, так как иногда может оказаться полезным с практической точки зрения [22, C. 59].
Проблема многозначности считается решенной, если для слова выбрано его регулярное значение или если найден синонимический эквивалент в виде регулярного значения для метафорического использования.