Автоматический перевод, машинный
п е р е в о д,- 1) перевод текстов с одних естественных языков на другие с помощью компьютера; 2) область научных исследований, направленных на построение автоматизированных переводческих систем. Системы А. п. имеют обычно не менее трёх видов обеспечения: лингвистическое, состоящее из словарей и грамматик; математик о-а л г о -ритмическое, включающее формализмы (формальный язык и средства записи на нём) для представления лингвистических и перерабатываемых данных и алгоритмы (набор определённых последовательностей формальных операций, правил работы, приводящих к решению поставленной задачи) переработки; программное, состоящее из программ, реализующих алгоритмы. Кроме того, в нек-рых системах содержатся ещё данные о предметной области, к к-рой относятся переводимые тексты, и способы работы с этими данными.
Классификацию систем А. п. производят на основе различных критериев.
1. С точки зрения распределения труда между человеком и компьютером в процессе перевода различают системы собственно А. п., когда человек не вмешивается в работу переводческой системы на промежуточных стадиях, хотя и проводит пост- или предредактирование (иногда и то и другие), и системы частично автоматизированного перевода, когда человек и компьютер взаимодействуют в процессе перевода [в этом взаимодействии перевод ведёт либо компьютер, к-рый обращается к человеку в трудных случаях (human-assisted machine translation), либо человек, к-рый пользуется автоматическим словарём и нек-рыми вспомогательными средствами (machine-assisted human translation)]; если автоматизирована только работа со словарём, то такой способ организации иногда к А. п. не относят.
2. Помимо способа распределения труда между человеком и компьютером, системы А. п. характеризуются след. показателями: языки, учтённые в системе; тип текстов, на к-рый она рассчитана; назначение системы; способ организации процесса перевода в системе.
а) С точки зрения учтённых языков различают системы двуязычные и многоязычные. В двуязычных системах перевод идёт либо с «чужого» языка на «свой» с целью получения информации (первые системы А. п. были только такими), либо со «своего» на «чужой» с целью распространения информации. В многоязычных системах, появившихся позднее, чаще либо перевод ведётся с одного входного языка на несколько выходных, либо в группе языков с любого входного на любой другой из этой группы; реже встречается схема, когда обеспечивается перевод с нескольких входных языков при одном выходном.
б) С точки зрения типа переводимых текстов для всех переводческих систем общим является то, что они рассчитаны на перевод т. н. деловой прозы, т. е. текстов научно-технического или делового характера: научно-технических статей, их рефератов, заголовков, технологических инструкций, сопровождающих продукцию, экс-
портируемую в другие страны. С учётом степени 13 ограниченности входных текстов различают узкоспециализированные системы [напр., система МЕТЕО (Канада), переводящая метеосводки с англ. на франц. язык, и система TITRAN (Япония), переводящая заголовки научных статей с англ. на япон. язык] и системы общего назначения, к-рые рассчитаны на определённую предметную область [электроника, металлургия и т.д., напр. система ЭТАП (Россия)], или, самые общие, на несколько предметных областей. Тип входных текстов влияет на грамматику системы и в значительно большей степени на объём словаря: узкоспециализированные системы обычно имеют словари в несколько тысяч слов, словари для одной предметной области включают несколько десятков тысяч слов, словари для нескольких предметных областей - несколько сотен тысяч слов. Во 2-й пол. 80-х гг. 20 в. возник ещё один новый тип входных текстов - диалог (см.). Реплики диалога имеют ряд отличий от формулировок письменных текстов: они сравнительно коротки, но в них много эллипсисов (см.), инверсий (см.), различных трудно переводимых конструкций. В существующих проектах эти трудности отчасти компенсируются тем, что допускаются диалоги только на заранее определённые темы (напр., резервирование места в гостинице, получение справок о конференции - о сроках, правилах подачи докладов и т.п.). В нек-рых странах (Япония, Великобритания) начались уже работы по переводу устного диалога, где переводческая система объединяется с системой распознавания и синтеза речи.
в) По назначению различают экспериментальные и практические системы. Экспериментальные системы делаются в научно-исследовательских целях для проверки определённой модели естественного языка или метода алгоритмизации процесса перевода. Системы, предназначенные для практического использования, проходят сначала стадию системы-прототипа, к-рая проверяется и дополняется в ходе экспериментов с текстами. Затем система либо поступает для использования в той организации, где она разрабатывалась, либо начинает продаваться (становится коммерческой).
г) Переводческие системы чрезвычайно разнообразны с точки зрения способа организации процесса перевода. В подавляющем большинстве системы А. п. рассчитаны на перевод текста отдельными предложениями (от точки до точки). Когда к.-л. предложение переводит чело- х век, он сначала уясняет для себя его смысл (т. е. к анализирует предложение, совершая переход от щ входного предложения к нек-рому представлению \ его смысла), а затем синтезирует предложение с ? тем же смыслом на другом языке. При построении 2 переводческих систем пошли по пути нек-рых при- к ближений к такой схеме. При этом каждая переводческая система уникальна, т. к. обладает большим числом специфических особенностей. Поэтому осуществлять классификацию по этому аспекту очень трудно. Чаще всего она происходит на основе того уровня, на к-ром реализуется переход от языка к языку. Переводческие системы первого поколения (их ещё называют системами прямого перевода, сокращённо- П-системами) совершали переход от языка к языку на уровне морфологического представления предложения. В нём каждая текстовая единица (ТЕ) - словоформа, идиоматическое словосочетание, к-рое надо переводить как единое целое, или знак препинания -представлена определённой совокупностью признаков и характеристик. Признаки извлекаются из словарей основ для работы со словоформами и специальных словарей словосочетаний. В словаре основ последние снабжены словарными статьями, состоящими из словарных информации [по числу омонимов (см.)], каждая из к-рых является набором признаков, характеризующих данный омоним. Состав признаков зависит от грамматики системы, но практически всегда включает морфологические признаки, характеризующие словоизменение. Так, напр., при основе запас в рус. словаре должно быть указано, что от этой основы можно образовать как формы существительного (запас, запаса, запасу и т.д.), так и формы глагола (запасать, запасаю, запасти, запасу, запасал, запас и т.д.). Поэтому при этой основе должны быть две словарные информации. Кроме того, среди словоформ, образуемых от этой основы, одни являются омонимичными и тоже будут иметь по две информации (напр., омографы запасу — запасу, поскольку в письменном тексте ударения не помечаются), а другие неомонимичными Обработка переводимой фразы начинается с расчленения каждой словоформы на основу, содержащуюся в словаре, и окончание.
По окончанию с учётом морфологических признаков, приписываемых основе, устанавливаются морфологические характеристики словоформ (для существительных - число и падеж, для прилагательных - род, число, падеж, степень сравнения, для глаголов - время и вид, число, лицо или род и т.д.). Это и даёт морфологическое представление переводимого предложения, к-рое в П-систе-мах непосредственно перерабатывается в морфологические представление предложения переводящего (т. е. путём рассмотрения морфологических характеристик словоформы и её ближайшего линейного контекста устанавливаются сведения о форме и месте переводящего слова и на основе этих сведений синтезируется переводящее предложение). Другой тип систем А. п. (их часто называют системами второго поколения) - это т.н. Т-системы [от слова «трансфер» (transfer)], в к-рых переход от входного языка к выходному происходит на уровне синтаксических представлений. В этих системах обособились синтаксические анализ и синтез и процесс перевода происходит по след. наиболее распространённой ныне схеме: анализ (к-рый делится на морфологический и синтаксический) -"- преобразование, или трансфер (переход от синтаксического представления входного предложения к синтаксическому представлению выходного) —- синтез (к-рый тоже делится на синтаксический и морфологический). При этом анализ осуществляется без ориентации на выходной язык (т. е. учитывает только особенности входного текста), а синтез, наоборот, ориентирован на выходной язык и не учитывает характеристики входного текста; закономерности соотношения языков учитываются на этапе преобразования. Это особенно полезно для многоязычных систем. Интерлинго-вые системы (И-системы) - это системы А. п., в к-рых строится семантическое представление предложения, т. е. к анализу добавляется этап семантического анализа, а к синтезу - этап семантического синтеза. По замыслу семантическое представление предложения должно быть единым для разных языков, однако на практике не удалось построить представлений, действительно не зависящих от особенностей конкретных естественных языков.
Наиболее распространёнными являются Т-сис-темы, но при единой общей схеме каждый этап этих систем может быть организован разными способами. Так, для морфологического анализа используют в основном две схемы: либо сначала проводят поиск основ в словаре, а затем анализируют окончание; либо сначала от словоформы отсекают окончание (точнее, получают все её возможные расчленения), а затем основу (основы) ищут в словаре. Для синтаксического анализа известно огромное число стратегий: различаются и виды представления синтаксических структур, и способы их получения; по целям синтаксические анализы делятся на одновариантные и многовариантные. Чрезвычайно разнообразны и способы проведения анализа: он может идти снизу вверх (т. е. от ТЕ ко всё более крупным составляющим) с заглядыванием вперёд или без него, с параллельным или последовательным просмотром разных путей анализа, существенно иной способ - фильтровый, когда для анализируемого предложения накапливается избыточный набор гипотез о возможных синтаксических связях между ТЕ, к-рый затем фильтруется на основе ограничений на сочетаемость связей в правильной структуре. При синтаксическом анализе на основе предпочтений среди правильных структур отыскивается та, к-рая состоит из наиболее вероятных связей (с этой целью вводится аппарат оценок связей с точки зрения их необходимости и правильности). Известно и много других методов.
Разнообразие схем, используемых для семантических анализов, тоже очень велико.
В кон. 80-х гг. возник своеобразный метод перевода «по образцам», в к-ром предлагается хранить в памяти компьютера большое число предложений, переведённых квалифицированными переводчиками. Поступившее для перевода предложение членят на такие достаточно крупные части, для к-рых можно подобрать аналогичные структуры среди имеющихся образцов Вводятся способы для оценки степени аналогии. Напр., для перевода сочетания слов книга по проблемам международной политики будет взято за образец сочетание журнал по вопросам внешней политики.
Первые работы по автоматизации перевода появились в США в нач. 50-х гг. 20 в. Первый публичный эксперимент по А. п. был проведён в Джорджтаунском ун-те в 1954. В сер. 50-х гг. работы начались во многих странах, в т. ч. в России: в 1954 в Москве начали работать группы И. К. Вельской и Д. Ю. Панова (англо-рус. перевод) и А. А. Ляпунова и О. С. Кулагиной (франко-рус. перевод). В сер. 60-х гг. в США и Европе появились первые практически действующие системы, однако затем примерно на десятилетие имел место спад активности в А. п., объясняемый как огромными трудностями в решении проблемы, так и внешними обстоятельствами (в частности, трудностями финансирования). С сер. 70-х гг. активность снова стала расти, причём с этого времени на первый план по числу разработок выдвинулась Япония, где перевод был признан проблемой гос. значения. Переход к массовому использованию А. п. произошёл в 80-х гг., причём не столько в силу улучшения качества переводческих систем, сколько благодаря распространению персональных компьютеров. Человек-переводчик, исправляющий при помощи программ редактирования полученный на экране компьютера (пусть и несовершенный) результат, выданный системой А. п., работает в 3-5 раз эффективнее пары «человек-переводчик + человек-редактор», не использующей компьютеры К нач. 90-х гг. работы по А. п. велись во многих странах Европы, Азии и Америки. Известно также несколько международных проектов: в Европе - EUROTRA (Бельгия, Великобритания, Германия, Греция, Дания, Италия, Нидерланды, Франция), в Азии - ODA (Япония, Индонезия, Китай, Малайзия, Таиланд), в Южной Америке - ATAMIRI и CADA (Бразилия, Гватемала, Колумбия, Перу, Эквадор).
В разных странах построено большое количество экспериментальных и практических систем А. п. Из коммерческих систем наиболее распространена SYSTRAN, для к-рой известно ок.15 версий для разных пар языков [они снабжены большими словарями (напр., в словаре для пары «русский -английский» 200 тыс. слов общей лексики и 200 тыс. терминов)]; перевод, полученный в результате использования этой системы, требует существенного редактирования. Есть также системы ATLAS, LOGOS, LITRAS и др.; в 1995 появились коммерческие системы А. п. в России, напр. система англо-рус. перевода STYLUS и др. Из системчастично автоматизированного перевода наиболее 15 распространены системы фирм WCC (World Communication Centre) и ALPS (обе США).