Автоматическая обработка текста - преобразование текста на искусственном или естественном языке с помощью компьютера. Прикладные системы и теория А. о. т. начали создаваться в кон. 50-х гг. 20 в. (США, СССР, Франция, Италия, ФРГ и др.) и развивались в нескольких различных приложениях: в системном программировании, издательском деле и вычислительной лингвистике. В системном программировании, предметом к-рого является создание программного обеспечения функционирования компьютера и работы пользователей, развивались инструментальные средства разработки программ, т. е. текстов на алгоритмических языках. В издательском деле А. о. т.- одно из направлений автоматизации ре-дакционно-издательских процессов. В этих областях термин «А. о. т.» употребляется, как правило, в относительно узком смысле, как преобразование формы текста. В вычислительной лингвистике, предметом к-рой являются автоматический лингвистический анализ и синтез текста, а также лингвистические аспекты общения с компьютером на естественном языке, термин «А. о. т.» понимается в более широком смысле, охватывающем процедуры анализа содержания и синтеза (по заданному или выработанному содержанию) понятного человеку текста. В зависимости от целей различают несколько видов А. о. т. Преобразование текста при автоматизированном редактировании заключается во внесении в текст, находящийся в памяти компьютера, исправлений и дополнений. Форматирование текста заключается в выделении рубрик текста, формировании строк и страниц нужного формата для воспроизведения на устройствах печати компьютера. В процессе автоматического набора и вёрстки текст, введённый в компьютер, преобразуется в представление (код), воспроизводимое полиграфическим оборудованием (напр., фотонаборным автоматом). При лексикографической обработке текст преобразуется в лексикографическое представление, в к-ром каждому словоупотреблению соответствует определённая информация в формируемом к этому тексту словаре. В автоматическом лингвистическом анализе текст последовательно преобразуется в его лексико-морфо-логическое, синтаксическое и семантическое представление. В процессе автоматического синтеза производятся обратные преобразования: от семантического представления через синтаксическое и лексемно-морфологическое к собственно текстовому. Системы автоматизированного редактирования (текстовые редакторы, или процессо-р ы), называемые системами А. о. т. в узком смысле (англ. text processing или word processing systems), с кон. 70-х гг. входят в состав системного программного обеспечения практически всех типов компьютеров. Управление текстовыми редакторами осуществляется через дисплей (устройство для ввода с помощью алфавитно-цифровой клавиатуры и отображения на экране электронно-лучевой трубки обрабатываемого текста) Изменения и дополнения в обрабатываемый текст могут быть внесены непосредственно с помощью указателя позиций в тексте (курсбра) и алфавитно-цифровой клавиатуры дисплея, а также с помощью специальных команд, воспринимаемых системой редактирования. В последнем случае одно и то же изменение может быть внесено одновременно во все места текста, где оно необходимо (напр., изменение написания собственного имени, расшифровка сокращения или, наоборот, сокращение определённого словосочетания). Текстовые редакторы широко используются как средства подготовки и ввода в компьютер программ, программной документации, 11 научных отчётов и других данных. В издательской практике системы автоматизированного редактирования применяются, как правило, совместно с системами автоматического набора и вёрстки. В качестве составных частей в такие системы входят и нек-рые лингвистические программы, напр. программы переноса слов в соответствии с орфографией данного языка, проверки и исправления орфографии, транслитерации (см.) и транскрибирования (см. Транскрипция), выделения имён собственных и ключевых слов для автоматического составления именных и предметных указателей (в последнем случае используются также программы лемматизации, т. е. преобразования текстовых форм слов в словарные). Автоматизированные лексикографические системы, т. е. системы автоматизации подготовки и использования словарей, включают в себя программы и справочные данные, необходимые для лексикографической обработки текстов. В них используются текстовые редакторы для ввода и коррекции данных, программы контроля данных и запросов к системе, программы контроля орфографии и разметки входного текста, программы сегментации текста на слова, словосочетания, предложения и фрагменты словарных статей, программы лемматизации и подсчёта статистики словоупотреблений, программы загрузки, поиска и коррекции данных и др. Введённые в систему тексты и/или словари размещаются в базах данных и снабжаются словоуказателями и другими индексами, позволяющими по слову или его характеристикам находить его контексты или словарные статьи, в к-рых оно описано. Результатом А. о. т. в автоматизированных лексикографических системах являются частотные словари, конкордансы (словоуказатели с контекстами), чаще всего принимающие форму автоматических конкордан сов, автоматические моно- и многоязычные словари, размещаемые в базах данных и используемые программами лексикографических систем в качестве справочного материала при обработке новых данных. Поэтому такие системы являются развивающимися системами. Автоматические словари используются в системах автоматического перевода, а также в информационных системах и системах общения с компьютером на естественном языке в качестве справочников при подготовке и расширении словарей и уточнении грамматик этих систем. В составе лингвистического обеспечения автоматизированных систем различают три группы функций А. о. т.. автоматическое индексирование входных документов, составление поисковых предписаний по тексту запросов и автоматизированное ведение словарей системы. Ядром лингвистического обеспечения автоматизированных информационных систем являются информационно-поисковые тезаурусы (см.), втерминах к-рых производится индексирование вводимых в систему текстов и запросов на их поиск. Индексирование текста заключается в составлении к нему поискового «образа», в к-ром указываются понятия, описываемые в тексте, и отношения между ними. Аналогично обрабатываются и запросы к системе. Сравнением поисковых предписаний с поисковыми образами документов осуществляется выбор текстов запрашиваемой тематики. Существуют и бестезаурусные системы, способные осуществлять поиск текстов по любым сочетаниям слов, встречающихся в них. В таких системах автоматически строятся словоуказатели к вводимым текстам. Наиболее полно функции А. о. т. развиты в системах автоматического перевода (см.) и системах человеко-машинного общения, где основным является синтаксический, а в системах общения с компьютером - семантический анализ. Эти наиболее сложные формы А. о. т. опираются на формальный аппарат, развитый в рамках математической и вычислительной лингвистики. Здесь А. о. т. осуществляется программными системами, называемыми языковыми или лингвистическими процессорами (NLP - Natural Language Processor) Центральной функцией языковых процессоров является грамматический разбор (parsing). Программы грамматического разбора (parsers) применяют в качестве справочных данных формальные грамматики и словари того языка, тексты к-рого служат объектом анализа или синтеза. В качестве формальных грамматик используются расширенные грамматики непосредственных составляющих (контекстно-свободные грамматики) , трансформационные грамматики, грамматики расширенных сетей переходов, являющиеся системами грамматик непосредственных составляющих, и др. В качестве формальных словарей используются прикладные (инженерные) варианты толково-комбинаторных словарей, т. е. специальных форм семантико-синтаксических словарей, имеющих подробную информацию о вариантных формах слов, об их семантике и о соче-таемостных возможностях на лексическом, семантическом и синтаксическом уровнях с учётом морфологических ограничений. В нек-рых языковых процессорах систем автоматического перевода и систем общения с компьютером такие словари могут быть использованы как для анализа, так и для синтеза текстов. Обычные языковые процессоры содержат морфологическую, синтаксическую, семантическую (или синтактико-семантическую) и словарную компоненты (подсистемы программ и данных), каждая из к-рых реализует динамическую модель языка на соответствующем уровне. Языковые процессоры систем общения с компьютером опираются, как правило, на нек-рую систему представления знаний и взаимодействуют с ней, осуществляя функции логического (дедуктивного) вывода. Знания часто представляются в виде т. н. фреймов - языковых моделей определённых фрагментов действительности или семантических сетей и образуют т. н. базы знаний, хранимые в компьютере. Эти функции используются также и как средства раскрытия неоднозначностей (разрешения омонимии), восстановления эллипсисов, установления анафорических связей в тексте и в других сложных случаях лингвистического анализа. С 70-х гг. наблюдается тенденция к интеграции всех подходов к конструированию систем А. о. т. в рамках искусственного интеллекта - направления в информатике (computer science), связанного с созданием сложных человеко-машинных и робото-технических систем, моделирующих человеческую деятельность в различных сферах и предметных областях. В таких системах текст на естественном или искусственном языке является как источником накопления знаний системы, так и источником данных для выбора её поведения, а также средством взаимодействия системы с человеком. Здесь функции редактирования всё больше сливаются с функциями содержательной обработки, образуя единый аппарат понимания текстов. Это открывает возможности для автоматизации наиболее сложных областей человеческой деятельности, требующих затрат прежде всего интеллектуального труда, таких, как редакционно-издательские процессы, извлечение информации из текстов, медицинская и техническая диагностика, экспертная деятельность, проектирование машин и сооружений, изготовление проектной документации, управление социально-экономическими системами. Во всех этих случаях А. о. т. играет первостепенную роль. Однако в таких массовых «промышленных» применениях А. о. т. должна опираться на мощную информационную поддержку в виде автоматизированных словарных картотек, автоматических словарей, грамматик и других форм представления лингвистических данных в компьютере. Разработка таких систем приобретает форму машинных фондов национальных языков (см. Машинный фонд русского языка), национальных автоматизированных лексикографических служб и т. п.