prosdo.ru
добавить свой файл
1

Модель представления текста для решения задач машинного анализа естественно-языковой информации

Мбайкоджи Э., Соченков И.В.

Российский университет дружбы народов, Учреждение Российской академии наук Институт системного анализа РАН

Предложена модель представления текста на естественном языке, предназначенная для решения прикладных задач семантического анализа в интеллектуальных информационных системах. Модель основана на представлении текста в виде неоднородной семантической сети и распространяет принципы реляционно-ситуационного анализа простого предложения на текст в целом.

Ключевые слова – машинный анализ текстов, семантика естественного языка, реляционно-ситуационный анализ текстов.

1. Ведение

Большинство систем для автоматического анализа естественного языка (ЕЯ) и аналитической обработки информации используют простейшие модели представления текстов. Тексты рассматриваются как наборы слов естественного языка, а их обработка и анализ ограничиваются словарной нормализацией – примитивным морфологическим анализом. Для ряда задач, например, простейшего поиска по ключевым словам, такой подход является оправданным. Однако в современном информационном обществе существует круг сложных задач, связанных с аналитической обработкой текстовой информации, автоматическим реферированием, машинным переводом, выделением ключевой информации. Решение этих задач, по-видимому, не возможно без разработки и реализации более сложных моделей представления естественно-языковой информации, опирающихся на современные лингвистические теории анализа текста. В пользу этого свидетельствует факт появления коммерческих программных продуктов, решающих задачи систематизации, классификации, кластеризации текстов, выявления ключевых объектов (персон, названий организаций и др.) и установления связей между ними. В этих программных решениях обычно реализуются принципы морфологического и синтаксического анализа. В отдельных случаях выполняется семантический анализ. Зачастую семантический анализ ограничиваются построением синтактико-семантических структур для простого предложения, обособленно от остальных предложений.


В настоящее время за рубежом ведутся активные исследования, направленные на расширение имеющихся моделей представления ЕЯ-текстов с целью обработки сложных предложений и текстов в целом [1]. В настоящее время в информатике для русского языка не существует законченных моделей представления текстов ЕЯ, учитывающих их смысловую связность, рассматривающих их системно как сложные лингвистические объекты. Установление ассоциативных связей между различными языковыми объектами в тексте, построение связной структуры для текста на основе современных лингвистических принципов анализа дискурса должны способствовать повышению качества обработки ЕЯ в интеллектуальных информационных системах.

В работе предлагается подход к моделированию семантики текстов ЕЯ, расширяющий реляционно-ситуационную модель предложения за счёт учёта ассоциативных связей между языковыми объектами в разных предложениях. Предлагаемая модель основана на представлении текста в виде неоднородной семантической сети (НСС) [2] и распространяет принципы реляционно-ситуационного (РС) анализа простого предложения на текст в целом.

2. Реляционно-ситуационный анализ простого предложения

В основе РС-модели представления текста лежит теория коммуникативной грамматики (ТКГ) [3]. Одним из предметов исследования этой лингвистической теории является простое предложение. Основным структурным элементом предложения является синтаксема. Синтаксема – минимальная синтактико-семантическая единица языка, несущая свой обобщенный категориальный смысл в конструкциях разной степени сложности и характеризующаяся всегда взаимодействием морфологических, семантических и функциональных признаков. Отдельные лексемы, входящие в состав предложения в определенной грамматической форме согласованно с другими лексемами в составе синтаксических конструкций (именных, предложных, генетивных групп) являются синтаксемами. Смысл предложения в тексте определяется значениями синтаксем, т.е. «ролью», в которой выступают синтаксемы в предложении.


В ТКГ для определения значений синтаксем ключевыми являются предикативные, или предикатные, синтаксемы. Предикативные синтаксемы «задают» значения остальных синтаксем в составе предложения с учётом категориально-семантических классов последних. Систематизация свойств предикативных синтаксем даёт важный инструмент для определения значений синтаксем в простых предложениях. Всего в ТКГ выделяется около 80 значений синтаксем.

При РС-анализе простое предложение текста представляется в виде неоднородной семантической сети. НСС – семейство графов, имеющих общее множество вершин [2]. Вершинам НСС соответствуют значения синтаксем. Ребра НСС – элементы бинарных отношений на множестве значений синтаксем. Таким образом, простое предложение представляется графом специального вида, в котором на одном множестве вершин определено несколько типов отношений. Всего выделяется 30 отношений[2].

Для реализации РС-модели в информатике используют следующие методы машинного анализа текста: морфологический, синтаксический, реляционно-ситуационный. РС-анализ простых предложений был реализован в поисковой системе «Exactus» [4]. Для его реализации использовался подход, основанный на лингвистическом словаре-описании предикативных синтаксем, а также системе правил для разрешения возникающих неоднозначностей и противоречий разбора. Этот подход успешно зарекомендовал себя экспериментально на независимой инициативе по оценке методов информационного поиска РОМИП [5]. Однако существующая РС-модель отдельно взятого простого предложения не позволяет судить о смысле текста в целом. Потому предлагается расширить РС-модель так, чтобы, иметь возможность рассматривать текст ЕЯ как системный связный объект, содержащий высказывания сложной структуры.

3. Реляционно-ситуационный анализ текстов

Предложения в тексте – высказывания – не существуют обособленно друг от друга. Поэтому текст можно рассматривать как совокупность высказываний, связанных друг с другом по смыслу. При этом в лингвистике выделяют различные ассоциативные связи между языковыми объектами в составе высказываний: противопоставление, сопоставление, анафора и др.


В предлагаемой модели текст представляется в виде НСС, вершинами которой являются синтаксемы, а дугами представляются отношения между ними. При этом рассматриваются следующие классы отношений:


  1. синтаксические, задающие различные синтаксические связи между синтаксемами;

  2. семантические, описанные в предыдущем разделе;

  3. анафорические (в частности, кореферентные), устанавливающие отношение эквивалентности между языковыми объектами, соответствующими в тексте одному и тому же денотату.

Механизм анализа текста в предлагаемой модели следующий. Сначала производится синтаксический анализ высказываний текста, направленный на установление связей 1-го класса. Для сложных предложений устанавливается тип связи между простыми предложениями (которые будем называть «фактами»): сочинительные и подчинительные. Затем производится РС-анализ фактов. Причастные и деепричастные обороты рассматриваются как отдельные факты. В результате текст представляет собой совокупность НСС, соответствующих простым и сложным предложениям. На третьем этапе выполняется процедура установления кореферентных связей: местоимённых и метонимических. Это позволяет установить кореферентные связи между синтаксемами, входящими в состав различных фактов.

В результате для текста строится НСС, учитывающая синтаксические и семантические связи на множестве синтаксем во всём тексте.

4. Заключение


Предложен подход к задаче моделирования семантики текста ЕЯ как единой связной структуры, базирующийся на представлении текста с помощью НСС. Подход позволяет отразить в НСС связи между языковыми единицами на синтактико-семантическом уровне.

На современном этапе актуальными направлениями исследований в рамках предложенного подхода являются следующие:

  1. завершение математической формализации модели;
  2. реализация синтаксического анализа сложных предложений с использованием грамматики связей[6];


  3. разработка и реализация способа разрешения кореферентных связей для русского языка на основе синтактико-семантических и ассоциативно-словарных методов.

Литература


1. Jan van Eijck, Discourse Representation Theory (http://homepages.cwi.nl/~jve/papers/05/drt/drt.pdf)

2. Осипов Г.С. Приобретение знаний интеллектуальными системами -М., Наука Физматлит, 1997.

3. Золотова Г.А. Коммуникативные аспекты русского синтаксиса -.М, КомКнига, 2010.

4. Применение методов лингвистической семантики и машинного обучения для повышения точности и полноты поиска в поисковой МАШИНЕ «Exactus» (http://www.dialog-21.ru/dialog2009/materials/html/75.htm).

5. Система интеллектуального поиска и анализа данных «Exactus» на РОМИП-2009 (http://romip.ru/romip2009/03_exactus.pdf ).

6. Грамматика связей для русского языка (http://slashzone.ru/parser/ ).

Text representation model for natural processing language

Mbaikodji E., Sochenkov I. V.

Peoples’ Friendship University of Russia, Institute Of Systems Analysis of Russian Academy of Sciences

The natural language representation model is presented. This model is developed for natural language semantics representation in intelligent and analytical systems. The model is based on text representation as heterogeneous semantic network and spreads semantic relation analysis of separate sentence to a whole text.

Кеуwords  – natural language processing, natural language semantic, relation analysis.