prosdo.ru
добавить свой файл
1

МЕТОДИКА ПОСТРОЕНИЯ РАСПРЕДЕЛЕННОЙ ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЫ С УЧЕТОМ РЕЛЕВАНТНОСТИ ЗАПРОСОВ ПОЛЬЗОВАТЕЛЕЙ

В.И.Никитин

Тульский государственный университет

Тел.: (0872) 35-01-37, e-mail: vladimir@tula.ru

Основной проблемой современный поисковых систем является то, что они не всегда способны обеспечить качественный поиск информации. Это связано в первую очередь с тем, что длина запросов достаточно ограничена (не более 5 слов), а также со спецификой индексирования документов, находящихся в сети, которая основана, в первую очередь, на поиске информации по ключевым словам или описаниям документов. Поэтому при поиске информации, пользователю приходится “ломать голову”, как правильно построить запрос, чтобы достаточно быстро найти необходимые данные. Кроме того, каждая из поисковых систем имеет собственную систему оценки найденной информации, которая выдается пользователю в порядке уменьшения ее релевантности, и которая не всегда адекватно может оценить ее в соответствии с его потребностями. Это обусловлено тем, что оценка релевантности связана с запросом, а не с тем, что под этим запросом подразумевалось.

В связи с выше изложенным остается открытым вопрос, связанный с разработкой новых методик информационного поиска, которые должны дополнить уже существующие принципы поиска, и обеспечить их взаимную интеграцию, с целью удовлетворения потребностей пользователей, а именно своевременного и точного поиска информации.

Поэтому при создании новой методики необходимо ответить на ряд первоочередных вопросов, а именно: Какую информацию она должна искать? Как производить поиск? По каким критериям информацию? Как ранжировать информацию? Как производить анализ запросов? Как и какие вычислительные ресурсы использовать?

Область поиска информационно-поисковой машины. Если рассмотреть структуру современного информационного пространства, то можно выделить следующие области, в которых информационно-поисковая должна осуществлять поиск:


  • производить локальный поиск информации (поиск на ПК);

  • производить поиск в локальной сети (сеть отдела/предприятия);
  • производить поиск информации в глобальной сети;


  • производить поиск в уже разработанных поисковых системах.

Немаловажной задачей является выбор круга типа данных, которые должны попадать под информационный поиск – текстовые документы, документы приложений (например, MS Office), а также графические изображения и мультимедийные. Организация поиска информации в первом и во втором случае является давно известными и тривиальными, а вот для последних требуют новых подходов и заслуживают отдельного обсуждения, это связано с тем, что растровые или векторные изображения необходимо классифицировать и привязать их с объектами, на основе которых можно производить информационный поиск, а не заниматься распознаванием образов.

Главными критериями информационно-поисковой системы, которые напрямую связаны с ее первоочередной задачей, является релевантный поиск информации, поэтому здесь нужно выделить следующие вопросы:

  • Как производить анализ запросов?

  • Как оценивать релевантность?

Решение первого вопроса, в рамках данной задачи, дает ответы на то, как быстро будет происходить поиск информации, а второго – как точно. Однако в этих двух вопросах надо учитывать и обратные связи между ними, какие документы используются, а какие нет, что позволяет исключить часть релевантных документов, которые не несут смысловой нагрузки. Поэтому, в информационно-поисковой системе необходимо предусмотреть механизм оценки релевантности запросов и оценивать его достоверность, т.е. говорить о том, насколько новые запросы соответствует запросам, которые уже система получала и производила по ним поиск и осуществляла доступ. Кроме всего система должна обеспечивать возможность уточнения критериев поиска, а именно типов данных их объемов и источников, т.е. вести классификатор данных.

Учитывая все изложенное, для построения подобной информационной системы требуются достаточно большие вычислительные мощности и размер дискового пространства, поэтому при решении данной задачи целесообразно использовать распределенные вычисления, однако с некоторыми изменениями. В первую очередь необходимо отойти от привычного распределения задач, а реализовать их следующим образом – каждая из доступных машин является информационно-поисковой системой, которая производит поиск информации в рамках допустимых ее ресурсам. В свою очередь, группы машин могут образовывать информационно-поисковую группу и осуществлять поиск параллельно и выдавать результаты поиска системе инициирующей запрос. Такой подход позволяет повысить безотказность работы информационно-поисковой системы, снизить затраты на ресурсы компьютера и позволит создать распределенную сеть внутри организации, групп пользователей, а также глобальной сети.


Схема оценки запросов и полученных результатов. Инициирующая система анализирует запрос и распределяет его по доступным информационно-поисковым машинам и глубиной распределения (длина дерева от корня к вершинам). Далее каждая из систем производить поиск и выдает ответы в порядке их релевантности. Полученные результаты в обратном порядке собираются по цепочке к инициатору запроса и в свою очередь подвергаются оценки и сортировки по релевантности и сортируются по оценочным критериям.

Данный подход позволяет достаточно быстро проводить переиндексации баз, в случае изменения документов или их удалении. Вопрос переиндексации документах в существующих информационно-поисковых системах является достаточно актуальным, так как достаточно часто при поиске информации находятся ресурсы, которых уже нет или достаточно сильно изменялись, и это в первую очередь это связано с алгоритмами работы поисковых роботов.

Предложенный подход построения информационно-поисковых систем должен обеспечить релевантный поиск информации в интересующей предметной области отдельного человека, что позволит ему сократить время на бесполезный поиск информации во всем его многообразии.

Работа выполнена при поддержке гранта РФФИ, проект №04-07-96700-р2004Центр_В.