Бесплатный автореферат и диссертация по наукам о земле на тему
Разработка принципов создания информационно-поисковой Интернет-системы в области наук о Земле
ВАК РФ 25.00.35, Геоинформатика
Автореферат диссертации по теме "Разработка принципов создания информационно-поисковой Интернет-системы в области наук о Земле"
На правах рукописи
Рябинков Артем Иванович
РАЗРАБОТКА ПРИНЦИПОВ СОЗДАНИЯ ИНФОРМАЦИОН НО-ПОИСКОВОЙ ИНТЕРНЕТ-СИСТЕМ М В ОБЛАСТИ НАУК О ЗЕМЛЕ
Специальность: 25.00.35 - Геоинформатика
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Москва-2006
Работа выполнена на кафедре Информационно-измерительных систем Московского государственного университета геодезии и картографии
Научный руководитель: доктор технических наук,
профессор Майоров А. А.
Официальные оппоненты: доктор технических наук,
профессор Журкин И.Г. кандидат технических наук Бровко Е.А.
Ведущая организация: ФГУ «Государственный научно-
исследовательский институт информационных технологий и телекоммуникаций — Информика»
о*
Защита состоится «Л» декабря 2006 года в 40 часов на заседании диссертационного совета Д 212.143.03 при Московском государственном университете геодезии и картографии по адресу: 105064, Москва К-64, Гороховский пер., д.4, МИИГАиК, ауд. 321.
С диссертацией можно ознакомиться в библиотеке МИИГАиК.
Автореферат разослан « ноября 2006 г.
Ученый секретарь
диссертационного совета ^О^л/цм-Н*_______ Климков Ю.М.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Бурное развитие сети Интернет в последние годы в полной мере затронуло наукн о Земле, повысило возможности исследователей, нуждающихся в информационных ресурсах для практической и научной работы. Интернет предоставил большим группам специалистов огромные массивы текстовых, графических и мультимедиа-данных. Но при этом обнажилась острая проблема: объем поставляемой в Сеть информации значительно превышает существующие возможности по ее надлежащей обработке.
В силу специфики информации в области наук о Земле, форм ее представления и размещения па веб-ресурсах, существующие инструменты поиска в Интернет не обеспечивают удовлетворение информационных потребностей специалистов с требуемым уровнем качества. Остро необходимы новые поисковые средства и системы, способные обеспечить эффективный поиск информации, требуемой специалистам для практической и научной работы.
Полноценные исследования этого вопроса не производились, а единичные решения носят половинчатый характер. Отсутствует как теория комплексного решения данной задачи, так и практические разработки.
Разработка принципов создания специализированной информационно-поисковой Интернет-системы, учитывающей специфику информации в области геоинформатики, геоинформационных систем (ГИС) и смежных областей, вхЬ-дящим в комплекс наук о Земле, и обеспечивающей эффективный поиск с максимальным покрытием информационных источников по заданной проблематике в сети Интернет и составляет цель диссертационной работы.
Для достижения поставленной цели в работе рассматривается достаточно широкий спектр задач:
1) анализ информации по геоинформационной тематике, размещенной в сети Интернет, и определение набора требований к эффективному поисковому инструменту, обеспечивающему поиск заданной информации;
2) разработка принципов, лежащих в основе создания системы; проектирование архитектуры системы, отвечающей совокупности этих принципов;
3) создание тематического каталога Интернет-ресурсов, освещающих вопросы геоинформатики и смежных областей;
4) создание тематической, автоматически пополняемой коллекции веб-документов (веб-страниц), содержащих релевантную информацию для специалиста в данной предметной области, унификация информации в коллекции, реализация поискового механизма по собранным данным;
5) поиск в сети Интернет файлов геопространственных данных;
6) предоставление пользователю возможности поиска информации в он-лайн-библиотеках данных по геоинформационной и смежным тематикам;
7) снабжение специалиста оперативной новостной информацией, при помощи создания тематического новостного интегратора.
Научная новизна полученных результатов заключается в разработке методологической базы создания эффективной поисковой Интернет-снстемы в области геоинформатики и смежных областей, входящих в комплекс наук о Земле, при условии отсутствия аналогичных комплексных решений.
Практическое значение работы. Архитектурные компоненты системы позволяют предоставить специалисту в области геоинформатики и смежных научных областей средство оперативного доступа к качественной и актуальной информации, необходимой для работы. При этом в случае достижения поисковой системой промышленного уровня полнота и точность поисковых результатов будут выше результатов существующих многоцелевых Интернет-поисковых систем при поиске информации в области наук о Земле.
Практическая значимость диссертации подтверждается актом о внедрении результатов исследования на кафедре информационно-измерительных систем Московского Государственного Университета геодезии и картографии.
Представленные в работе результаты были реализованы в программном исполнении, в виде демонстрационной версии ИПС, расположенной на сервере МИИГАиК по адресу http://www.rniigaik.ru/geoinfosearch/. .
Основные защищаемые положения:
1) Эффективная поисковая Интериет-система для специалиста в области ГИС-технологий должна осуществлять одновременный поиск по следующим типам данных: интернет-ресурсам и веб-страницам по заданной проблематике, оперативной событийной информации по тематике, файлам геопространственных данных, тематическим онлайн-библиотекам данных, онлайн-картографическим сервисам.
2) Важным свойством системы является анализ геопространственного контекста веб-документов и возможность дополнения текстового поискового запроса пространственными ограничениями.
3) Экспериментальные исследования показали, что поисковые результаты от компонентов системы, реализованных в программных кодах (каталога интернет-ресурсов, тематической коллекции веб-документов, новостного интегратора, модуля поиска геопространственных данных), имеют высокую релевантность и ценность для специалистов в области геоинформатики и ГИС-технологий, что подтверждает выдвинутые теоретические положения.
Апробация работы и публикации. Основные положения и результаты работы докладывались на шестидесятой и шестьдесят первой научно-технических конференциях студентов, аспирантов и молодых ученых МИИГАиК. По теме диссертации опубликованы 3 научные работы.
Структура н объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы, включающего 98 наименований, и четырех приложений. Основная часть работы изложена на 144 страницах машинописного текста, содержит 16 рисунков, 35 формул и 22 таблицы.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована цель, актуальность и практическая значимость работы, определены задачи исследования, описано краткое содержание работы.
В первой главе проведен анализ текущего состояния информационного поиска в сети Интернет в области геоинформатики и ГИС-технологий.
На первом этапе были проанализированы виды и способы представления информации по указанной проблематике на Интернет-ресурсах и установлено, что информационные источники по геоипформационной тематике имеют следующую тематическую структуру:
• материалы по геоинформатике, ГИС-технологиям и смежным областям
(материалы по проектам, образованию, стандартизации в области ГИС);
• программное обеспечение ГИС и геопространственные данные;
• базы данных, базы знаний по геоинформационной и смежным тематикам;
• картографические материалы и сервисы.
По типам представления данных информация размещается в виде следующих информационных потоков: описательного потока, событийного и дискуссионного потоков, справочного потока и потока интерактивных ресурсов.
Описательный поток - это традиционная форма представления информации в Интернете: на веб-страницах. Веб-страница всегда характеризуется конкретным URL адресом, по которому можно получить доступ к информации.
Событийный и дискуссионный потоки — это различного характера новости, анонсы конференций, семинаров, а также сообщения дискуссионных досок (форумов). Информация в данном потоке также размещается непосредственно на веб-страницах, но характеризуется очень высокой динамичностью, на порядок превышающей скорость изменений в описательном потоке.
Справочный поток — это различные базы и банки данных, имеющие веб-доступ. Отличаются тем, что содержащаяся в них информация не может быть напрямую считана с веб-страниц, поскольку для ее получения первоначально необходимо сформулировать поисковый запрос.
Интерактивные ресурсы - это особая форма представления информации. Это могут быть интерактивные электронные карты, веб-доступ к ГИС, демо-версии Интернет-приложений, различные Java-апплеты, системы расчетов и т.д.
Информация в области наук о Земле (в текстовом или других форматах) часто является геосоотнесенной, или имеет выраженный геопространственный контекст. Большинство данных содержат частые упоминания топонимов (гео-
графических названий), которые могут указать на конкретные регионы, о которых идет речь. Существуют и другие индикаторы контента, по которым возможно локализовать информацию, в том числе, специфичные для сети Интернет. Таким образом, в случае, если на этапе обработки информации выделять геопространственный контекст (создание геопространственного индекса), а на этапе поиска - использовать геопространственные ограничения для поискового запроса, то это позволит существенно повысить качество поиска.
Далее было выяснено, насколько полно существующие поисковые инструменты в сети Интернет позволяют индексировать различные типы информации в области геоинформационной тематики. Рассматривались:
• крупные специализированные порталы по ГИС-тематике;
• каталоги Интернет-ресурсов;
• многоцелевые интернет-поисковые системы.
Анализ показал, что перечисленные средства обладают принципиальными недостатками, которые не позволяют достичь поиска с требуемым уровнем качества, заключающимся в полноте охвата информационных ресурсов, достоверности и актуальности информации. Данные инструменты покрывают только описательный, событийный и дискуссионный потоки. Остальные типы информации не индексируются, поэтому выполнять поиск по ним невозможно.
Тематические порталы, по причине ручного способа пополнения, имеют недостаточный охват Интернет-ресурсов и обычно слабую поисковую функциональность. Каталоги Интернет-ресурсов также формируются вручную и не предоставляют возможности полнотекстового поиска по веб-ресурсам. Интернет-поисковые системы являются универсальными, стремятся покрыть всю информацию, размещенную в Интернет, и по этой причине недостаточно полно индексируют ресурсы, долго переиндексируют изменения. Они не учитывают особенности геоинформацни: не выделяют геопространственный контекст вебстраниц, не индексируют файлы геоданных, онлайн-библиотеки, картографические онлайн-сервисы. Это связано и с большой нагрузкой на такие системы,
по причине которой их разработчики вынуждены отказаться от сложных методов обработки данных, которые могли бы повысить качество поиска.
В результате было определено, что специализированная поисковая Интернет-система, предназначенная для специалиста в области геоинформатики и смежных областей, должна выполнять следующие функции:
• искать веб-страницы, относящиеся к данной предметной области;
• искать информацию, размещенную в тематических базах данных и библиотеках, снабженных веб-интерфейсом;
• осуществлять поиск и оперативный контроль новостной информации (и другой информации событийного типа);
• находить файлы геопространственных данных;
• содержать информацию о перечне доступных картографических интернет-сервисов, которыми может воспользоваться специалист;
• осуществлять геокодирование веб-документов, на основании анализа геопространственного контекста информации.
При этом достигается цель покрытия максимально полного количества информационных источников в Интернете и контроль качества информации.
Анализ предлагаемых на рынке программных средств не выявил продукта, обеспечивающего комплексное решение поставленных задач. Поэтому было обосновано создание качественно новой информационно-поисковой системы (ИПС) для специалиста, связанного с разработкой и эксплуатацией ГИС.
Во второй главе проведено проектирование архитектуры информационно-поисковой Интернет-системы, отвечающей принципам ее построения, выявленным по итогам анализа предметной области в первой главе.
Архитектура системы нацелена на решение следующих задач:
1) каталогизация известных веб-ресурсов по ГИС-проблематике, обеспечение навигационного способа доступа к информационным источникам;
2) формирование коллекции веб-документов, в которую входят вебстраницы, принадлежащие Интернет-ресурсам каталога, а также другие
веб-страницы, относящиеся к предметной области, источник которых системе ранее был неизвестен.
3) определение геопространственного контекста веб-документов, помещаемых в коллекцию.
4) дополнение основного функционала специализированными сервисами: модулем интеграции оперативной новостной информации, модулем поиска файлов геопространственных данных, модулем доступа к электронным онлайн-библиотекам по тематике.
Разработанная архитектура системы изображена на рисунке 1.
Тематический Интернет-каталог
БД в .б-ресурсов
Рубрикатор в области геоинформационных технологий
Модуль индексирования веб-документов
Модуль поиска и отображения результатов
Модуль автоматической фильтрации и рубрицирования
Модуль определения геопространственного контекста
Обработка данных
Модуль поиска ссылок па файлы геопространственных данных
Веб-страницы
Новостные НРЛ-гтпянипм
Хранхтще данных
1 еопространст-
яр.нны^ плнные
Интегрированный поисковый интерфейс пользователя
Рис. 1. Архитектура информационно-поисковой Интернет-системы
Функции тематического каталога Интернет-ресурсов: • подборка качественных интернет-ресурсов, посвященных вопросам геоинформатики и смежных областей;
• многоаспектная (фасетная) классификация ресурсов;
• наличие структурированных метаописаний веб-ресурсов, по которым можно осуществлять их поиск и отбор;
• рентингование ресурсов.
По сути, каталог реализует навигационную парадигму поиска, когда пользователь, следуя рубрикатору, уточняет информационную потребность и ищет ресурс, который предположительно содержит нужную ему информацию.
Центральным компонентом системы является автоматически пополняемая коллекция веб-странин по геоинформационной тематике. Ее целью является предоставление посетителю системы возможности полнотекстового поиска информации по веб-документам, имеющим отношение к геоинформациониой и смежным тематикам. Пополнением коллекции занимаются интеллектуальные сетевые роботы (спайдеры) - специальные программные модули, которые посещают веб-ресурсы и скачивают размещенную на них информацию.
Первый тип спайдеров — «спайдеры каталога» посещают и помещают в коллекцию все веб-страиицы с ресурсов, входящих в Интернет-каталог. Тем самым решается задача полнотекстового поиска по известным информационным источникам. Другой тип спайдеров — «поисковые спайдеры» путем последовательного рекурсивного обхода Интернет-адресов "обследуют" остальную, /
большую часть Сети, находя в ней веб-страницы, релевантные геоинформациониой тематике. Таким образом, поисковая система охватывает информацию с ранее неизвестных Интернет-ресурсов (не включенных в каталог), но имеющую ценность для специалистов в рассматриваемых областях. Реализация «поисковых спайдеров» сложнее чем «спайдеров каталога», так как они определяют соответствие информации тематике, и имеют специализированную стратегию обхода Интернет-ресурсов, максимизирующую число релевантных веб-документов, обнаруживаемых в единицу времени.
После скачивания из сети Интернет, веб-страницы классифицируются согласно рубрикатору. Эту задачу решает модуль рубрицирования. который, анализируя текст веб-страницы, определяет рубрики, максимально близкие к ее
содержанию. В режиме поиска пользователь может совмещать полнотекстоаьш поиск по запросу и фильтрацию поисковых результатов по конкретной рубрике.
Модуль анализа геопространственного контекста локализует веб-документ на основании его текста. Для этой цели применяются особые базы данных — электронные газеттиры, которые позволяют соотносить топонимы (географические названия) с областью на базовой карте. Находя в тексте топонимы и используя такой газеттир, модуль пытается определить геопространственный контекст, выражаемый некоторой совокупностью областей на базовой карте, с указанием точных географических координат.
Иными словами, модуль строит геопространственный индекс для коллекции, который дополняет традиционный текстовый индекс. В режиме поиска два индекса используются совместно, и результаты поиска соответствуют как текстовому, так и пространственному запросу.
Указание пространственного запроса может осуществляться как в текстовом виде (отдельная строка для ввода топонимов, как указателей на локализацию поиска), либо на электронной карте.
Модуль поиска файлов геопространственных данных является дополнительным сервисом, имеющим большую важность для ГИС-специалиста. Цель модуля состоит в том, чтобы во время посещения веб-страниц сетевыми роботами, пополняющими коллекцию, осуществлять обнаружение на этих страницах ссылки на файлы геоданных. Найденные файлы скачиваются, помещаются в хранилище системы и становятся доступными для поиска.
Обнаружение геоданных осуществляется по расширению файлов, на которые указывает URL гиперссылки, например http://server.ru/data/map.shp. Модуль производит сравнение с наиболее распространенными типами файлов ГИС: в первую очередь стандартизованных форматов GeoTIFF и ESR1 Shapefile, а также с другими распространенными форматами (Mapinfo, ArcGIS, ГИС «Паиорама» и другими). Вследствие большого размера, файлы геодаиных обычно размещают в виде архивов (zip, rar и др.). Этот факт также должен учитываться модулем, так как данные форматы широко распространены в Сети.
Новостной интегратор по геоинформационной тематике предназначен для предоставления специалисту в области ГИС технологий средства оперативного мониторинга и анализа событийного информационного потока. Под новостной информацией здесь понимаются как непосредственно новости, так и анонсы семинаров, конференций, проектов, программного обеспечения, то есть любая информация, обладающая схожими характеристиками.
Высокая степень изменчивости новостной информации требует постоянного контроля изменений информационных источников. Поэтому требуется механизм, который бы постоянно опрашивал зарегистрированные в системе новостные каналы, извлекал обновления и предоставлял их пользователям системы в виде интегрированной тематической новостной ленты.
В настоящее время в Интернете получил широкое распространение RSS-формат обмена анонсами новостной информации, основанный на стандарте XML. RSS - это стандарт на представление анонсов новостей в структурированном виде. Любой новостной источник может реализовать представление своей новостной ленты в формате RSS и, тем самым, позволить сторонним системам удобно работать с данной лентой.
Однако анализ веб-ресурсов по геоинформатике и смежным областям показал крайне малое количество ресурсов, поддерживающих RSS. В связи с этим задачей модуля является сбор новостной информации как из RSS каналов, так и непосредственно с новостных разделов веб-ресурсов (путем прямого чтения кода веб-страницы), ее обработку и представление пользователю.
В виду того, что новость также является веб-документом, она помещается в коллекцию наряду с другими веб-документами, проходя процедуры фильтрации и рубрицирования. После сохранения в коллекции полные тексты новостей становятся доступными для осуществления полнотекстового поиска.
Модуль поиска в онлайн-библиотеках предназначен для поиска в так называемой скрытой части Интернет (hidden web). Особенностью этого типа информации является то, что она не может быть непосредственно считана с вебстраницы, а выдается посетителю только в ответ на заранее сформированный
поисковый запрос, с использованием интерфейса такой онлайн-бпблиотеки. Слайдеры не могут индексировать эту информацию, поскольку для этого требуется некоторым образом опрашивать данную БД.
Но в таких БД часто содержатся огромные массивы информации, важные для предметной области и специалистов. Перспективным является вариант ме-тапоиска, когда поисковый запрос пользователя унифицируется и направляется на несколько таких онлайн-библиотек, а поисковые результаты от каждой из них объединяются и представляются пользователю единым списком.
Взаимодействие пользователя с информационно-поисковой системой осуществляется при помощи интегрированного поискового интерфейса. Сформулировав свою информационную потребность, пользователь запускает механизм поиска по всем типам данных: Интернет-каталогу, коллекции веб-документов, файлам геоданных, новостной информации. Такая портальная организация работы с системой позволяет одновременно познакомиться с различной информацией, отвечающей информационной потребности, не проводя несколько итераций поиска по разным типам данных.
Третья глава посвящена проектированию моделей и алгоритмов реализации компонентов специализированной информациоино-понсковой системы.
В проектировании Интернет-каталога первоначально требовалось определить структуру рубрикатора информации. Для этого были проанализированы рубрикаторы крупных порталов по геоинформационной и смежным тематикам, а также анализ информационного поля, проведенный в главе 1. Каждый ресурс в каталоге может относиться к нескольким рубрикам.
Рубрики верхнего уровня выглядят следующим образом:
• ГИС • GPS
• Геодезия • Образование и наука
• Землеустройство • Организации/власти/комитеты
• Картография • Власть/комитеты
Была разработана карточка метаописания ресурса, в соответствии с требованиями стандарта на описание информационных источников - Dublin Core
Metadata Set (DC). Основные поля метаописания: URL, наименование, аннотация, создатели/владельцы, доступ, авторские права, язык, доступность.
Разработаны процедуры регистрации ресурсов в каталоге: составление заявки на регистрацию, рассмотрение заявок администратором каталога, принятие решения по заявке. Для принятия решения по включению конкретного ресурса в каталог администратор оценивает качество ресурса, заключающегося в удовлетворении ряду требований качественного, количественного характера, эргономичности ресурса, подробно перечисленных в тексте диссертации.
Была произведена разработка интерфейса каталога, дающего возможность выполнения всех операций при работе с каталогом, как пользователям каталога, так и его администраторам.
Для рейтингования ресурсов в каталоге используется анализ их посещаемости, для чего на каждый веб-сайт предполагается устанавливать специальный html-код (счётчик). Рейтингование помогает пользователям в оценке авторитетности ресурса и, соответственно, качества получаемой информации.
Разработка коллекции веб-документов составила основу проектирования системы. Принципиальным вопросом явилась разработка модуля пополнения коллекции веб-страницами по указанной тематике, размещенными в Интернет.
Модуль пополнения должен обеспечивать:
• фильтрацию веб-страниц, нерелевантных предметной области, с целью формирования коллекции только из "полезных" страниц;
• сфокусированный обход Интернет-ресурсов, направленный на посещение в единицу времени максимального количества полезных страниц, поскольку, вследствие огромного размера Интернет, посещение всех веб-страпиц не представляется возможным.
>
Для сканирования сети Интернет применяются специальные сетевые роботы (спайдеры). Это программы, которые путем рекурсивного обхода веб-ресурсов по гиперссылкам считывают содержимое веб-страниц, очищают их от разметки, выделяют чистый текст, гиперссылки на странице и сохраняют информацию в некую БД. Важный атрибут спайдера — это применяемая стратегия
обхода, то есть критерий выбора следующего ресурса для посещения из множества уже обнаруженных роботом, по еще не посещенных ресурсов.
Критерий выбора определяется задачей робота. В нашем случае требуется спайдер, имеющий целью сбор в первую очередь тех страниц, которые относятся к геоинформационной тематике. Следовательно, ранжирование ссылок в очереди спайдера должно опираться на оценку потенциальной релевантности конкретного URL адреса для системы.
Перед поисковыми роботами стояли две задачи:
• индексирование веб-ресурсов каталога (известных системе ресурсов);
• индексирование веб-страниц на ресурсах вне каталога (неизвестных).
Первую задачу в модуле пополнения коллекции решает спайдер каталога,
а вторую - поисковые слайдеры. Спайдер каталога, в качестве стартовых адресов, принимает адреса главных страниц веб-ресурсов из Интернет-каталога.
Спайдер каталога использует простейшую стратегию обхода «в глубину», ссылки посещаются в том порядке, в каком они были обнаружены па вебстраницах. Поскольку данные ресурсы считаются априорно релевантными, то и веб-страницы, принадлежащие им, также считаются "полезными" для системы. Таким образом, спайдер каталога не выполняет фильтрацию страниц и управление очередью, что повышает его производительность. Это позволяет чаще переиндексировать каталог и поддерживать актуальность индекса.
Поисковые спайдеры запускаются от каждой рубрики каталога, имеют задачу сбора веб-страниц, относящихся к своей рубрике, и в качестве стартовых URL принимают все внешние ссылки, найденные слайдерами каталога для веб-ресурсов из этой рубрики. Поисковый спайдер имеет специализированную стратегию обхода, основанную па том, что каждый URL в очереди непосещен-ных ссылок принимает оценку, заключающуюся в его потенциальной полезности для рубрики, в рамках которой работает робот. Оценки постоянно пересчн-тываются под влиянием новых документов, посещаемых слайдером, а очередь ранжируется в порядке убывания оценок. То есть, спайдер в первую очередь посещает страницы с максимальной оценкой релевантности для рубрики.
Модуль оценки релевантности
I
Посещенные ЦЯЬ
Коллекция веб-страниц
Фильтр и рубрикатор коллекции
Непосещенпые ОК!.
1
Модуль переиндексирования Управление очередью
Рис. 2. Архитектура поискового сетевого робота (слайдера)
Поисковый спайдер выполняет грубую фильтрацию веб-документов, поскольку применение сложных фильтров существенно снизит производительность робота и всего модуля в целом. Окончательная фильтрация веб-страниц осуществляется рубрикатором на входе в коллекцию, а оценка робота рассматривается как рекомендация.
Оценка релевантности страницы основана на вычислении расстояний в рамках векторной модели информационного поиска. Робот получает тематический фильтр, а каждая посещаемая им веб-страница представляется профайлом. Тематический фильтр представляет собой вектор пар (I, М): термов / и их значимости в рамках рубрики, от которой запускается спайдер Ш. Профайл также представляется вектором пар ((, 1%р): термов / и частот их использования на странице ¥1,р. Оценка релевантности рассматриваемой • веб-страницы к заданной рубрике определяется по формуле Щр) = ^ ^.р ' ¡К • Документ считается
1
релевантным, если оценка превышает порог рекомендации Ь, т.е. Я(р) > £.
Фильтр, которым обладает спайдер, может уточняться под влиянием более точных оценок, которые формирует рубрикатор на входе в коллекцию. Для этого применяется механизм обратной связи между коллекцией и спайдером.
Стратегия обхода поискового слайдера основана на оценке потенциальной релеватности URL из очереди непосещенных ссылок, по отношению рубрике. Оценка базируется на особенностях ссылочной связи в сети Интернет.
• Механизм ссылочной связи ресурсов содержит тематическую связь. Если есть ссылка со страницы А на страницу В, то значит автор А рекомендует В на основании ее тематической близости и авторитетности.
• Если страница А имеет ссылку на страницы В и С, то тематика страниц В и С имеют тенденцию быть схожей, причем их схожесть обратно пропорциональна близости размещенных на них ссылок на странице А.
Таким образом, оценка URL зависит от релевантности страниц, имеющих с этим URL ссылочную связь. Очередь непосещенных ссылок постоянно модифицируется под влиянием информации, которую получает робот из новой посещенной веб-страницы. Модификация заключается в добавлении в очередь новых, ранее неизвестных роботу URL, а также пересчете оценок полезности других URL в очереди, имеющих связь с текущей страницей.
Рис. 3. Рубрикация на входе в коллекцию
Финальной частью проектирования коллекции явилась разработка модуля автоматической рубрикации веб-страниц. Для каждого попадающего в коллекцию веб-документа модуль определяет набор близких к его тематике рубрик. Рубрикация совмещена с фильтрацией. Документ, не отнесенный ни к одной рубрике, считается нерелевантным и в коллекцию не включается.
Был проведен анализ существующих методов машинной классификации текстов, и было принято решение об использовании вероятностного метода РгТРГОР, являющегося совершенствованием наивного байесовского классифи-
катора. Байесовские классификаторы отличаются очень высокой производительностью, что дает возможность классифицировать поступающие в систему потоки документов "на лету". РгТТГОР обеспечивает приемлемые результаты по точности, хотя и уступает ряду других, более сложных методов, требующих значительных вычислительных затрат. Также учитывалась необходимость фильтрации информации, что не позволяет использовать некоторые методы.
Суть метода заключается в предсказании апостериорной вероятности принадлежности конкретного документа (представляемого в виде вектора признаков - термов), на основании априорных вероятностей принадлежности документа к рубрикам и статистики термов, характерных для конкретной рубрики. Для определения апостериорной вероятности применяется формула Байеса. В алгоритме РгТРГОР применяются несколько отличные от метода Байеса способы аппроксимации вероятностей отношения документов к рубрикам:
с = аг8 тах Р(с ¿) = аг8 тах У •
с'еС
где ТР(м>,(1) - частота вхождения слова и» в документ <!, |(/| - общее количество слов в документе.
Вероятности рассчитываются отдельно для каждой категории, и принимается решение, принадлежит документ категории или нет (бинарная классификация). При этом множество рубрик С сокращается до двух —с, и с,, в которую входят все документы, не вошедшие в с, .Для вычисления вероятностей используется процесс обучения, во время которого анализируются заранее классифицированные документы и происходит вычисление априорных вероятностей, связанных со значимостью термов. Обучение представляет собой вычис-
А
ление всех возможных Р(н>|с,)на основе обучающей выборки документов.
В разработке модуля геопространственных данных ключевое значение имело решение вопроса распознавания файлов геоданных, размещенных в виде архивов. Для этого обнаружитель геоданных проверяет текстовую составляю-
щую гиперссылки (текст якоря и текст "вблизи" ссылки). Если в ней встречаются слова: «карта», «снимок», «масштаб», «местности», указание формата геоданиых, цифровое обозначение масштаба и ряд других индикаторов, то ссылка считается кандидатом в геоданные, а файл сохраняется на сервер.
Далее происходит разархивироваиие и определение формата фапла(ов) в архиве. Если геоданных в архиве не обнаружено, карточка файла удаляется из системы. "Положительные" карточки сохраняются в системе и становятся доступными для поиска по аннотациопной составляющей. Файлы геоданиых скачиваются с удаленных серверов в специальную директорию системы. Дополнительно модуль содержит функционал обнаружения копий файлов геоданиых, чтобы избежать их сохранения в системе в разных карточках.
Псевдокод алгоритма работы модуля выглядит следующим образом:
Алгоритм обнаружителя геоданиых (а составе сетевых роботов) FOR по каждой гиперссылке, обнаруженной на веб-странице:
a. Ссылка указывает на файл геоданных? {по расширению файла);
GOTO (с) ;
b. Ссылка указывает на файл-архив (zip, гаг)?
1. Получить текст якоря ссылки, текст ALT, текст абзаца, в котором расположена ссылка;
2. В указанных текстах обнаружены слова-индикаторы?
GOTO (с);
c. Создать карточку файла геоданных в БД.
Алгоритм загрузчика геоданиых (отдельный модуль, работающий по расписанию) FOR по каждой новой карточке, обнаруженной в БД;
a. Скачать файл, по ссылке указанный в карточке;
b. Карточка-кандидат (архивный файл)?
]. Распаковать архив;
2. Архив содержит файлы reoданных? (по расширению) GOTO (с);
c. Такой файл уже есть в хранилище? (проверка на копию)
Удалить файл и карточку из БД; CONTINUE;
d. поместить файл(ы), связанный(е) с карточкой в хранилище;
e. включить в карточку информацию о файле;
£, проиндексировать текстовую составляющую карточки;
Разработка методик анализа геопространственного контекста информации и геокодирования веб-документов осталась за рамками диссертационного исследования, как по причине ограниченности времени, так и по причине сложности реализации методик. Как уже отмечалось, для проведения геокодирования нужны специальные базы данных: электронные газеттиры. Но в настоящее время отсутствует сколь либо полный электронный русскоязычный га-зеттир, хотя на Западе подобные БД существуют, причем некоторые из них — в открытом доступе. Во многом по этой причине в российской науке направление GIR (Geographie Information Retrieval) на сегодняшний день развито крайне недостаточно. Проблемы геокодирования подробно рассмотрены автором в работе [1] и являются предметом дальнейших комплексных исследований.
Следующим этапом явилась разработка новостного интегратора. Предложен механизм шаблонов, позволяющий выполнять сбор анонсов новостной информации как Из RSS каналов, так и непосредственно путем чтения кода вебстраниц новостных разделов. В системе регистрируется набор новостных каналов, имеющих отношение к геоинформационпой тематике, на каждый канал настраивается шаблон, определяющий формат представления данных в канале.
Пример шаблона выглядит следующим образом:
<channel>
<channel_url>http://www.gisa.ru/</channöl_url>
<begin><?php Snbsp;&пЬзр;Последние новости ! <\/td>?X/begin>
<end><?php snbsp; Hamw предложения <\/td>?x/end>
<regexp><?php <A hre£= (. *?) ><B>. *?<\/B> (. *? ) <\/AXBR>?X/regexp>
<number>l 0</mimber>
<order><?php url title?x/ordaz>
<addurl>http://www.gisa.ru/</addurl>
</char.nel>.
В данном примере шаблон настроен на получение новостей непосредственно с веб-страниц и содержит html-маски, отражающие начало и завершение новостного блока, а также непосредственно маску регулярного выражения, по которому будет производиться преобразование информации в структурированный вид. По аналогии, можно настроить подобный шаблон практически на любую веб-страницу с новостной лентой, или любой RSS канал, поскольку новостные ленты в обоих случаях характеризуются повторяемостью элементов.
Псевдокод алгоритма работы модуля выглядит следующим образом:
FOR по каждому зарегистрированному в системе новостному каналу:
a. Обратиться по адресу в <channel_url>;
b. Получить фрагмент кода веб-страницы между <begin> и <end>;
c. Осуществить парсинг фрагмента на основе регулярного выражения, построенного на выражении в <regexp>. Получить <number> элементов. Сохранить Значения, соответствующие маске (.*?) в массив;
d. Связать значения массива (в порядке обнаружения) с типом данных, указанным в <order>;
e. Подсчитать md5sum для текста заголовка и анонса;
f. Новость с таким Значением уже имеется? CONTINUE;
ELSE Сохранить анонс новости в таблицу анонсов;
д. Обратиться по URL с полным текстом новости, считать веб страницу и передать в коллекцию.
Распознанные анонсы новостей сохраняются в виде агрегированной новостной ленты, с которой могут работать пользователи системы. Для получения полных текстов новостей специальный новостной спайдер посещает вебстраницу с текстом новости, скачивает ее и помещает в веб-коллекцию, как обычный веб-документ, но с отметкой «новость». Такие веб-документы специалист может искать в специальном модуле системы - поиску по новостям.
Создание новостного интегратора обычно сопряжено с проблемами повторения новостей в различных новостных каналах. Для решения используют методики выделения новостных сюжетов (кластеризации новостей), аннотирования сюжетов, ранжирование новостей в сюжете. Но в виду узости геоннфор-мационной тематики и сравнительно небольшого количества доступных новостных источников, проблема не является острой и поэтому не рассматривалась в ходе проектирования.
Разработка модуля поиска в онлапн-библиотеках не проводилась в данном диссертационном исследовании, в виду особой сложности решения задачи и ограниченности времени на проектирование. Исследования по индексированию «скрытого веб» продолжаются в настоящее время, и ученые сталкиваются со значительными трудностями в реализации.
В диссертационной работе принято решение ограничиться созданием специального раздела, в котором будут содержаться ссылки на такие онлайн-
библиотеки вместе с описательной информацией. В случае необходимости, посетитель просто перейдет к нужной БД и осуществит поиск.
В четвертой главе представлены результаты экспериментальных исследований компонентов информационно-поисковой системы.
Для проведения экспериментов была осуществлена реализация ИПС л программных кодах. Аппаратной частью являлся сервер на базе ПК Р4 3200МГЦ/1024Мб ОЗУ, с доступом в Интернет. В качестве программной платформы были выбраны: операционная система Linux Red Hat, веб-сервер Apache 1.3, СУБД MySQL и язык веб-программирования PHP. Отношение программного обеспечения к классу OpenSource позволяет снизить затраты на практическую реализацию системы.
GeaíníoScotch -отрасясаая с«ецнв*н»ироааыма> natiúaiñ система: геоасэка. ГИС. картография. 'sе - Migo«Ун Internet E^I^'^^lf^IP-Ö]
..—■ ;. _• • ' . ;'. • . ■. --У • '•■• • • . ■•, . .Jt
хл^п/^ш«^/ """ "j*! i Rndn ( 3 ,Рнайти1 £Сп/»<6м ¿J^totc^
GeolnfoSearch
E
КАТАЛОГ ИНТЕРНЕТ-РЕСУРСОВ
ЕШ
ГИС a.iiafc(t дня 1 иг.
Землеустройство
ООоадованна и наука
Научны« кчыгил tllim ШГЯы |Д> п паа ян .|ишмм
МИИГАиК, кафадра иэиериталаных систем. 2006 É maü.
Рис. 4. Поисковый интерфейс системы
Проведенные эксперименты показали соответствие полученных практических результатов разработанным моделям и алгоритмам модулей системы: 1. Функционал Интернет-каталога отвечал всем предъявляемым требованиям, позволяя эффективно использовать каталог и управлять им.
Оценка рейтинга ресурса путем анализа посещаемости также показала корректность получаемых данных для тестовых ресурсов, в сравнении с показаниями других внутренних и внешних систем статистики.
2. Целыо эксперимента с модулем поиска геоданных явилось выявление на веб-страницах, собранных в коллекцию, ссылок на файлы геоданпых. Модуль анализа успешно смог выделить геоданные с реальных Интернет-страниц: как размещенных в обычном виде, так и в виде архивов.
3. Эксперименты с новостным интегратором подтвердили работоспособность шаблонов новостных каналов, механизмов формирования новостной лепты, выделения новостей-дублей, скачивания полных текстов новостей.
4. Наиболее важным экспериментом системы являлось исследование качества фильтрации и классификации веб-документов.
Классификатор был обучен на наборе из 8020 заранее классифицированных веб-страниц. Классификации подверглась выборка из 5687 веб-страниц. Проверка результатов рубрицнрования показала, что средняя ошибка по рубрикам составила порядка 22%, и было доказано, что точность классификации линейно возрастает с увеличением обучающей выборки. Таким образом, была установлена работоспособность метода для классификации, при условии его обучения на достаточном количестве документов.
5. Была произведена сравнительная оценка релевантности поисковых результатов. в сравнении с результатами поисковой системы Яндекс. Для эксперимента были подготовлены 25 тестовых запросов по тематике использования GPS в ГИС, и анализировались ответы поисковых систем (первые 10 результатов). Использовалась 4х ступенчатая градация оценки поисковых результатов (от 0 до 4) по степени релевантности запросу.
Использовались следующие критерии оценки: средняя точность результатов (Average Precision - АР) и обесцениваемая совокупная выгода (Discounted Cumulative Gain - DCG) от поисковых результатов. Данные оценки являются достаточно распространенными критериями оценки качества результатов информационного поиска. АР отражает долю релевантной информации по конкретной тематике (рубрике) в списке результатов, a DCG - насколько хорошие результаты вернула система (согласно 4м уровням оценки качества), и насколько качественно было проведено их ранжирование.
Для разработанной системы анализировались два варианта поиска: с ограничением поиска по конкретной рубрике (GPS), и без ограничения.
Несмотря на то, что наиболее высокие результаты были показаны системой Яндекс (АР = 0,38, DCG=0,59), качество поиска в разработанной системе было близким (АР=0,33, DCG=0,51). Полученная оценка обусловлена тем, что система работала в тестовом режиме, и в коллекцию было собрано сравнительно малое количество веб-документов (13236), что несопоставимо с размерами индекса крупной поисковой системы. Также было отмечено, что фильтрация результатов поиска конкретной рубрикой положительно влияет на качество поиска (АР=0,35, DCG=0,55), что доказывает верность теоретических предпосылок применения в системе автоматического рубрикатора.
В заключении подведены итоги проделанной работы, сформулированы
основные результаты и направления дальнейших исследований.
СПИСОК ОПУБЛИКОВАННЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Рябинков А.И. Повышение эффективности поиска в сети Интернет путем анализа геогтространственного контекста веб-страниц И Информационные технологии. — Москва, 2005. №11, стр. 11.
2. Рябинков А.И. Принципы создания специализированного информационно-поискового портала в сети Интернет в области геоинформатики и ГИС-технологий // Сборник трудов 61й научно-технической конференции МИИ-ГАиК. - Москва, 2006, стр. 71-80.
3. Рябинков А.И. Принципы создания специализированного сервиса для поиска геопространственных данных в сети Интернет // «Известия высших \ учебных заведений. Геодезия и аэрофотосъемка», Москва, 2006. №6, стр.
177- 187.
Подписано в печать 17.11.2006. Гарнитура Тайме Формат 601 90/8. Бумага офсетная. Печать офсетная.
Печ. л. 1,5 Тираж 80 экз. Заказ № 254 Цена договорная
Отпечатано в УПП «Репрография» МИИГАиК 105064, Москва, Гороховский пер., 4
Содержание диссертации, кандидата технических наук, Рябинков, Артем Иванович
ВВЕДЕНИЕ.
1 АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ И ПОСТАНОВКА ЗАДАЧ
ИССЛЕДОВАНИЯ.
1.1 Проблема поиска информации в сети Интернет.
1.2 Анализ Интернет-источников информации в области геоинформационных технологий.
1.3 Анализ существующих Интернет-поисковых инструментов для ГИС-специалиста.
1.4 Определение требований к эффективной информационно-поисковой системе по геоинформационной тематике.
1.5 Выбор типа специализированной поисковой системы.
1.6 Анализ инструментов создания специализированных систем на базе сбора коллекции документов из сети Интернет.
1.7 Постановка задач исследования.
1.8 Выводы к главе 1.
2 ПРОЕКТИРОВАНИЕ АРХИТЕКТУРЫ СПЕЦИАЛИЗИРОВАННОЙ
ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЫ.
2.1 Проектирование каталога Интернет-ресурсов в области геоинформатики и смежных областей.
2.2 Проектирование коллекции веб-документов.
2.3 Разработка методики пополнения коллекции веб-документами с неизвестных Интернет-ресурсов.
2.4 Разработка методики фильтрация и рубрикации документов на входе в коллекцию.
2.5 Анализ геопространственного контекста веб-документов на входе в коллекцию.
2.5.1 Геопространственный контекст информации и его значение.
2.5.2 Методы определения геопространственного контекста.
2.5.3 Пространственные поисковые запросы в информационно-поисковой системе.
2.6 Проектирование интегратора новостной информации.
2.7 Проектирование методики поиска информации в тематических онлайн-библиотеках.
2.8 Проектирование методики поиска в сети Интернет файлов геопространственных данных.
2.8.1 Форматы и размещение геоданных на веб-ресурсах.
2.8.2 Распознавание файлов геоданных.
2.9 Интегрированный поисковый интерфейс системы.
2.10 Структурная схема ИПС.
2.11 Выводы к главе 2.
3 РЕАЛИЗАЦИЯ МОДУЛЕЙ ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЫ.
3.1 Создание каталога Интернет-ресурсов в области геоинформационных технологий.
3.1.1 Разработка структуры рубрикатора.
3.1.2 Разработка структуры метаописания ресурса в каталоге.
3.1.3 Разработка процедуры включения ресурсов в каталог и нормативов для модератора каталога.
3.1.4 Разработка пользовательского интерфейса каталога.
3.1.5 Разработка административного интерфейса каталога.
3.1.6 Разработка функционала рейтингования ресурсов и отображения рейтингов.
3.1.7 Разработка функционала проверки работоспособности ресурсов.
3.2 Разработка тематической коллекции веб-документов и алгоритмов ее пополнения.
3.2.1 Разработка архитектуры сетевых роботов.
3.2.2 Разработка методики оценки релевантности веб-страницы.
3.2.3 Разработка стратегии обхода поисковых слайдеров.
3.3 Разработка модуля фильтрации и рубрикации документов на входе в коллекцию.
3.3.1 Методы автоматической классификации информации.
3.3.2 Применение метода PrTFIDF для автоматического рубрицирования документов в веб-коллекции.
3.4 Модуль анализа геопространственного контекста веб-документов.
3.5 Создание модуля интеграции новостных потоков (агрегатора).
3.5.1 Считывание заголовков новостей в формате RSS.
3.5.2 Считывание заголовков новостей напрямую с веб-страниц.
3.5.3 Скачивание, фильтрация и рубрикация текстов новостей.
3.5.4 Обработка новостного потока.
3.6 Модуль поиска в онлайн-библиотеках.
3.7 Разработка модуля поиска геопространственных данных.
3.8 Разработка поисковой машины.
3.9 Выводы к главе 3.
4 ПРОВЕДЕНИЕ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ ПОИСКОВОЙ СИСТЕМЫ.
4.1 Платформа реализации и инструментальные средства.
4.2 Реализация модулей системы для проведения экспериментальных исследований.
4.2.1 Структура ИПС.
4.2.2 Интернет-каталог.
4.2.3 Коллекция веб-документов.
4.2.4 Новостной интегратор.
4.2.5 Рубрикатор информации.
4.2.6 Коллекция геоданных.
4.2.7 Интегрированный поисковый интерфейс системы.
4.3 Экспериментальное исследование модуля «Интернет-каталог».
4.4 Экспериментальное исследование модуля «Новостной интегратор».
4.5 Экспериментальное исследование модуля поиска геоданных.
4.6 Экспериментальное исследование модуля рубрицирования.
4.6.1 Описание эксперимента.
4.6.2 Анализ результатов эксперимента.
4.7 Исследование эффективности поискового спайдера.
4.8 Исследование качества поиска в коллекции веб-документов.
4.8.1 Описание эксперимента.
4.8.2 Критерии оценки точности поиска.
4.8.3 Анализ результатов эксперимента.
4.9 Выводы к главе 4.
Введение Диссертация по наукам о земле, на тему "Разработка принципов создания информационно-поисковой Интернет-системы в области наук о Земле"
Колоссальные объемы информации во всех сферах человеческой жизнедеятельности обусловили высокую значимость и актуальность исследований, посвященных информационному поиску. Бурное развитие сети Интернет позволило предоставить специалистам унифицированный доступ к источникам информации по всему миру, существенно расширило возможности исследователей, нуждающихся в информационных ресурсах для практической и научной работы. Но при этом обнажилась очень острая проблема: объем производимой и поставляемой в Сеть информации значительно превышает существующие возможности по ее надлежащей обработке и поиску. Результаты, выдаваемые поисковыми системами Интернета, зашумлены огромным количеством ссылок на материалы, которые формально релевантны запросу, но на деле не имеют отношения к стоявшей информационной потребности. В итоге чтобы обнаружить нужные документы пользователь вынужден тратить большое количество времени на просмотр совершено не нужной ему информации.
Эти явления отразились и на науках о Земле. Интернет позволил предоставить большим группам исследователей и специалистов огромные массивы текстовых, графических и мультимедиа-данных. Но вследствие отмеченных проблем с поиском в Интернет, эффективность их использования по-прежнему низка. В развитии геоинформатики как одной из перспективных сфер научной деятельности, входящей в состав комплекса наук о Земле, очень остро стоит вопрос по разработке эффективных методов доступа к распределенным информационным ресурсам по наукам о Земле и природопользованию [3].
Сегодня перспективным способом интеграции данных по определенной проблематике, которые размещены в сети Интернет, является построение специализированных тематических порталов. В такой портал собирается информация из большого количества информационных источников, унифицируется, классифицируется и предоставляется пользователю посредством стандартизированного веб-интерфейса. Методология создания тематических порталов активно прорабатывается различными исследователями. Разработано множество решений на базе применения различных технологий сбора, обработки и представления данных пользователю. Кроме того, по многим предметным областям, есть конкретные рекомендации по составу информации и сервисам, которые портал предоставляет посетителям. В области наук о Земле такие ресурсы также существуют, но их количество явно недостаточное.
Однако тематический портал по своей идеологии нельзя отнести к классу поисковых машин. Несмотря на то, что в нем собрана информация из множества источников, в том числе и из Интернет-ресурсов, есть качественный рубрикатор информации, имеется поиск по коллекции собранных данных, практически вся информация собирается вручную, что подразумевает два основных недостатка такого подхода. Во-первых, вследствие ручной обработки информации, поддержание таких порталов требует большого объема материальных и людских ресурсов. Во-вторых, по этой же причине говорить о полноте покрытия информационных источников в Интернет не приходится, так как информация в Интернет обладает высокой изменчивостью, которую вручную очень сложно отражать на портале.
Требуются автоматические методы пополнения коллекции данных тематического портала из Интернет-источников. Автоматически собранные данные далее могут быть проанализированы, систематизированы и включены в структурированном виде в рубрикатор портала, но до этого момента, пользователи системы могут найти эту информацию и работать с ней.
Необходимо отметить, что автоматические методы поиска информации в Интернете, ее фильтрации, классификации, упоминались рядом исследователей (НИВЦ МГУ, ГНИИ ИТТ "Информика"), но полноценные исследования этого вопроса не производились, а текущие решения носят половинчатый характер. В частности, некоторые образовательные порталы в домене www.edu.ru индексируют веб-ресурсы, но только те, которые включены в каталог портала. То есть если информационный источник неизвестен группе обслуживания портала, то информация о нем не будет проиндексирована и доступна пользователям [17]. Это не решает проблему обеспечения полноты представления информационных источников по предметной области.
Применительно к геоинформационной тематике (входящей в состав наук о Земле), таких крупных порталов насчитываются единицы, причем ни один из них не содержит средств автоматического поиска в Интернет информации, релевантной тематике. Все порталы создавались стихийно без четко проработанной методологии. Отсутствует как теория комплексного решения данной задачи, так и практические наработки. Организация поиска в Интернете информации по геоинформатике и смежным областям и пополнения ею интегрированного информационно-поискового портала в области геоинформационных технологий и составляет суть диссертационной работы.
Ряд научных исследований в поисковой науке уже посвящались проработке методологии решения задач подобного класса [21, 36, 37, 38,40, 71]. Идея решений заключалась в создании Интернет-поисковых машин с типичной для таких систем архитектурой, но алгоритмами, учитывающими тематический контекст информации. Такие системы получили названия специализированных (вертикальных) поисковых машин. Цель такой системы заключается в направленном рекурсивном обходе наиболее интересных для тематики сетевых ресурсов и индексировании таких веб-страниц, которые содержат информацию, относящуюся к данной предметной области. Важнейшим компонентом таких систем является подсистема фильтрации, которая в автоматическом режиме определяет соответствие информации заданной тематике.
Однако предлагаемые поисковые методы в основном слишком универсальны, чтобы можно было говорить об их применимости для построения любой специализированной поисковой системы. Эффективность от их применения в общем случае зависит от предметной области. В частности, в документах по наукам о Земле большое значение имеет геопространственный контекст информации [24, 53, 55, 57, 72], тексты изобилуют упоминанием топонимов [4]. Также в сфере информационного поиска обычно рассматриваются вопросы поиска текстовых документов, тогда как, для ГИС-специалиста полезным является поиск в Интернете геопространственных данных [26].
Поэтому для решения задачи создания специализированной поисковой системы в области геоинформационных технологий, как составной части наук о Земле, необходимы комплексные исследования, учитывающие специфику предметной области, типы информационных источников и данных, которые используются специалистами, а также множество других факторов.
Целью работы является разработка принципов создания специализированной информационно-поисковой Интернет-системы для специалиста в области геоинформатики и смежных научных областей.
В основе работы лежит проектирование автоматизированных поисковых сервисов, осуществляющих поиск в Интернет информационных источников по геоинформационной тематике, сбор с них информации, ее обработку и предоставление пользователю. На базе совокупности этих сервисов может быть реализован интегрированный портал, либо эти сервисы могут дополнять функциональность уже существующих порталов, обеспечивая возможность оперативного поиска информации по многочисленным тематическим Интернет-ресурсам. Для достижения поставленной цели в работе рассматривается достаточно широкий спектр задач.
1) Анализ информации по геоинформационной тематике, размещенной в сети Интернет.
2) Создание тематического каталога Интернет-ресурсов в области геоинформационных и смежных технологий.
3) Поиск в сети Интернет веб-страниц по геоинформационной и смежным тематикам, их сбор в хранилище и предоставление пользователю возможность поиска по собранной коллекции данных.
4) Создание сервиса поиска в сети Интернет файлов геопространственных данных.
5) Предоставление пользователю возможности поиска информации в он-лайн-библиотеках документов, относящихся к предметной области.
6) Снабжение специалиста оперативной новостной информацией по геоинформационной и смежным тематикам, при помощи создания тематического новостного интегратора. Сужение предметной области до геоинформационной тематики продиктовано тем, что комплекс наук о Земле является очень большим и сложным по составу, и предложено апробировать методику создания тематической поисковой системы на одной из наук, после чего результаты исследований могут быть применены и к другим предметным областям (геологии, астрономии и т.п.). На защиту выносятся следующие результаты:
1) проведен анализ структуры и способов представления информации в области геоинформатики и смежных областей, размещенной в сети Интернет, на основании которого выработаны требования к эффективной специализированной поисковой системе;
2) разработана архитектура информационно-поискового портала в области геоинформатики и смежных областей;
3) разработаны модели и алгоритмы работы основных модулей системы: тематической коллекции веб-документов и модулей ее пополнения, тематического новостного интегратора, модуля поиска файлов геопространственных данных для последующего использования в ГИС-системах;
4) проведены экспериментальные исследования, подтверждающие работоспособность и эффективность модулей разработанной системы.
Научная новизна полученных результатов:
Основная научная новизна диссертации заключается в проработке методологической базы для создания специализированной поисковой Интернет-системы в области геоинформатики и смежных областей, входящих в комплекс наук о Земле, при условии отсутствия в настоящее время подобных комплексных разработок.
Составляющие научной новизны заключаются в следующем.
1) Разработка требований к информационно-поисковой системе на основе анализа структуры информации в области геоинформационных и смежных технологий.
2) Разработка моделей и алгоритмов модулей системы: каталога Интернет-ресурсов, модуля сбора тематически релевантных веб-страниц, модуля поиска геоданных, новостного интегратора.
3) Создание методики взаимодействия компонентов системы, обмена данными и выдачи поисковых результатов пользователю.
Практическая значимость результатов диссертационной работы состоит в том, что реализация информационно-поисковой системы на базе разработанной методологии позволит существенно сократить время поиска нужной информации для специалиста в области геоинформатики и ГИС-технологий. Это в свою очередь поможет специалистам и исследователям сократить сроки работ, избежать дублирования информации и ненужных усилий по разработке уже существующих способов и методов выполнения своих задач.
Результаты исследований в данной работе могут быть с рядом модификаций приложены к другим наукам о Земле: геологии, экологии, астрономии и т.п. Практическая значимость диссертации подтверждается актами о внедрении результатов исследования на кафедре информационно-измерительных систем Московского государственного университета геодезии и картографии.
Диссертация состоит из введения, четырех глав, заключения, списка литературы и четырех приложений.
Заключение Диссертация по теме "Геоинформатика", Рябинков, Артем Иванович
4.9 Выводы к главе 4
Результаты экспериментальных исследований успешно подтвердили выдвинутые ранее теоретические положения. Тестирование программной реализации разработанного метода и алгоритмов показало достаточную точность и корректность полученных значений.
В итоге показана работоспособность системы в данной реализации, предназаченной для формирования коллекции информации по геоинформационной и смежным тематикам.
Вместе с тем, стоит отметить сложность оценки полученных результатов, поскольку для этого требуются достаточно большие наборы экспериментальных данных (тестовые дорожки), на которых требуется осуществлять прогон методов обработки информации. Поэтому детальное исследование вопросов эффективности применяемых методов является предметом дальнейших экспериментов. Тем не менее, полученные экспериментальные результаты позволяют судить о потенциально высоких результатах ИПС.
ЗАКЛЮЧЕНИЕ
В работе рассмотрены теоретические и практические вопросы построения специализированной информационно-поисковой Интернет-системы в области геоинформатики, как составной части наук о Земле.
Разработаны: архитектура информационно-поисковой системы, модели и алгоритмы работы ее компонентов, позволяющих осуществлять поиск специализированной информации в сети Интернет, ее сбор и обработку, заключающуюся в фильтрации нерелевантного контента, интеграции новостных потоков, сохранения файлов геоданных
Архитектурные компоненты ИПС позволяют предоставить специалисту в области геоинформатики и смежных областей знаний средство оперативного доступа к качественной и актуальной информации, необходимой для работы.
Предложенные алгоритмы реализации модулей системы при проведении экспериментальных исследований продемонстрировали свою эффективность и пригодность для решения поставленных задач. Кроме того, было обосновано постепенное повышение эффективности всей системы в целом в процессе пополнения ее информацией из Интернет, обучением методов на более качественную фильтрацию и поиск контента.
Приведенную в диссертационном исследовании схему анализа структуры информации в конкретной предметной области, размещенной в сети Интернет, методик определения требований к поисковым средствам и выбора алгоритмов модулей, может служить методологической базой для создания специализированных поисковых систем по другим научным направлениям в области наук о Земле.
Можно выделить следующие основные результаты, полученные в диссертации.
1. Анализ структуры и способов представления информации в области геоинформационных и смежных технологий, размещенной в сети Интернет.
2. Анализ существующих поисковых инструментов, которыми в настоящее время может пользоваться ГИС-специалист, определение требований к эффективному поисковому инструменту.
3. Разработка архитектуры специализированной ИПС, модели взаимодействия ее компонентов, информационных потоков и методов работы с ними.
4. Разработка моделей и алгоритмов реализации модулей ИПС: каталога интернет-ресурсов, тематической коллекции, сетевых роботов, автоматического рубрикатора, новостного интегратора, модуля поиска геоданных.
5. Программная реализация модулей ИПС.
6. Экспериментальная оценка корректности и эффективности выносимых на защиту результатов.
Основные положения и отдельные результаты работы докладывались и обсуждались на 60 и 61 научно-технических конференциях студентов, аспирантов и молодых ученых МИИГАиК. По теме диссертационной работы опубликовано 3 печатные работы.
Практическая значимость диссертации подтверждается актом о внедрении результатов исследования на кафедре информационно-измерительных систем Московского Государственного Университета геодезии и картографии (МИИГАиК).
В качестве направлений дальнейших исследований можно выделить:
1. анализ геопространственного контекста информации и методов информационного поиска, учитывающей географические ограничения информационной потребности;
2. разработка модуля поиска информации в онлайн-библиотеках;
3. проведение дополнительных экспериментальных исследований, направленных на оценку эффективности методов фильтрации, рубрицирования и поиска информации.
Библиография Диссертация по наукам о земле, кандидата технических наук, Рябинков, Артем Иванович, Москва
1. Агеев М.С. Методы автоматической рубрикации текстов, основанных на машинном обучении и знаниях экспертов // Диссертация на соискание ученой степени к.ф.-м.н. -М.: МГУ, 2004.
2. Арский Ю.М. Приоритетные проблемы геоинформатики как составной части наук о земле // Всероссийский институт научной и технической информации РАН/Миннауки РФ. Москва, 1998.
3. Друщиц В.А., Курчавова О.А. Географические названия и полнотекстовые документы по наукам о Земле // Труды международного семинара Диалог-2000 по компьютерной лингвистике. Т.2, Протвино, 2000.-с. 109-114.
4. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001. - №4. - С. 77-83.
5. Дубинский А.Г. Проблема автоматизации поиска информации в глобальной сети // Проблемы автоматизации информационных технологий. Днепропетровск, 1999. - С. 40-48.
6. Дубинский А.Г. Разработка моделей и совершенствование структуры систем информационного поиска в глобальной компьютерной сети: Диссертационная работа к.т.н.: 05.13.06 / Днепропетровский национальный университет. Днепропетровск, 2002.
7. Дунаев Е.В., Шелестов А.А. Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой // Сборник трудов по результатам стипендий компании Яндекс». Москва, 2005.
8. Иванов В., Некрестьянов И., Пантелеева Н. Расширение представления документов при поиске в Веб // Труды четвертой всероссийской конференция RCDL'2002. В двух томах. Т.2. Дубна, 2002. - С. 55-68.
9. Киселев М. В. Оптимизация процедуры автоматического пополнения веб-каталога // Труды седьмой всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Ярославль, 2005.
10. Когаловский М.Р. Энциклопедия технологий бах данных. М.: Финансы и статистика, 2002. - 800 с.
11. Кураленок И.Е., Некрестьянов И.С. Оценка систем текстового поиска // Программирование. 2002. №4 С. 226-242.
12. Лунева Н.В. Традиционные газеттиры и задачи создания электронных геобиблиотек // Труды международного семинара Диалог-2002 по компьютерной лингвистике. Т.2, Протвино, 2002.
13. Мартыненко А.И., Бугаевский Ю.А., Шибалов С.И., Фадеев В.А. Основы ГИС: теория и практика. WINGIS руководство пользователя. Изд. 2-е. М., изд-во Инженерная экология, 1995 г.
14. Медведев П.П., Баранов И.С. Глобальные космические навигационные системы. Итоги науки и техники. Сер. Геодезия и аэросъемка. Том 29. М., ВИНИТИ,. 1992 г.
15. Некрестьянов И., Пантелеева Н. Системы текстового поиска для Веб // Программирование. 2002. - №4.
16. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска: Диссертационная работа к.т.н.: 05.13.11 / Санкт-Петербургский государственный университет СПб., 2000. - 80 с. .
17. Плечов П. Ю., Варламов Д. А., Трусов С. В. Типы информационных потоков в области наук о Земле // Тезисы конференции «Научный сервис в сети Интернет». Москва, 2002.
18. Романова Е.В., Романов М.В., Некрестьянов И.С. Использование инте-лектуальных сетевых роботов для построения тематических коллекций // Программирование. 2000. -N3. - С. 63-71.
19. Рябинков А. Повышение эффективности поиска в сети Интернет путем анализа геопространственного контекста веб-страниц // Информационные технологии. Москва, 2005. №11, стр. 11.
20. Рябинков А.И. Принципы создания специализированного информационно-поискового портала в сети Интернет в области геоинформатики и ГИС-технологий // Сборник трудов 61 й научно-технической конференции МИИГАиК. Москва, 2006.
21. Рябинков А.И. Принципы создания специализированного сервиса для поиска геопространственных данных в сети Интернет // Известия вузов: геодезия и аэрофотосъемка, №6 Москва, 2006.
22. Симонов А.В., Кикнадзе Е.С., Плеханов П.Г., Трохинин Н.В. ГИС и Интернет (обзор информационных ресурсов и технологий) // Информационный бюллетень ГИС-ассоциации. № 5(32). Москва, 2001.
23. Советский энциклопедический словарь / Научно-редакционный совет: A.M. Прохоров (пред.). -М.: "Советская энциклопедия", 1981. 1600 с.
24. Сэлтон Г. Автоматическая обработка, хранение и поиск информации: Пер. с англ. / Под ред. А.И. Китова. М.: Советское радио, 1973. - 560 с.
25. Талантов М. Профессиональный поиск в Интернете: полнота, достоверность, скорость // КомпьютерПресс №7. Москва, 1999.
26. Цветков В. Я. Основы геоинформатики: Электронный учебник. М-во общ. и проф. образования РФ. Центр информатизации, 1998.-627 с.
27. Шайтура С.В. Геоинформационные системы и методики их создания. Калуга, издатель Бочкарева И.Ф., 1998 г.
28. Arasu A., Cho J., Garcia-Molina Н., Paepcke A., Raghavan S. Searching the web. ACM Transactions on Internet Technology, l(l):2-43, Aug. 2001.
29. Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. ACM Press, 1999.
30. Brin S., Page L.: The Anatomy of a Large-Scale Hypertextual Web Search Engine. In Proceedings of the 7th International World Wide Web Conference, Brisbane, Australia (1998).
31. Chakrabarti S., Berg M., Dom B. Focused Crawling: A New Approach to Topic-Specific Web Resource Discovery. In Proc. of the WWW8, May 1999.
32. Chau M. Spidering and Filtering Web Pages for Vertical Search Engines. In Proceedings of The Americas Conference on Information Systems, AMCIS 2002 Doctoral Consortium, Dallas, Texas, August 8-11, 2002.
33. Chau M., Zeng D., Chen H. Personalized Spiders for Web Search and Analysis. In Proceedings of the First ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL'01), Roanoke, Virginia, USA, June 24-28, 2001, pp. 79-87.
34. Chen H., Lally A. M., Zhu В., Chau M. HelpfulMed: Intelligent Searching for Medical Information over the Internet. Journal of the American Society for Information Science and Technology, 54(7) (2003) 683-694.
35. Davison B. D. Topical locality in the Web. In Proc. of the SIGIR'00, pp. 272279,2000.
36. Ding L., Shivakumar N. Computing Geographical Scopes of Web Resources. In Proc. of the VLDB'00, Sep 2000.
37. Dublin Core Metadata Element Set Reference Description, Version 1.1, 199907-02. http:/purl.org/dc/documents/proposedrecommendations/pr-dces-19990702.html.
38. ESRI Shapefile Technical Description. ESRI, 1998.
39. Flake G., Lawrence S., Giles C. L. Efficient Identification of Web Communities. In Proc. of the SIGKDD'OO, pp. 150-160, Aug. 2000.
40. Gibotti F., Camara G., Nogueira R. GeoDiscover a specialized search engine to discover geospatial data in the Web. VI Brazilian Symposium in Geoinfor-matics, Geolnfo 2005, Campos do Jordro 2005.
41. Gibson D., Kleinberg J. M., Raghavan P. Inferring web communities from link topology. In Proc. of the UK Conference on Hypertext, pp. 225-234, 1998.
42. Gravano L. Querying Multiple Document Collections Accross the Internet. PhD thesis, Stanford University, Aug 1997.
43. Hirai J., Raghavan S., Garcia-Molina H., Paepcke A. WebBase: A repository of web pages. In Proc. of the WWW9, 1999.
44. Ipeirotis P., Gravano L., Sahami M. Probe, Count, and Classify: Categorizing Hidden-Web Databases. In Proc. of SIGMOD'Ol, 2001.
45. Jansen B. J., Spink A., Saracevic T. Real life, real users, and real needs: a study and analysis of user queries on the web. Information Processing and Management, 36(2):207-227,2000.
46. Kleinberg J. M. Authoritative sources in a hyperlinked environment // Journal of the ACM 47 (5-7): 604-632,1999
47. Larson R. Geographic Information Retrieval and Spatial Browsing. In: GIS and Libraries: Patrons, Maps and Spatial Information, Linda Smith and Муке Gluck, Eds., University of Illinois, (1996), 81-124.
48. Lawrence S. Context in Web Search. IEEE Data Engineering Bulletin, 23(3):25-32,2000.
49. Markowetz A, Brinkhoff Т., Seeger B. Geographic Information Retrieval. 3rd International Workshop on Web Dynamics, 2004.
50. McCallum A., Nigam K., Rennie J., and Seymore K.: A Machine Learning Approach to Building Domain-specific Search Engines. In: Proceedings of the International Joint Conference on Artificial Intelligence (1999) 662-667.
51. McCurley K. S. Geospatial Mapping and Navigation of the Web. In Proc. of the WWW10,2001.
52. Merkl D. A Handbook of Natural Language Processing: Techniques and Applications for the Processing of Language as Text, chapter Text data mining. Marcel Dekker, New York, 1998.
53. Pant G., Tsioutsiouliklis K., Johnson J., Giles C.L. Panorama: Extending Digital Libraries with Topical Crawlers. Proc. ACM/IEEE Joint Conference on Digital Libraries (JCDL 2004).
54. Patel A., Petrosjan L., Rosenstiel W., editors. OASIS: Distributed Search System in the Internet. St. Petersburg State University Published Press, St. Petersburg, 1999.
55. Raghavan S., Garcia-Molina S. Crawling the hidden web. In Proceedings of the 27th International Conference on Very Large Databases(VLDB), 2001.
56. Ritter N., Ruth M. GeoTIFF Format Specification Rev. 1.0. GeoTIFF Working Group, 1995.
57. Rochio J. J. Relevance Feedback in Information Retrieval. Prentice-Hall Inc., 1971.
58. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing and Management, 24:513-523,1988.
59. Salton G., Fox E., and Wu H. Extended Boolean information retrieval. Communications of the ACM, Vol. 26, No. 4, December 2001, pp. 35-43.
60. Salton G., McGill M. J. Introduction to modern Information Retrieval. McGraw-Hill Computer Science Series. McGraw-Hill, New York, 1983.
61. Santache A., Bauzer Medeiros C. Geographic Digital Content Components. V Brazilian Symposium in Geoinformatics, Geolnfo 2004, Campos do Jordro 2004.
62. Sebastiani F. Machine Learning in Automated Text Categorization. Technical Report B4-31. Istituto di Elaborazione dell'InformaTione, Consiglio Nazion-ale delle Ricerche. Pisa, 1999.
63. Stata R., Bharat K., and Maghoul F. The term vector database: fast access to indexing terms for web pages. In Proc. of the WWW-9, May 2000.
64. Steele R. Techniques for Specialized Search Engines, Proceedings of Internet Computing '01, Las Vegas, USA, (2001).
65. Vestavik O. Geographic Information Retrieval, An Overview. Internal Doctoral Conference, IDI, NTNU, 2004, 3- 10.
66. Woodruff, A. G. & Plaunt, C. (1994a). GIPSY: Geo-referenced Information Processing System. Journal of the American Society for Information Science, 45, 645-655.
67. Yang Y., Lui Y. A re-examination of text categorization methods // Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. (1999) p. 42-49.
68. Zhang D., Dong Y. An efficient algorithm to rank web resources. In Proc. of the WWW9, pp. 449-455, 2000.
69. Zhu X., Gauch S. Incorporating quality metrics in centralized/distributed information retrieval on the World Wide Web. In Proc. of the SIGIR'00, pp. 288-295, 2000.77
- Рябинков, Артем Иванович
- кандидата технических наук
- Москва, 2006
- ВАК 25.00.35
- Анализ ресурсов глобальной компьютерной сети и разработка информационных интернет-технологий в области кадастра
- Разработка информационной системы хранения и распространения аэрокосмических изображений
- Разработка информационной системы для хранения и распространения аэрокосмических изображений
- Информационные системы поиска и оценки проектов в области радиоэкологии
- Распределенные Интернет-приложения в решении геофизических задач