Бесплатный автореферат и диссертация по наукам о земле на тему
Информационные системы поиска и оценки проектов в области радиоэкологии
ВАК РФ 25.00.35, Геоинформатика

Автореферат диссертации по теме "Информационные системы поиска и оценки проектов в области радиоэкологии"

На правах рукописи

КУЗЬМИНА Дарья Александровна

ИНФОРМАЦИОННЫЕ СИСТЕМЫ ПОИСКА И ОЦЕНКИ ПРОЕКТОВ В ОБЛАСТИ РАДИОЭКОЛОГИИ

Специальность 25.00.35 - Геоинформатика

АВТОРЕФЕРАТ

Диссертации на соискание ученой степени кандидата геолого-минералогических наук

Москва 2006

Работа выполнена в Институте геологии рудных месторождений, петрографии, минералогии и геохимии РАН

Научный руководитель:

Доктор технических наук, профессор Веселовский Александр Владимирович

Официальные оппоненты:

Доктор геолого-минералогических наук Янбухтин Темир Киамильевич, Всероссийский институт экономики минерального сырья (ВИЭМС МПР).

Доктор геолого-минералогических наук Патык-Кара Наталья Георгиевна, Институт геологии рудных месторождений, петрографии, минералогии и геохимии (ИГЕМ РАН).

Ведущая организация

Всероссийский институт научной и технической информации (ВИНИТИ РАН).

Защита состоится 11 мая 2006 г. в 15— на заседании диссертационного совета Д 002.122.02 в Институте геологии рудных месторождений, петрографии, минералогии и геохимии Российской академии наук по адресу: 119017 Москва, Старомонетный пер., 35.

С диссертацией можно ознакомиться в библиотеке ИГЕМ РАН

Автореферат разослан 10 апреля 2006 г.

Ученый секретарь

Диссертационного совета

доктор геолого-минералогических наук

И.В. Викентьев

/006 А

Введение

Актуальность проблемы. Актуальность тематики работы обуславливается важностью рассмотрения экологических проблем в обществе и связанной с этим необходимостью информатизации данной сферы В настоящее время исследования в области экологии проводятся рядом организаций на разных уровнях и территориях и требуют значительных финансовых ресурсов, формируемых из различных источников Несмотря на быстрое развитие информатизации экологических исследований, природоохранная информация в общем и особенно информация по проведенным исследованиям в данной междисциплинарной области рассеяна (не унифицирована) и не всегда доступна пользователю в оперативном режиме

Отсутствие доступных источников по выполненным работам ведет к повторному циклу вновь проводимых исследовательских и опытно-конструкторских работ, а, следовательно, к неоправданным расходам.

Поэтому устранение дублирования исследований путем формирования широко доступных информационных систем по выполненным и планируемым проектам области экологии (на примере радиоэкологии) является одним из важных направлений решения вопроса сохранения и восстановления природной среды, поскольку способствует'

- экономии финансовых ресурсов вследствие устранения повторных исследований,

- более целенаправленному и эффективному планированию разработки и организации

- установлению сотрудничества научных коллективов, заказчиков и других заинтересованных лиц;

- более эффективному обмену и тиражированию информации в области экологии;

- повышению эффективности конкурсных процедур.

Работа по решению проблемы оценки дублирования носит инновационный характер, так как способствует решению задачи эффективного использования знаний.

Основные понятия

Предмет исследования: тематическая структура и поисковый образ информации по экологическим и радиогеоэкологическим исследованиям

Объект исследования: Методы, модели минимизации тематического дублирования проектов' 1) обосновывающие эффективность устранения дублирования; 2) формирующие принципы и подходы к поиску и оценке степени дублирования проектов автоматизированным путем.

Под минимизацией дублирования экологических проектов подразумевается повышение эффективности планирования тематики нового исследования с помощью доступных автоматизированных систем, содержащих данные по выполненным проектам, обеспечивающих наиболее рациональное использование ресурсов, направляемых на вновь разрабатываемый проект.

Степень тематического дублирования - оценка соответствия планируемого исследования и найденного в системе релевантного документа по проекту

Цепь и задачи исследования

Цель: Разработка научно-методических материалов, алгоритмов обработки данных и информационной системы для снижения затрат, связанных с дублированием работ в области экологии.

1 .Теоретические исследования в области организации поиска экологических проектов, дублирующих выполненные или запланиро! иые работы.

НИР;

Задачи

2.Подготовка научно-методических материалов, позволяющих проводить автоматизированный анализ информационных массивов, отражающих тематику и основные результаты исследований с точки зрения исключения повторных работ

3.Разработка информационной технологии и системных решений для эффективного поиска и устранения дублирования исследовательских работ в области экологии.

4 Выполнение экспериментальных работ по построению базы данных и информационной системы для оценки степени дублирования исследований в области радиогеоэкологии

Защищаемые положения

1. Минимизация дублирования экологических исследований путем построения информационных систем, содержащих сведения по проектам в области экологии, повышает эффективность проектной деятельности (в концептуальной части и при планировании ресурсов исследования), способствуя решению задач экологии и охраны окружающей среды.

2. Использование доступных производительных информационно-поисковых аналитических систем по поиску и оценке степени тематического дублирования экологических исследований экономически эффективно в виду содействия планированию новых исследований и экономии финансовых средств, расходуемых на экологические исследования, вследствие устранения незапланированного дублирования

3. Построение информационной системы для целей минимизации дублирования экологических исследований требует специализированного подхода в части поиска описания проекта, ориентированного, прежде всего, на оценку степени тематического дублирования проектов в соответствии со спецификой информации по проектам в области экологии и поискового запроса пользователя.

Фактический материал. В лаборатории геоинформатики Иг КМ РАН имеется опыт разработки и эксплуатации экологических информационных систем электронные тематические справочники по РАН «Проблемы экологии»; справочно-информационная система «ЭкоПро», в которой представлено около 1500 экологических проектов (http //www ecoproiects ru) Также использовались данные ИС «Радиационная безопасность», данные проектов лаборатории радиогеологии и радиогеоэкологии ИГЕМ РАН и других доступных источников (в Internet).

Методы исследования

• Аппарат теории вероятности

• Математический аппарат теории матриц в моделировании

• Методы формальной и булевой логики

• Статистическая обработка массивов наименований радиоэкологических проектов и основных дескрипторов, составляющих лингвистическое обеспечение системы

• Системный анализ

Научная новизна полученных результатов работы состоит в разработке методических подходов к оценке степени тематического дублирования с использованием разработанного автором классификатора, включающих также оценку эффективности системы

Разработанный тематический классификатор в области радиогеоэкологии включает развернутую рубрикацию, в отличие от имеющихся классификационных построений в Государственном рубрикаторе научно-технической информации (ГРНТИ) и Рубрикаторе Всероссийского института научно-технической информации (Рубрикатор ВИНИТИ) Подход к формированию классификатора и выбранные основные признаки деления на рубрики позволяют динамично развивать рубрикацию, в том числе в

смежных областях, расширяя тематический охват базы данных и обеспечивая совместимость с существующими рубрикациями.

Практическая значимость работы заключается в формировании и анализе базы данных по радиоэкологическим и радиогеоэкологическим проектам. База данных является продолжением работы по автоматизации хранения и поиска сведений по проектам в области экологии (система «ЭкоПро») с расширением возможности созданных систем в части информативности и поиска. Данная работа включена в комплексный проект «Электронная Земля» программы Президиума РАН.

Методические указания и модели имеют практическое продолжение в рамках совершенствования системы по оценке степени дублирования. Развитие подходов к экономической оценке может способствовать коммерческому внедрению баз, содержащих сведения по проектам, в рамках систем поддержки принятия решения.

Благодарности

Особую признательность за консультации автор выражает академику РАН Н.П. Лаверову, стоящему у истоков развития научного направления радиогеоэкологии, и зав. лаб. радиогеологии и радиогеоэкологии ИГЕМ РАН, члену, корр. РАН В.И. Величкину.

Автор непременно хотел бы поблагодарить своего научного руководителя д.т.н., проф. А. В. Веселовского за неоценимую помощь в планировании, организации и написании работы, а также поддержку и ценные советы.

За содействие в работе над диссертацией автор глубоко благодарен к.т.н. И.И. Потапову, а также к.т.н. A.B. Шапкину за сотрудничество в работе по сопоставлению рубрик тематической классификации, JI.JI. Гульницкому за консультации и предоставление данных для аналитического обзора.

Автор искреннее благодарит Т.Н Муравьеву за консультации в процессе работы над тематической классификацией, Т.М. Маханову за содействие в построении географического классификатора и всех сотрудников лаборатории геоинформатики ИГЕМ РАН за доброжелательное отношение и помощь.

1. Структура и содержание работы

Диссертация изложена на 168 страницах машинописного текста, включает 20 таблиц и 25 рисунков. Работа состоит из введения, пяти глав, выводов, списка литературы (105 наименований) и приложения (27 стр.). В пяти главах диссертации изложено решение четырех прикладных задач исследования: 1 .Комплексный аналитический обзор (Глава 1).

2.Построение модели по оценке степени дублирования (Глава 2) и модели оценки экономической эффективности системы (Глава 3).

3.Разработка подходов и методики формирования самой системы (Глава 4).

4.Выполнение экспериментальных работ по построению базы данных и информационной системы. Анализ содержащихся в ней проектов (Глава 5).

Первая глава - комплексный аналитический обзор [6], рассматривающий теоретические исследования в области организации поиска экологических проектов, дублирующих выполненные или запланированные научные и прикладные работы (19902003 гг.). Главная цель обзора - обоснование новизны самого исследования и защиты положений, связанных с эффективностью построения информационных систем по проектам в области экологии. Материалы посвящены анализу публикаций по вопросам:

• общего направления научных исследований в области информатизации экологических исследований и экономии средств, выделяемых на природоохранные мероприятия;

• поиска экологической информации, ее роли в эффективности решения экологических проблем и планировании экологических проектов;

• поиска имеющихся информационных систем в экологии, а также систем по экологическим проектам;

• дублирования информации в экологии и исследованиям по оценке и минимизации дублирования.

Обзор проводился по результатам поиска в базе данных АСНТИ Геология и охрана окружающей среды. ВИЭМС МПР'(около 4000 наименований информационных документов), электронных библиотеках (порядка 20 источников) и публикации лаборатории геоинформатики.

Вторая глава. «Оценка тематического дублирования научных исследований в обчасти экологии», основывается на выводах аналитического обзора и рассматривает поставленную задачу исследования и имеющиеся фактические наработки по данному вопросу (ИПС «ЭкоПро») [1]. Материалы главы посвящены построению математических моделей, обосновывающих эффективность информационных систем по оценке дублирования проектов:

• Вероятностный поиск проектов в системе.

• Модель оценки дублирования проектов.

Третья глава. «Экономическая эффективность минимизации дублирования», рассматривает оценку экономической эффективности системы по оценке проектов в области экологии [2, 3, 4, 10] с различных позиций. Экономические аспекты природоохранной деятельности в упрощенном варианте решаются путем (Федеральный закон РФ «Об охране окружающей среды» от 10,01,02 №7):

• финансирования госпрограмм и формирования фондов;

• взимания платы за выбросы и сбросы и введение льгот;

• поощрения развития новых ресурсосберегающих технологий;

• экологического страхования.

Основой экономического механизма является расчет ставок платы за нормативные и сверхнормативные выбросы и сбросы, предусматривающие ведение кадастров и оценку ущерба, нанесенного окружающей среде. Основой контроля за окружающей средой и выполнением природоохранного механизма является построение мониторинговых систем. Информационные системы по экологическим проектам способствуют более рациональному расходованию средств, выделяемых на исследования в области экологии. Исходя из этого, сформирована экономико-математическая модель оценки экономической эффективности системы, базисом которой является степень дублирования найденных и планируемых НИР. Четвертая глава. «Автоматизированный поиск в информационной системе и эффективность устранения дублирования», раскрывает принципы и подходы к построению системы, ориентированные, прежде всего, на поиск релевантных проектов и оценку тематического дублирования автоматизированным путем [8, 9]. Материалы главы посвящены рассмотрению информационной структуры документов по проектам, составляющим базу данных системы и основанным на ней поисковым предписаниям и лингвистическому обеспечению системы, определяющему состав базы данных и эффективность поиска. Представлена методика построения тематического классификатора, отвечающего за основную составляющую информации по проектам -тематическую, и играющего важную роль при оценке тематического дублирования. Пятая глава. «Информационная система по радиогеоэкологическим проектам», представляет собой описание экспериментальных исследований [7, 9, 5, 11 ],

1 БД АСНТИ по геологии природопользованию и недропользованию, № регистрации 23 ] 7 9 июня ] 997 г содержит материалы ВИЭМС, ВИНИТИ, ВНТИЦ (707516 записей)

основывающихся на разработанных методиках и принципах построения системы, включая оценку степени дублирования проектов. В качестве примера выбрана тематика радиоэкологических проектов и радиогеоэкологических исследований, выполняемых в лаборатории радиогеологии и радиогеоэкологии ИГЕМ РАН. Основной задачей данной главы, таким образом, является подтверждение теоретических изысканий работы, представленных в предыдущих главах. Материалы главы составляют практическую значимость работы, как в части применения логических конструкций (лингвистического обеспечения), так и в части использования собранных данных по проектам. Материалы главы делятся на две основные части:

1)Этапы построения базы данных по проектам с использованием тематического классификатора и анализ использования ключевых слов в базе данных по проектам, с использованием списков ключевых слов ВИНИТИ.

2)Анализ проектов базы данных (поиск и дублирование, количественные характеристики тематической направленности и распределения, согласно географической привязке проектов и их исполнителей).

После обоснования и описания проведенных автором теоретических и практических исследований в заключении изложены результаты диссертационной работы. Приведен список публикаций, рассматривающих итоги основных этапов работы и полученные теоретические и практические выводы. Иллюстрации, описывающие групповые характеристики документов информационной системы по радиогеоэкологическим проектам, тематический классификатор проектов представлены в Приложении к диссертации.

2 Основные результаты 2.1 Обоснование поставленных задач исследования

Аналитический обзор по проблеме эффективного поиска и оценки тематического дублирования экологических проектов позволяет считать задачи вьивления и устранения дублирования экологических исследований актуальной в научном плане. 2.1.1 Теоретическая часть

• Анализ публикаций показал, что методы, технологии, алгоритмы устранения тематического дублирования исследований (проектов) в области экологии практически не представлены в научно-технической литературе.

• Достаточно полно освещены работы в рамках системы НТИ. Дублирование природоохранных материалов в публикациях

составляло 74% (согласно данным 1991 г). 0 радиоактивные отходы и ядерное топливо Близкие по теме публикации рассматривают:

Я радиоэкологический мониторинг

вероятностные модели дублирования НИР в

СВЯЗИ с возникновением научных открытий, Я радиационный контроль пересечение информации по патентам в

. . и □ радиационная безопасность

системе НТИ, тиражирование сведении о природоохранных технологиях. Несмотря На Ярадиационная защита при авариях неоднозначное влияния параллельной

„ □общие данные по радиационной экологии

разработки одной научной идеи на

эффективность ИСПОЛЬЗОВЯНИЯ И уПрйВЛСНИЯ Впо Чернобыльской катастрофе

знаниями, в тематически пересекающихся с

_ Опо различным вопросам охраны

диссертационным исследованием работах нет офужиащейсредГи^иродопользования

утверждения по поводу влияния дублирования

исследований и распространения информации Рисунок 1. Структура тематического

по имеющимся научным наработкам в качестве соспГа д°"Ументое об электронных БД

к и информационных системах

отрицательного факта для развития науки. материалы поиска АСНТИ (ВИЭМС)

• В рассмотренных работах не отражены экономические издержки повторных и неоправданных с точки зрения имеющегося опыта экологических исследований.

• Доступные информационные системы по проектам в области экологии не обеспечивают решение задачи эффективного поиска и уменьшения дублирования.

• Отмечается недостаточное информационное обеспечение радиоэкологии и тенденция к формированию доступных источников радиоэкологических сведений (Рис.1).

Информации по созданию баз данных радиоэкологической направленности гораздо меньше, чем экологических, которые в свою очередь отличаются низкой унифицированностью, так как эта сфера науки является достаточно закрытой. В основном это базы данных, связанные с атомной отраслью (согласно данным ВИНИТИ, публикуемым в доступных источниках), что не совсем отвечает тематике радиационной экологии. В материалах поиска АСНТИ (ВИЭМС) было найдено 27 документов, содержащих сообщения о 19 имеющихся и разрабатываемых информационных системах и базах данных по радиоэкологии и близким областям на территории России

• Обобщенные сведения по направлениям информатизации и формированию информационных систем в экологии подтверждают интенсивное, но неструктурированное развитие информационного обеспечения в данной области

2.1.2 Руководящие материалы и практические результаты обзора: • В качестве основополагающих источников для методических исследований

можно выделить информационную продукцию, методики и публикации ВИНИТИ.

• Получены сведения, которые могут применяться в качестве рекомендательных и руководящих материалов при исследовании дублирования экологических проектов.

• В процессе анализа публикаций систематизированы сведения об информационных системах, содержащих данные различного характера об экологических проектах. Эти материалы использованы при формировании базы данных системы. Сформирована коллекции Мегпй-ссылок сведений по радиоэкологии и проектам данной тематики.

2.2 Раскрытие защищаемых положений 2.2.1. Первое защищаемое положение

2.2.1.1 Использование информационной системы

Можно утверждать, что при нахождении проекта, аналогичного по тематике предполагаемой НИР, заграты Ск на поиск проекта-аналога будут существенно ниже затрат на выполнение Снш, НИР: Ся=с V

где, с - затраты на просмотр в системе одного проекта;

V - общее количество проектов в базе данных. Если поиск безрезультатный, то затраты на новую НИР: С -С +С

^ НИР т я

Однако, обычно Сн « Сшр .

Если же поиск завершается нахождением проекта-аналога, то затраты составят величину: С0 = СШР +Ся-С>ф2

Таким образом, при нахождении релевантного проекта в базе данных (БД) информационной системы заявитель получает некий выигрыш С,ф от полученной

1 Обозначение величин затрат на НИР на поиск в системе коэффициента тублирования и вероятности нахождения проекта-

аналога рубрикатора в математических представлениях одинаковы на протяжении всей работы

информации, который влияет на дальнейшую разработку исследования, тем самым устраняя повторные работы, то есть - дублирование исследований.

Вероятностный характер поиска релевантной информации требует оперирования с математическим ожиданием Е(С) события нахождения проекта, аналогичного планируемому НИР, где

С - случайная величина, принимающая значение с,,с2 .; Е(0 = 2 <■</(<•*)> * = 0А2...; Е{С)< 1; /(с,) - закон распределения значения ск. Поскольку вероятность нахождения проекта-аналога связана с двумя случайными факторами, случайный выбор темы НИР и случайное распределение тем проектов в БД, то имеется система из двух случайных величин (Х,У). Вся экологическая тематика охвачена классификатором (например, рубрикатор ВИНИТИ). Однако, надо учесть, что тематика планируемой НИР и выполняемых проектов, составляющих содержание БД, лежат в общем случае в пределах нескольких подрубрик. Таким образом, речь идет о попадании случайного события совпадения тематики НИР и выполняемого проекта-аналога в некоторую площадь (прямоугольник) (Рис.2):

Задача сводится к определению функции распределения системы вероятности попадания случайной точки (X, У) в прямоугольник Я : />((*,Г)с Л) = /=-(/>,<!)- Р{а,у),

гдеР((Х,У)с Я) - вероятность события совпадения тематик НИР и проекта-аналога в БД, причем событие (X, У) с Я равносильно произведению двух событий а• у<г.

F(/j,¿) - функция распределения системы двух случайных величин /).<? ;

Р(а,6) - функция распределения системы двух случайных величин а,1 ;

Р(Р, У) - функция распределения системы двух случайных величин $,у\

Р(а,у) - функция распределения системы двух случайных величин о,у.

Из рисунка 2 следует, что уменьшение количества подрубрик в тематике сравниваемых проектов снижает вероятность нахождения проекта-аналога.

Таким образом, лингвистическое обеспечение информационно-поисковой системы должно точно отражать поисковый образ документа по проекту, обеспечивая наиболее эффективную схему поиска проекта-аналога и оценки его релевантности. Эффект от получаемой информации по релевантному исследованию можно представить, как те затраты на исследования, которые уже частично выполнены в найденном проекте Сф = СШ№ Р(С) £> ,.Е, где £> 1пВ - коэффициент дублирования НИР и релевантного проекта.

Оценка степени дублирования проектов разбивается на два этапа:

1. Автоматизированный поиск в информационной системе по запросу пользователя, формируемого в соответствии с тематикой заявляемого проекта.

2. Экспертная оценка: а) сравнение заявляемого проекта с найденным и определение коэффициента перекрытия; б) принятие решения по заявляемому проекту.

Рисунок 2. Графическое представление события совпадения тематики заявляемого проекта проекту, имеющемуся в БД системы

1 '

ш

2.2.1.2 Автоматизированный поиск в информационной системе в соответствии с темой заявляемого проекта

Принимается, что критерием дублирования заявляемого проекта по отношения к ранее выполненным, разрабатываемым и планируемым проектам является совпадение тематики (релевантность) по развитому классификатору (рубрикатору). Понимая под тематическим рубрикатором (классификатором) некоторый квазивекторный оператор у[н'г\ - [ч',г\, где и' = ,и\, ,И',} - совокупность тематических профилей (рубрик)

классификатора;

¿ = (¿1, ,5к, ,&,')- вектор пороговых значений релевантности тематики проектов рубрикам, можно считать, что применение оператора 5] к базе данных (БД) проектов приводит к декомпозиции информационного поля БД на тематические составляющие.

В бинарно-линеаризованной форме тематика заявляемых проектов описывается матрицей размерности Я х 8:

Га Ги Гн

где уи

' при соответствии тематики проекта рубрике О в противном случае

И - максимальный номер рубрики тематического классификатора, 8 - число анализируемых проектов.

Стратегия оценки тематического дублирования задается бинарной матрицей п размерности N х в:

кю

[] есчи тематика заявляемого проекта совпадает с тематикой одного из

проектов БД, О в противном случае

представление подхода к оценке степени

дублирования (диаграмма В.

Венна)

алв

и я XI "на

Для постановки задач установления связей между сопоставляемыми проектами и определения коэффициентов перекрытий используется аппарат алгебры высказываний, с помощью которого языковое выражение преобразуется в истинное или ложное высказывание, и операции алгебры логики (булевы функции). рисунок з. Графическое

Диаграммы Венна (Рис.3) иллюстрируют предполагаемый подход к оценке степени дублирования проектов: В - тематическая область ранее выполненного проекта; А - тематическая область заявляемого проекта; ВпА - область пересечения (дублирования) тематики; ВпЛ - вопросы, освещаемые в выполненном проекте, но не нашедшие отражения в заявленном проекта; АпВ- вопросы, освещаемые в заявленном (новом) проекте, не нашедшие отражения в проекте-прототипе; ВП А- тематика, не отраженная в сравниваемых проектах. В операции сравнения могут участвовать несколько проектов, найденных по одному запросу.

2.2.1.3 Экспертная оценка коэффициента перекрытия заявляемого проекта с найденным в информационной системе и принятие решения

На основе экспертной оценки специалиста или группы специалистов о степени дублирования проекта (условно: высокая, средняя, низкая) соответственно принимаются решения по вновь планируемому исследованию:

• анализ результатов и методов исследования, направленный на решение о повторных исследованиях по тематике и, на основе этого, решение о дальнейшем развитии или отклонении заявляемого проекта;

• рассмотрение неизученных компонентов имеющегося исследования и дополнение, перепланировка заявляемого проекта, сотрудничество;

• развитие заявляемого проекта, сотрудничество

При детальном рассмотрении методики экспертной оценки возможно ее внедрение в качестве приложения к информационной системе. Основу такой оценки в большинстве случаев будут составлять'

• неэкономические критерии (экологическая значимость, социальная значимость, стратегическая значимость, риски и пр.);

• научные критерии (важность научной проблемы, уровень новизны, связь с плановыми исследованиями, уровень внедрения результатов, научные перспективы и перспективы внедрения).

Поскольку в большинстве случаев имеет место частичное дублирование проектов, то величина 0 < 0АпВ < 1.

Эффект от использования системы можно оценить путем сравнения с результатами альтернативного поиска тех же данных:

(Ся-С^)^(Ся)<(СЛ7)<(С0Л7'-Са#)<(С0Л7'-С^),гдеГЛД затраты на

альтернативный поиск.

Предполагается, что экспертная оценка во всех случаях не отличается. Представив затраты на поиск документов в виде доли от затрат на новое исследование: Ск =Кв С НИИ и Слп ~КАП -Сшг, получим-

Э4*. =-'

Р(Сли ) - вероятность нахождения релевантного документа без использования системы.

Учитывая разобщенность сведений по экологическим проектам и трудности поиска в различных источниках, очевидно, что дробь будет больше единицы и использование информационной системы эффективно и способствует решению задач природопользования и охраны окружающей среды (защ пол 1).

2.2.2 Второе защищаемое положение

Данное защищаемое положение связано с методическими основами первого положения. Поскольку выполненный проект может иметь денежную оценку, то можно говорить об экономической составляющей выигрышей, получаемых от использования системы, содержащей сведения по экологическим проектам

В общем случае удельная эффективность Е применения информационных технологий и природоохранных мероприятиях может быть оценена как.

Е= 1_ >

где Э] - экономическая составляющая эффекта (предупреждение катастрофических явлений, повреждения техники, инфраструктуры, лечения пострадавших и т. п.)

С, - затраты на внедрение и использование информационных технологий (построение информационных систем и их обслуживание, использование техники для измерения показателей загрязнения окружающей среды)

Информационные системы, содержащие сведения по проектам в области экологии, предназначенные для минимизации дублирования в широком понимании этого термина можно охарактеризовать как управленческие Экономический смысл информации,

содержащейся в них, заключается в том, что сведения БД предназначены для снижения неопределенности, а, следовательно, улучшения управления и предотвращения убытков Для построения модели оценки экономической эффективности целесообразно использовать обобщенный показатель, отражающий и цели функционирования системы, и экономию средств в результате ее использования- коэффициент дублирования 0АпЬ Э,=Снир Р(С) П^в=Сэф(стр 8)

Принимается, что стоимость проекта Стр пропорциональна области А диаграммы Венна (Рис 3), а стоимость проекта С - области В Тогда область АглВ определяет сэкономленную часть средств

Величину Р(С) и Г)ЛгЯ} можно задавать в виде норматива, (например, г 0,1 или 10%) с учетом практической целесообразности учета экономических выигрышей

Таким образом, экономический эффект для базы данных, содержащей N описаний проектов, может быть оценен по формуле.

£ _ £ ^НИР ' ' ^Лг.В + К„

Ч С,

Ь определяется как число всех сочетаний из N различных элементов по 2 I, = ^ ^

С, - затраты на создание и период функционирования (анализа проектов по

К К

конкретному запросу) ИС С, = + Е ^, где.

К0 - затраты на создание ИС до начала функционирования;

К - порядковый номер текущего запроса (заявляемого проекта);

К, - затраты на период функционирования информационной системы,

ЛТ - часть периода функционирования, связанная с оценкой конкретного заявляемого

проекта;

Е - коэффициент, учитывающий нелинейность функции затрат на эксплуатацию ИС, зависящий от сложности экспертизы проектов

Эффективность использования для научного направления по стране, отражение целевой направленности можно представить, как отдельные тематические направления, взаимосвязанные с классификатором базы данных, географическим или другим взаимосвязанным классификатором (например, разделы Рубрикатора ВИНИТИ), соответственно с вероятностью и вектором пороговых значений

Поскольку наиболее вероятное значение Г)^ 5-30%, а отсутствие в системе проекта-аналога при условии достаточной полноты БД свидетельствует об особой новизне и возможной целесообразности исследования, внедрение информационной системы, содержащей сведения по экологическим проектам способствует координации решений, устраняет затраты на повторный цикл исследований и представляется экономически эффективным (защ пол. 2)

2.2.3 Третье защищаемое положение

2.2.3.1 Математическое представление тематического наполнения и поиска в БД по проектам

Для оценки эффективности компьютерного поиска аналогов проекта вводится нормированный коэффициент <Ц, зависящий в первую очередь от числа операций сравнения в компьютере Степень концентрации данных 8 обратно пропорциональна (Рис.4):

с У

где: /=0, 1, 2,...,п; в, - ¡-я форма описания проекта в байтах; V - полный объем описания проекта в байтах; п - количество форм описаний проектов, используемых при поиске аналога.

Оперативность Э поиска информации в БД по проектам прямо пропорциональна коэффициенту ди времени поиска: Э=кд-Т,

где к- коэффициент, учитывающий используемое технологическое решение; Г-общее время поиска проекта-аналога.

Поиск документов в БД ведется при помощи лингвистического обеспечения дескрипторного классификационного типа в режимах: по названию, по ключевым словам (с использованием логики), по исполнителю, рубрикатору, географической привязке или по включающему вышеперечисленные режимы в логической взаимосвязи расширенному поиску. Каждый документ закреплен за кодом IV, определенной рубрики лингвистического обеспечения классификационного типа.

Принимается, что критерием дублирования заявляемого проекта по отношению к ранее выполненным, разрабатываемым и планируемым проектам является совпадение тематики (релевантность) по развитому классификатору (рубрикатору). Понимая под тематическим рубрикатором (классификатором) некоторый квазивекторный оператор

(см. выше:1 защищаемое положение), можно считать, что применение оператора 5] к БД проектов приводит к декомпозиции информационного поля БД на тематические составляющие.

где 1 = - число дескрипторов в названии заявляемого проекта, совпадающих с классификатором; IV - число дескрипторов в наименовании рубрики классификатора (условно А, В, С, Э, Е, И) (Рис. 5).

Рисунок 4. Схематическое представление зависимости коэффициента концентрации данных от формы описания проекта. Интенсивность окраски пропорциональна семантической значимости формы описания проекта

5 I s g

1 > s 5 3 S С

X g Tt о. О

8 3 I

и » 2 S z

? 5 s s "

I I ¡1

Информация о проекте

S коэффициент концентрации данных -семантической ценности (понскомгч) «Лрш нропг'я) к описанию проекта

Рисунок 5. Стратегия оценки релевантности проекта Интенсивность окраски соответствует значимости по степени совпадений найденных в БД проектов по рубрикам классификатора \Уг по заданным параметрам релевантности 6

и

Пороговые значения релевантности тематики проекта

Чем выше пороговое значение релевантности I заявляемого проекта, тем меньшее количество проектов может ему тематически соответствовать и тем выше значимость найденных проектов для оценки дублирования.

Значение нормированного показателя релевантности может быть в пределах: О: 6 : 1. Ноль указывает, что результатом поиска является вся БД, то есть аналог не будет найден. Единица - полное совпадение заявляемого проекта с названием найденного и рубрикой классификатора, что возможно лишь теоретически.

Рассмотрим случай тематической классификации А. На диаграмме (Рис. 6.) представлена схема процесса поиска информации

Рисунок 6. Графическое представление по проекту. поискав БД с использованием

А - дескрипторы рубрикатора, /1 = 2 А, ■> дескрипторов.

и

( = 1,2,3 .к; к -уровень подрубрики; 7=1,2, г; г - количество рубрик; М - дескрипторы проектов БД,

N

М = , где N - порядковый номер проекта в БД,

т - дескрипторы одного проекта в БД,

А - дескрипторы, известные системе, по которым может осуществляться поиск, М о А - дескрипторы проектов, использующиеся в названии рубрик,

Мг\А = ^А,птк ;

I - дескрипторы тематической области,

I

¿ = где Ир - количество заявляемых

проектов,

/ - дескрипторы заявляемого проекта, /: Ь, 0 < /: I М о А п £ - область поиска релевантного проекта; В результате поиска по рубрикатору реализуется операция 1глМ.

Таким образом, фактическое значение вероятности нахождения проекта в БД:

Р{С) = 3 А = т = 1 5. т

Введенный в формулу коэффициент концентрации 5 призван отражать при необходимости несоответствие малого количества дескрипторов запроса относительно большому тексту, например, аннотации найденного документа (8 равно отношению дескрипторов аннотации к дескрипторам запроса).

Если проект найден, то он может содержать дескрипторы, не включенные в Рубрикатор, но, возможно, совпадающие с запросом пользователя. Это величина релевантности:

Эта величина оценивается автоматизированным путем по рубрикатору системы по описанной выше методике автоматизированной оценки дублирования.

Величины вероятности и релевантности может использоваться в качестве данных для сортировки документов при поиске, определений общих величин совпадения тематик проектов по запросу пользователя и по рубрикатору в целом.

| | дескрипторы запроса совпадающие с

_классификатором (рубрикатором)

| [дескрипторы запроса, согпадающ информацией по проектам

3. Построение информационной системы по радиогеоэкологическим проектам

Тематический охват документов по проектам, отобранным из информационной системы «ЭкоПро». справочников по экологическим проектам Российской академии наук, материалов исследований, проводимых в ИГЕМ РАН в лаборатории радиогеоэкологии, и других источников, представлен широким спектром проблем радиоэкологии и, граничащей с ней, радиобиологии, радиационной гигиены, а также мероприятиями радиационной безопасности. 47% проектов выполнено Российской академией наук (половина из них - исследования Отделения наук о Земле РАН), остальные - другими исследовательскими и опытно-конструкторскими организациями и предприятиями ядерной индустрии страны. Поскольку в проектах изучается влияние антропогенных и естественных радионуклидов во взаимосвязи с процессами и явлениями в недрах, почвах, воздухе и водной среде на экологическое состояние биосферы и используются геологические, географические методы, тематику БД можно терминологически определить как радиогеоэкологию. Данная междисциплинарная область пересекается с радиоэкологией и в ее состав входят исследования ионизирующих излучений экологической геологии, экологической географии, экологического почвоведения.

Информационное наполнение системы по проектам в области радиогеоэкологии представлено массивом документов с наиболее семантически значимой информацией о проектах (название и аннотация) и дополнительной (организация - исполнитель, менеджер проекта, донор (их реквизиты, телефоны, почтовые и электронные адреса), сроки выполнения, бюджет проекта и территориальная привязка). Для формирования точного поискового образа документа БД целесообразным введение тематического классификатора и классификатора географических привязок.

Для целей БД информационной системы по радиогеоэкологическим проектам в географический классификатор, представленный субъектами федерации, населенными пунктами, экономико-географическим регионами, экологическими регионами, охраняемыми территориями, районами, бассейнами рек, реками, озерами, островами, водохранилищами, были добавлены тематико-географические данные (объекты радиационного риска, включающие атомные электростанции, радиационно-химические, горно-химические комбинаты, учреждения с исследовательскими ядерными реакторами, места выброса и хранения радиоактивных отходов).

Тематическая целостность формируемой базы данных по экологическим проектам в значительной степени определяется качеством (развитость, терминологическая точность, полнота) тематического классификатора.

3.1 Формирование базы данных по радиогеоэкологическим проектам с использованием тематического классификатора

Для построения тематического классификатора БД информационной системы по радиогеоэкологическим проектам не во всех случаях достаточно отдельной рубрики ГРНТИ или, развитого на его основе, Рубрикатора ВИНИТИ, которую можно было бы подразделить на уровни, как предписывают стандарты (ГОСТ 7.90, СИБИД), поскольку тематика проектов отражается в различных разделах и рубриках разного уровня общепринятых рубрикаций, связанных с влиянием ионизирующего излучения на окружающую среду. В виду данного обстоятельства на основе первоначального массива базы данных с использованием методики формального разделения признаков проектов и междисциплинарных понятий радиогеоэкологии был сформирован классификатор комплексного, более широкого направления.

3.1.1 Математическое представление методики построения тематического классификатора проектов в области радиогеоэкологии

Для формирования базы данных информационной системы решается задача выбора из большого количества проектов, имеющихся в различных источниках, (множество Е). массива проектов радиогеоэкологической тематики (множество А). Методически классификационные построения связаны с выработкой понятий, а следовательно, и терминов - дескрипторов, образующих классификатор. Методика предполагает следующие этапы (Рис.7):

1. формальное задание множества объектов, над которыми совершаются операции классификации;

2. выбор формальных характеристики объектов множества;

3. выбор логических конструкций и формальных определений разбиения множества для получения рубрики классификатора.

*;"

^ а я

«и

I и

Использование сформированного классификатора в аналитических целях и для пополнения базы данных Пополнение лингвистического обеспечения

Начало классификационных построений (с использованием множества документов по проектам из различных источников)

0

1 £

ПРИКЛАДНАЯ ОСНОВА КЛАССИФИКАЦИИ

Основа классификационных построений

Основные понятия исследуемой предметной области, ф[л]

Использование стандартных классификаторов, и[А]

Отбор проектов по основным признакам, (по наличию в документах хотя бы одного основного признака, и(а) = 1)

Разделение документов по проектам но рубрикам, А,,1 = 1,2,..., N

Г>бриВ1 первого >ровня Ф[/4, ]е {/[/},] 1

Ру^нтки кгороиз уровня Ф^^Зе

Рубрики третьего уровня ф[Л3)£

ФОРМАЛЬНЫЕ (ЛОГИЧЕСКИЕ) ОПЕРАЦИИ КАССИФИКАЦИИ

Формальное задание множества объектов, над которыми осуществляется классификация

Формальные характеристики объектов

множества Описание основных признаков документов, входящих в базу данных

Логические конструкции разбиенйя множества

Описания проектов первого уровня

Описания проектов второго уровня

Описания проектов

третьего уровня Описания проектов четвертого уровня

Классификатор радиогеоэкологических проектов

Рисунок 7. Основные этапы построения классификатора

Формальное задание некого множества Л е К с проектами ае А осуществляют с помощью правила определения принадлежности объекта а множеству А

Множество А задается посредством понятий А Выбор проекта а из множества ¿'осуществляется в соответствии с определенным формальным правилом, опирающимся на представление (понятие, смысл, характеристика) специалиста в данной предметной области (радиоэкологии) о свойствах у, проекта а, позволяющих отнести этот проект к множеству А Свойство может характеризоваться одним и или несколькими признаками, обычно представляющими собой дескрипторы, отраженные в тексте, характеризующем проект Например, наличие слов радионуклиды и радиоактивные отходы говорит о том, что проект, скорее всего, посвящен исследованию поведения радионуклидов в районах размещения радиоактивных отходов, что составляет свойство у., проекта

Свойство <(. может принимать числовые, количественные, логические («да - нет») оценки - множество свойств $, определяемых на множестве объектов А и

являющихся логическим следствием понятий А. Совокупность свойств соответствует совокупности (системе) признаков и\Л\ объекта а, причем даже одного признака достаточно для отнесения объекта к множеству А

Одному числовому свойству может однозначно соответствовать набор

признаков и' = 1н*}, к = 1,2,.., АО).

Например, свойство <(, характеризуется одним признаком и, и(а) = 1 или и(а) = 0. Если и - радиоактивное загрязнение, тогда проект «Исследования и картирование радиоактивных загряз нений Уральского региона» соответствует и(а) = 1 и относится к А. Если название проекта «Картирование загрязнений Уральского региона», то и(а) = О и этот проект не входит во множество А

Второй этап классификации взаимосвязан с первым и предполагает описание групп (множеств) отобранных документов Поскольку тематика может пересекаться, а документы содержать дескрипторы, относящиеся к различным свойствам, необходимо расширенное определение точных тематических характеристик признаков и свойств Обозначим через Аи подмножество А , для всех объектов которых выполнено и (а) = 1, а

через А и подмножество, для всех объектов которого и(а) = 0 Пример если и -радионуклиды в геологической среде, радиоактивное загрязнение и охрана недр, то Аи -подмножество, связанное с проектами, тематика которых отражает исследования радиоэкологической геологии по мониторингу радионуклидного загрязнения, моделированию миграции радионуклидов в подземном пространстве, исследования по охране недр в связи с деятельностью ядерно-радиационных предприятий, подземным захоронением радиоактивных отходов и разработкой месторождений в том числе руд

радиоактивных металлов, А и - подмножество сходной тематики подземного захоронения радиоактивных отходов, но в данном случае предполагающая рассмотрение вопросов по технологическим, химическим и др вопросам сбора, транспортировки, переработки и др

Разделение документов на рубрики и подрубрики, третий этап, осуществляется также на основе признаков, характеризующих группы документов по проектам

Признак и делит множество А , если в А существуют хотя бы два такие а' и а", что

и(а")л и(а*) = 1 , то есть Аи ф0, киф 0 (подмножества не пустые).

Разбиение множества А представляется в виде совокупности непересекающихся подмножеств А,, / = 1,2,...,#,

А,пА1 = 0, ¡Фк ;

У А,=А; А,* 0. ы

Пример. А - множество радиоактивных загрязнений, ухудшающих экологическую обстановку (радиоактивное загрязнение и охрана окружающей среды), А,, г = 1,2, , N -различные виды загрязнений окружающей среды, влияющих на экологическую обстановку. Требование Дг>4= О, I Фк, означает наличие четких признаков, определяющих разные классы влияния радиационных загрязнений на экологию (фоновые, антропогенные, влияющие на здоровье человека, на экосистемы, организмы растений и животных и пр ).

Два признака ип и ит на множестве А несовместны ип ®мя|Л, если для всех а е. А

",(«) "»(«) = °; Л. '"»А. =0

Пример' фоновый уровень радиоактивности окружающей среды (природный радиоактивный фон) и последствия радиационного воздействия (антропогенного) на организм человека.

Два признака и„ и ия будем называть совместными на множестве А ип0ит\А, если есть хотя бы один такой проект а'е А, что и(а) м(д*) = 1. Тогда пересечение и не пусто- А^ пА„т* О

Пример проект «Радионуклиды в среде и биоте Баренцевоморского региона» и проект «Радиоэкологический мониторинг наземных и водных экосистем Сибири». Совместны признаки радиоэкология (радионуклиды) и окружающая среда.

Таким образом, представления выражаются терминами (ключевыми словами), что позволяет с помощью классификатора реализовать формальное правило отбора проектов Классификатор выступает как средство систематизации описаний проектов при информационном наполнении радиогеоэкологической базы данных. 3 1 2 Формальное определение тематического охвата и построение классификатора по проектам в области радиогеоэкологии

Анализ первоначальной базы данных показал, что основные признаки, по которым осуществляется начальный выбор проектов, должны формироваться на основе наличия в наименовании, аннотации проекта слов

• радиоэкология, радиогеоэкология (различные формы) собственно или в сочетании со словами, характеризующими, окружающую среду, ее компоненты и виды; явления, их свойства;

• радионуклиды (их перечень), ионизирующие излучения, являющиеся основными и в подавляющем большинстве случаев присутствующих в описании проекта в сочетании со словами экологической направленности и/или характеризующих окружающую среду;

• радиационная обстановка, радиационная опасность, радиационный риск, радиоактивное загрязнение, радиоактивные отходы, радиационные аварии и радиационные катастрофы и др также совместно со словами экологической направленности или характеризующими окружающую среду.

Из классификации исключаются проекты, связанные с изучением действия радиации на организм, поскольку это тематическая область радиобиологии и радиационной медицины, и проекты, изучающие вопросы ядерной безопасности.

В качестве основы рубрикации выступают: 1. разделение на общие вопросы и по средам, поскольку для каждой среды изучения существуют свои особенности исследований, что на формальном уровне обуславливает наибольшую степень различия между рубриками классификатора.

18

2. разделение по источникам ионизирующего излучения (естественные и искусственные радионуклиды).

3. представляющееся более сложным, в связи с интегральностью свойств проектов, разделение рубрик по методам и наиболее мелким параметрам сред и источников.

Пятиуровневый классификатор включает около 240 рубрик и обеспечивает более широкие возможности для поиска и другие функциональные возможности базы данных.

Рубрики первого уровня (разделы) делят тематику на общие вопросы и преимущественно по компонентам окружающей среды (названия рубрик представлены на Рис.8). Для расширения возможностей тематического анализа дополнительно введены разделы по радиоактивным отходам и радиационным авариям.

Рисунок 8. Количество документов по проектам согласно тематической классификации

Общие вопросы радиационной экологии и геоэкологии

Ионизирующие излучения, радионуклиды в окружающей среде и биосфере Радиоактивное загрязнение окружающей среды

Ионизирующие излучения в атмосфере Радиоактивное загрязнение воздушной среды

Радиоактивные вещества, радионуклиды в водах суши, морей и океанов Радиоактивное загрязнение и охрана вод суши, морей и океанов

Радионуклиды в почвенном покрове Радиоактивное загрязнение и охрана почв

Радионуклиды в геологической среде, радиоактивное загрязнение и охрана недр

Радионуклиды в экосистемах, отдельных организмах животных и растений

Радионуклидное загрязнение ландшафтов

Поиск поверхностно залегающих месторождений радиоактивных руд

Радиационные катастрофы, аварии, инциденты Предупреждение, прогнозирование, ликвидация _последствий_

Радиоактивные отходы Сбор, переработка, удаление и захоронение

п

О рубрики 1-го уровня

□ рубрики 2-го уровня

□ рубрики 3-го уровня

■ рубрики 4-го уровня

■ рубрики 5-го уровня

Рубрики второго уровня отражают:

• Общие вопросы (руководящие материалы, радиоэкологические центры, информационная деятельность, теория и методы, социальные и политические аспекты, международное сотрудничество, и др.).

• Теорию, методы изучения, системы и приборы контроля.

• Радионуклиды в среде (согласно рубрикам первого уровня), содержание, поведение.

• Закономерности и условия формирования радионуклидного загрязнения.

• Радиационное, радиоактивное загрязнение окружающей среды.

• Радиоэкологические последствия, экологические и радиационные риски воздействия радиации на окружающую среду от антропогенных источников загрязнения.

• Комплексные и региональные проблемы. Радиоэкология регионов, радионуклиды в окружающей среде регионов.

Поскольку экологическая тематика междисциплинарна, то подобную схему можно использовать при построении классификаторов локальных БД других предметных областей экологии и охраны окружающей среды, если тому способствуют объем, широта тематического охвата и целевое назначение БД

Рубрики более низкого уровня формируются на основе разделения тематико-информационных признаков проектов, входящих в вышестоящую рубрику. Унифицированность построения рубрик снижается от уровня к уровню.

Более детальный поиск документов по проектам в БД ведется с использованием ключевых слов. Возможно дальнейшее развитие рубрикации в зависимости от количества и тематики документов в базе данных.

3.2 Взаимосвязь тематического классификатора по радиогеоэкологическим проектам с Рубрикатором ВИНИТИ и ГРНТИ

В целях многофункционального использования и интеграции данных к каждой рубрике классификатора были добавлены логические взаимосвязи с рубрикаторами ГРНТИ и ВИНИТИ.

Среди основных рубрик ГРНТИ и ВИНИТИ, связанных с классификатором радиогеоэкологических проектов, можно выделить:

• 87 (ГРНТИ) 873(ВИНИТИ) Охрана окружающей среды и природопользование

Используются почти все рубрики данной предметной области. Разделы классификатора формируются также, как и в Рубрикатора ВИНИТИ 873: преимущественно по компонентам окружающей среды, в пределах которых тематика делится на общие вопросы, теорию и методы, свойства загрязняющих веществ, комплексные региональные проблемы. Взаимосвязь строится «один к одному».

• 34.49.23 (ГРНТИ) 341.49.23 (ВИНИТИ). Радиоэкология (34 ГРНТИ Биология) Отражение подрубрик данного раздела, имеющихся в классификации ВИНИТИ,

происходит по такому же принципу, что и в случае с охраной окружающей среды, однако связь можно условно определить не только как «один к одному», в случае, например, с миграцией радионуклидов по пищевым цепям 341.49.23.17.11 и одноименной рубрикой классификатора в разделе 06., но и «один ко многим», например, рубрики и подрубрики 341.49.23.02. Общие проблемы радиоэкологии.

• 38 (ГРНТИ) 383(ВИНИТИ) Геология

К основным рубрикам, имеющим отношение к классификатору, можно отнести: 383 01 94 Охрана окружающей среды в геологии и 383 01 94 05 Проблемы ядерной геологии Геохимия: 383 33 15 31 Геохимия радиоактивных элементов, 383 33 21 41 Изотопы радиоактивных элементов, 383 33 17 02 Геохимия природных процессов 383.61 Гидрогеология

• 58 (ГРНТИ) Ядерная энергетика

Рубрика 58 35 05 Действие ионизирующего излучения взаимосвязана с рубриками классификатора, отражающими исследования радиоактивного загрязнения, оценку его воздействия.

• 52(ГРНТИ) 524(ВИНИТИ) Горное дело

Рубрики по разработке руд радиоактивных металлов 52.31.61, а также горючих полезных ископаемых (например, 524.35.29; 524.35.33; 524.37; 524.41) включены в раздел классификатора 05 Радионуклиды в геологической среде....

Пользуясь аппаратом отображений рубрик построенного классификатора по проектам в области радиогеоэкологии, можно также получать списки ключевых слов и в дальнейшем определять пересечение тематик на уровне дескрипторов, так как рубрики Рубрикатора ВИНИТИ оснащены ими.

Таким образом, классификатор, предназначенный для поиска и тематического определения сведений по проектам, может использоваться для поиска и анализа больших массивов данных и детализации имеющихся рубрик ГРНТИ и ВИНИТИ.

3.3 Анализ поиска по ключевым словам

На основе первоначальной БД по проектам, а также дополнительно по материалам публикаций в области радиоэкологии, отобранных в базе данных ВИЭМС, был проанализирован полный список ключевых слов баз данных ВИНИТИ. Особое внимание уделено ряду ключевых слов, отражающих радиоэкологическую направленность, предусмотренных для поиска информации в общем массиве данных по проблемам окружающей среды и природопользованию, включающем информацию по радиационной экологии. С целью расширения тематического диапазона, увеличения глубины поиска радиоэкологической информации, повышения релевантности выдачи данных по запросам пользователей предлагается пополнить список ключевых слов по радиоэкологической тематике 27 словами (для БД по проектам) и 6 (для БД ВИНИТИ). Решение о добавлении ключевого слова в перечень сформировано на основании того, является ли это слово необходимым дескриптором, насколько внесение слова уточнит релевантность запроса, наличие в списке составляющих (для сочетаний), количественного критерия (по поиску в Internet).

Рисунок 9. Соотношение ключевых слов, использующихся в названиях проектов, в

соответствии с различной тематической направленностью.

Внешний круг - среднее по поисковым системам Internet; внутренний - в БД проектов

. ионизирующее излучение, радионуклиды в окружающей

■ радиационная безопасность, радиационная опасность

□ радиоактивное загрязнение

□ радиоактивные отходы

■ атомная энергетика

□ Чернобыльская атомная электростанция

■ ядерная тематика воздействие радиации на организм, дозы радиации

Тематический и логический анализ показал, что результаты поиска по словам в специализированной системе по радиогеоэкологическим проектам и в больших массивах данных распределяются неравномерно, но различия в структуре поиска (доля

выдаваемых документов по каждому слову относительно общего массива поиска), незначительны. В проектах БД доминирует тематика радиоактивных отходов, изучения миграции и концентрации радионуклидов в различных средах (Рис. 9). Ключевые слова списка радиологической направленности встречаются в большинстве названий проектов радиоэкологической тематики (98 %). В 40% названий проектов - по два, реже три, ключевых слова списка радиационной тематики.

Выявлена необходимость дополнения словаря ключевых слов в целях более эффективно! о поиска информационных документов по радиогеоэкологии в части более детального рассмотрения видов радиоактивных отходов, способов захоронения, пород и другими специфическими терминами, использующихся в документах по проектам

3.4 Пример по анализу проектов в БД

Тематический анализ отображения в БД научных направлений радиогеоэкологии ИГЕМ РАН, согласно принадлежности рубрикам классификатора, представлен на рисунке 10.

Рисунок 10. Количественное соотношение проектов, релевантных научным направлениям ИГЕМ РАН, по разделам классификатора.

Количество проектов, приходящихся на соответствующий тематике поиска раздел - первый столбец по категории научного направлении; суммарное количество по подрубрикам раздела -второй столбец (помечен сверху).

□ □

■ 03-Радтонуклиды в водах

■ 05-Радионуклиды в недрах

D 07- Радионуклидное загрязнение ландшафтов

| Радионуклиды в | геологической среле

Геологические основы длительного хранения и подземного захоронения BAO отходов и ОЯТ

Гидрогеохимические проблемы радиогеоэкологии

Изучение и математическое моделирование

Миграция и концен-вание радионуклидов в природных и

пр оцессов пер еноса и техногенных ландшафтах накопления стабильных и радиоактивных веществ в геологических формациях

Результат поиска, найденные сведения по НИР, в соответствии со спецификой информации по проектам, отраженной в тематическом классификаторе, и особенностями поискового запроса, свидетельствует о возможности оценки тематического дублирования (защ. пол. 3).

Распределение проектов по субъектам РФ, согласно географической привязке и расположению объектов радиационного риска представлено на рисунке 11. Пик проектной деятельности наблюдается в Мурманской обл. по проблеме утилизации атомных подводных лодок, а также Уральском регионе в связи с последствиями аварии 1957 и деятельностью ПО «Маяк». Район нахождения организации- исполнителей проектов: Москва и область (47%), Санкт-Петербург (13%), Новосибирск, Мурманск и др.

Рисунок //. Количественное распределение проёктов по субъектам РФ согласно географической привязке.

Смм^овска) об л

географическая привязка проектов

распределение проектов в зависимости от района нахождения организаций-исполнителей

Легенда к карте

Заключение

Согласно результатам выполненного аналитического обзора, рассмотрения общих вопросов информатизации, поиска экологических сведений, имеющихся информационно-поисковых систем и электронных баз данных по проектам, а также анализа тематики дублирования в научных статьях, были сформированы, теоретически разработаны и экспериментально проверены подходы, методы и технологии построения информационных систем для поиска и оценки тематического дублирования проектов в области экологии. Помимо традиционного понимания, под дублированием понимается частичное совпадение тематических областей выполненных и планируемых исследований. Оценка дублирования способствует более эффективному планированию новых исследований, сотрудничеству организаций, выполняющих исследования, а также тиражированию и распространению знаний в области экологии.

Основными результатами выполненного исследования являются разработка научных методов оценки тематического дублирования проектов, обоснование эффективности предложенных принципов и применения информационных технологий для поиска релевантных проектов с последующими этапами сравнения найденного и заявляемого проекта, а также создание основополагающих моделей для сравнения документов автоматизированным путем.

Научная значимость

> Предложены обобщенные подходы и проектные решения оценки тематического

дублирования, включающей:

1) Поисковые предписания согласно информации по проектам, включенным в базу данных, которую можно > словно разделить на общенаучную, экологическую и специализированную (определенное направление в экологии, в данном случае -составляющая радиогеоэкологии), а также разделить по семантической значимости, что позволяет формализовать формирование лингвистического обеспечения системы и поиска данных.

2) Методику оценки тематического дублирования документов по проектам.

> Предложена модель оценки экономической эффективности систем, содержащих

сведения по проектам.

Базисом предложенной модели является экономия за счет устранения повторного цикла исследовательских работ, ранее проводимых, согласно имеющимся в базе данных сведениям. Данный показатель отражает целевое назначение системы и имеет стоимостную оценку благодаря тому, что проекты являются комплексной деятельностью, сосредотачивающей различные ресурсы, в том числе финансовые.

г- Предложена методика формирования классификаторов проектов в области экологии.

Методические указания основаны на группировке и разделении совместно использующихся в описаниях проектных документов признаков, отражающих общие направления, экологическую специфику и специфику исследуемой области (радиоэкологии, радиогеоэкологии, радиоактивного загрязнения). Методика может применяться для других предметных областей экологии, а также для построения алгоритмов автоматизированного формирования классификатора.

Практическая значимость

> Построена база данных и информационная система по проектам в области радиогеоэкологии Проведен количественный анализ, а также сформирована коллекция ссылок, содержащих информацию по проблемам радиоэкологии и радиоэкологическим проектам Количественные оценки базы данных по радиогеоэкологическим проектам, распределение по рубрикатору подтверждают возможности сопоставления проектов схожих тематических областей, что свидетельствует о реальных условиях оценки тематического дублирования, в особенности, при своевременном пополнении и актуализации БД.

> По разработанной методике с отображением взаимосвязи с Рубрикатором ВИНИТИ и ГРНТИ сформирован классификатор комплексного направления, включающий рубрики по разноаспектным исследованиям ионизирующих излучений в различных компонентах окружающей среды, в том числе в геологической среде (проекты лаборатории радиогеологии и радиогеоэкологии ИГЕМ РАН).

> Проведена работа по сопоставлению построенного классификатора с Рубрикатором ВИНИТИ и ГРНТИ, результаты которой способствуют точному поиску, использованию и пополнению общепринятых тематических классификаторов и больших массивов данных

> Проведен анализ поиска по ключевым словам в БД по проектам с использованием списков ключевых слов ВИНИТИ Выявлена необходимость дополнения словаря в целях более эффективного поиска информационных документов по радиогеоэкологии в массивах данных по экологии и охране окружающей среды в части более детального рассмотрения видов радиоактивных отходов, способов захоронения и другими специфическими терминами, использующимися в документах по проектам

Следующими этапами работы по данной тематике могут быть'

• Рассмотрение и построение систем экспертной оценки тематического дублирования проектов.

• Развитие предложенных подходов к сопоставлению стоимостных оценок проектов

• Расчеты для получения статистической оценки и моделирование вероятности нахождения проекта и оценки степени его дублирования

• Использование технологических достижений в информатике для автоиндексирования документов и формирования рубрикатора автоматизированным путем

• Картографическое моделирование поддержки принятия решений по выполнению новых НИР.

Результаты диссертационного исследования, разработанные предписания поиска и оценки тематического дублирования способствуют повышению эффективности в части планирования разработки и организации выполнения НИР, выработки управленческих решений в области экологии Достигается экономия финансовых ресурсов вследствие использования поисковой системы, а также установление сотрудничества научных коллективов, заказчиков и других заинтересованных лиц, более эффективный обмен, тиражирование и анализ информации в области экологии, а в итоге более конструктивно решаются задачи по проблемам экологии и охраны окружающей среды

Публикации по теме диссертационного исследования

1. Веселовский А В, Кузьмина Д А Информационные ресурсы по экологическим проектам в Internet (на примере справочно-анапитической системы «ЭкоПро»)// № 9 Проблемы окружающей среды и природных ресурсов М ВИНИТИ, 2003 С 2-7

2. Веселовский A.B. Кузьмина Д.А. Использование технологии ГИС для оценок финансирования работ в области экологии // тез. докл. на X Всероссийский форум «Геоинформационные технологии. Управление. Природопользование. Бизнес. Образование». М.: ГИС - Ассоциация, июнь 2003. С.17.

3. Веселовский А В, Кузьмина Д А Экономические аспекты рационального природопользования и мониторинга окружающей среды (на примере Московской области)//№ 5 Экономика природопользования. М. ВИНИТИ, 2003. С 25-30.

4. Кузьмина Д А Экономическая роль информационных технологий в экологии// №9 Проблемы окружающей среды М ВИНИТИ, 2003. С 7-9

5. Кузьмина Д А Автоматизированная информационная система для оценки проектов в области радиоэкологии // тез. докл. Годичной сессии Московского Отделения МО 2003. М.: ИГЕМ РАН, 2003 С.67-69.

6. Кузьмина Д А Аналитический обзор Эффективный поиск данных и оценка степени дублирования исследований в области экологии // №10 Проблемы окружающей среды М. ВИНИТИ, 2005. С.3-24.

7. Кузьмина Д А Использование ключевых слов в информационно-поисковой системе по проектам в области радиоэкологии // НТИ Сер 2 №7 М ВИНИТИ, 2005. С. 1222.

8. Кузьмина Д А Поиск проектов в информационных массивах для оценки степени дублирования исследовательских работ в области экологии// №6 Экологические системы и приборы М Научтехиздат, 2004 С 8-12

9. Кузьмина Д А Построение базы данных по проектам в области радиоэкологии и радиогеоэкологии с использованием тематического классификатора // Геоэкология, в редакции, М ИГЭ РАН, 2006

Ю.Кузьмина ДА Характеристики типового персонального рабочего места эколога в региональной автоматизированной системе// тез. докл на X Всероссийский форум «Геоинформационные технологии Управление Природопользование Бизнес Образование», М. ГИС - Ассоциация, 2003. С 18.

11. Кузьмина ДА, Шапкин А В Сопоставление тематических классификаторов локальных баз данных с Рубрикатором ВИНИТИ и ГРНТИ (на примере классификатора БД по проектам в области радиогеоэкологии) // №3 НТИ М.: ВИНИТИ, 2006.

AcoôA

m-7267

it i

Содержание диссертации, кандидата геолого-минералогических наук, Кузьмина, Дарья Александровна

ВВЕДЕНИЕ.

ГЛАВА

АНАЛИТИЧЕСКИЙ ОБЗОР.

1.1 источники информации и цели аналитического обзора.

1.2 Общие вопросы охраны окружающей среды, концепция устойчивого развития

1.2.1 Информатизация экологии.

1.2.2 Поиск экологической информации.

1.3 Рассмотрение проблемы дублирования и информационного обеспечения данных по экологическим проектам.

1.3.1 Дублирование научных исследований.

1.3.2 Источники информации по экологическим проектам.

ГЛАВА

ОЦЕНКА ТЕМАТИЧЕСКОГО ДУБЛИРОВАНИЯ НАУЧНЫХ ИССЛЕДОВАНИЙ В ОБЛАСТИ ЭКОЛОГИИ.

2.1 Постановка задачи минимизации дублирования экологических исследований

2.1.1 Определение и основные теоретические положения задачи минимизации дублирования.

2.1.2 Роль информационно-поисковой системы в задачах минимизации дублирования, (фактическийматериал по системе «ЭкоПро»).

2.1.3 Математическое представление эффективного планирования за счет устранения дублирования.

2.2 Основные подходы и модели оценки степени дублирования проектов.

2.2.1 Автоматизированный поиск в информационной системе в соответствии с темой заявляемого проекта.

2.2.2 Экспертная оценка коэффициента перекрытия заявляемого проекта с найденным информационной системой и принятие решения.

ГЛАВА

ЭКОНОМИЧЕСКАЯ ЭФФЕКТИВНОСТЬ МИНИМИЗАЦИИ ДУБЛИРОВАНИЯ

3.1 Экономическая роль информационных технологий в экологии.

3.1.1 Экономические аспекты природоохранной деятельности в России.

3.1.2 Информатизация экологических исследований, информационные системы в экологии и их роль в экономии природных ресурсов.

3.2 Экономическая эффективность информационных систем, содержащих сведения по проектам в области экологии.

3.2.1 Основные подходы к оценке экономической эффективности информационных систем, содержащих сведения по экологическим проектам.

3.2.2 Экономико-математическая модель эффективности информационно-поисковой системы.

ГЛАВА

АВТОМАТИЗИРОВАННЫЙ ПОИСК В ИНФОРМАЦИОННОЙ СИСТЕМЕ И ЭФФЕКТИВНОСТЬ УСТРАНЕНИЯ ДУБЛИРОВАНИЯ.

4.1 Информация по проектам и особенности поисковой системы.

4.1.1 Поиск информации в базе данных.

4.1.2 Математическое представление тематического наполнения информационного массива и стратегш оценки релевантности.

4.2 Лингвистическое обеспечение информационной системы по экологическим проектам.

4.2.1 Методика построения словаря ключевых слов.

4.2.2 Роль тематического классификатора и методика его построения.

ГЛАВА

ИНФОРМАЦИОННАЯ СИСТЕМА ПО РАДИОЭКОЛОГИЧЕСКИМ ПРОЕКТАМ

5.1 Построение информационной системы по радиоэкологическим проектам.

5.1.1 Построение базы данных информационной системы в области радиогеоэкологии с использованием тематического классификатора.

5.1.2 Использование ключевых слов в информационно-поисковой системе по проектам в области радиоэкологии.

5.1.3 Сопоставление классификатора по радиогеоэкологическим проектам с Рубрикатором ВИНИТИ и ГРНТИ и ключевые слова рубрик.

5.2 Анализ базы данных по радиоэкологическим проектам.

5.2.1 Поиск релевантных проектов на примере научных направлений ИГЕМРАН.

5.2.2 География распределения проектов.

Введение Диссертация по наукам о земле, на тему "Информационные системы поиска и оценки проектов в области радиоэкологии"

Актуальность проблемы

Экологические проблемы в настоящее время приобрели планетарный масштаб и особую значимость, поскольку касаются всех областей жизни общества. Выделяют четыре основных момента, связанных с решением задач охраны окружающей среды и природопользованием: малоотходная безотходная, ресурсосберегающие технологии; экономические пути; формирование нового мировоззрения и экологическое образование; формирование информационной структуры.

Информатизация в экологии служит прежде всего цели экономии ресурсов путем поиска и последующего использования информации:

• для аналитической обработки имеющихся результатов в определенной области науки и выхода на необходимый, возможно, новый уровень последующих исследований;

• для постоянного оперативного отслеживания новой информации в природоохранной деятельности и выявления ее динамических характеристик;

• для предотвращения повторных исследований;

• для распространения результатов исследований и работ (доступные базы данных в Internet).

В настоящее время исследования по охране окружающей среды ведутся во всех областях науки и техники различными организациями и на разных уровнях, в том числе и на государственном. Большие объемы экологической информации, данные многолетних наблюдений, новейшие разработки разбросаны по различным, часто недоступным, информационным базам или даже находятся на бумажных носителях в архивах, что затрудняет их поиск и приводит к снижению эффективности использования средств, выделяемых на экологию из бюджета, иностранных фондов или коммерческих структур.

Если информация о выполненном проекте или проведенном исследовании недоступна организациям, а их множество, это ведет к повторному циклу исследовательских и опытно-конструкторских работ, а, следовательно, к неоправданным расходам.

Поэтому устранение дублирования исследований путем формирования широко доступных информационных систем по выполненным экологическим проектам является одним из важных направлений решения вопроса сохранения и восстановления природной среды, поскольку способствует:

• экономии финансовых ресурсов вследствие устранения повторных исследований;

• более целенаправленному и эффективному планированию разработки и организации НИР;

• установлению сотрудничества научных коллективов, заказчиков и других заинтересованных лиц.

• более эффективному обмену и тиражированию информации в области экологии;

• повышению эффективности конкурсных процедур - ускорению процесса их подготовки, более объективному рассмотрению проектов, возможности привлечения большого количества независимых экспертов, осуществлению общественной экспертизы проектов.

Работа по решению проблемы оценки дублирования носит инновационный характер, так как способствует решению задачи эффективного использования знаний.

Основные понятия

Предмет исследования: - тематическая структура и поисковый образ информации по экологическим и радиогеоэкологическим научным исследованиям.

Объект исследования: Методы, модели минимизации тематического дублирования проектов:

1) обосновывающие эффективность устранения дублирования;

2) формирующие принципы и подходы к поиску и оценке степени дублирования проектов автоматизированным путем.

Под минимизацией дублирования экологических проектов подразумевается: повышение эффективности планирования тематики нового исследования с помощью доступных автоматизированных систем, содержащих данные по выполненным проектам, обеспечивающих наиболее рациональное использование ресурсов, направляемых на вновь разрабатываемый проект.

Степень тематического дублирования - оценка соответствия планируемого исследования и найденного в системе релевантного документа по проекту.

Цель и задачи исследования

Главная цель: Разработка научно-методических материалов, алгоритмов обработки данных и информационной системы для снижения затрат, связанных с дублированием работ в области экологии

Задачи

1 .Теоретические исследования в области организации поиска экологических проектов, дублирующих выполненные или запланированные научные и прикладные работы.

• Анализ публикаций по вопросам поиска экологической информации, ее роли в эффективности решения экологических проблем

• Роль информации по экологическим исследованиям в повышении эффективности разработки и планировании экологических проектов.

• Анализ публикаций и поиск имеющихся информационных систем по экологическим проектам; обоснование эффективности устранения тематического дублирования экологических проектов в вопросах экономии ресурсов.

2.Подготовка научно-методических материалов, позволяющих проводить автоматизированный анализ информационных массивов, отражающих тематику и основные результаты исследований с точки зрения исключения повторных работ.

• Разработка подхода, позволяющего проверить тематику работ различных уровней и регионов па дублирование экспертным и математическим путем.

• Разработка экономико-математической модели эффективности системы по проектам в области экологии. Построение научно-обоснованных рекомендаций по повышению эффективности систем по исследовательским проектам.

3.Разработка информационной технологии и системных решений для эффективного поиска и устранения дублирования исследовательских работ в области экологии

• Разработка принципов информационного поиска и построения тематического классификатора системы для оценки степени дублирования

• Классификация факторов, влияющих на оценку степени дублирования.

4.Выполнение экспериментальных работ по построению базы данных и информационной системы для оценки степени дублирования исследования в области радиоэкологии.

• Построение концепции информационной системы по экологическим проектам (цели, область применения, функциональная схема).

• Создание банка данных по радиоэкологическим проектам, проводимым научно-исследовательскими институтами и проектными организациями.

• Разработка классификатора информационной системы по проектам в области радиоэкологии с целью минимизации дублирования при поиске релевантных проектов.

• Анализ тематического дублирования проектов ИГЕМ РАН, в том числе проектов лаборатории радиогеоэкологии и научных организаций РАН.

•Анализ проектов системы с целью выявления тематических динамических тенденций.

Фактический материал

В лаборатории геоинформатики имеется опыт разработки и эксплуатации экологических информационных систем:

- электронный тематический справочник по РАН «Проблемы экологии»;

- справочно-информационная системы АИС «ЭкоПро», в которой представлены экологические проекты, осуществленные на средства иностранных доноров (http://www.ecoproiects.ru');

Также использовался материал ИС «Радиационная безопасность России»

Исследования по данной тематике предполагают анализ тематического дублирования проектов лаборатории радиогеоэкологии, в научных организациях РАН.

Методы исследования

1. Теория вероятности - для моделирования процесса поиска и экономической оценки информационной системы по проектам

2. Матричный аппарат математического моделирования поиска и оценки дублирования проектов автоматизированным путем

3. Методы формальной и булевой логики - разработка методики для построения классификатора системы (формализованной модели). Совместно со статистическими методами алгебра логики используется для разработки словаря системы, а также в практических целях поиска проектов непосредственно в системе.

4. Статистическая обработка массивов наименований радиоэкологических проектов и основных дескрипторов, составляющих лингвистическое обеспечение системы

5. Системный подход общего построения научно-методического материала

Защищаемые положения

1. Минимизация дублирования экологических исследований путем построения информационных систем, содержащих сведения по проектам в области экологии, способствует повышению эффективности проектной деятельности (в концептуальной части и планировании ресурсов исследования), способствуя решению задач природопользования и охраны окружающей среды.

2. Использование доступных и производительных информационно-поисковых аналитических систем по поиску и оценке степени тематического дублирования экологических исследований экономически эффективно ввиду содействия планированию новых исследований (для пользователя) и экономии финансовых средств, расходуемых на экологические исследования.

3. Построение информационной системы для целей минимизации дублирования экологических исследований требует специализированного подхода в части поиска, ориентированного прежде всего на оценку степени тематического дублирования проектов в соответствии со спецификой информации по проектам в области экологии и поискового запроса пользователя.

Структура работы

Диссертация состоит из 168 страниц машинописного текста, введения, пяти глав, заключения, списка литературы (105 наименований) и приложения (28 стр.), включает 20 таблиц и 25 рисунков, поясняющих текст.

Научная новизна полученных результатов

Научная новизна работы состоит в разработке методических подходов к оценке степени тематического дублирования с использованием классификатора, включающих также подходы к оценке эффективности системы.

Разработанный тематический классификатор в области радиогеоэкологии содержит развернутую рубрикацию, в отличие от имеющихся классификационных построений в Государственном рубрикаторе научно-технической информации и рубрикатора Всероссийского института научно-технической информации. Подход к формированию классификатора и выбранные основные признаки деления на рубрики позволяют динамично развивать рубрикацию, в том числе в смежных областях, расширяя тематический охват базы данных и обеспечивая совместимость с существующими рубрикациями.

Практическая значимость работы

Практическая значимость работы состоит в формировании базы данных по радиоэкологическим и радиогеоэкологическим проектам. База данных и информационная система служат продолжением работы по автоматизации хранения и поиска сведений по проектам в области экологии (система «ЭкоПро»), расширяя возможности созданных систем в части информативности и поиска. Результаты классификационных исследований используются в программе Президиума РАН «Электронная Земля».

Предложенные для пополнения списка ключевых слов баз данных ВИНИТИ способствуют расширению возможностей поиска радиологических сведений в массиве данных по экологии и охране окружающей среды.

Методические указания по оценке степени дублирования имеют продолжение в своем практическом приложении в рамках совершенствования системы по оценке степени дублирования.

Подходы к экономической оценке могут способствовать коммерческому внедрению подобных систем поддержки принятия решения.

Проведенный анализ базы данных по проектам направлен на повышение эффективности координации исследовательских работ в данной тематической области.

Апробация работы

Основные научные и практические результаты работы опубликованы в семи статьях и докладывались на X Всероссийском форуме «Геоинформационные технологии. Управление. Природопользование. Образование. Бизнес» ГИС-Ассоциации 2002 г., Московской Годичной сессии в ИГЕМ РАН в 2002 г. Результаты исследования отражены в 9 статьях изданий научно-технической информации.

Построена база данных и поисковая система (СУБД Access) по проектам в области радиогеоэкологи (320 документов по проектам и дополнительные данные по организациям), выполненных за период 1995-2005 гг. институтами Российской академии наук, предприятиями атомной индустрии и другими организациями. Созданная база данных по радиогеоэкологическим проектам входит в состав интегрального банка данных портала ИГЕМ РАН программы Президиума РАН «Электронная Земля», а также пополняет сведения функционирующей АСИС «ЭкоПро».

Благодарности

В первую очередь автор хотел бы поблагодарить своего научного руководителя д.т.н., проф. А. В. Веселовского за неоценимую помощь в планировании, организации и написании работы, а также поддержку и ценные советы.

Особую признательность за консультации автор выражает академику РАН Н.П. Лаверову, стоящему у истоков развития научного направления радиогеоэкологии, и зав. лаб. радиогеологии и радиогеоэкологии ИГЕМ РАН, член. корр. РАН В.И. Величкину.

За содействие в работе над диссертацией автор глубоко благодарен к.т.н. И.И. Потапову, а также к.т.н. A.B. Шапкину за сотрудничество в работе по сопоставлению рубрик тематической классификации, JI.JI. Гульницкому за консультации и предоставление данных для аналитического обзора.

Автор искреннее благодарит Т.Н Муравьеву за искреннее участие в обсуждении вопросов геохимии в процессе работы над тематической классификацией, Т.М Маханову за содействие в построении географического классификатора и всех сотрудников лаборатории геоинформатики ИГЕМ РАН за дружескую помощь.

Заключение Диссертация по теме "Геоинформатика", Кузьмина, Дарья Александровна

Выводы

В результате проведенного исследования разработан состав лингвистического обеспечения системы, содержащего словарь ключевых слов, тематический классификаторов и классификатор географических привязок проектов. Это позволяет более эффективно решать задачи оценки дублирования с использованием информационно-поисковых систем.

1) Проведен анализ поиска по ключевым словам по материалам данных по проектам радиогеоэкологии, радиоэкологии и радиоактивного загрязнения, отобранным из различных источников, с использованием списков ключевых слов ВИНИТИ. В целом словарь ключевых слов ВИНИТИ удовлетворяет задачи поиска проектов на 92 %. Выявлена необходимость дополнения словаря в целях более эффективного поиска информационных документов по радиогеоэкологии в части более детального рассмотрения видов радиоактивных отходов, способов захоронения и пород и других специфических терминах, использующихся в документах по проектам. Предложены и приняты слова для пополнения списков БД ВИНИТИ.

2) Географический классификатор и географическая лексика были разработаны в рамках работы над системой «ЭкоПро». В построенной информационной системе данный классификатор географических привязок был дополнен зонами радиационного риска (атомные электростанции, радиационно-химические комбинаты, горно-химические комбинаты, НИИ с экспериментальными реакторами, зоны складирования и выброса радиоактивных отходов).

3) Наиболее важную часть автоматизированного поиска и оценки степени дублирования проектов представляет собой тематический классификатор. Разработана методика построения тематического классификатора по проектам с использованием формального подхода, на основе принципов первоначального отбора документов в базу данных, тематического разделения первоначальной базы данных по проектам, предусматривающая также использование имеющихся общепринятых рубрикаторов (как требуют стандарты).

Анализ показал, что имеющиеся классификационные системы в области радиоэкологии и других смежных областях не отражают тематику проектов БД и не подходят для использования их в созданной специализированной информационной системе. В связи с этим по сформированной методике с использованием комплексных понятий, выраженных дескрипторами в тексте проекта, а также с использованием Рубрикатора ВИНИТИ и ГРНТИ был сформирован тематический классификатор комплексного, более широкого направления, включающий рубрики по исследованиям радионуклидов в различных компонентах окружающей среды, в том числе в геологической среде (основное направление лаборатории радиогеологии и радиогеоэкологии).

С использованием теоретических результатов выполненного исследования построена база данных и информационная система по проектам в области радиогеоэкологии и близких по тематике, используемая в научных работах ИГЕМ РАН, академических институтах и других организациях (Приложение 2, п. 2.2). В отличие от имеющихся аналогичных систем, данная информационная система обладает более развитым лингвистическим обеспечением и предусматривает режим расширенного поиска информации по проектам, что значительно повышает эффективность ее использования в целях поиска релевантных проектов.

Таким образом, построение информационной системы для целей минимизации дублирования экологических исследований требует специализированного подхода в части поиска данных, ориентированного прежде всего на оценку степени тематического дублирования проектов в соответствии со спецификой информации по проектам в области экологии и особенностями поискового запроса пользователя.

Приведенные количественные оценки базы данных по радиоэкологическим проектам, распределение по рубрикатору, главным образом тематическому, свидетельствуют о возможности сопоставления проектов схожих тематических областей и оценки тематического дублирования.