Бесплатный автореферат и диссертация по геологии на тему
Контроль качества и полноты баз океанографических данных в интегрированных системах обработки информации на примере Гвинейского Научно-исследовательского центра
ВАК РФ 04.00.22, Геофизика

Автореферат диссертации по теме "Контроль качества и полноты баз океанографических данных в интегрированных системах обработки информации на примере Гвинейского Научно-исследовательского центра"

Академия наук УССР Морской гидрофизический институт

На правах рукописи УДК 551. 463 Ы

Мамуду Кейта

Контроль качества й полноты баз океанографических денных в интегрированных системах обработки информации на примере Гвинейского Научно-исследовательского центре

Специальность 04.00.22 - геофизика Автореферат

диссертации на соискание ученой степени кандидата технических наук

Севастополь - ¡990

Работа выполнена в Морском Гидрофизическом Институте АН УССР и в Симферопольском государственном университете им. М.В.Фрунзе

Научные руководители: доктор технических наук В. А.Гайский кандидат техническик наук С.Ф.Толкачев

Официальные оппоненты: доктор ф.-м. наук В.А.Иванов

кандидат технических наук А.П.Уриков

Ведущая организация: Всесоюзный научно-исследовательский институт г и дрометео логической информации - Мировой центр данных.

Защита диссертеции состоится охпй ¿ор 1990 г. в " /УГ"

часов но заседания специализированного Совета Д 016.01.01 при Морском гидрофизическом институте АН УССР (335000, г.Севастополь, ул.Капитанская, 2)

С диссертацией можно ознакомиться в читальном зале НТБ МГИ АН

УССР.

' /у

Автореферат разослан __" _Х__1990 г.

Ученый секретарь Специализированного Совета кандидат .фидико-математических наук '.М.Суворов

Оби,пи кзпз"тер"стк;:п роботы ~ ""

Актуальность темы.

Банки океанографических парных существуют и развеваются уже более

20 лот. В последние годы, с появлением персональных ЭЕМ появилась возможность создавать спгц^б/ишравзнные бгнки для многих пользователей , на основе ограниченных по объему выборок из универсальных баз данных. В

этой гвази особ''к> острот» прчобнвл 90ппос каким оцвнивв^ь

качество и полноту Саз океанографических денных? Ьез ответа не него у пользователя нет уверенности в том, что Формируемая ограниченная по объему база данных позволит ему удовлетворительно решить какую-либо конкретную задачу. С другой стороны, ответ на такой вопрос позволяет оценить пригодность для тех или иных целей полных, баз данных национальных океанографических центров и спланировать рациональную стратегию их пополнения за счет обмена данными с другими центрами или организации экспедиций. До настоящей работы достаточно удовлетворительного отезтя на зтог вопрос «э было.

Целью рзботы является разработка методе и программных среяспз для контроля качества -и полноты баз океанографических денных и совершенствования системы управления базами ценных з распределенных вычислительных системах с разнородными персональными ЗВН.

Основные задачи исследования

1 Провести анализ потоков и объемов экспериментальной информации об окружающей среде различных направлений исследований и разработать концепцию построения банка данных Гвинейског о научно-исследовательского центра (ГНИЦ).

2. Используя теорию дискретизации случайных процессов и полей,, исследовать возможность оценки качество и полноты баз океанографическим денных через оценку точности представления дискретной пространственно-временной решеткой в зависимости от параметров решетки, типовых статистически характеристик процессов и полей.

3. Разработать методику и программное обеспечение оценки качество и полноты баз океанографических данных.

4. Провести анализ базы океанографических данных гвинейского научно-

исследовательского центра, оценить её качество и полноту, разработать рациональную модель банка данных в интегрированных вычислительных системах.

5. Создать специальное программное обеспечение для хранения, обработки и визуализации информации в распределенной системе персональных ЭВМ типа IBM/PC и Macintosh.

Научная новизна.

На основании впервые выполненного анализа текущих и перспективных информационных потоков различных направлений исследований Гвинейского научно-исследовательского центра разработана концепция построения регионального интегрированного банка данных ГНИЦ.

На основе применения теории дискретизации случайных процессов и полей впервые проведена математическая Формализация задачи оценки качества и полноты баз данных о процессах и полях окружащей среды. Задача сведена к оценке точное-™ представления случайного процесса или поля в заданном пространственно-временном окне (что является Формализацией дели потребителя) дискретной пространственно-временной решетки, значения поля в -узлах которой составляют базу данных, в зависимости от размеров ячейки и объема решетки и априорных статистических характеристик процесса или поля.

Получены новые Формулы для оценки погрешностей непосредственной дискретизации случайных процессов со степенными спектрами, характерными для многих временных процессов и сечений полей окружащей среды.

Проведен количественный анализ погрешностей дискретизации по jthm Формулам. Аналогичные оценки впервые получены для степенных процессов, прошедших инерционное звено, что соответствует практическим измерениям инерционными приборами.

Впервые проведен анализ на качество и полноту различных баз данных ГНИЦ и получены количественные оценки, позволяющие сделать выводы об ограниченных возможностях исследований на базах денных. Формируемых по съемкам типового Гвинейского полигона и необходимости расширения полигона в 5-10 роз.

С целью эффективного использования различных возможностей разнотипных микро-ЭВМ в распределенной системе обработки данных впервые создано специальное программное обеспечение, включенное в систему управление базами данных.

Практическая ценность работы.

Результаты работы непосредственно касаются совершенствования банка

денных об окружающей среде ГНИЦ, его программного и аппаратного обеспечения. Вместе с тем они могут использоваться для оценки качества и полноты "других баз данных -о процессах и полях, рационального планирования полигонных съемок, а также при организации вычислительных сетей из персональных ЗВГ1 тала IBM/PC и Macintosh.

Апробация работы.

Основные результаты работы докладывались на семинаре "Автоматизированные системы сбора и обработки гидрофизической информации" (Севастополь, 1987), республиканском семинаре "Интерфейсные средства систем .автоматизации неучных исследований" (Севастополь, 1988), на семинарах отдела автоматизации океанографических исследовании морского гидрофизического института АН УССР (Севастополь,1980-1990 гг) на семинаре коФедры прикладной математики Симферопольского Государственного Университета им.М.В.Фрунзе (Симферополь, 1990г).

Публикаций. По теме диссертации опубликована одна работа.

Личный вклад автора. Автор участвовал в разработке концепции построения банка данных ГНИЦ, получены теоретические результаты, и самостоятельно проведен анализ погрешностей дискретизации случайных процессов, прошедших инерционное звено, созданы вычислительные и управляющие программы, выполнены вычислительные- эксперименты.

Структура и объом работы. Диссертация состоит из введения, четырех глав, заключения, приложения, списка использовенной литературы из найменований. Общий объем диссертации ,-тряиии машинописного текста, в том числе, иллюстрации и таблиц.

Содержание работы.

Во введении обоснована актуальность темы, сформулированы цель и задачи исследования, кратко изложено содержание диссертации, приведены основные результаты.

В первой главе рассматриваются вопросы построения банков данных об окружающей среде на примере банка данных ГНИЦ. Приведены требования к таким банкем и выполнен анализ принципов их Функционирования. Показано, что наибольшей отдачи при существенных затратах в получении и использовании информации об окружающей среде можно достичь лишь в том случае, если все виды работ по сбору, постоянному хранению, обраб9Тке и доведению до пользователей окенографических данных осуществляются в рамках единой системы.' Проанализированы основные показатели, в зависимости от которых обеспечивается эффективность Функционирования такой системы. Показано, что показатели эффективности в научно-

технических системах имеют противоречивую природу.' Например, выполнение условия наибольшей полноты собираемых материалов наблюдениий и разнообразия баз денных требует увеличения объема и сложности программных средств их обработки, что ведет к снижению оперативности решения запросов пользователей. С целью преоделения таких трудностей, рассматривается возможность использования .многомашинных средств.

Рассматривается роль вычислительного эксперимента при проведении научных исследований, пути решения вопросов повышения уровня управления информацией, хранимой и обрабатываемой в вычислительной системе. Одним из таких путей является создание систем управления денными, основанных на неиболее эффективных способах организации, идентификации, классификации, запоминания и выборки данных, интеграция на основе системы управления данными (СУД) информационных баз вычислительных центров, внедрение едниной технологии организации хранения данных и обращения к ним. бее в совокупности предъявляет к системам управления данными ряд требований, без учёта которых немыслимо удовлетворительное решение указанной выше проблемы.

Приведены оценки объемов баз данных и потоков данных, изложены источники их получения и представлена их структура (Рис. 1,2).

М»сяц День месяц!

Е^емя Н«им<новани« суток данных

Рис. 1 Структура метеодонных

Рис. 2 Структуре спутниковых данных

Вторая глава посвящена проблеме дискретизации гидрофизических процессов и полей, которые являеюся объектами исследований Пространственно-временные Физические поля, непрерывны как в пространстве, так и во времени и возможности реализации непрерывных п-размерных сечений паля (п>3) веема ограничены. Поэтому в основе современных методов гидрофизических исследозаний лежат дискретные представления Это обусловлено как тем, что теоретически непрерывный объект обычно можно отобразить с определенно.' прегрешностью дискретным предстеплением, так и технической (или) экономической реализуемостью систем и модели

Оценившчся '.ютонциал^ая точность дискретного представления случайных Процисссч со (. ;епеннымн спектрами вида

5 ( i ) = clif

' )

где с г const, m = î 1, 3/2, 5/3, /, : 4. 1 . Оценка относительной погрешности s дискретизации

m

производится по вьражению

( 1' )

где t - оци-" î чо' решности, котирин вычисляется го .. иу/'й:

'о 1*0

где то _ интервал дискретизации в полосе [ ■

г

- дисперсия дискретушрованного процесса в полосе 12] вычисляется по выражению:

2 о Г*2

(4)

О

например, при т = 1,2

а1 = Л] А

1 <20 П Ь ( 5 )

а 2с ( - Г> 5 'о 2 1

используя ( 2 ), ( 3 ) и ( 4 ) получены оценки

< т = 1 ...5 ). Например,

С I + ) С < -

о)

Б, | ---( 7 )

ь-г

5\> У*'1 1 С - Г1То X 1 * Ьхо ) (8)

ч-ь " <« + '.VI1 - ЪТ0>

Далее, с целью получения удобных для ана/ша и графического

представления зависимостей я • введены две новые переменные

т'

01 и р , принимающие значения от О до 1.

связана с частотой дискретизации г;1 и верхней частотой в полосе восстанавливаемого процесса,, а р - с нижней ^ и верхней Г2 частотами как

Таким образом, получены оценки погрешности 5т в зависимости от двух переменных а. и а , принимающих значения в диапазоне от О до 1 для любого сочетания частот дискретизации и границ полосы восстановления исследуемого процесса так, как это показано на рис. 3-7. Используя полученные выше соотношения, полученные для

<х = 2 ^/х-1 = 2 12\

( 9 )

Р = и ч1

( 10 )

б? >= 2 'п 1

(21 + «. й ) (21 - о.) (2д + о.) (21 - М, В )

/ 1„&

(11 )

-2 ос о 1 -(2 - ав)(2 * *)

" 20 - В) П (2 + «. 8 ) (2 - л)

( 12 )

6> =

ос*Г32

1-Р2

4 - «? р2

( 13 )

=

2 0У 1- В

V г

в5 I

(«?

4)2 («?Р2 _ 4

( 14 )

2

а5р* г 12,«? Р02 +«гр2) -] 5

3(1-(З4) 1- (4 - *2)3 (4 - «?рг)г -1

Выражения (11) - (15) можно использовать для оценки потенциальной точности реальных баз данных. Показано, что если для конкретного эксперимента с базой данных некоторого случайного процесса с Функцией спектральной плотности (О вида (1), соотношения частот дискретизации го1 веохней (2 и нижней ^ частот выделяемого процесса соотвествуют согласно (9), (10) значениям а. «0.01 и р = 0.01 , то соотвествую-щая точка э на графиках рис. 5-7 дает следующие оценки для

бш

61>ю"1) б2 >1о'2 / 53 >'ю"" , 64>Ю"4< 65 <10"' ( ,6 )

Реальная точность данного эксперимента с этой базой данных не может быть выше этих оценок.

О реальных данных часто представляются отсчёты процессов, прошедших инерционное звено (данные измерительного приборе), например с постоянной инерции Ти .

Функция спектральной плотности таких процессов описывеется выражением вида: ----------- - - __________

с| П

= <,7>

В работе получены выражения для оценки погрешности бт по Формуле (2) при Э^Ш = 51т(0 по Формуле (17) для т = 1...5.

Проведенный выше анализ устанавливает связь погрешности восстановления процесса ( поля ) с интервалом дискретизации или качество базы данных с размером ячейки пространственно-временной решетки.

Связь погрешности бт восстановления процесса (поля) с длиной реализации ( качества базы данных с её объемом N ) для

Г, - 1/Т, Тг - 1/ 210 и следовательно, N = Т^1 ,

0С= | , (3= 2Т0Т"1 = 2ГГ1 устанаэлизается выражениям^

б, = ( 1„ N )

б2 ~ м-'/2

( 18 )

83 = N

-I

6, = ГГ3/2

С

графики которых показаны на рис. 8.

Р

ю'

10"

10'

«1

г 1Р"(

10~2\ \

\ \

\

1

10~5 5 10*4 5 10"' 5 10"2

Рис. 3 Изолинии нижних оценок погрешности дискретизации процессов с показателями степени спадания спектра ш = 1 в зависимости от аир.

10

10"* 5 10"2

5 10

5 1

Рис. 4 Изолинии нижних оценок погрешности дискретизации процессов с показателями степени спадания спектра т г 2 в зависимости от аир.

5

2

5

р-1

5

ю-1

5

5 10 1 5 1

Рис. 5 Изолинии нижних оценок погрешности дискретизации процессов с показателями степени спадания спектре т = 3 в зависимости от а и р.

Р

5

10"1

5

10"2 , а - 5 10"' 5 1

Рис. б Изолинии нижних оценок погрешности дискретизации процессов с показателями степени спадания спектра гп = 4 в зависимости от а и р.

Рис. 7 Изолинии нижних оценок погрешности дискретизации процессов с показателями степени спадания спектра т = 5 в зависимости от аир.

Рис. 8 Зависимость нижней оценки 5 погрешности дискретизации процессов с показателем степени спадания спектра т = 2 ... 5 от числа ^ членов ряда.

В третьей главе работы проведены анализ статистических характеристик океанографических процессов и полей Гвинейского региона и оценка качества и полноты баз данных Г НИЦ. При этом использованы данные "экспедиционных исследований научно-исследовательских судов ИГИ АН УССР, результаты экспедиций, результаты исследоваий в ГНИЦ.

Установлено, что спектральные характеристики временных процессов и пространственных сечений гидрометеорологических полей на гвинейском полигоне в большинстве слчаев удовлетворительно оценивается степенями ©укциями вида ( 1 ). Это позволяет использовать для оценки качества и полноты баз данных ГНИЦ полученные выше теоритические оценки погрешностей дискретного представления.

Банк океанографических данных ГНИЦ в основном сформирован из наблюдений на гвинейском полигоне, стандартная сетка которого содержит 50 - 70 станций через 15- миль, выполняемых в среднем 2 раза в год на протяжении последних 10-20 лет.

Анализ показывает, что база, даных этого полигона позволяет выделять с погрешностЫо; 20 - 100% случайную составляющую междугодичную и более продолжительной изменчивости при накоплении' времени наблюдений 3050 лет. Все другие составляющие большей изменчивости (сезонная, синоптическая, мезомасштабная), имеющие убывающие -спектры менее чем степенной с показателем минус два, не могут быть выделены с погрешностью меньшей 100%. При пространственном интервале дискретизации 15 миль, верхняя граница полосы волновых чисел выделяемых явлений лежит ниже области существования таких волновых процессов как гироскопические волны и, в основном, внутренние гравитационные волны, но захватывает область существования волн Россби. Однако, для обеспечения выделения волн Россби с погрешностью менее 100% необходимо расширение нижней границы полосы волновых чисел или увеличение размеров полигона примерно в 5 - 10 раз.

Четвёртая глава диссертации посвящена вопросам создания распределённой системы обработки океанографических данных в ВЦ ГНИЦ. В данной главе рассмотрены две системы обработки данных: централизованная и распределенная, системы. В централизованной системе обработки данных, все имеющиеся базы данных: гидрологических, гидрооптических, гидрохимических данных и др. объединяют в одной общей базе, содержащей общие признаки, такие например, как номер рейса, номер станции, координаты, число и время выполнения станции и т.д. (рис.9).

Рис. 9 Структуре централизованной базы океанографических аенных

Такая структура позволяет избежать избыточности информации и в самом деле использует меньший объём информации. Однако эта централизованная система используется в научном утверждении, которое характеризуется децентрализованной деятельностью. Например метеорологические и гидрохимические данные используются разными потребителями. Такое расхождение между управленческой и Функциональной системой вызывает большие трудности в организации оперативного сбора данных, контроля обработки и выдачи информации пользователям. С целью устранения таких трудностей был рассмотрен другой; вариант системы обработки данных: распределенную систему обработки. В этой системе, вышеизложенные базы считаются подбазами глобальной базы океанографических данных (рис.10).

Рис. 10 Структура распределенной базы данных

В такой 'структуре, каждая подбаза содержает в себя все чнФормационные признаки. Это приводит к определенному увеличению убыточности информации, однако, с другой стороны, позволяет примененятъ 1роблемно-ориентированые рабочие места, использующие как разнородные-технические средства так и программное обесчение. В главе показано, что ¡тот подход обработки данных в настоящее время обладает рядом !реимуш,еств по сравнению с обычными централизованными вычислительными :истемами:

- модульность архитектуры и возможность расширения конфигурации,

- повышение надежности Функционирования системы в целом,

- сокращение времени обработки независимых запросов за счёт |беспечения высокого уровня параллельной обработки.

В приложении приведены листинги и краткое описание разработанных рограмм контроля качества и полноты баз данных, а также специальное рограммное обеспечение СУБД ГНИЦ.

Заключение.

0 диссертации Формализована, теоретически и практически, с рименением современных математических, программных и технических редств, решена актуальная научно-техническая задача по созданию ютодики и программных средств для контроля качества баз данных об кружающей среде и специального программного обеспечения СУБД в итерированных системах.

Основные результаты работы состоят в следующем:

1. На основании проведенного анализа потоков и объемов экспериментальной информации различных направлений исследований окружающей среды в ГНИЦ' сформулирована концепция построения интегрированного банка данных и требования к СУБД.

2. Впервые теория дискретизации случайных процессов и полой привлечена для оценки качества и полноты баз океанографических данных, получены новые аналитические выражения для оценки погрешностей дискретного представления степенных случайных процессов, в том числе для прошедших инерционное звено.

3. Создана методика и программное обеспечение для оценки качества и полноты баз океанографических данных в диалоговом режиме.

4. Проведен анализ и оценки качества полноты базы океанографических данных ГНИЦ, разработана распределенная модель банка данных с интегрированными интерфейсами между пакетами прикладных программ, СУБД и средствами визуализации.

5. Создано программное обеспечение для распределенной сети ЭВМ (типа IBM/PC, Macintosh и другие), обеспечивающее обработку, хранение и визуализацию информации в языковом среде (С++, Pascal, HyperCard и ДР.).

Основные научные результаты диссертации опубликованы в работе: Гойский В.А., М. Кейта, Трубчиков П.Б.

Потенциальная точность дискретного представления случайных процессов со степенными спектрами. В сб.: Экспериментальные исследования тропической Атлантики. (МГИ АН УССР.), Севастополь, 1987, Деп. ВИНИГИ 23.12.87, N9035-B87, с. 114-125.

Академия наук Украинской ССР

Морской гидрофизический шститут

Маыуду Кейта

КОНТРОЛЬ КАЧЕСТВА И ПОЛНОТЫ БАЗ ОКЕАНОГРАФИЧЕСКИХ • ДАННЫХ В ШТЕГРИРОВАННЫХ' СИСТЕМАХ ОБРАБОТКИ ИНФОРМАЦИИ НА ПРИМЕРЕ ГВИНЕЙСКОГО НАУЧНО-ИССЛЕДОВАТЕЛЬСКОГО ЦЕНТРА

Автореферат

диссертации на соискание учёней степени кандидата технических наук

Подписано з печать 07.С9.90 г.

Фор:шт бумаги 60x90 1/16 Объем

Заказ Тираа 100 экз.

Отпечатано на ротапринте Морского гидрофизического института

№ УССР

ЗЗЬООЬ, Севастополь-6, ул. Ленина, 28