Бесплатный автореферат и диссертация по наукам о земле на тему
Информационные геофизические модели и потоки данных в среде Грид
ВАК РФ 25.00.10, Геофизика, геофизические методы поисков полезных ископаемых
Автореферат диссертации по теме "Информационные геофизические модели и потоки данных в среде Грид"
На правах рукописи
МИШИН Дмитрий Юрьевич
Информационные геофизические модели и потоки данных в среде Грид
Специальность 25.00.10 - Геофизика, геофизические методы поисков полезных ископаемых
Автореферат
диссертации на соискание ученой степени кандидата технических наук
- 1 окт 2009
Москва, 2009
003478776
Работа выполнена: в Учреждении Российской академии наук Геофизический центр РАН, г. Москва
Научный руководитель:
кандидат физико-математических наук Жижин Михаил Николаевич,
Учреждение Российской академии наук Геофизический центр РАН (ГЦ РАН)
Консультант:
член-корреспондент РАН,
доктор физико-математических наук,
профессор Гвишиани Алексей Джерменович,
Учреждение Российской академии наук Институт физики Земли им. О.Ю. Шмидта РАН (ИФЗ РАН)
Официальные оппоненты: доктор технических наук Гитис Валерий Григорьевич
Учреждение Российской академии наук Институт проблем передачи информации РАН (ИППИ РАН)
кандидат физико-математических наук Крюков Александр Павлович
Научно-исследовательский институт ядерной физики имени Д.В. Скобельцына Московского Государственного университета имени М. В. Ломоносова (НИИЯФ МГУ)
Ведущая организация:
Учреждение Российской академии наук Государственный геологический музей им. В.И. Вернадского РАН (ГГМ РАН)
Защита диссертации состоится «29» октября 2009 г. в 14 часов на заседании диссертационного совета Д 002.001.01 Учреждения Российской академии наук Институт физики Земли им. О.Ю. Шмидта РАН (ИФЗ РАН) по адресу: 123995, г. Москва, ул. Большая Грузинская, д. 10
С диссертацией можно ознакомиться в библиотеке ИФЗ РАН.
Автореферат разослан ^Л/_______ 2009 г.
Ученый секретарь диссертационного совета
кандидат физико-математических наук -Я/Иилл^- О.В. Пилипенко
2
Введение
Начиная со второй половины XX века наблюдается бурный рост объемов первичных и обработанных данных в геофизике и смежных науках о Земле и окружающей среде. Потоки данных регистрируются в цифровом виде или оцифровываются при архивации с целью их последующей компьютерной обработки и анализа. Наиболее быстро растут объемы данных в таких областях наук о Земле, как метеорология, сейсмология, прикладная геофизика и поиск полезных ископаемых, климатология, включая проблемы глобального изменения климата1, дистанционное зондирование и наблюдение Земли из космоса, космическая погода и солнечно-земные связи [4]. Таким образом, проблема эффективной технологической и научной обработки и хранения огромных и непрерывно пополняющихся массивов информации становится одной из важнейших в геофизике и геоинформатике.
Особенно актуально эта проблема стоит перед Системой мировых центров данных2, которые отвечают за координацию, сбор, хранение многодисциплинарных наборов данных по всему Земному шару. Представленные в диссертации алгоритмы, программные системы и распределенные сервисы данных былы созданы и применены для работы в Системе мировых центров данных по твердой Земле и солнечно-земной физике, а разработанные в диссертации технологии были применены для построения Грид-центров хранения и обработки данных в различных областях, включая сейсмологию, климатологию, дистанционное зондирование и космическую погоду. Напомним, что система 52 мировых центров данных включает в себя пять МЦД, функционирующих в нашей стране.
Для оценки масштаба рассматриваемой задачи приведем некоторые характеристики объемов изучаемых в работе данных. Для хранения глобального ре-анализа климатологических данных требуется хранилище размером в несколько терабайт3. Хранение всех данных со спутников NOAA с начала 70-х годов требует порядка 130 терабайт4.
В то время как число исследователей в науках о Земле растет достаточно медленно, объемы хранимых данных в геоинформатике растут экспоненциально со временем5, поэтому для обработки таких объемов требуется все больше компьютерных мощностей. Для увеличения скорости обработки данных используются
'Solomon, S., D. Qin, M. Manning, Z. Chen, M. Marquis, К. B. Averyt, M. Tignorfi H.L. Miller. Contribution of Working Group I to the Fourth Assessment Report of the Intergovernmental Panel on Climate Change. Cambridge University Press, Cambridge, United Kingdom and New York, NY, USA. 2007
2National Research Council (U.S.). Committee on Geophysical and Environmental Data. Review of NASA's distributed active archive centers. Compass series (Washington, D.C.). ISBN 10: 058508579X, 0309063310
3E. Kalnay, M. Kanamitsu, R. Kistler et al. The NCEP/NCAR 40-year reanalysis project. Bull. Am. Meteoro!. Soc., 77(3):437-471, 1996.
4Rank, R.; Reynolds, R. G. Comprehensive Large Array-data Stewardship System (CLASS) A Fully-distributed System. American Geophysical Union, Fall Meeting 2005, abstract #IN24A-05. 12/2005
5It's sink or swim bs a tidal wave of data approaches. Nature journal 399, 517-520,10 июня 1999. doí'.10.1038/21044
1Э70 1980 1990 2000 2010
——
Грид-инфраструктура ____
научных вычислений НИВ
Рисунок 1. Развитие компьютерного хранения и обработки данных
распределенные вычисления на параллельных кластерах.[1]
В начале развития компьютерной обработки данных, когда объем их был относительно невелик, основным принципом работы с данными было хранение и обработка файлов (рис. 1). Вся передача, выборка данных, обмен тоже базировался на файлах. Позже, с ростом объемов данных и появлением теории реляционной модели6, данные стали храниться в базах данных, контролирующих целостность, упрощающих доступ и ускоряющих поиск в данных по индексам. В дальнейшем, с развитием высокоскоростных сетей передачи данных, ученые перешли на распределенные технологии. Стали активно использоваться распределенные веб-сервисы данных'. Под веб-сервисом понимается программа, принимающая запросы по протоколу HTTP (GET или POST), обычно на языке XML, и возвращающая запрошенные данные в ожидаемом клиентом формате. Веб-сервисы позволяют легко комбинировать различные ресурсы данных в рабочий поток, обеспечивая их связь для совместной работы, что снижает нагрузку на отдельные сервисы по сравнению с запросом данных из одного источника, а также предоставляет возможность оптимизации потоков данных (при выборе наиболее близкого к получателю сервиса).
Дальнейшим развитием веб-сервисов, объединяющим научные вычисления по всему миру, стала инфраструктура для научных вычислений, получившая название Грид. Согласно определению Я. Фостера и К. Кессельмана, 'Трид (Grid) -это согласованная, открытая и стандартизованная среда, которая обеспечивает гибкое, безопасное, скоординированное разделение ресурсов в рамках виртуальной организации"8. Под виртуальной организацией понимается группа людей или организаций, разделяющих между собой вычислительные, дисковые, информационные и сетевые ресурсы Грида в общих целях. Устанавливая стандарты для научных учреждений, устанавливая протоколы и интерфейсы взаимодействия
6Edgar F. Codd, A Relational Model of Data for Large Shared Data Banks, Communications of the ACM, 13(6):377-387, June 1970
7George Reese. Database Programming with JDBC and Java, Second Edition. Chapter 7: Distributed Application Architecture. November 2000.
8http: //gridclub.ru/about
программных сред, Грид позволяет совместно использовать ресурсы удаленных компьютерных кластеров, включенных в общую сеть, для расчетов ресурсоемких задач9.
Начало создания сети Грид в Европе было положено проектом LCG (LHC Computing Grid, Вычислительный Грид Большого Адронного Коллайдера), начатым в 2002 году и запущенным в эксплуатацию10 3 октября 2008 года. Исходно проект был призван обеспечить вычислительные ресурсы для анализа данных, поступающих от большого адронного коллайдера (LHC) в ЦЕРН (Европейский центр ядерных исследований), в Женеве. Этот проект соединил вычислительные ресурсы для физики высоких энергий по всему миру, и должен был перерабатывать предсказанные 15 петабайт (1ПБ «1015Б) данных, ежегодно получаемых на экспериментах LHC. EGEE (Enabling Grids for E-sciencE) начался с этой инфраструктуры, добавляя дополнительные ресурсы из всех частей земного шара и привлекая пользователей из других дисциплин для формирования того, что стало крупнейшей научной инфраструктурой Грид в мире. Созданная для целей обработки данных в сфере физики элементарных частих, инфраструктура EGEE и сейчас в основном ориентируется на предстоящую задачу обработки данных с LHC.
Входящий в состав EGEE российский консорциум RDIG (Российский грид для интенсивных операций с данными - Russian Data Intensive Grid) был организован в сентябре 2003 г. для создания и поддержки Грид-инфраструктуры в России. При участии автора в Геофизическом центре РАН был создан ресурсный центр Грид-инфраструктуры RDIG, на котором были проведены первые эксперименты по сейсмическому моделированию для геофизических приложений. Другим проектом, развивающим Грид-инфраструктуру в союзном государстве Россия-Беларусь, является суперкомпьютерная программа СКИФ Грид. В состав разработанного в рамках СКИФ-Грид программного комплекса вошли созданные в диссертации Грид-сервисы данных. На их основе в Геофизическом Центре РАН был развернут ресурсный центр геофизических данных инфраструктуры СКИФ-Грид.
Актуальность работы
В диссертации изложены результаты одной из первых попыток адаптации и применения Грид-технологий в геофизике и других смежных науках о Земле. Автором разработана новая технология и построена Грид-среда, позволяющая хранить большие объемы геофизических данных, описывать их в метаданных, использовать данные для анализа и моделирования, сохранять результаты моделирования и загружать исходные данные и результаты выборок для дальнейшей
9Foster, Ian; Carl Kesselman. The Grid: Blueprint for a New Computing Infrastructure. Morgan Kaufmann Publishers. ISBN 1-55860-475-8.
103апуск проекта LCG hUp://lcg.web.cern.ch/LCG/lhcgridfest/
Прадук1ы «опухлые m ( wymummx. щтш
яабпкушмй яагаяы и
ГйОГрйфИН6£ЖЗп
информация: высота, ф-гидрвпогия,..
Виртуапьная обсерватория
Аяткзжге храниятий
Common Data Mcdeí SQL Server Gustar OGSA-ÜAi и Matlab API
3 i
f ISí
115-1
Порталы для доступа к данным
Пользовательские
сообщат
^-Результат шделирозан>»~
Численное модепиро&аниа
МеЗСШааПЬНаЯ
ММ5
С&йттъъхъп »йоййяь
4SÍN
Акгти> данньа
ERviforimeritaí Scerarlo Search Engire (ESSE)
трендов
ч ^
Визуализация
NASA Weüld WlftíJ
EVL UlC ЭсаШе Gcaptes Bwironmait ÍSAG&SAIL}
Рисунок 2. Общая схема системы
работы. Автором впервые был произведен запуск модельной сейсмической задачи с использованием разработанных сервисов данных в средс Грид.
Для эффективной работы с геофизическими данными, в первую очередь, требуется обеспечить их надежное хранение с возможностью быстрого и гибкого доступа. Для решения этой задачи в диссертации создан новый системно-программный метод реализации распределенных хранилищ геофизических данных. В диссертации отражены результаты по следующим направлениям: каталоги метаданных для поиска в хранилищах, репликация коллекций файлов для ускорения доступа и повышения надежности, проблемы масштабирования и новые модели данных в сверх-больших базах данных, параллельные файловые системы, и веб- (или грид-) интерфейсы управления данными. Значительными сторонними результатами по каждому из направлений являются соответственно каталог метаданных по информационным ресурсам об окружающей среде NASA Global Change Master Directory, система управления данными LGG Database and Replica Management Services, параллельная файловая система Apache Lustre, и система управления выборкой и обработкой данных OGSA-DAI. Во многих случаях, когда хранилище данных строится под конкретный набор приложений, схема метаданных и общая модель данных (Common Data Model) заранее известны, и все вышеупомянутые «универсальные» технологии можно объединить и оптимизировать в единой распределенной иерархической системе хранения и поиска данных, которые мы называем Common Data Model (СОМ)-хранилищем.
В диссертации создана система (рис. 2), работающая с наиболее часто используемыми в геофизике моделями данных - временными рядами наблюдений и спутниковыми гранулами, позволяя осуществлять запросы к хранилищам таких данных, производить их анализ, обработку, моделирование, пересылку и хранение.
Рисунок 3. Поддерживаемые системой источники данных
Большинство изученных в геофизике наборов данных укладываются в эту модель. Временные ряды представляют собой многомерные массивы данных, отличающиеся по структуре и количеству измерений, и при этом имеющие различный объем (от сотен мегабайт до десятков терабайт). В эту модель данных укладываются метеонаблюдения, реанализ и прогноз погоды, наблюдения и результаты моделирования космической погоды, результаты моделирования сейсмических волн и т.д. Спутниковые гранулы это объекты данных, чаще всего изображения или блоки данных, полученные со спутника при сканировании определенного участка земной поверхности, и имеющие геопривязку и другие параметры. В таком формате представлены изображения Земли со спутников, электронные карты, снимки Солнца, и другие изображения. Автором впервые была создана система, объединяющая доступ к разнородным источникам данных в единый сервис на основе общей модели данных и метаданных и языка запросов к сервисам выборки и обработки (рис. 3).
Используемая для сервиса данных платформа OGSA-DAI, работающая в различных Грид-средах (Globus toolkit 4, OMII, Unicore), расширенная компонентами для работы с геофизическими данными, позволяет в полной мере реализовать распределенную Грид-архитектуру сервисов данных с возможностью управления потоком данных.
Реализованная автором общая модель данных ESSE (Common Data Model, CDM) призвана существенно упростить обмен между разными сервисами данных по окружающей среде. Разработанная в диссертации общая модель данных делает возможным комбинирование и совместное изучение данных из различных
предметных областей. Построенная в диссертации модель представляет собой надстройку над многомерным массивом численных данных, позволяющую производить многомерные выборки данных. Использованная модель является обобщением предложенного организацией UNIDATA формата хранения данных NetCDF.
Для хранения геофизических данных в формате CDM автором на основе рекомендаций UNIDATA был разработан ряд структур данных, рассмотренных в диссертации, таких как сетка, набор точек, набор станций, траектория. При этом, под структурой хранения данных понимается набор массивов, их атрибутов и типов, используемый для хранения определенного типа геофизических данных.
В диссертации автором обоснована возможность практического использования CDM как общей модели для хранения, обработки и передачи геофизических данных из различных источников.
Реализацией данной модели стала библиотека хранения данных в виде временных рядов в формате CDM. Библиотека включает средства для представления данных в памяти компьютера и пересылки данных по сети. Примером реализации также остается формат хранения научных данных NetCDF, ориентированный на работу с файлами и привязанный к файловой системе. В целом, разработанная в диссертации реализация является упрощенной моделью NetCDF и совместима с ним.
Созданная модель представляет существенный шаг вперед по сравнению с хранением данных в файлах: повышенная скорость доступа к данным, единый формат работы с данными из любых баз данных, и как следствие этого - инте-роперабельность компонент системы. Следствием использования единой модели для различных данных является возможность эффективного слияния и сравнения таких данных для их совместного изучения. Таким образом, открывается возможность получения принципиально новых результатов. Доступны возможности преобразования данных с помощью специальных компонент (data processor), осуществления нечеткого поиска событий в данных (search engine), что открывает новые широкие возможности по обработке больших объемов геофизических данных.
Для работы с геофизическими сервисами данных также необходима система управления метаданными. Основная задача метаданных — описывать семантику и синтаксис данных в хранилище. При грамотной организации метаданных и обеспечении механизмов работы с ними, метаданные могут использоваться для поиска необходимых наборов данных в распределенных хранилищах, использоваться в балансировке нагрузки на хранилища в распределенных системах, содержать дополнительные сведения о данных. Возможен поиск по таким параметрам как пространственно-временное покрытие, вхождение слов в описание базы данных и т.д. Метаданные могут содержать такие дополнительные сведения как описание отдельных участков данных, пометки о качестве данных или история их обработ-
Рисунок 4. Схема работы системы Виртуальная Обсерватория
Также метаданные служат основой для поддержки сообществ пользователей данных, позволяют заинтересованным людям обмениваться мнениями и расширять существующие наборы данных, что особенно важно для развития системы МЦД. Это является шагом в сторону Web 2.0, являющейся быстро растущей и сильно востребованной технологией коллективной работы в Сети, и переносит эту новую Интернет-технологию в научное сообщество в области наук о Земле.
В главе "Виртуальная обсерватория" автором была разработана система, позволяющая не только хранить метаданные, описывающие сервис, но также формирующая запросы к ним на автоматическую выборку (Ordering extensions). Виртуальная обсерватория - это веб-приложение, созданное для управления структурированной базой данных XML-файлов, разбитой на отделы, содержащие файлы определенной структуры. Автором созданы средства управления структурой хранилища, поддержки сообществ пользователей, автоматизированной загрузки и доступа к хранящимся файлам, визуализации данных. Виртуальная обсерватория позволяет объединять распределенные хранилища метаданных в федерации с совместным доступом к ресурсам. Также автором разработаны Web 2.0-компоненты, предоставляющие ученым возможности общения, обмена информацией и совместной работы над содержимым хранилища (рис. 4).
Потребителями геофизических данных могут быть как конечные пользователи, производящие исследования с их помощью, так и другие вычислительные системы. Под такими системами мы понимаем вычислительные модели реанализа и прогноза климата и космической погоды, сейсмологические модели для трехмерной реконструкции внутреннего строения Земли и прогноза залегания полезных ископаемых, и обработку изображений со спутников для анализа поверхности Земли, в частности, растительного покрова, метеорологических полей, динамики рельефа. Поэтому средства по выборке, обработке и визуализации данных, доступные пользователям через сторонние порталы и клиентские приложения, доступны также и для моделей в виде сервисов данных, разработанных автором и включенных в состав Виртуальной обсерватории. При этом для модельных приложений наряду с предоставлением входных данных также доступны сервисы сохранения результатов моделирования.
Цели и задачи работы
Целью работы являлось создание системы управления потоками геофизических данных и численными моделями окружающей среды в Грид.
Для реализации этой цели в диссертации поставлены и решены следующие задачи:
1. Создание теоретико-методологических основ и действующего прототипа распределенной Грид-среды специализированных сервисов, легко расширяемой для хранения и обработки различных коллекций данных по геофизике и наукам о Земле, включая солнечно-земную физику, климатологию, сейсмологию.
2. Разработка системы управления рабочим потоком распределенных Грид-сервисов для передачи, предварительной обработки, научного анализа и визуализации данных,
3. Разработка системы управления метаданными для Грид-сервисов геофизических данных.
4. Разработка метода и компьютерной технологии обеспечения запуска существующих геофизических моделей на суперкомпьютерах с использованием разработанных сервисов данных для инициализации моделей.
5. Интеграция созданных сервисов данных и численных геофизических моделей в единый рабочий поток, что позволит делать выборки исходных данных, использовать их для моделирования и сохранять результаты в Грид-среде. Проведение моделирования в среде Грид с использованием данных из баз данных по окружающей среде.
6. Апробация и оценка эффективности созданной системы для задач геофизики в области физики твердой Земли, солнечно-земной физики, климатологии.
Личный вклад автора
1. Разработана архитектура и реализованы Грид-сервисы для доступа к распределенным хранилищам геофизических данных. Реализована система управления рабочим потоком обработки геофизических данных на Грид-сервисах.
2. Получена интеграция Грид-сервисов разнородных геофизических данных на основе общей модели хранения геофизических данных, которая совместима со стандартом Common Data Model (UNIDATA, USA) и реализована автором в качестве внутренней модели хранения и внешнего обмена геофизическими данными между распределенными Грид-сервисами, а также для визуализации данных в клиентских приложениях и для экспорта данных пользователям.
3. Обоснована необходимость создания специализированного Грид-сервиса для совместной работы с метаданными из различных предметных областей -метеорологии, солнечно-земной физики, сейсмологии, и реализована оригинальная технология распределенного управления метаданными - "Виртуальная обсерватория".
4. Разработан рабочий поток и сервисы запуска геофизических моделей в инфраструктуре Грид на базе европейской Грид-инфрастурктуры EGEE. С их помощью была обсчитана сейсмическая модель для определения анизотропных свойств литосферы и верхней мантии путем совместной инверсии волновых форм обменных волн и волн SKS.
5. Разработаны клиентские приложения, использующие преимущества созданной системы Грид-сервисов данных, позволяющие обрабатывать, преобразовывать и визуализировать геофизические данные.
6. Проведено внедрение разработанных программных продуктов в российских и зарубежных научных проектах СКИФ ГРИД (ИПС РАН, Переславль), CLIVT (ИКИ РАН, Москва), CLASS (NGDC NOAA, Boulder СО, USA), ESSE (Microsoft Research, Cambrige, UK).
Научная новизна
Созданная в диссертации система, осуществляющая сбор, хранение, анализ, обработку и визуализацию больших массивов геофизических данных, а также создание на основе этих данных геофизических моделей на платформе Грид, является инновационной технологией в геофизике. Система позволяет работать одновременно с различными типами данных: временными рядами наблюдений (в форматах сетка, набор точек, набор станций, траектория) и спутниковыми гранулами. Использование Грид-инфраструктуры дает колоссальное преимущество при расчетах, требующих длительного процессорного времени, а также при обработке сверхбольших объемов данных. Построение системы на основе Грид-сервисов данных является первым подобным примером среди систем обработки геофизических данных и увеличивает гибкость и эффективность запросов. В то же время задействованное в системе совместное эффективное использование ресурсов других научных учреждений по всему миру при гибком масштабировании систем позволяет покрывать всё растущую необходимость в вычислительных ресурсах для задач геофизики без дополнительных затрат на развертывание суперкомпьютеров в отдельных институтах. Разработанная в диссертации система выполнения геофизических вычислений в сети Грид приводит к ускорению исследований и инноваций в этой области.
Созданная автором архитектура системы, её компоненты и использование общей модели данных позволяют эффективно провести совместный анализ огромных массивов данных из различных областей геофизики. Тем самым расширяется
область исследований и многократно увеличиваются возможности анализа наблюдений окружающей среды, что показано в разделе про веб-порталы и клиентские приложения.
Практическая значимость работы
Созданная автором система успешно используется как информационно-технологическая база для целого ряда задач вычислительной сейсмологии, систем визуализации погодной информации, оценки изменений климата и реанали-за космической погоды. Благодаря использованию среды Грид, система является распределенной и имеет узлы, связанные в "Грид данных". Функционируют общедоступные порталы для доступа к данным конечных пользователей. Система предоставляет доступ к данным и вычислительные ресурсы всем геофизическим институтам и организациям, являющимся членами соответствующей виртуальной организации Грид-сети.
Результаты работы нашли прямое применение в совместных междисциплинарных исследованиях ИКИ РАН и MSR для анализа региональных трендов и зависимостей между изменениями в климате и растительности. Созданные в работе сервисы поиска и обработки сверхбольших баз данных по истории климата используются совместно с разработанными в ИКИ методами дистанционного зондирования растительности с использованием данных спутниковых наблюдений. Сервисы были использованы в расчетах модельной задачи по космической погоде AMIE11, а также для расчета сейсмической модели [8].
Созданные в результате работы Грид-сервисы OGSA-DAI для поиска и обработки данных установлены на ресурсном центре СКИФ-Грид в ГЦ РАН в Москве и в Национальном геофизическом центре (NGDC NOAA) в Болдере, штат Колорадо, и регулярно используются для доступа к архивам данных по климату и космической погоде в системах доступа к распределенным архивам данных NOAA Comprehensive Large Array Stewardship System (CLASS) и Space Physics Interactive Data Resource (SPIDR).
Основные положения, выносимые на защиту
1. Разработана архитектура Грид-сервиса геофизических данных и реализована система управления рабочим потоком для общей модели данных (CDM), что позволило интегрировать для совместного анализа распределенные разнородные источники данных по космической погоде, дистанционному зондированию, климатологии, геофизике и геотектонике общим объемом более 100 ТБ. Объединение вычислительных кластеров и распределенных хранилищ данных реализуется на основе использования сервис-ориентированной архитектуры, интеграции с общей моделью данных и Грид-инфраструктуры.
uKihn Е, Zhizhin M, Kamide Y (2006) An analog forecast model for the high-latitude ionospheric potential based on assimilative mapping of ionospheric electrodynamics archives. Space Weather 4:S05001. doi:10.1029/2005SW000199
2. Разработана технология и программное обеспечение для управления метаданными "Виртуальная обсерватория" с функциями преобразования и отображения на многообразии схем (стандартов) метаданных для Мировых центров данных из различных предметных областей — метеорологии, солнечно-земной физики, сейсмологии. Это позволило объединять в общий рабочий поток Грид-сервисы и производить поиск необходимых источников геофизических данных.
3. Разработана технология запуска ресурсоемких геофизических задач на суперкомпьютерах, объединенных Грид-инфраструктурой, и решена обратная геофизическая задача через полный перебор всех решений прямой задачи. Определены параметры сейсмической анизотропии земной коры и верхней мантии под Тянь-Шанем. Был найден глобальный экстремум целевой функции, проведен анализ согласованности различных групп данных и проведена геофизическая интерпретация результатов моделирования.
Апробация работы и публикации
По теме работы автором опубликованы 8 статей, раскрывающих основные научные результаты диссертации. Из них 2 входят в список ВАК ([2, 3]). (см. раздел публикации)
Результаты диссертации обсуждались на следующих конференциях и семинарах:
1. Мишин, Д. Геофизические модели и потоки данных в среде ГРИД. Доклад на конференции "Итоги электронного геофизического года", 3—6 июня 2009 г., ИПС РАН, Переславль-Залесский, Россия.
2. Поляков, А., Жижин, М., Березин, С., Коковин, Д., Медведев, Д., Мишин, Д. ГРИД-сервисы параллельной визуализации научных массивов данных и цифровых карт. Доклад на конференции "Итоги электронного геофизического года", 3—6 июня 2009 г., ИПС РАН, Переславль-Залесский, Россия.
3. Жижин, М.; Медведев, Д.; Мишин, Д.; Пойда, А.; Андреев, А.. Технология построения параллельных масштабируемых грид-центров хранения и анализа данных по окружающей среде. Вторая международная конференция "Суперкомпьютерные системы и их применение" SSA 2008, Беларусь, 27 октября 2008
4. Zhizhin, М.; Kihn, Е.; Kokovin, D.; Mishin, D. VxOware tool for federation of Virtual Observatories. 3rd GRID e-collaboration Workshop for Earth Science and Space, 16 - 17 January 2008 ESRIN, Frascati (Rome), Italy (Poster)
5. Zhizhin, M.; Kihn, E.; Luytsarev, V.; Berezin, S.; Poyda, A.; Mishin, D.; Medvedev, D.; Voitsekhovsky, D. Environmental Scenario Search and Visualization. Presentation and paper in Proceedings of ACM GIS 2007, Seattle, November 2007
6. Zhizhin, M.; Kihn, E.; Medvedev, D.; Redmon, R.; Mishin, D. Space Physics Interactive Data Resource - SPIDR. Report at GRID User Forum, CERN, Switzerland, 01-03 March 2006
7. Mishin, D. Meteorology and Space Weather Data Mining Portal. Demonstration at the EGEE User Forum, CERN, Geneva, March 2006
8. Zhizhin, M.; Kihn, E.; Redmon, R.; Poyda, A.; Mishin, D.; Medvedev, D.; Lyutsarev, V. Integrating and mining distributed environmental archives on Grids. VLDB DMG Workshop, Seul, September 2006
Структура и объем диссертации
Диссертация включает введение, 3 главы основного текста, заключение и приложения. Объем диссертации - 126 страниц. Библиография включает в себя 86 наименований. Диссертация содержит 46 изображений.
Содержание работы
Введение
Во введении обосновывается важность и актуальность темы диссертации; формулируются цели диссертационной работы и решаемые задачи, определяется научная новизна работы и ее практическая значимость. Приводится краткое изложение содержания работы по главам.
Глава 1: Проблемы использования информационных технологий Грид в геофизике.
В первой главе диссертации подробно рассматриваются существующие технологии и построенные на их основе инфраструктуры в среде Грид. Приводится характеристика сред выполнения задач в Грид, базовые возможности приложений.
Описывается концепция Грид-среды как сети распределенных научных вычислений. Основными понятиями, используемыми при описании функционирования сети Грид, являются:
• Виртуальная организация - группа людей, имеющих сертификаты, объединенные в одну группу. Служит для распределения и лимитирования вычислительных ресурсов.
• Вычислительные ресурсы - ресурсы, предоставляемые в пользование членам виртуальных организаций как пользователям сети Грид. В них включаются процессоры вычислительных узлов, место в хранилищах, сервисы данных и т.д.
В настоящее время существует несколько параллельных Грид-инфраструктур, поддерживаемых различными организациями. Объединяет их следование стандартам и соглашениям Грид. В главе приводится их обзор, области применения и особенности.
Рассмотрены такие компоненты Грид-инфраструктуры, как Condor-G, Globus Toolkit, OGSA, SRB, iRODS, SAGE. Приведены типичные области использования и возможности компонент. Описаны инфраструктуры и проекты, использующие данные технологии.
Глава 2: Сервис-ориентированная технология интеграции распределенных гетерогенных источников геофизических данных в среде Грид.
Во второй главе сравниваются модели хранения научных данных и обосновывается сделанный выбор модели. Данный выбор особенно важен из-за специфичности обрабатываемых геофризических данных - временные ряды наблюдений или спутниковые гранулы, привязанные к месту наблюдения, а также важна структура хранения данных из-за большого размера типичных выборок и наличия выборок с преобладанием одного из измерений. Описывается адаптация автором модели данных для использования в указанных задачах обработки научных геофизических данных.
Описана структура и функционирование созданной автором системы доступа к источникам данных на основе Грид-сервисов. Система позволяет интегрировать в один ресурс гетерогенные распределенные источники данных и предоставляет пользователю возможность доступа к ним используя один клиент и общий язык запроса данных (рис. 2). Возможна интеграция системы в Грид-инфраструктуру с использованием возможностей, предоставляемых Грид-средой, для доступа к данным.
Представлена реализованная автором общая модель данных. Благодаря созданной общей модели данных, стало возможно обрабатывать совместно данные из различных источников и различных научных областей.
Основные требования Геофизического сообщества к Grid-технологиям можно разделить на следующие категории:
• Обеспечение долгосрочного хранения
• Реализация быстрого доступа к геофизическим данным
• Обеспечение передачи и обмена данными
• Выполнение обработки и интеллектуального анализа данных
• Поддержка средств визуализации данных
Специфика геофизических данных состоит в области их применения, структуре, объеме, многодисциплинарности форматов, прав доступа, стандартов. Болыиин-
ство геофизических данных являются пространственными и могут содержать в себе временные ряды, различные модели, такие как траектории, сетки и изображения.
Существует несколько стандартов и протоколов доступа к геофизическим данным, общепринятых в геофизическом сообществе. К ним относятся стандарты, принятые OGC для поддержки пространственных технологий, таких как WCS, WMS, а также библиотеки и сервисы доступа к данным NetCDF, HDF и OPeNDAP, которые нашли широкое применение в общей области наук об окружающей среде.
В области наук о Земле типичной моделью хранения данных является грид точек (многомерный массив численных значений) или временной ряд (одномерный массив). Такая структура в реляционной модели может быть записана двумя способами:
• Бинарный массив (BLOB). Данные хранятся без компрессии в виде последовательности чисел, и могут выбираться из таблицы только целым массивом. При этом, доступ к отдельным наблюдениям возможен путем выборки BLOB и поиска в нем.
• В виде отдельных числовых значений. При этом сильно возрастает объем базы данных и индексного пространства и происходит снижение производительности при работе со стандартными выборками больших объемов данных, сгруппированных по какому-либо параметру (например, по непрерывному диапазону координат или времени).
В настоящее время геофизические данные обычно хранят в виде коллекции файлов в формате, наиболее подходящем для конкретного вида данных или принятом сообществом. Такой подход снимает проблемы с ограниченностью структур для хранения данных, но в то же время большое количество форматов файлов создает проблемы стандартизации формата для различных целей и проблемы масштабируемости и совместимости приложений.
Компромиссом между файловыми системами и реляционными базами данных является использование активных хранилищ. Они сочетают преимущества работы с данными как произвольными структурами (подход файлов) со скоростью доступа к данным из базы данных.
Проблема удаленного доступа к геофизическим данным решается использованием веб-сервисов.
Задачей созданной автором системы, описаной в диссертации, является создание сервиса данных для унификации доступа к данным, хранящимся любым способом, прозрачно и единообразно для пользователя независимо от типа данных и используя единый язык запроса.
Рассмотрено функционирующее на основе общей модели данных расширение OGSA-DAI. Контейнер сервисов OGSA-DAI представляет собой надстройку
Метод Описание
GetMetadata Activity Возвращает метаданные по требуемому источнику
GetCdmData Activity Производит выборку данных с требуемыми параметрами
FuzzySearch Activity Выполняет нечеткий поиск. Принимает на вход один или более временных рядов и возвращает набор коэффициентов релевантности
DataProcess Activity Выполняет обработку данных. Принимает на вход один или более временных рядов и возвращает новый временной ряд
Таблица 1. Список activities, расширяющих OGSA-DAI контейнер
над OGSA, реализующего общий интерфейс доступа к данным (DAI, Data access interface). Пакет входит в основные существующие Грид-инфраструктуры, такие как OMII, Globus toolkit 4, gLite, UNICORE.
OGSA-DAI предоставляет стандартный набор ресурсов данных, с помощью которых пользователь может подключать существующие базы данных и другие источники данных к приложению, обеспечивая таким образом единообразный доступ к данным. С ресурсами данных связаны наборы Activities, используемые для преобразования данных и выполнения необходимых действий.
OGSA-DAI позволяет расширять ресурсы данных и Activities (табл. 1). В данной работе стандартный набор ресурсов в виде каталогов файлов, реляционных и XML баз данных был расширен новым типом, позволяющим реализовать специальные запросы к наборам массивов геофизических данных, под общим названием ESSE (Environmental Scénario Search Engine, Система поиска погодных сценариев).
С помощью Activities можно организовывать рабочий поток приложения. Клиент в запросе OGSA-DAI указывает порядок движения данных между вызываемыми activities, тем самым организуя рабочий поток обработки данных.
В главе описана работа с метаданными в системе, а также созданная система Виртуальная обсерватория для работы с метаданными. Метаданные - это данные, которые служат для описания данных. Основной задачей метаданных является обеспечение качества поиска, интероперабелыюсти компонент, организации рабочих потоков, хранения, data accréditation и т.д. Они широко используются в науках о Земле и могут содержать в себе описания интервалов дат, параметров, ссылки на другие данные.
К основным задачам, решаемым с использованием метаданных, относятся:
• поддержка и поиск интегрированных информационных ресурсов
• автоматизация рабочего потока, доступа, обработки, визуализации данных
• отражение качества данных, авторства, версий
• применение общей терминологии и семантики внутри системы
Основным языком для описания метаданных является XML, который поддерживает вложенные схемы, автоматически обрабатывается с помощью XSLT (язык преобразования XML-документов). К стандартам метаданных, используемых в геофизике, относятся: FGDC, ECHO, SPASE.
Основным способом хранения метаданных являются реляционные базы данных. Данное решение не всегда является оптимальным, т.к. языки запросов в реляционных базах данных не соответствуют формату самих метаданных. Решением данной проблемы может служить использование xml баз данных, таких как eXist. Одним из первых примеров такой реализации в геофизике является SPIDR.
Каждый источник данных, подключенный к системе ESSE, должен быть описан в соответствующем ему документе метаданных. Туда заносится такая информация как набор параметров, распределение параметров по группам или высотам измерения, доступный интервал времени, покрываемая область координат, если данные имеют географическую привязку. Для управления такими документами используется Виртуальная обсерватория.
Для автоматизации создания запросов к источникам Грид-сервисов данных разработана специальная схема расширения метаданных, которую мы называем Ordering extensions, позволяющая автоматически строить форму запроса к любому источнику данных ESSE на основе метаданных. Эта возможность используется в порталах для выборки и визуализации данных.
В следующих разделах главы рассмотрены подключенные автором на данном этапе источники данных. Упомянуты метеорологические базы данных и базы по солнечно-земной физике.
Завершает главу пример запуска модельной сейсмической задачи с использованием ресурсов Грид-кластера.
В качестве примера для запуска распределенного расчета автором был реализован запуск сейсмической модели для определения анизотропных сейсмических параметров коры и верхней мантии путем совместного обращения волновых форм объемных волн разных типов. Данная методика является объединением двух предложенных ранее методов определения анизотропных свойств литосферы и верхней мантии.
Глава 3: Создание специализированных Грид-порталов и распределенная визуализация данных в общей модели для геофизических приложений.
Третья глава описывает компоненты и системы для визуализации и обработки геофизических данных, а также созданный автором портал для работы с мета-
данными.
Первый раздел описывает клиентские приложения для визуализации данных. Описаны следующие компоненты:
• Сервисы электронных карт на примере клиента ГИС (Геоинформационной системы) — картографического апплета. Разработанный автором модульный Java-апплет реализует открытую клиент-сервер технологию интерактивной картографии и визуализации геофизических данных в Интернет с использованием ГИС-сервера. В разделе приводятся примеры с совмещенной на одной карте визуализацией различных типов данных, а также интерактивным взаимодействием с ними пользователей как через интерфейс апплета, так и через элементы веб страницы.
• Лауа-апплет Plotapplet, модифицированный автором Ptolemy Java апплет, позволяющий визуализировать временные ряды наблюдений в виде графика.
• Java-приложение Autoplot для визуализации временных рядов данных, запрошенных через веб-порталы, адаптированное автором для использования данных из рассмотренных сервисов данных. Поддерживается визуализация как временных рядов в точке, так и цветовых карт трехмерных данных. Приложение загружается на клиентский компьютер с помощью технологии Java Webstart и предоставляет пользователю удобный и богатый интерфейс для анализа и работы с полученными рядами данных.
• Клиент для визуализации погодных данных в виде наблюдений на регулярной сетке (грид) — плагин для программы Microsoft Virtual Earth. Плагин позволяет получать данные напрямую из OGSA-DAI в формате CDM и визуализировать их на поверхности Земли в виде изолиний или цветовых карт. Поддерживается автоматическая работа с метаданными в формате ESSE. Кроме того, продукт имеет широкие возможности по заказу и визуализации данных с серверов OPeNDAP.
Рассмотрены примеры, демонстрирующие возможность использования сторонних пакетов для визуализации и работы с данными - Matlab, IDL, VisAD, IDV, ODC.
Далее рассмотрены порталы для работы с геофизическими данными.
1. Портал SPIDR — источник данных по солнечно-земной физике. SPIDR (Space Physics Interactive Data Resource), сетевой ресурс по солнечно-земной физике, агрегирующий разнородные источники данных в рамках относительно обширной предметной области, которая в настоящее время включая временные ряды глобальных (геомагнитных и солнечных) индексов, временные ряды наблюдений на обсерваториях (магнитное поле, ионосфера, космические лучи и т.п.), спутниковую телеметри. (параметры окружающей среды на орбите), изображения Земли и Солнца. Созданная автором система интегрирует портал в общую структуру данных ESSE, позволяя выборку данных в формате CDM совместно с другими данными.
2. Описан созданный автором веб-портал системы CLASS (Comprehensive Large Array-data Stewardship System) для демонстрации возможности в рамках созданной системы объединить все доступные данные, хранящиеся в Национальном Центре Геофизических Данных NOAA (National Geophysical Data Center, National Oceanic and Atmospheric Administration), USA. Поддерживается выборка и визуализация данных, представимых как временные ряды, на Лауа-апплете, экспорт данных в виде CDM в форматах NetCDF и NcML, поиск нечетких сценариев в таких данных. Для архивов изображений поддерживается поиск по координатам, перемещение по гранулам и орбитам. Портал в полной мере использует преимущества совместного доступа к различным данным. К примеру, возможен поиск нечеткого сценария по одной базе временных рядов, с последующим показом этого события в данных другой базы, или поиск спутникового снимка в найденном с помощью нечеткого поиска времени и месте.
3. Описана система работы с метаданными - Виртуальная Обсерватория (ВО), задействованная для работы со всем многообразием поддерживаемых в системе метаданных. ВО является интеграционной средой для пользователей, организуя персональную и совместную работу, обеспечивая детальный поиск и оценку рейтинга ресурсов, а также внутреннюю почту и дискуссионные форумы. Ориентированность ВО на научные ресурсы позволяет использовать в качестве дерева каталога научные онтологии, что выгодно отличает обсерваторию от большинства общепользовательских интернет-каталогов. Возможность одновременной работы с несколькими схемами метаданных предполагает гибкую детализацию описания ресурсов, следуя специфике предметной области, что, в свою очередь, расширяет возможности поиска данных.
Рассмотрены специальные возможности Обсерватории в рамках проекта VxOWare. Разобраны компоненты обсерватории с описанием их функциональности. Приведены примеры задействованных к настоящему моменту разделов метаданных обсерватории.
Описана система, созданная автором на базе виртуальной обсерватории (являющийся ее конкретной реализацией) — проект ViRBO. Система представляет собой хранилище метаданных по радиационным поясам Земли и объединяет источники данных, а также сообщество ученых, заинтересованных в этих данных. Система ориентирована на хранение метаданных в форматах, принятых в среде ученых, занимающихся радиационными поясами.
Заключение
Основной задачей диссертации являлось создание системы управления потоками геофизических данных и численных моделей окружающей среды в Грид.
На основе сравнительного анализа возможностей современных инфраструктур и промежуточных слоев программного обеспечения сети Грид были сделаны выводы об их преимуществах и недостатках для создания сервисов и управления данными, запуска численных моделей и создания веб-порталов и клиентских приложений для визуализации и работы с данными по окружающей среде, а также обозначены проблемы, которые необходимо решить для более эффективного использования ресурсов сети Грид в геофизике.
Была реализована общая модель хранения геофизических данных, совместимая со стандартом Common Data Model (UNIDATA, USA) и позволяющая хранить данные типа равномерной сетки, станций, траекторий. Было дано обоснование необходимости создания новой оптимизированной модели для хранения временных рядов наблюдений параметров окружающей среды с различной пространственной привязкой.
Была разработана архитектура и реализован Грид-сервис, а также реализована система управления рабочим потоком как расширение OGSA-DAI для общей модели данных и продемонстрирована возможность объединения распределенных разнородных источников данных в один сервис с возможностью совместной работы с различными данными.
Была обоснована необходимость создания специализированного Грид-сервиса для работы с метаданными и разработан такой сервис. Он позволяет совмещать метаданные в любых стандартизированных форматах из различных предметных областей — метеорологии, солнечно-земной физики, сейсмологии.
Для решения сложных вычислительных задач на суперкомпьютерах, в- частности, для решения обратной задачи геофизики через полный перебор всех решений прямой задачи, разработан рабочий поток запуска геофизических моделей на основе данных, полученных с Грид-сервиса. Обеспечена возможность хранения полученных в результате моделирования данных на основе Грид-сервисов для их последующего анализа и визуализации.
На Грид-узлах ГЦ РАН и НИИЯФ МГУ была запущена сейсмическая модель для определения параметров сейсмической анизотропии коры и верхней мантии с использованием разработанного Грид-сервиса для хранения результатов моделирования и их последующего анализа. Был найден глобальный экстремум целевой функции, проведен анализ согласованности различных групп данных и проведена интерпретация результатов моделирования.
Разработаны клиентские приложения, использующие преимущества созданной системы источников данных. Приложения позволяют обрабатывать и преобразовывать данные, а также визуализировать как сами данные, так и результаты их обработки. Разнообразие приложений позволяет в полной мере использовать все возможности сервисов данных Грид.
Проведено внедрение разработанных программных продуктов в российских и
зарубежных научных проектах СКИФ ГРИД (ИПС РАН, Переславль), CLIVT (ИКИ РАН, Москва), CLASS (NGDC NOAA, Boulder СО, USA), ESSE (Microsoft Research, Cambrige, UK). Осуществлено тестирование работоспособности клиентских приложений, использующих эти сервисы.
Программные продукты, разработанные в диссертации, доступны под лицензией с открытым программным кодом. Программный код продуктов доступен на публичных ресурсах в Интернет.
Благодарности
Работа выполнялась в лаборатории сетевых информационных технологий Геофизического центра РАН при поддержке грантов «Система поиска погодных сценариев - СППС» (Environmental Scenario Search Engine - ESSE) совместно с Исследовательской лабораторией Майкрософт (MSR) в Кембридже, Великобритания, и «Интерактивный ресурс данных по солнечно-земной физике» (Space Physics Interactive Data Resource - SPIDR) Национального управления по исследованию атмосферы и океана (NOAA), Болдер, Колорадо, США.
Автор выражает благодарность научным руководителям, чл.корр. РАН, д.ф.м.н., проф. Гвишиани Алексею Джерменовичу, ИФЗ РАН, и к.ф.м.н. Жи-жину Михаилу Николаевичу, ГЦ РАН, за руководство в работе над диссертацией; Эрику Кину (Eric Kihn), NGDC NOAA, США, за постановку задачи создания системы доступа к разнородным геофизическим данным, поддержку и советы в разработке системы; к.ф.м.н. Алешину Игорю Михайловичу, ИФЗ РАН, за постановку модельной сейсмической задачи и помощь в реализации запуска модели в Грид. Автор благодарен многим сотрудникам Геофизического Центра РАН за поддержку.
Основные результаты диссертации вошли в следующие публикации
[1] Zhizhin, M.; Poyda, A.; Mishin, Р.; Medvedev, D.; Kihn, E.; Lyutsarev, V.; "Grid Data Mining with Environmental Scenario Search Engine (ESSE)", Chapter 13 in Data Mining Techniques in Grid Computing Environments, Wiley, 2008, pp. 281 -306
[2] Zhizhin, M.; Kihn, E.; Redmon, R.; Poyda, A.; Mishin. P.; Medvedev, D.; Lyutsarev, V.; "Integrating and mining distributed environmental archives on grids", Concurrency and Computation: Practice and Experience, vol. 19, pp. 2157 - 2170, 2007
[3] M.H. Жижин, A.A. Пойда, Д.Ю. Мишин, А.П. Платонов, A.A. Солдатов, В.Е. Велихов, М.Н. Боярский, P.P. Назиров. Поиск данных в Грид: соотношение
производительности сетей, вычислительных кластеров, хранилищ данных. Открытое образование, № 4 2008, стр. 29-39
[4] Zhizhin, М.; Kihn, Е.; Redmon, R.; Medvedev, D.; Mishin, P.: "Space Physics Interactive Data Resource - SPIDR", Earth Science Informatics, Springer Berlin / Heidelberg, ISSN 1865-0473 (Print) 1865-0481 (Online), Volume 1, Number 2, September 2008, pp. 79 - 91
[5] Zhizhin, M.; Kihn, E.; Lyutsarev, V.; Berezin, S.; Poyda, A.; Mishin. P.; Medvedev, D.; Voitsekhovsky, P.; "Environmental scenario search and visualization", Proc. 15th ACM symposium on Advances in geographic information systems, 2007
[6] Zhizhin, M.; Poyda, A.; Mishin, P.; Medvedev, P.; Kihn, E.; Lyutsarev, V. Environmental Scenario Search Engine (ESSE) - distributed, optimized, visible. Microsoft Research Technical Report, May 2007
[7] Zhizhin, M.; Poyda, A.; Mishin. P.; Medvedev, P.; Kihn, E.; Lyutsarev, V.. Scenario Search on the Grid of Environmental Pata Sources. Microsoft Research Technical Report, July 2006
[8] И.М. Алешин, Д.Ю. Мишин. M.H. Жижин, В.Н. Корягин, Д.П. Медведев, A.M. Новиков, Д.В. Перегудов. Применение распределенных вычислительных систем при определении параметров сейсмической анизотропии коры и верхней мантии. Геофизические исследования, 2009.
ъ \
Мишин Дмитрий Юрьевич
Информационные геофизические модели и потоки данных в среде Грид. Автореф. дисс. на соискание ученой степени кандидата тех. наук.
Подписано в печать 18.09.2009. Заказ №______
Формат 60x90/16. Усл. печ. л. 1. Тираж 120 экз.
Типография Учреждения Российской академии наук Институт Физики Земли им. О.Ю. Шмидта РАН.
Содержание диссертации, кандидата технических наук, Мишин, Дмитрий Юрьевич
Список терминов и аббревиатур.
Введение
Актуальность работы.
Цели и задачи работы.
Личный вклад автора.
Научная новизна.
Практическая значимость работы.
Защищаемые положения.
Апробация работы и публикации.
Структура и объем диссертации.
Благодарности.
1 Проблемы использования информационных технологий Грид в геофизике
1.1 Определение и архитектура вычислительной среды Грид.
1.2 Компоненты Грид-систем.
1.3 Инфраструктуры Грид.
1.4 Выводы.
2 Сервис-ориентированная технология интеграции распределенных гетерогенных источников геофизических данных в среде Грид
2.1 Технологии хранения данных в науках о Земле.
2.2 Разработка общей модели данных для многомерных массивов (Common Data Model, CDM).
2.3 Создание Грид-сервисов данных.
2.4 Моделирование данных с использованием распределенных вычислительных систем.
2.5 Выводы.
3 Создание специализированных Грид-порталов и распределенная визуализация данных в общей модели для геофизических приложений
3.1 Клиентские приложения визуализации данных.
3.2 Порталы доступа к геофизическим данным.
3.3 Виртуальные обсерватории.
3.4 Выводы.
Введение Диссертация по наукам о земле, на тему "Информационные геофизические модели и потоки данных в среде Грид"
Начиная со второй половины XX века наблюдается бурный рост объемов первичных и обработанных данных в геофизике и смежных науках о Земле и окружающей среде. Потоки данных регистрируются в цифровом виде или оцифровываются при архивации с целью их последующей компьютерной обработки и анализа. Наиболее быстро растут объемы данных в таких областях наук о Земле, как метеорология, сейсмология, прикладная геофизика и поиск полезных ископаемых, климатология, включая проблемы глобального изменения климата [10], дистанционное зондирование и наблюдение Земли из космоса, космическая погода и солнечно-земные связи [4]. Таким образом, проблема эффективной технологической и научной обработки и хранения огромных и непрерывно пополняющихся массивов информации становится одной из важнейших в геофизике и геоинформатике.
Особенно актуально эта проблема стоит перед Системой мировых центров данных [11], которые отвечают за координацию, сбор, хранение многодисциплинарных наборов данных по всему Земному шару. Представленные в диссертации алгоритмы, программные системы и распределенные сервисы данных былы созданы и применены для работы в Системе мировых центров данных по твердой Земле и солнечно-земной физике, а разработанные в диссертации технологии были применены для построения Грид-центров хранения и обработки данных в различных областях, включая сейсмологию, климатологию, дистанционное зондирование и космическую погоду. Напомним, что система 52 мировых центров данных включает в себя пять МЦД, функционирующих в нашей стране.
Для оценки масштаба рассматриваемой задачи приведем некоторые характеристики объемов изучаемых в работе данных. Для хранения глобального реанализа климатологических данных требуется хранилище размером в несколько терабайт [12]. Хранение всех данных со спутников NOAA с начала 70-х годов требует порядка 130 терабайт [14].
В то время как число исследователей в науках о Земле растет достаточно медленно, объемы хранимых данных в геоинформатике растут экспоненциально со временем , поэтому для обработки таких объемов требуется все больше компьютерных мощностей. Для увеличения скорости обработки данных используются распределенные вычисления на параллельных кластерах. [1]
1970
1980
1990
2000
2010
Файловые хранилища
Реляционная модель Базы данных
Веб-сервисы
Грид-и нфраструктура научных вычислений ш
Рисунок 1. Развитие компьютерного хранения и обработки данных
В начале развития компьютерной обработки данных, когда объем их был относительно невелик, основным принципом работы с данными было хранение и обработка файлов (рис. 1). Вся передача, выборка данных, обмен тоже базировался на файлах. Позже, с ростом объемов данных и появлением теории реляционной модели [16], данные стали храниться в базах данных, контролирующих целостность, упрощающих доступ и ускоряющих поиск в данных по индексам. В дальнейшем, с развитием высокоскоростных сетей передачи данных, ученые перешли па распределенные технологии. Стали активно использоваться распределенные веб-сервисы данных [17]. Под веб-сервисом понимается программа, принимающая запросы по протоколу HTTP (GET или POST), обычно на языке XML, и возвращающая запрошенные данные в ожидаемом клиентом формате. Веб-сервисы позволяют легко комбинировать различные ресурсы данных в рабочий поток, обеспечивая их связь для совместной работы, что снижает нагрузку на отдельные сервисы по сравнению с запросом данных из одного источника, а также предоставляет возможность оптимизации потоков данных (при выборе наиболее близкого к получателю сервиса).
Дальнейшим развитием веб-сервисов, объединяющим научные вычисления по всему миру, стала инфраструктура для научных вычислений, получившая название Грид. Согласно определению Я. Фостера и К. Кессельмана, "Грид (Grid) - это согласованная, открытая и стандартизованная среда, которая обеспечивает гибкое, безопасное, скоординированное разделение ресурсов в рамках виртуальной организации" [18]. Под виртуальной организацией понимается группа людей или организаций, разделяющих между собой вычислительные, дисковые, информационные и сетевые ресурсы Грида в общих целях. Устанавливая стандарты для научных учреждений, устанавливая протоколы и интерфейсы взаимодействия программных сред, Грид позволяет совместно использовать ресурсы удаленных компьютерных кластеров, включенных в общую сеть, для расчетов ресурсоемких задач [19].
Начало создания сети Грид в Европе было положено проектом LCG (LIIC Computing Grid, Вычислительный Грид Большого Адронного Коллайдера), начатым в 2002 году и запущенным в эксплуатацию [20] 3 октября 2008 года. Исходно проект был призван обеспечить вычислительные ресурсы для анализа данных, поступающих от большого адронного коллайдера (LHC) в ЦЕРН (Европейский центр ядерных исследований), в Женеве. Этот проект соединил вычислительные ресурсы для физики высоких энергий по всему миру, и должен был перерабатывать предсказанные 15 петабайт (1ГХБ ~1015Б) данных, ежегодно получаемых на экспериментах LHC. EGEE (Enabling Grids for Е-sciencE) начался с этой инфраструктуры, добавляя дополнительные ресурсы из всех частей земного шара и привлекая пользователей из других дисциплин для формирования того, что стало крупнейшей научной инфраструктурой Грид в мире. Созданная для целей обработки данных в сфере физики элементарных частих," инфраструктура EGEE и сейчас в основном ориентируется на предстоящую задачу обработки данных с LHC.
Входящий в состав EGEE российский консорциум RDIG (Российский грид для интенсивных операций с данными - Russian Data Intensive Grid) был организован в сентябре 2003 г. для создания, и поддержки Грид-инфраструктуры в России. При участии автора в Геофизическом центре РАН был создан ресурсный центр Грид-инфраструктуры RDIG, на котором были проведены первые эксперименты по сейсмическому моде- . лированию для геофизических приложений. Другим проектом, развивающим Грид-инфраструктуру в союзном государстве Россия-Беларусь, является суперкомпьютерная программа СКИФ Грид. В состав разработанного в рамках СКИФ-Грид программного комплекса вошли созданные в диссертации Грид-сервисы данных. На их основе в Геофизическом Центре РАН был развернут ресурсный центр геофизических данных инфраструктуры СКИФ-Грид.
Актуальность работы
В диссертации изложены результаты одной из первых попыток адаптации и применения Грид-технологий в геофизике и других смежных науках о Земле. Автором разработана новая технология и построена Грид-среда, позволяющая хранить большие объемы геофизических данных, описывать их в метаданных, использовать данные для анализа и моделирования, сохранять результаты моделирования и загружать исходные данные и результаты выборок для дальнейшей работы. Автором впервые был произведен запуск модельной сейсмической задачи с использованием разработанных сервисов данных в среде Грид.
Для эффективной работы с геофизическими данными, в первую очередь, требуется обеспечить их надежное хранение с возможностью быстрого и гибкого доступа. Для решения этой задачи в диссертации создан новый системно-программный метод реализации распределенных хранилищ геофизических данных. В диссертации отражены результаты по следующим направлениям: каталоги метаданных для поиска в хранилищах, репликация коллекций файлов для ускорения доступа и повышения надежности,^ проблемы масштабирования и новые модели данных в сверх-болыних базах данных, параллельные файловые системы, и веб- (или грид-) интерфейсы управления данными. Значительными сторонними результатами по каждому из направлений являются соответственно каталог метаданных по информационным ресурсам об окружающей среде NASA Global Change Master Directory, система управления данными LCG Database and Replica Management Services, параллельная файловая система Apache Lustre, и система управления выборкой и обработкой данных OGSA-DAI. Во многих случаях, когда хранилище данных строится под конкретный набор приложений, схема метаданных и общая модель данных (Common Data Model) заранее известны, и все вышеупомянутые «универсальные» технологии можно объединить и оптимизировать в единой распределенной иерархической системе хранения и поиска данных, которые мы называем Common Data Model (СОМ)-хранилищем.
Продумы noir/Hwiibits hi сл/шниопых дапних
Срит-нныг- ряпы наблюдши; погоды и роапашиа
Географическая информация' оысога гидрология, .
Виртуальная сбссроагория
Псрыяыпия/iaciyiin к данным
Полмооагельсше сообтесгм
Активное хранилище
СО.ИПЮП Data Mcd^l SQL Server Cluster CGSA-DAI и M.UWj API
Col K.liim It'.t-I metadata li vcr'toi'j-lfjfl rnotaiiata
Ordering fxtwisions J г i»p)>irt нжодные данный— ■^-Результат медолирозания
Численное моделирование
Мюошкалышя ьМогооралогачоскап модель ММ5
Сейсмическая модель cv, V \ > >
Анллн.! динных
Enuronnertal Scenario Search Епзпе (ESSE)
Лп'оршми нагседения троидов
Ч?
-Тренды и маиуосвизи-^
Визуализация
Microsoft Virtual Earth NASA Wacld Wind
EVL UIC Scalable Graphics Envirarmen t (SAGS+SAIL)
Рисунок 2. Общая схема системы
В диссертации создана система (рис. 2), работающая с наиболее часто используемыми в геофизике моделями данных - временными рядами наблюдений и спутниковыми гранулами, позволяя осуществлять запросы к хранилищам таких данных, производить их анализ, обработку, моделирование, пересылку и хранение. Большинство изученных в геофизике наборов данных укладываются в эту модель. Временные ряды представляют собой многомерные массивы данных, отличающиеся по структуре и количеству измерений, и при этом имеющие различный объем (от сотен мегабайт до десятков терабайт). В эту модель данных укладываются метеонаблюдения, реанализ и прогноз погоды, наблюдения и результаты моделирования космической погоды, результаты моделирования сейсмических волн и т.д. Спутниковые гранулы это объекты данных, чаще всего изображения или блоки данных, полученные со спутника при сканировании определенного участка земной поверхности, и имеющие геопривязку и другие параметры. В таком формате представлены изображения Земли со спутников, электронные карты, снимки Солнца, и другие изображения. Автором впервые была создана система, объединяющая доступ к разнородным источникам данных в единый сервис на основе общей модели данных и метаданных и языка запросов к сервисам выборки и обработки (рис. 3).
Рисунок 3. Поддерживаемые системой источники данных
Используемая для сервиса данных платформа OGSA-DAI, работающая в различных Грид-средах (Globus toolkit 4, OMII, Unicore), расширенная компонентами для работы с геофизическими данными, позволяет в полной мере реализовать распределенную Грид-архитектуру сервисов данных с возможностью управления потоком данных.
Реализованная автором общая модель данных ESSE (Common Data Model, CDM) призвана существенно упростить обмен между разными сервисами данных по окружающей среде. Разработанная в диссертации общая модель данных делает возможным комбинирование и совместное изучение данных из различных предметных областей. Построенная в диссертации модель представляет собой надстройку над многомерным массивом численных данных, позволяющую производить многомерные выборки данных. Использованная модель является обобщением предложенного организацией UNIDATA формата хранения данных NetCDF.
Для хранения геофизических данных в формате CDM автором на основе рекомендаций UNIDATA был разработан ряд структур данных, рассмотренных в диссертации, таких как сетка, набор точек, набор станций, траектория. При этом, под структурой хранения данных понимается набор массивов, их атрибутов и типов, используемый для хранения определенного типа геофизических данных.
В диссертации автором обоснована возможность практического использования CDM как общей модели для хранения, обработки и передачи геофизических данных из различных источников.
Реализацией данной модели стала библиотека хранения данных в виде временных рядов в формате CDM [9]. Библиотека включает средства для представления данных в памяти компьютера и пересылки данных по сети. Примером реализации также остается формат хранения научных данных NetCDF, ориентированный на работу с файлами и привязанный к файловой системе. В целом, разработанная в диссертации реализация является упрощенной моделью NetCDF и совместима с ним.
Созданная модель представляет существенный шаг вперед по сравнению с хранением данных в файлах: повышенная скорость доступа к данным, единый формат работы с данными из любых баз данных, и как следствие этого - интероперабельность компонент системы. Следствием использования единой модели для различных данных является возможность эффективного слияния и сравнения таких данных для их совместного изучения. Таким образом, открывается возможность получения принципиально новых результатов. Доступны возможности преобразования данных с помощью специальных компонент (data processor), осуществления нечеткого поиска событий в данных (search engine), что открывает новые широкие возможности по обработке больших объемов геофизических данных.
Для работы с геофизическими сервисами данных также необходима система управления метаданными. Основная задача метаданных — описывать семантику и синтаксис данных в хранилище. При грамотной организации метаданных и обеспечении механизмов работы с ними, метаданные могут использоваться для поиска необходимых наборов данных в распределенных хранилищах, использоваться в балансировке нагрузки на хранилища в распределенных системах, содержать дополнительные сведения о данных. Возможен поиск по таким параметрам как пространственно-временное покрытие, вхождение слов в описание базы данных и т.д. Метаданные могут содержать такие дополнительные сведения как описание отдельных участков данных, пометки о качестве данных или история их обработки.
Также метаданные служат основой для поддержки сообществ пользователей данных, позволяют заинтересованным людям обмениваться мнениями и расширять существующие наборы данных, что особенно важно для развития системы МЦД. Это является шагом в сторону Web 2.0, являющейся быстро растущей и сильно востребованной технологией коллективной работы в Сети, и переносит эту новую Интернет-технологию в научное сообщество в области наук о Земле.
В главе "Виртуальная обсерватория" автором была разработана система, позволяющая не только хранить метаданные, описывающие сервис, но также формирующая запросы к ним на автоматическую выборку (Ordering extensions). Виртуальная обсерватория - это веб-приложение, созданное для управления структурированной базой данных XML-файлов, разбитой на отделы, содержащие файлы определенной структуры. Автором созданы средства управления структурой хранилища, поддержки сообществ пользователей, автоматизированной загрузки и доступа к хранящимся файлам, визуализации данных. Виртуальная обсерватория позволяет объединять распределенные хранилища метаданных в федерации с совместным доступом к ресурсам. Также автором разработаны Web 2.0-компонепты, предоставляющие ученым возможности общения, обмена информацией и совместной работы над содержимым хранилища (рис.
4).
Рисунок 4. Схема работы системы Виртуальная Обсерватория
Потребителями геофизических данных могут быть как конечные пользователи, производящие исследования с их помощью, так и другие вычислительные системы. Под такими системами мы понимаем вычислительные модели реанализа и прогноза климата и космической погоды, сейсмологические модели для трехмерной реконструкции внутреннего строения Земли и прогноза залегания полезных ископаемых, и обработку изображений со спутников для анализа поверхности Земли, в частности, растительного покрова, метеорологических полей, динамики рельефа. Поэтому средства по выборке, обработке и визуализации данных, доступные пользователям через сторонние порталы и клиентские приложения, доступны также и для моделей в виде сервисов данных, разработанных автором и включенных в состав Виртуальной обсерватории. При этом для модельных приложений наряду с предоставлением входных данных также доступны сервисы сохранения результатов моделирования.
Цели и задачи работы
Целью работы являлось создание системы управления потоками геофизических данных и численными моделями окружающей среды в Грид.
Для реализации этой цели в диссертации поставлены и решены следующие задачи:
1. Создание теоретико-методологических основ и действующего прототипа распределенной Грид-среды специализированных сервисов, легко расширяемой для хранения и обработки различных коллекций данных по геофизике и наукам о Земле, включая солнечно-земную физику, климатологию, сейсмологию.
2. Разработка системы управления рабочим потоком распределенных Грид-сервисов для передачи, предварительной обработки, научного анализа и визуализации данных.
3. Разработка системы управления метаданными для Грид-сервисов геофизических данных.
4. Разработка метода и компьютерной технологии обеспечения запуска существующих геофизических моделей на суперкомпьютерах с использованием разработанных сервисов данных для инициализации моделей,
5. Интеграция созданных сервисов данных и численных геофизических моделей в единый рабочий поток, что позволит делать выборки исходных данных, использовать их для моделирования и сохранять результаты в Грид-среде. Проведение моделирования в среде Грид с использованием данных из баз данных по окружающей среде.
6. Апробация и оценка эффективности созданной системы для задач геофизики в области физики твердой Земли, солнечно-земной физики, климатологии.
Личный вклад автора
1. Разработана архитектура и реализованы Грид-сервисы для доступа к распределенным хранилищам геофизических данных. Реализована система управления рабочим потоком обработки геофизических данных на Грид-сервисах.
2. Получена интеграция Грид-сервисов разнородных iеофизических данных на основе общей модели хранения геофизических данных, которая совместима со стандартом Common Data Model (UNIDATA, USA) и реализована автором в качестве внутренней модели хранения и внешнего обмена геофизическими данными между распределенными Грид-сервисами, а также для визуализации данных в клиентских приложениях и для экспорта данных пользователям.
3. Обоснована необходимость создания специализированного Грид-сервиса для совместной работы с метаданными из различных предметных областей - метеорологии, солнечно-земной физики, сейсмологии, и реализована оригинальная технология распределенного управления метаданными - "Виртуальная обсерватория".
4. Разработан рабочий поток и сервисы запуска геофизических моделей в инфраструктуре Грид на базе европейской Грид-инфрастурктуры EGEE. С их помощью была обсчитана сейсмическая модель для определения анизотропных свойств литосферы и верхней мантии путем совместной инверсии волновых форм обменных волн и волн SKS.
5. Разработаны клиентские приложения, использующие преимущества созданной системы Грид-сервисов данных, позволяющие обрабатывать, преобразовывать и визуализировать геофизические данные.
6. Проведено внедрение разработанных программных продуктов в российских и зарубежных научных проектах СКИФ ГРИД (ИПС РАН, Переславль), CLIVT (ИКИ РАН, Москва), CLASS (NGDC NOAA, Boulder СО, USA), ESSE (Microsoft Research, Cambrige, UK).
Научная новизна
Созданная в диссертации система, осуществляющая сбор, хранение, анализ, обработку и визуализацию больших массивов геофизических данных, а также создание на основе этих данных геофизических моделей на платформе Грид, является инновационной технологией в геофизике. Система позволяет работать одновременно с различными типами данных: временными рядами наблюдений (в форматах сетка, набор точек, набор станций, траектория) и спутниковыми гранулами. Использование Грид-инфраструктуры дает колоссальное преимущество при расчетах, требующих длительного процессорного времени, а также при обработке сверхбольших объемов данных. Построение системы на основе Грид-сервисов данных является первым подобным примером среди систем обработки геофизических данных и увеличивает гибкость и эффективность запросов. В то же время задействованное в системе совместное эффективное использование ресурсов других научных учреждений по всему миру при гибком масштабировании систем позволяет покрывать всё растущую необходимость в вычислительных ресурсах для задач геофизики без дополнительных затрат на развертывание суперкомпьютеров в отдельных институтах. Разработанная в диссертации система выполнения геофизических вычислений в сети Грид приводит к ускорению исследований и инноваций в этой области.
Созданная автором архитектура системы, её компоненты и использование общей модели данных позволяют эффективно провести совместный анализ огромных массивов данных из различных областей геофизики. Тем самым расширяется область исследований и многократно увеличиваются возможности анализа наблюдений окружающей среды, что показано в разделе про веб-порталы и клиентские приложения.
Практическая значимость работы
Созданная автором система успешно используется как информационно-технологическая база для целого ряда задач вычислительной сейсмологии, систем визуализации погодной информации, оценки изменений климата и реанализа космической погоды. Благодаря использованию среды Грид, система является распределенной и имеет узлы, связанные в "Грид данных". Функционируют общедоступные порталы для доступа к данным конечных пользователей. Система предоставляет доступ к данным и вычислительные ресурсы всем геофизическим институтам и организациям, являющимся членами соответствующей виртуальной организации Грид-сети.
Результаты работы нашли прямое применение в совместных междисциплинарных исследованиях ИКИ РАН и MSR для анализа региональных трендов и зависимостей между изменениями в климате и растительности. Созданные в работе сервисы поиска и обработки сверхбольших баз данных по истории климата используются совместно с разработанными в ИКИ методами дистанционного зондирования растительности с использованием данных спутниковых наблюдений. Сервисы были использованы в расчетах модельной задачи по космической погоде AMIE [21], а также для расчета сейсмической модели [6].
Созданные в результате работы Грид-сервисы OGSA-DAI для поиска и обработки данных установлены на ресурсном центре СКИФ-Грид в ГЦ РАН в Москве и в Национальном геофизическом центре (NGDC NOAA) в Болдере, штат Колорадо, и регулярно используются для доступа к архивам данных по климату и космической погоде в системах доступа к распределенным архивам данных NOAA Comprehensive Large Array Stewardship System (CLASS) и Space Physics Interactive Data Resource (SPIDR).
Основные положения, выносимые на защиту
1. Разработана архитектура Грид-сервиса геофизических данных и реализована система управления рабочим потоком для общей модели данных (СDM), что позволило интегрировать для совместного анализа распределенные разнородные источники данных по космической погоде, дистанционному зондированию, климатологии, геофизике и геотектонике общим объемом более 100 ТБ. Объединение вычислительных кластеров и распределенных хранилищ данных реализуется на основе использования сервис-ориентированной архитектуры, интеграции с общей моделью данных и Грид-инфраструктуры.
2. Разработана технология и программное обеспечение для управления метаданными "Виртуальная обсерватория" с функциями преобразования и отображения на многообразии схем (стандартов) метаданных для Мировых центров данных из различных предметных областей — метеорологии, солнечно-земной физики, сейсмологии. Это позволило объединять в общий рабочий поток Грид-сервисы и производить поиск необходимых источников геофизических данных.
3. Разработана технология запуска ресурсоемких геофизических задач на суперкомпьютерах, объединенных Грид-инфраструктурой, и решена обратная геофизическая задача через полный перебор всех решений прямой задачи. Определены параметры сейсмической анизотропии земной коры и верхней мантии под Тянь-Шанем. Был найден глобальный экстремум целевой функции, проведен анализ согласованности различных групп данных и проведена геофизическая интерпретация результатов моделирования.
Апробация работы и публикации
По теме работы автором опубликованы 8 статей, раскрывающих основные научные результаты диссертации. Из них 2 входят в список ВАК ([2, 3]). (см. раздел публикации) Результаты диссертации обсуждались на следующих конференциях и семинарах:
1. Мишин, Д. Геофизические модели и потоки данных в среде ГРИД. Доклад на конференции "Итоги электронного геофизического года", 3—6 июня 2009 г., ИПС РАН, Переславль-Залесский, Россия.
2. Поляков, А., Жижин, М., Березин, С., Коковин, Д., Медведев, Д., Мишин, Д. ГРИД-сервисы параллельной визуализации научных массивов данных и цифровых карт. Доклад на конференции "Итоги электронного геофизического года", 3—6 июня 2009 г., ИПС РАН, Переславль-Залесский, Россия.
3. Жижин, М.; Медведев, Д.; Мишин, Д.; Пойда, А.; Андреев, А. Технология построения параллельных масштабируемых грид-центров хранения и анализа данных по окружающей среде. Вторая международная конференция "Суперкомпьютерные системы и их применение" SSA 2008, Беларусь, 27 октября 2008
4. Zhizhin, М.; Kihn, Е.; Kokovin, D.; Mishin, D. VxOware tool for federation of Virtual Observatories. 3rd GRID e-collaboration Workshop for Earth Science and Space, 16 -17 January 2008 ESRIN, Frascati (Rome), Italy (Poster)
5. Zhizhin, M.; Kihn, E.; Luytsarev, V.; Berezin, S.; Poyda, A.; Mishin, D.; Medvedev, D.; Voitsekhovsky, D. Environmental Scenario Search and Visualization. Presentation and paper in Proceedings of ACM GIS 2007, Seattle, November 2007
6. Zhizhin, M.; Kihn, E.; Medvedev, D.; Redmon, R.; Mishin, D. Space Physics Interactive Data Resource - SPIDR. Report at GRID User Forum, CERN, Switzerland, 01-03 March 2006
Т. Mishin, D. Meteorology and Space Weather Data Mining Portal. Demonstration at the EGEE User Forum, CERN, Geneva, March 2006
8. Zhizhin, M.; Kihn, E.; Redmon, R.; Poyda, A.; Mishin, D.; Medvedev, D.; Lyutsarev, V. Integrating and mining distributed environmental archives on Grids. VLDB DMG Workshop, Seul, September 2006
Структура и объем диссертации
Диссертация включает введение, 3 главы основного текста, заключение и приложения. Объем диссертации - 126 страниц,. Библиография включает в себя 86 наименований. Диссертация содержит 46 изображений.
Заключение Диссертация по теме "Геофизика, геофизические методы поисков полезных ископаемых", Мишин, Дмитрий Юрьевич
3.4 Выводы
Сервисы данных, представленные в главе 2, позволяют пользователям запрашивать данные как напрямую, так и через другие приложения, такие как веб-порталы.
Рассмотренные в главе приложения используют созданную автором систему доступа к научным данным, позволяя комбинировать различные источники данных для совместной работы с ними. Средства визуализации временных рядов позволяют совместно визуализировать данные из различных источников, а также результаты их обработки. Совмещение данных в виде временных рядов и данных с геопривязкой, таких как спутниковых снимков, расширяет возможности анализа данных и является отличительной особенностью приложений для наук о Земле. В целом, объединение различных данных существенно повышает возможности анализа, а возможность обработки больших объемов данных очень важна в настоящее время при быстром росте объема и качества используемых данных.
Рассмотренные клиентские приложения позволяют:
• Производить поиск нужных источников данных в метаданных сервисов по заданным критериям.
• Автоматически создавать веб-форму запроса данных по метаданным источника данных
• Визуализировать полученную выборку данных на клиенте
• Сохранять выборку данных в локальном файле для дальнейшего использования
• Сохранять параметры запроса данных и результат запроса в клиентской корзине на сервере для дальнейшей работы с данными
• Совместно визуализировать различные виды данных для всестороннего изучения предметной области
• Запускать параллельную обработку больших объемов геофизических данных на распределенных вычислительных узлах
• Сохранять результаты вычислений и собственные данные пользователя в хранилище с возможностью дальнейшей работы с этими данными
• Создавать сообщества ученых, заинтересованных в изучении отдельных областей знаний, на специализированных ресурсах, для облегчения общения и обмена научной информацией
4 Заключение
Основной задачей диссертации являлось создание системы управления потоками геофизических данных и численных моделей окружающей среды в Грид.
На основе сравнительного анализа возможностей современных инфраструктур и промежуточных слоёв программного обеспечения сети Грид были сделаны выводы об их преимуществах и недостатках для создания сервисов и управления данными, запуска численных моделей и создания веб-порталов и клиентских приложений для визуализации и работы с данными по окружающей среде, а также обозначены проблемы, которые необходимо решить для более эффективного использования ресурсов сети Грид в геофизике.
Была реализована общая модель хранения данных, совместимая со стандартом Common Data Model (UNIDATA, USA) и позволяющая хранить данные типа равномерной сетки, произвольных точек, станций, траекторий. Было дано обоснование необходимости создания новой оптимизированной модели для хранегога временных рядов наблюдений параметров окружающей среды с различной пространственной привязкой.
Была разработана архитектура и реализован Грид-сервис, а также реализована система управления рабочим потоком как расширение OGSA-DAI для общей модели данных и продемонстрирована возможность объединения распределенных разнородных источников данных в один сервис с возможностью совместной работы с различными данными.
Была обоснована необходимость создания специализированного Грид-сервиса для работы с метаданными и разработан такой сервис. Он позволяет совмещать метаданные в любых стандартизированных форматах из различных предметных областей — метеорологии, солнечно-земной физики, сейсмологии.
Для решения сложных вычислительных задач на суперкомпьютерах, в частности, для решения обратной задачи геофизики через полный перебор всех решений прямой задачи, разработан рабочий поток запуска геофизических моделей на основе данных, полученных с Грид-сервиса. Обеспечена возможность хранения полученных в результате моделирования данных на основе Грид-сервисов для их последующего анализа и визуализации.
На Грид-узлах ГЦ РАН и НИИЯФ МГУ была запущена сейсмическая модель для определения параметров сейсмической анизотропии коры и верхней мантии с использованием разработанного Грид-сервиса для хранения результатов моделирования и их последующего анализа. Был найден глобальный экстремум целевой функции, проведен анализ согласованности различных групп данных и проведена интерпретация результатов моделирования.
Разработаны клиентские приложения, использующие преимущества созданной системы источников данных. Приложения позволяют обрабатывать и преобразовывать данные, а также визуализировать как сами данные, так и результаты их обработки. Разнообразие приложений позволяет в полной мере использовать все возможности сервисов данных Грид. Разработаны следующие приложения:
• Картографический Java-апплет MapApplet
• Лауа-апплет для визуализации временных рядов PlotApplet
• Java-клиент для визуализации временных рядов Autoplot
• Плагин визуализации геофизических данных VisualEsse для приложения NASA World Wind
Библиография Диссертация по наукам о земле, кандидата технических наук, Мишин, Дмитрий Юрьевич, Москва
1. Zhizhin, М.; Poyda, A.; Mishin, D.; Medvedev, D.; Kihn, E.; Lyutsarev, V.; "Grid Data Mining with Environmental Scenario Search Engine (ESSE)", Chapter 13 in Data Mining Techniques in Grid Computing Environments, Wiley, 2008, pp. 281 306
2. Zhizhin, M.; Kihn, E.; Redmon, II.; Poyda, A.; Mishin, D.; Medvedev, D.; Lyutsarev, V.; "Integrating and mining distributed environmental archives on grids", Concurrency and Computation: Practice and Experience, vol. 19, pp. 2157 2170, 2007
3. M.H. Жижин, A.A. Пойда, Д.Ю. Мишин, А.П. Платонов, А.А. Солдатов, В.Е. Велихов, М.Н. Боярский, P.P. Назиров. Поиск данных в Грид: соотношение производительности сетей, вычислительных кластеров, хранилищ данных. Открытое образование, № 4 2008, стр. 29-39
4. Zhizhin, M.; Kihn, E.; Lyutsarev, V.; Berezin, S.; Poyda, A.; Mishin, D.; Medvedev, D.; Voitsekhovsky, D.; "Environmental scenario search and visualization", Proc. 15th ACM symposium on Advances in geographic information systems, 2007
5. И.М. Алешин, Д.Ю. Мишин, М.Н. Жижин, В.Н. Корягин, Д.П. Медведев, A.M. Новиков, Д.В. Перегудов. Применение распределенных вычислительных систем при определении параметров сейсмической анизотропии коры и верхней мантии. Геофизические исследования, 2009.
6. Zhizhin, М.; Poyda, A.; Mishin, D.; Medvedev, D.; Kihn, Б.; Lyutsarev, V. Environmental Scenario Search Engine (ESSE) distributed, optimized, visible. Microsoft Research Technical Report, May 2007
7. Zhizhin, M.; Poyda, A.; Mishin, D.; Medvedev, D.; Kihn, E.; Lyutsarev, V. Scenario Search on the Grid of Environmental Data Sources. Microsoft Research Technical Report, July 2006
8. Пойда А.А. Поиск сценариев событий на гриде источников данных об окружающей среде. Диссертация. Московский государственный университет имени М.В. Ломоносова. 2008
9. National Research Council (U.S.). Committee on Geophysical and Environmental Data. Review of NASA's distributed active archive centers. Compass series (Washington, D.C.). ISBN 10: 058508579X, 0309063310
10. Rank, R.; Reynolds, R. G. Comprehensive Large Array-data Stewardship System (CLASS)A Fully-distributed System. American Geophysical Union, Fall Meeting 2005, abstract #IN24A-05. 12/2005
11. It's sink or swim as a tidal wave of data approaches. Nature journal 399, 517-520, 10 июня 1999. doi:10.1038/21044
12. Edgar F. Codd, A Relational Model of Data for Large Shared Data Banks, Communications of the ACM, 13(6):377-387, June 1970
13. George Reese. Database Programming with JDBC and Java, Second Edition. Chapter 7: Distributed Application Architecture. November 2000. http://java.sun.com/ developer/Books/jdbc/ch07.pdf
14. Grid Club http://gridclub.ru/about
15. Foster, Ian; Carl Kesselman. The Grid: Blueprint for a New Computing Infrastructure. Morgan Kaufmann Publishers. ISBN 1-55860-475-8.
16. Запуск проекта LCG http://lcg.web.cern.ch/LCG/lhcgridfest/
17. Kihn E, Zhizhin M, Kamide Y (2006) An analog forecast model for the high-latitude ionospheric potential based on assimilative mapping of ionospheric electrodynamics archives. Space Weather 4:S05001. doi:10.1029/2005SW000199
18. Bessis, Nik. Grid Technology for Maximizing Collaborative Decision Management and Support: Advancing Effective Virtual Organizations. IGI. ISBN 978-1-60566-364-7. 2009
19. Stockinger, Heinz; et al. Defining the Grid: A Snapshot on the Current View (PDF). Supercomputing42: 3. doi:10.1007/sl 1227-006-0037-9. http://hst.web.cern.ch/hst/ publications/DefiningTheGrid-1.1.pdf
20. Davies, Antony. "Computational Intermediation and the Evolution of Computation as a Commodity" (PDF). Applied Economics 36: 1131. doi:10.1080/0003684042000247334.2004
21. Plaszczak, Pawel; Rich Wellner, Jr (2006). Grid Computing "The Savvy Manager's Guide". Morgan Kaufmann Publishers. ISBN 0-12-742503-9.
22. Sotomayor, Borja; Childers, Lisa. Globus Toolkit 4. Programming Java Services. ISBN: 0-12-369404-3.
23. Silva, Vladimir. Grid Computing for developers. Charles River Media. ISBN: 1-58450424-2.
24. Ll, Maozhen; Mark A. Baker. The Grid: Core Technologies. Wiley. ISBN 0-470-09417-6.2005
25. Ian Foster, Carl Kesselman, Jeffrey M. Nick, Steven Tuecke. The Physiology of the Grid: An Open Grid Services Architecture for Distributed Systems Integration. Open Grid Service Infrastructure WG, Global Grid Forum, June 22, 2002.
26. The Open Grid. Services Architecture, Version 1.5, http://www.ogf.org/documents/ GFD.80.pdf
27. DICE Data Intensive Cyber Environments group http://diceresearch.org
28. Nirvana http://www.nirvanastorage.com
29. Rajasekar, A., M. Wan, R. Moore, W. Schroeder. A Prototype Rule-based Distributed Data Management System. HPDC workshop on "Next Generation Distributed Data Management", May 2006, Paris, France.http://www.sdsc.edu/srb/Pappres/ RODs-paper.doc
30. EGEE RDIG (Российский грид для интенсивных операций с данными Russian Data Intensive Grid) http://www.egee-rdig.ru
31. SIMDAT Grids for Industrial Product Development http://www.scai.fraunhofer. de/simdat.html
32. Deutscher Wetterdienst http: //www. dwd. de
33. European Centre for Medium-Range Weather Forecasts http://www.ecmwf.int
34. European Organisation for the Exploitation of Meteorological Satellites http://www. eumetsat. int
35. Meteo-France http://france.meteofrance.com
36. Met Office http://www.metoffice.gov.uk
37. Стандарты OGC консорциума, http: //www. opengeospatial.org
38. Стандарт Geography Markup Language (GML) на сайте OGC консорциума, http: //www.opengis.net/gml
39. CSW: спецификация на сайте OGC консорциума, http://www.opengeospatial. org/standards/cat
40. WMS: спецификация на сайте OGC консорциума, http://www.opengeospatial. org/standards/wms
41. WFS: спецификация на сайте OGC консорциума, http://www. opengeospatial. org/standards/wfs
42. WCS: спецификация на сайте OGC консорциума, http://www.opengeospatial. org/standards/wcs
43. WPS: спецификация на сайте OGC консорциума, http://www.opengeospatial. org/standards/wps
44. Amazon S3, http: //aws . amazon. com/s3/
45. Amazon SimpleDB, http://aws.amazon.com/simpledb/
46. GCMD Global Change Master Directory http://gcmd.gsfc.nasa.gov/
47. Babuska, V., Plomerova, J., Sfleny, J. Spatial variations of P residuals and deep structure of the European lithosphere. Geophys. J. R. Astron. Soc., v. 79, pp. 363-383, 1984
48. Kosarev, G. L.; Makeyeva, L. I.; Vinnik, L. P. Anisotropy of the mantle inferred from observations of P to S converted waves. Geophys. J. R. Astr. Soc., v. 76, pp. 209-220, 1984
49. JI. П. Вииник, Г. Л. Косарев, JI. И. Макеева, 1984, Анизотропия в литосфере по наблюдениям SKS и SKKS. ДАН СССР, т. 278, сс. 1335-1339
50. М. К. Savage, 1999, Seismic anisotropy and mantle deformation: what have we learned from shear wave splitting. Rew. Geophys., v. 37, No 1, pp.65-106
51. Г. JI. Косарев; JI. И. Макеева; E. Ф. Саваренский; E. M. Чесноков; 1979, Влияние анизотропии под сейсмостанцией на объемные волны. Физика Земли, N2, сс. 26-37
52. W. Menke, V. Levin, 2003, The cross-convolution method for interpreting SKS spliting observations, with application to one and two-layer anisotropic earth models. Geophys. J. Int., v. 154, pp. 379-392
53. Vinnik, L.; Peregoudov, D.; Makeyeva, L.; Oreshin, S.; 2002. Towards 3D fabric in the continental lithosphere and asthenosphere: theTienShan, Geoph. Res. Lett., 29, 1795, doi:10.1029/2001GL014588.
54. Vinnik, L.; Aleshin I. M.; Kiselev S. G.; Kosarev G. L.; Makeyeva L. I.; Depth localized azimuthal anisotropy flora. SKS and P receiver functions: TheTienShan. Geophys. J. Int. (2007) 169, 1289-1299, doi:10.1111/j.l365-246X.2007.03394.x
55. P. Renard, V. Badoux, M. Petitdidier, R. Cossu. Grid Computing for Earth Science. Eos, 2009, Vol. 90, No. 14, 7 April, pp. 117-119
56. Tomcat Apache Tomcat http://jakarta.apache.org/tomcat/74. eXist XML database http://exist.sourceforge.net/
57. XML Extensible Markup Language http://www.xml.com/
58. W3C World Wide Web Consortium http://www.w3.org/XML/
59. Jan Merka, Thomas W. Narock, Adam Szabo. Navigating through SPASE to heliospheric and magnetospheric data. Earth Science Informatics, Springer Berlin / Heidelberg, ISSN 1865-0473 (Print) 1865-0481 (Online), Volume 1, Number 1, September 2008, pp. 21-28
60. FGDC Federal Geographic Data Committee http://www.fgdc.gov/
61. Content Standard for Digital Geospatial Metadata (FGDC-STD-001-1998) June 1998 http://www.fgdc.gov/metadata/metadata.html
62. SOHO Solar and Heliospheric Observatory http://sohowww.nascom.nasa.gov
63. SPASE Space Physics Archive Search and Extract http://www.spase-group.org/
64. Jang, Jyh-Shing Roger; Chuen-Tsai Sun, Eiji Mizutani. Neuro-fuzzy and soft computing: a computational approach to learning and machine intelligence. Prentice-Hall, Inc. ISBN: 0-13-261066-3.
65. Berman, Fran; Anthony J. G. Hey, Geoffrey C. Fox. Grid Computing: Making The Global Infrastructure a Reality. Wiley. ISBN 0-470-85319-0. 2003
66. Alexander Szalay and Jim Gray. 2020 computing: Science in an exponential world. Nature, 440(7083):413-414, March 2006.
67. Maria A. Nieto-Santisteban, Jim Gray, Alexander S. Szalay, James Annis, Aniruddha R. Thakar, and William O'Mullane. When database systems meet the grid. In CIDR, pages 154-161, 2005.
68. EOS NASA Earth Observing System http://eospso.gsfc.nasa.gov
- Мишин, Дмитрий Юрьевич
- кандидата технических наук
- Москва, 2009
- ВАК 25.00.10
- Использование распределённых вычислительных систем для сбора, обработки и представления геофизических данных
- Комплекс программ для обработки и интерпретации данных скважинной геоэлектрики на основе единой информационной модели
- Плотностная модель литосферы океана при медленном спрединге
- Распределенные Интернет-приложения в решении геофизических задач
- Методы обработки и интерпретации данных магниторазведки и гравиразведки для сеточных моделей геологической среды