Бесплатный автореферат и диссертация по наукам о земле на тему
Программно-алгоритмическое обеспечение кластеризации и визуализации многомерных данных сейсморазведки и ГИС
ВАК РФ 25.00.10, Геофизика, геофизические методы поисков полезных ископаемых
Автореферат диссертации по теме "Программно-алгоритмическое обеспечение кластеризации и визуализации многомерных данных сейсморазведки и ГИС"
На правах рукописи УДК 550.834
БЕЛЯНУШКИНА МАРИЯ СЕРГЕЕВНА
ПРОГРАММНО-АЛГОРИТМИЧЕСКОЕ ОБЕСПЕЧЕНИЕ КЛАСТЕРИЗАЦИИ И ВИЗУАЛИЗАЦИИ МНОГОМЕРНЫХ ДАННЫХ СЕЙСМОРАЗВЕДКИ И ГИС
Специальность25.00.10-геофизика, геофизические методы поисков полезных ископаемых
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
00345Э865
МОСКВА 2009
003459865
Работа выполнена на кафедре ядерно-радиометрических методов и геоинформатики Российского государственного геологоразведочного университета им. Серго Орджоникидзе (РГГРУ)
Научный руководитель:
доктор физико-математических наук, профессор Лухминский Б.Е.
Официальные оппоненты:
доктор технических наук, профессор Афанасьев В.С. (РГГРУ)
кандидат технических наук
Сержантов Р.Б. (Федеральное агентство по
недропользованию)
Ведущая организация:
ООО « Геофизическое партнерство»
Защита диссертации состоится «/£» февраля 2009 г. в 1500 на заседании Диссертационного совета Д.212.121.07 в Российском государственном геологоразведочном университете им. Серго Орджоникидзе по адресу: 117997, Москва, ул. Миклухо-Маклая, 23, РГГРУ, ауд. 6-38.
С диссертацией можно ознакомиться в научной библиотеке РГГРУ.
Автореферат разослан «16» января 2009 г
Ученый секретарь диссертационного совета, кандидат технических наук, профессор
Каринский А.Д.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы
Технологии кластеризации и визуализации данных в настоящее время активно развиваются и являются одними из приоритетных направлений исследований в области информационных технологий. Вследствие бурного роста объема информации, развития технологий ее сбора, хранения и организации в базах данных, точные методы анализа информации и моделирования исследуемых объектов зачастую отстают от потребностей реальной жизни. Требуются универсальные и надежные подходы, пригодные для обработки информации из различных областей. В качестве подобного базиса могут быть использованы технологии и подходы математической теории распознавания и классификации.
Первые работы в области теории распознавания и классификации появились в 30-х годах XX в. и были связаны с байесовской теорией принятия решений, применением разделяющих функций к задаче классификации (Э. Г. Фишер), решением вопросов проверки гипотез (А. Вальд). В 50-х годах появились первые нейросетевые модели распознавания (Ф. Розенблатт). Большой вклад в развитие теории распознавания и классификации внесли отечественные ученые: Айвазян С.А., Айзерман М.А., Браверманн Э.М., Розоноэр Л.И., Вапник В.Н., Червоненкис А.Я. (статистическая теория распознавания). Техника кластеризации применяется в самых разнообразных областях. Хартиган (J.A. Hartigan, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, полученные методами кластерного анализа. В настоящее время существует множество разнообразных подходов и конкретных алгоритмов для решения задач кластерного анализа, когда требуется найти кластеры по заданной выборке их векторных признаковых описаний (Duba R., Hart Р., 2000, Pelleg D., Moore А., 2001).
Решения, найденные различными алгоритмами, могут существенно отличаться друг от друга. Существуют две основные проблемы при решении задач кластеризации: определение числа кластеров и получение устойчивого результата. Поэтому в применении процедур кластерного анализа немаловажным аспектом является правильное определение количества кластеров, возможность выделения кластеров произвольной формы и устойчивость структуры кластеров, отражающая реальную объективность кластеризации. Таким образом, к современным приложениям, осуществляющим кластеризацию данных, предъявляют жесткие требования, связанные с улучшением качества получаемых результатов и с сокращением времени работы алгоритмов кластеризации.
Наряду с разработкой математического аппарата кластеризации, существенное значение приобретают средства представления результатов кластерного анализа и оценки достоверности этих результатов. К задаче визуализации данных сводится проблема представления в наглядной форме данных эксперимента или результатов теоретического исследования. Качественная визуализация данных является важной частью любой аналитической системы. Во многих случаях эксперту достаточно просто взглянуть на данные, чтобы сделать
необходимые выводы. Но одни и те же данные можно отображать множеством способов, и какой из них будет наиболее приемлем, зависит от решаемой задачи.
Традиционными для геофизики средствами визуализации являются карты, разрезы, кроссплоты, то есть средства 20 визуализации. В настоящее время возникает потребность графического представления данных более высокой размерности. Очевидно, что повышение достоверности результатов интерпретации данных геофизических исследований и, как следствие, эффективности сейсмических съемок и ГИС в значительной степени обусловлено последними достижениями в области визуализации первичной геолого-геофизической информации.
Существует большое количество программных средств, нацеленных на аналитическую работу с многомерными структурами данных. Однако при использовании подобных программ пользователь наталкивается на целый ряд проблем. Во-первых, процедуры обработки данных налагают определенные требования на выборку (например, независимость, однородность, случайность, вид распределения). Несоответствие исходной выборки этим требованиям приводит к недостоверным результатам обработки. Во-вторых, пользователь - специалист в определенной области знаний - зачастую плохо понимает аппарат многомерного анализа, а при отсутствии образного визуального представления результатов с трудом их воспринимает. И, наконец, чрезмерная универсальность готовых пакетов визуализации (в наборах существующих стандартных методов не всегда присутствуют необходимые для решения конкретной задачи инструменты) и их стоимость. Всё это говорит об актуальности создания простых, удобных в использовании средств визуализации данных.
Цель работы
Целью работы является разработка алгоритмов кластеризации и визуализации результатов, развитии существующих алгоритмов кластеризации для решения задачи определения количества кластеров и получения устойчивого решения, а также реализации специальных средств визуализации многомерных геолого-геофизических данных.
Основные задачи исследования
1. Разработка новых алгоритмов кластеризации для решения следующих задач:
- кластеризация зашумленных данных;
- определение в процессе работы неизвестного числа кластеров;
- получение устойчивого результата кластеризации.
2. Разработка системы тестов для проверки алгоритмов кластеризации и оценки их результатов.
3. Разработка программы визуализации многомерных данных со специальными функциями для интерпретации различных видов каротажа.
4. Тестирование предложенных алгоритмов на модельных данных.
5. Решение практических задач по кластеризации и визуализации совместной интерпретации данных сейсморазведки и ГИС.
Научная новизна
1. Разработаны, опробованы, реализованы в программе SeisProN два алгоритма, осуществляющих устойчивую кластеризацию зашумленных данных на заранее неизвестное количество кластеров. Получено свидетельство о регистрации программы SeisProN.
2. Реализовано семейство многомерных тестов для алгоритмов кластеризации (например, задание кластеров различной плотности в вершинах многомерного куба), допускающих задание переменного уровня шума и позволяющих оценить вероятности правильной классификации.
3. Написаны программы визуализации геолого-геофизических данных с привлечением ресурсов современных технологий библиотеки OpenGL. Программы позволяют решать конкретные задачи интерпретации комплекса различных методов каротажа и обладают специальными инструментами для решения данных задач (выделение и визуализация аномальных интервалов разреза скважин).
Защищаемые положения
1. Созданное программно-алгоритмическое обеспечение по кластеризации и визуализации многомерных геолого-геофизических данных обеспечивает решение задач по кластеризации сильно зашумленных данных, определению неизвестного числа кластеров, выделению кластеров неэллиптической формы, получению воспроизводимого и устойчивого результата классификации данных сейсморазведки и ГИС.
2. Предложенные методы интерпретации и разграничения (кластеризации) данных каротажа в многомерном пространстве обеспечивают, например, надежное разделение нефтенасыщенного и водонасыщенного коллекторов, разделение терригенного коллектора и непроницаемого интервала в горизонтальных скважинах.
3. Разработанные автором алгоритмы кластеризации и визуализации применены в пространстве сейсмических атрибутов для выделения перспективных сейсмических фаций (нефтегазовых коллекторов). Созданная на их основе методика кластеризации кубов сейсмических атрибутов (кластеризация большого объема данных) используется в ОАО «Центральная Геофизическая Экспедиция» при разработке практических проектов поисково-разведочного бурения.
Практическая ценность
Алгоритмы реализованы в программе SeisProN, используются для совместной интерпретации 3D данных сейсморазведки и ГИС (выделение перспективных объектов для разведочного бурения) в ОАО «Центральная Геофизическая Экспедиция». Разработанные технологии имеют определенную область применения: интерпретация геолого-геофизических данных. Однако они могут быть использованы и в других отраслях, где возникает необходимость в разделении и визуализации большого количества данных.
Апробация работы
По теме диссертации опубликовано 10 работ. Основные результаты проводимых исследований, изложенных в работе, докладывались на конференциях «Новые идеи в науках о Земле» (Москва, 2005-2007 гг.), «Геофизика-2005» (Санкт-Петербург 2005 г), «Геонауки: от новых идей к новым открытиям» (Санкт-Петербург, 2008 г.), «Геомодель-2008» (Геленджик 2008 г.), опубликованы в журналах «Каротажник» (2006), сборнике «Инновационные технологии, нейросетевая парадигма геологоразведочных работ на нефть, газ и золото» (2007), «Геофизика» (2007).
На основе результатов, изложенных в работе, представлен доклад на конкурсе студенческих и аспирантских работ в рамках Российской технической нефтегазовой конференции и выставки SPE (октябрь 2008). По результатам представленного доклада Белянушкиной М.С. было присуждено первое место в конкурсе аспирантских работ.
Структура и объем диссертации
Диссертация состоит из введения, четырех глав и заключения. Диссертация содержит 130 страниц, в том числе 79 рисунков и 5 таблиц. Список литературы включает 82 наименования.
Благодарности
Автор выражает благодарность научному руководителю, доктору физико-математических работ, профессору РГГРУ Б.Е. Лухминскому и научному консультанту, заведующему кафедрой высшей математики РГГРУ, профессору Ю.А. Фаркову за внимание, помощь и поддержку, оказанную автору в процессе подготовки данной работы. Автор выражает благодарность заведующему кафедрой ЯРМиГИ РГГРУ профессору A.A. Никитину, профессору кафедры ЯРМиГИ РГГРУ A.B. Петрову за рекомендации и ценные замечания, руководству ОАО «ЦГЭ» и начальнику отдела интеллектуальной обработки данных Д.В. Логинову за помощь и поддержку при подготовке диссертационной работы.
СОДЕРЖАНИЕ ДИССЕРТАЦИИ
Во введении обоснована актуальность темы диссертации, сформулирована цель и определены основные задачи исследования, изложены научная новизна и практическая значимость работы, представлены защищаемые положения.
Первая глава содержит обзор работ, посвященных кластеризации данных. Описана история развития предмета. В начале 50-х годов появились публикации по иерархическим алгоритмам кластерного анализа (Р.Люиса, Е.Фикса и Дж. Ходжеса). В 60-е годы было предложено множество алгоритмов по методам k-средних (Дж. Мак-Кин, Г. Болл и Д. Холл) и по иерархическим методам (Г. Ланса и У. Уильямса, Н. Джардайна). Заметный вклад в развитие методов кластерного анализа внесли и отечественные ученые - Э.М.Браверман, А.А.Дорофеюк, И.Б.Мучник,
Ю.И.Журавлев, И.И.Елисеева. В частности, в 60-70 гг. большой популярностью пользовались многочисленные алгоритмы, разработанные новосибирскими математиками Н.Г.Загоруйко, В.Н.Елкиной и Г.С.Лбовым. Это такие широко известные алгоритмы, как FOREL, BIGFOR, KRAB, NTTP, DRET, TRF и др. Интересные программные продукты ППСА и Класс-Мастер были созданы московскими математиками С.А.Айвазяном, И.С.Ешоковым и Б.Г.Миркиным. Одной из важных работ является «Теория распознавания образов» (В.Н.Вапник, А.Я.Червоненкнс. Наука, Москва, 1974). Среди опубликованных в последнее время наибольший интерес представляют работы зарубежных авторов, предлагающих модификации известных алгоритмов с целью повышения скорости работы и устойчивости результатов алгоритмов кластеризации. В работах авторов Moore А., Gray A., Pelleg D., Wong W., Cuevas A., Febrero M., Fraiman R. (2000 - 2005) предлагаются алгоритмы, настроенные на работу с большим объемом данных, и способы оценки неизвестного заранее количества кластеров.
Для кластеризации геофизических полей широко используется компьютерная технология статистического и спектрально-корреляционного анализа геоданных "KOCKAfl-3D", созданная A.B. Петровым в РГГРУ.
Качественная комплексная визуализация геолого-геофизической информации является ключевым моментом в понимании строения недр. Одним из важных пунктов работы современных компаний является использование удобной и быстрой системы визуализации: Schlumberger (комплекс Petrel), Paradigm (VoxelGeo), Roxar (Irap), ЦГЭ (комплекс программ динамической визуализации DV), Mercury Computer Systems. Для реализации визуализации в собственных приложениях возможно использование различных пакетов. Это и известная библиотека OpenGL, и программы, ориентированные в первую очередь на визуализацию многомерных данных: OpenDX, VTK, matplotlib - сравнительно молодой, но богатый возможностями и активно развивающийся проект, является библиотекой для языка Python, РуХ - другой пакет для визуализации с помощью Python.
Во второй главе диссертации приводятся основные определения кластерного анализа, описание существующих методов кластеризации, их классификация. Дано описание некоторых разработанных алгоритмов кластеризации. Алгоритмы позволяют решить несколько важных задач кластеризации. Во-первых, это определение в процессе кластеризации неизвестного заранее количества кластеров. Во-вторых, получение устойчивого результата кластеризации. Под устойчивостью мы понимаем возможность воспроизведения результата при соблюдении условий. В-третьих, осуществление кластеризации зашумленных данных. Кроме того, в первой главе приведено описание созданной автором системы тестов для проверки и оценки результатов работы алгоритмов кластеризации.
Алгоритм CFF (Cuevas, Febrero, Fraiman) был изначально разработан для оценки числа кластеров [Cuevas, A., Febrero, M., Fraiman, R. Estimating the number of clusters. Can. J. Stat. 28, 2000]. Модернизированный нами алгоритм кластеризации CFF2 - алгоритм, созданный для решения проблемы кластеризации зашумленных данных и определения в процессе кластеризации неизвестного заранее числа кластеров.
Алгоритм состоит из двух частей:
1. Выполняется выбор подмножества данных, расположенных в регионах с высокой плотность точек путем оценки плотности распределения в каждой из точек с использованием ядерных непараметрических оценок плотности:
О; /,(*,) >С}, (1)
где О - множество точек, относящихся к региону с высокой плотностью, /,, -ядерная оценка плотности/с шириной полосы И, с - пороговое значение плотности.
где Щи) - ядерная функция.
Использование ядерных функций для оценки плотности в определенной точке х позволяет ввести весовые коэффициенты для наблюдений, попавших в окрестность точки х - интервал [х -Л,х + А), в зависимости от близости к ней:
К(«) = -(1-м2)/(|«|<!) - ядро Епанечникова,
(3)
К (и) = -==ехр(—-и2) - Гауссовское ядро. (4)
Чтобы игнорировать близость наблюдений к центру интервала [х-Ь,х + К), используется равномерная ядерная функция:
К(«)Л4,|<1). (5)
Параметр сглаживания /? выбирается из условия минимизации:
СУ(>')=. ..¿/Ц), (6)
где оценка плотности определяется следующим образом: к'(-) = А'(-) * А'(-) - 2А'( ).
Оценка плотности должна быть выполнена в каждой точке исходного множества данных, таким образом, этот процесс может занять продолжительное время. Модификация заключается в использовании специального способа организации данных в виде двойного М-дерева данных (всего множества данных и точек, в которых требуется оценить плотность), что позволяет произвести геометрическое разделение всего множества данных и рассматривать все части данных одновременно.
Процесс построения дерева данных выполняется следующим образом. Корневой узел дерева содержит все исходные точки данных. Строится гиперпрямогольник, ограничивающий данные. Далее производится процесс создания из корневого узла двух дочерних путем разделения ограничивающего прямоугольника вдоль стороны наибольшей длины. Процедура повторяется в каждом узле дерева, пока не будет достигнут некоторый порог числа элементов узла дерева. Использования такого способа хранения данных позволяет отказаться от процедуры попарного вычисления расстояния между всеми точками данных и сразу исключить из рассмотрения точки, находящиеся в далеко отстоящих узлах построенного дерева.
2. Выполняется непосредственно процесс кластеризации путем построения графа, вершинами которого являются отобранные на первом шаге точки X,, причем, точки А', и Х} соединены вместе, если евклидово расстояние между ними не превышает порогового значения е:
Х,-Х\<е, (7)
Далее находятся связные компоненты построенного графа. По сути, происходит формирование минимального покрывающего дерева.
Модифицированный алгоритм для нахождения связных компонент построенного графа не производит вычисление расстоянии между точками при формировании минимального покрывающего дерева. Это основано на использовании специального перебора пар множеств, полученных с применением разложения WSPD [Callahan, P. Dealing with higher dimensions: the well-separated pair decomposition and its application. PhD thesis].
Пусть А, В - множества в пространстве l-3iJ. Я,, RB -соответствующие ограничивающие гиперпрямоугольники. MargDistance(/),B) определяется как минимальное расстояние между ограничивающими прямоугольниками, Diam(RA), Diam(R„) - диагонали соответствующих ограничивающих прямоугольников. Множества А и В являются хорошо разделенными (well-separated), если
MargDistance(/i, В) > тах{0/аш(Л^), Diam(RB)} (8)
Алгоритм построение минимального покрывающего дерева (minimum
spanning tree) состоит из следующих шагов:
■ вычисление разложения WSPD;
■ выбор пары, которая представляет ребро наименьшей длины;
* если вершины этого ребра не принадлежат одной связной компоненте, то добавляем данное ребро к MST, повторяем шаг 2.
MargDisfcmce(A,B)
Diam(I j
Описанный алгоритм был применен для кластеризации тестовых зашумленных данных, На рис. 1 (а), приведен пример расположения точек, . образующих хорошо отличимые визуально множества (или кластеры). На рис. I (б, | в) приведены примеры наложения шума на визуально отличимые кластеры, при; таком расположении точек обычные методы кластеризации не в состоянии выполнить разбиение. На рис. 2 (а, 6} представлены результаты применения разработанного алгоритма кластеризации. В процессе работы алгоритма было 1. выполнено выделение высокоплотных точек и разделение их на кластеры. Стандартные методы не всегда дают воспроизводимый результат. В качестве примера приведены результаты применения алгоритма К-среди их для разделения на кластеры точек с высокой плотностью (рис. 2 (в, г}). Из приведенных рисунков видно, что результаты, полученные с помощью данного алгоритма, отличаются.
а)
б)
в)
" Ж.....т
Ш
-у.
§
I 1 1 1 I т
Рис. 1. Иллюстрация визуально отличимых кластеров (а}; результат наложения шума 50% (б); пример данных ДЛЯ кластеризации с 80% уровнем шума (в)
Рис. 2. Кластеризация данных с 50% уровнем шума (а); кластеризация данных с 80% уровнем шума (б); результаты разделения точек с иысокой плотностью на кластеры с применением
алгоритма К-сред них (в, г)
Разработанный комплексный алгоритм COMPLEX решает две задачи. Первая задача состоит в определении наиболее вероятного количества кластеров (в заданном диапазоне). Вторая - в получении более устойчивого результата кластеризации, так как многократное повторение снижает влияние случайного распределения начальных центров. Алгоритм состоит из двух частей:
¡. Вычисляется наиболее вероятное (в частотном отношении) количество
кластеров с помощью модификации алгоритма Х-среди их [Pelleg D., Moore А.
Х-me ans: Extending A^-means with Efficient Estimation of the Number of Clusters.
Proceedings of the Seventeenth International Conference on Machine Learning,
2000]. Иллюстрация работы алгоритма приведена на рис. 3.
Алгоритм Х-средних выполняет поиск числа кластеров так, чтобы оптимизировать меру Информационного Критерия Байеса (В1С) [Schwarte, G. Estimating the dimension of a model, Annals of Statistics, 6, 461-464. 1978]. Данный критерий позволяет оценить компромисс между точностью и сложностью модели. Неизвестное количество кластеров к определяется из заданного интервала [kmin, кшах] Алгоритм начинает кластеризацию с к, равного нижней границе выбранного диапазона, далее начинается процесс добавления центроидов там, где они нужны согласно значению критерия, пока не будет достигнута верхняя граница диапазона,
- Выполнение традиционного алгоритма К-среди их до завершения с выбранным количеством кластеров к.
- Процесс добавления новых центроидов путем разделения существующих кластеров на два дочерних, если это приводит к увеличению параметра BJC. Процесс повторяется до тех пор, пока k s кшах или всевозможные разделения существующих кластеров не приводят к увеличению параметра BIC.
б) в)
Рис. 3. Выполнения традиционно] « алгоритма кластеризации К-средних до завершения с количеством кластеров Ь = 3 (а); процесс добавления новых центров путем разделения существующих кластеров (б): по результатам теста остается либо первоначальный кластер, либо два
новых (в)
Информационный критерий Байеса или критерий Шварца (В1С):
В1С(М1.) = 21п(£) - к 1п(и), (9)
где М] - оцениваемая модель, к - число параметров модели, £ - максимальное значение функции правдоподобия оцениваемой модели, п - число наблюдений. Второе слагаемое интерпретируется как «штраф» за использование дополнительных параметров.
Наиболее вероятное количество кластеров определяется путем многократных повторений процедуры Х-средних и выбора числа кластеров, имеющего наибольшую частоту повторения. Количество повторений определяется достижением стабильного результата.
2. Производится процесс многократного повторения кластеризации по алгоритму К-средних для получения устойчивого результата разбиения исходного множества объектов на оптимальное число кластеров путем оценки вероятности распределения. После завершения процесса для каждого наблюдения вычисляется наиболее вероятный кластер, то есть кластер, в который данное наблюдение было отнесено наибольшее число раз.
Реализованный комплексный алгоритм позволяет производить оценку качества кластеризации. Во второй части алгоритма происходит непосредственно процесс распределения объектов на кластеры путем многократного повторения разбиений и выбора наиболее вероятного (в частотном отношении) кластера для каждого наблюдения. Таким образом, в результате получается не только разделение на кластеры, но и способ оценки кластеризации - вероятность отнесения каждого объекта (наблюдения) к своему кластеру. Наряду с визуализацией разделения на кластеры может быть представлена визуализация вероятностей отнесения к кластерам. Посредством таких иллюстраций может быть выполнена оценка полученных результатов кластеризации.
Разработана система тестов алгоритмов кластеризации - модельный (тестовый) пример разбиения множества точек на кластеры, когда результат возможной кластеризации заранее известен. Точки внутри кластеров выбираются случайно и равномерно (возможны и другие распределения). Нашей задачей была оценка вероятности правильного определения количества кластеров.
Точки случайным образом с применением различных законов распределения задаются в сферах с центрами в вершинах многомерного куба (радиусы шаров и количество точек являются переменными параметрами) (рис. 4). Такое распределение позволяет оценить вероятность правильного определения неизвестных кластеров и выявить зависимость корректной кластеризации от отношения плотности распределения частиц в кластерах от плотности частиц в исследуемом поле.
.1
..д.
Рис. 4. Модельный пример 30
В третьей главе приводится описание разработанных приложений, выполняющих визуализацию геолого-геофизических данных. Программы предназначены для решения специальных задач.
Реализовано приложение в системе MATLAB. Система MATLAB может быть удобным инструментом для реализации приложений, выполняющих визуализацию многомерных данных. Разработанное приложение осуществляет визуализацию данных, распределенных в пространстве; визуализация выполняется с учетом плотности распределения точек в пространстве. Изображение рабочего окна программы приведено на рис. 5.
Реализованное приложение выполняет следующие задачи:
■ генерирование множества точек, распределенных случайным образом в сфере
с заданными центром и радиусом;
■ нахождение плотности точек в заданном распределении исходных данных;
■ изображение распределение плотности в объеме с помощью регулярных
разрезов.
Разработанное приложение отличает простота использования и наглядность результата. Данное приложение было разработано для решения задачи визуализации предложенных тестов алгоритмов кластеризации, не требует дополнительных условий (кроме установки системы MATLAB).
Автором составлена программа на языке С#, которая осуществляет трехмерную визуализацию данных и позволяет выполнять интерпретацию данных ГИС. Переход к трехмерным построениям предоставляет нам много дополнительных возможностей, например, дальнейшая детализация определенных свойств, что очень важно в практической интерпретации каротажа скважин.
Графическая часть в этом продукте реализована с использованием широко распространенной и эффективной графической библиотеки OpenGL. В программе реализован ввод данных различных форматов (*.txt, *las); отображение их в трехмерном пространстве; изменение таких параметров, как цвет, размер объектов; разделение данных с помощью плоскостей (положение плоскостей может задаваться вручную или автоматически), существует возможность регулировки приближения объектов.
В приложении реализована процедура выбора определенной части отображенных объектов, ее выделения в отдельный массив данных и визуализации. Приложение было реализовано в рамках задачи по разработке системы интерпретации каротажа, проведенного с помощью нового автономного прибора. Изображение рабочего окна программы приведено на рис. 6. Разработанное приложение является простым и удобным в использовании средством визуализации данных ГИС.
Рис. 5, Визуализация модельног о примера распределения точек в трехмерном пространстве в разработанном в системе МАНАВ приложении
Рис. 6. Визуализация трехмерных тестовых данных и выделение части данных
При решении задачи визуализации многомерных данных возникает и задача разделения этих данных в пространстве. В общем виде ставится задача найти ■ поверхность, которая разграничивает объекты в многомерном пространстве. В данной главе диссертации приводится обоснование разграничения объектов в ] трехмерном пространстве. Приводится описание методов вычисление расстояния между множествами объектов и способов построение дискриминантной поверхности.
ts
В четвертой главе дано описание практического применения разработанных алгоритмов и программ. В этой главе приводится описание результатов | кластеризации сейсмических данных: карт сейсмических фаций, кубов кластеризации (разработана методика расчета куба кластеризации), визуализации данных различных комплексов каротажа в разработанных программах визуализации.
С помощью разработанных приложений была выполнена комплексная интерпретация автономных методов каротажа горизонтальных скважин. Была поставлена задача разработать систему интерпретации для автономного прибора для проведения каротажа в горизонтальных скважинах на буровых трубах. Прибор имеет двухзондовый канал нейтрон-нейтронного каротажа, многозондовый канал ГК и несколько зондов электрического каротажа.
Переход к трехмерным построениям предоставляет нам много дополнительных возможностей, например, дальнейшая детализация свойств коллектора (рис. 7 а). Оранжевым цветом обозначены глины, зеленым - плотные породы (известняки), фиолетовым — глинистый коллектор, желтым - чистый коллектор (полимкктовий песчаник). Разработанное принижение позволяет проводить выбор конкретной части отображенных данных, выделение их в отдельный массив и работу с новым массивом данных (рис. 7 б), на рис 7 (в) представлен кросс плот показаний детекторов и фрагмент планшета. Приложение представляет геофизические материалы в необычных (изометрических) проекциях, недоступных в других программах интерпретации.
а) 6) в)
Рис. 7. Пример трехмерного построения данных каротажа с автономным прибором в координатах NEL, NE2, GR2 (al: иллюстрация возможности деталишпии коллектора (б); двумерный крое с плот показаний детекторов нейтронного каротажа (в)
Была выполнена работа по выделению аномальных интервалов по комплексу каротажа на месторождении с нетрадиционным (гранитоидным) коллектором. Стандартный каротажный комплекс, который был проведен на месторождении, включает следующие методы: каротаж естественной радиоактивности, спектрометрическая модификация гамма-метода, нейтронный каротаж по тепловым нейтронам, плотпостной каротаж, интервальное время акустического каротажа, удельное сопротивление двух зондов фокусированного бокового каротажи, каверно метрию.
Г
L
Однако, ни один метод в отдельности не позволяет выделять перспективные интервалы, совокупность методов позволит нам выделить аномальные зоны,' которые могут быть интервалами притока. Перспективными мы называем аномальные зоны (зоны дробления, разломы, трещинные зоны, зоны брекчий и т.д.),1 характеризующиеся повышенной пористостью и пониженной плотностью.. Одновременно они характеризуются повышенной величиной интервального времени пробега продольной волны, пониженным сопротивлением, пониженными _ значениями фотоэлектрического параметра (ФЭП). Геофизическая практика показывает нам, что интересующие нас аномальные по пористости объекты и шещакмцие породи {транши) разделяются (по крайней мере, частично) в трехмерном пространстве.
На рис. 8 представлен достаточно редко реализуемый на практике случай. Объекты, представляющие аномальную, зону и вмещающую породу, почти не пересекаются. Здесь вероятность правильного разделения составляет около 95%. На осях отмечены следующие параметры: плотность, , пористость и ФЭП (вмещающая порода, залеченные трещины).
Разработанное приложение было использовано для практической интерпретации С О-каротаж а скважин, проведенного двухзондовой отечественной аппаратурой на одной из скважин Западной Сибири. Традиционными приемами интерпретации СО-каротажа являются кроссплоты СО - СА5!-сарС и СО - СА51-ше1. Такие кроссплоты не дают однозначного разделения нефте- и водонасыщенных коллекторов. На рис. 9 приведен пример ЗЭ интерпретации скважинных материалов, где красным обозначены заведомо водонасы[ценные интервалы, синим - заведомо нефтенасыщенные интервалы, фиолетовым - интервал, насыщение которого неизвестно,
а) 6)
* л
Рис, 9. 30 визуализации СО-каротажа
4
Рис. 8, Разделение плоскостью геофизических данных: визуализация аномального интервала
Реализован алгоритм для оценки характера насыщения пласта. Были найдены центры тяжести двух массив точек (нефте- и водоносных). Через середину отрезка, соединяющего центры, проведена ортогональная (дискриминирующая) плоскость, которая разделяет два массива точек с известным насыщением с вероятностью 100%. Эта же плоскость разделяет массив точек с неизвестным насыщением на два массива: над плоскостью и под плоскостью. Позднее оказалось (результаты перфорации это подтвердили), что ситуация соответствует нефтеносному пласту, который частично обводнился. Тот факт, что картинки на ближнем и на дальнем зондах приближенно подобны, существенно увеличивает надежность заключения о насыщении пласта. Указанный алгоритм может быть применен и для однозондовых устройств.
Кластеризация сейсмических данных является первым шагом в (полу)автоматическом процессе определения сейсмических фаций. Сейсмические фации - это группы сейсмических данных, параметры которых (такие как, амплитуда, непрерывность, частота) отличаются от параметров других групп. Задача сейсмофациального анализа состоит в нахождении областей с похожими геолого-геофизическимн свойствами, отраженными в значениях совокупностей сейсмических атрибутов и\или в форме сейсмического сигнала. Сейсмическим атрибутом называется результат любого преобразования сейсмического волнового поля, имеющий прямую или косвенную связь с геометрическими, геологическими и физическими свойствами недр. Реализовано два подхода к получению карт сейсмических фаций. Первый подход заключается в кластеризации набора карт сейсмических атрибутов. Второй подход заключается в кластеризации участков сейсмических трасс по их форме (обычно в пределах зоны резервуара).
В работе приведены результаты расчета карт сейсмических фаций на одной из площадей Западной Сибири. Результаты работы использовались при разработке проектов разведочного бурения. На рис. 10 (б) представлен интервал, представляющий интерес с точки зрения решаемой задачи. На рис. 10 (а) показан результат седиментационного анализа для данного интервала. На рис. 10 (в) представлен результат кластеризации карт сейсмических атрибутов. На рис. 10 (г) представлен результат кластеризации участков сейсмических трасс по их форме. Испытания, проведенные в скважинах, в данном интервале показали наличие углеводородов.
Разработана методика расчета куба кластеризации. Расчет куба кластеризации - задание для каждой точки в трехмерном пространстве определенного номера кластера. Кластеризация большого объема данных всегда вызывает затруднения, так как все множество объектов не может быть помещено в оперативную память.
Процедура вычисления куба кластеризации проводилась в два этапа. На первом этапе с применением разработанных автором алгоритмов рассчитывались центры будущих кластеров на выборке представительных трасс. Расчет центров выполнялся путем кластеризации точек нескольких случайно выбранных сейсмических трасс. Затем выбирался следующий набор случайных трасс, и так же выполнялась кластеризация. Далее выполнялась процедура объединения кластеров, полученных в результате описанных подходов. В дальнейшем процесс повторялся до достижения устойчивого результата (устойчивых центров кластеров).
Второй этап заключался а непосредственном расчете куба кластеризации. Каждая точка куба в зависимости от соответствующих ей значений сейсмических атрибутов, соотносилась к определенному кластеру. В заключении производится перерасчет центров кластеров как средневзвешенных значений в кластере.
Такой подход позволил провести кластеризацию большого объема данных. На рис. 1! приведен результат расчета куба кластеризации на 5 кластеров в виде сечений куба в трехмерном пространстве.
Рис. 10. Седиментационный слайс по кровле пласта Plast2 (ОГ116) (а), фрагмент временного
разреза. Inlme 2389 (о); карты сейсмических фаций, построенные путем кластеризации карт сейсмических атрибутов (в) и путем кластеризации участков сейсмических трасс по их форме (г)
Рис. 11. Кластеризация сейсмических атрибутов в трехмерном пространстве (цветами
обозначены кластеры)
Заключение
1. На основе существующих алгоритмов теории графов и алгоритмов К-средних разработаны новые алгоритмы для решения основных проблем кластеризации: определение в процессе работы неизвестного заранее количества кластеров, выделение кластеров произвольной формы и получение воспроизводимого и устойчивого результата. Алгоритмы позволяют решать задачу кластеризации данных при наличии шумов разного уровня.
2. Предложена и реализована система тестов для проверки алгоритмов кластеризации и оценки их эффективности, позволяющая сделать выводы о зависимости корректной работы алгоритмов от соотношения плотности частиц в кластерах и плотности частиц в исследуемом поле.
3. В системе MATLAB реализовано приложение, осуществляющее 4D визуализацию многомерных данных в виде кубов с различной плотностью распределения частиц в узлах.
4. Разработано программно-алгоритмическое обеспечение для визуализации многомерных данных с использованием технологии OpenGL. Разработки применены для выделения аномальных интервалов по комплексу каротажа на месторождении с нетрадиционным коллектором, интерпретации каротажа горизонтальных скважин, интерпретации СО-каротажа.
5. Предложена методика расчета кластеризации большого объема данных (кластеризации кубов сейсмических атрибутов) для выделения сейсмических фаций на основе кластеризации сейсмических атрибутов и участков сейсмических трасс по их форме на нескольких площадях региона Западная Сибирь. Результаты расчетов были использованы при разработке проектов поисково-разведочного бурения.
Опубликованные работы по теме диссертации
1. Обработка комплекса каротажных сканерных измерений (MSI), PLT (каротаж эксплуатационных скважин) и гидродинамических исследований на месторождении «БЕЛЫЙ ТИГР». Материалы докладов VII международной конференции «Новые идеи в науках о Земле», Москва 2005 г. (Соавторы A.B. JIano, Т.Ю. Лукина)
2. Развитие трехмерной интерпретации и визуализации данных каротажа. Материалы V международной геолого-геофизической научно-практической конференции «Геофнзика-2005», Санкт-Петербург 2005 г.
3. Пример применения 3D-визуализации для интерпретации СО-каротажа. «Каротажник», №5(146), 2006 г. (Соавтор Б.Е. Лухминский)
4. Обработка каротажа эксплуатационных скважин на месторождении с нетрадиционным коллектором нефти. «Каротажник», №6(147), 2006 г. (Соавтор Б.Е. Лухминский)
5. Особенности интерпретации каротажа на месторождении Белый Тигр. Материалы докладов VIII международной конференции «Новые идеи в науках о Земле», Москва 2006 г. (Соавторы A.B. Лапо, Т.Ю. Лукина)
6. Развитие алгоритмов кластеризации данных и система многомерных тестов для оценки возможности правильного определения количества кластеров. Материалы докладов VII международной конференции «Новые идеи в науках о Земле», Москва 2007 г. (Соавторы Б.Е. Лухминский, Д.В. Логинов)
7. Практическое применение нейросетей для оценки коллекторских свойств в межскважинном пространстве по данным сейсморазведки и ГИС. «Инновационные технологии, нейросетевая парадигма геологоразведочных работ на нефть, газ и золото». Сборник научных статей. Выпуск 2. - Томск: изд-во Томского политехнического университета, 2007. - 114 с. (Соавторы Д.В. Логинов, С.А. Лаврик)
8. Комплексный алгоритм кластеризации многомерных данных. Научно-технический журнал федерального агентства по недропользованию МПР России и ЕАГО «Геофизика» (4.2007), ЕАГО 2007 (Соавторы Д.В. Логинов,
Б.Е. Лухминский)
9. Расчет карт сейсмических фаций с помощью комплексного алгоритма кластеризации. Материалы 3-ей международной конференции и выставки «Геонауки: от новых идей к новым открытиям», Санкт-Петербург 2008 г. (Соавторы Д.В. Логинов, М.П. Бричикова, Л.С. Кузнецова)
10. Развитое алгоритмов кластеризации сейсмических данных. Материалы X научно-практической конференции по проблемам комплексной интерпретации геолого-геофизических данных при геологическом моделировании углеводородов «Геомодель 2008», Геленджик 2008 г. (Соавтор Д.В. Логинов)
11. Свидетельство об официальной регистрации программы СайсПроН (SeisProN) №2006613777 от 31 октября 2006 г.
/' /
Подпись автора:.
/ Белянушкнна М.С. /
Подписано в печать 12 января 2009 г. Объем 1,0 п.л. Тираж 100 экз. Заказ № 0002 Отпечатано в Центре оперативной полиграфии ООО «Ол Би Принт» Москва, Ленинский пр-т, д.37
Содержание диссертации, кандидата технических наук, Белянушкина, Мария Сергеевна
Введение
Общая характеристика работы
Глава 1. Краткий обзор библиографии по теме диссертации
Глава 2. Кластеризация данных. Разработка новых алгоритмов кластеризации. Разработка системы тестов для алгоритмов кластеризации
2.1. Кластеризация данных
2.2. Алгоритмы кластеризации
Иерархическая кластеризация —.
Кластеризация методами теории графов
Алгоритм ЕМ (Expectation-Maximization)
Алгоритм кластеризации К-средних
Алгоритм кластеризации Х-средних
Алгоритм Форель
Нейронная сеть Кохонена
Анализ результатов кластеризации
2.3. Развитие существующих алгоритмов кластеризации, разработка системы тестов алгоритмов кластеризации
2.3.1 Алгоритм кластеризации CFF
2.3.2. Комплексный алгоритм устойчивой кластеризации данных
2.3.3. Система тестов алгоритмов кластеризации
2.4. Выводы
Глава 3. Многомерная визуализация. Приемы визуализации геолого-геофизических данных
3.1. Перспективность использования многомерной визуализации для разделения геолого-геофизических объектов
3.2. Реализация программы визуализации трехмерных данных с использованием библиотеки OpenGL
Основные возможности OpenGL
Разработанная программа визуализации данных в трехмерном пространстве
Введение Диссертация по наукам о земле, на тему "Программно-алгоритмическое обеспечение кластеризации и визуализации многомерных данных сейсморазведки и ГИС"
Общая характеристика работы
Актуальность темы
Технологии кластеризации и визуализации данных в настоящее время активно развиваются и являются одними из приоритетных направлений исследований в области информационных технологий. Вследствие бурного роста объема информации, развития технологий ее сбора, хранения и организации в базах данных, точные методы анализа информации и моделирования исследуемых объектов зачастую отстают от потребностей реальной жизни. Требуются универсальные и падежные подходы, пригодные для обработки информации из различных областей. В качестве подобного базиса могут быть использованы технологии и подходы математической теории распознавания и классификации.
Первые работы в области теории распознавания и классификации появились в 30-х годах XX в. и были связаны с байесовской теорией принятия решений, применением разделяющих функций к задаче классификации (Э. Г. Фишер), решением вопросов проверки гипотез (А. Вальд). В 50-х годах появились первые нейросетевые модели распознавания (Ф. Розенблатт). Большой вклад в развитие теории распознавания и классификации внесли отечественные ученые: Айвазян С.А., Айзерман М.А., Бравермаин Э.М., Розоноэр Л.И., Вапник В.Н., Червоненкис А.Я. (статистическая теория распознавания). Техника кластеризации применяется в самых разнообразных областях. Хартиган (J.A. Hartigan, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, полученные методами кластерного анализа. В настоящее время существует множество разнообразных подходов и конкретных алгоритмов для решения задач кластерного анализа, когда требуется найти кластеры по заданной выборке их векторных признаковых описаний (Duba R., Hart Р., 2000, Pelleg D., Moore А., 2001).
Решения, найденные различными алгоритмами, могут существенно отличаться друг от друга. Существуют две основные проблемы при решении задач кластеризации: определение числа кластеров и получение устойчивого результата. Поэтому в применении процедур кластерного анализа немаловажным аспектом является правильное определение количества кластеров, возможность выделения кластеров произвольной формы и устойчивость структуры кластеров, отражающая реальную объективность кластеризации. Таким образом, к современным приложениям, осуществляющим кластеризацию данных, предъявляют жесткие требования, связанные с улучшением качества получаемых результатов и с сокращением времени работы алгоритмов кластеризации.
Наряду с разработкой математического аппарата кластеризации, существенное значение приобретают средства представления результатов кластерного анализа и оценки достоверности этих результатов. К задаче визуализации данных сводится проблема представления в наглядной форме данных эксперимента или результатов теоретического исследования. Качественная визуализация данных является важной частью любой аналитической системы. Во многих случаях эксперту достаточно просто взглянуть на данные, чтобы сделать необходимые выводы. Но одни и те же данные можно отображать множеством способов, и какой из них будет наиболее приемлем, зависит от решаемой задачи.
Традиционными для геофизики средствами визуализации являются карты, разрезы, кроссплоты, то есть средства 20 визуализации. В настоящее время возникает потребность графического представления данных более высокой размерности. Очевидно, что повышение достоверности результатов интерпретации данных геофизических исследований и, как следствие, эффективности сейсмических съемок и ГИС в значительной степени обусловлено последними достижениями в области визуализации первичной геолого-геофизической информации.
Существует большое количество программных средств, нацеленных на аналитическую работу с многомерными структурами данных. Однако при использовании V подобных программ пользователь наталкивается на целый ряд проблем. Во-первых, процедуры обработки данных налагают определенные требования на выборку (например, независимость, однородность, случайность, вид распределения). Несоответствие исходной выборки этим требованиям приводит к недостоверным результатам обработки. Во-вторых, пользователь - специалист в определенной области знаний - зачастую плохо понимает аппарат многомерного анализа, а при отсутствии образного визуального представления результатов с трудом их воспринимает. И, наконец, чрезмерная универсальность готовых пакетов визуализации (в наборах существующих стандартных методов не всегда присутствуют необходимые для решения конкретной задачи инструменты) и их стоимость. Всё это говорит об актуальности создания простых, удобных в использовании средств визуализации данных.
Цель работы
Целью работы является разработка алгоритмов кластеризации и визуализации результатов, развитии существующих алгоритмов кластеризации для решения задачи определения количества кластеров и получения устойчивого решения, а также реализации специальных средств визуализации многомерных геолого-геофизических данных.
Основные задачи исследования
1. Разработка новых алгоритмов кластеризации для решения следующих задач:
- кластеризация зашумленных данных;
- определение в процессе работы неизвестного числа кластеров;
- получение устойчивого результата кластеризации.
2. Разработка системы тестов для проверки алгоритмов кластеризации и оценки их результатов.
3. Разработка программы визуализации многомерных данных со специальными функциями для интерпретации различных видов каротажа.
4. Тестирование предложенных алгоритмов на модельных данных.
5. Решение практических задач по кластеризации и визуализации совместной интерпретации данных сейсморазведки и ГИС.
Научная новизна
1. Разработаны, опробованы, реализованы в программе SeisProN два алгоритма, осуществляющих устойчивую кластеризацию зашумленных данных на заранее неизвестное количество кластеров. Получено свидетельство о регистрации программы SeisProN.
2. Реализовано семейство многомерных тестов для алгоритмов кластеризации (например, задание кластеров различной плотности в вершинах многомерного куба), допускающих задание переменного уровня шума и позволяющих оценить вероятности правильной классификации.
3. Написаны программы визуализации геолого-геофизических данных с привлечением ресурсов современных технологий библиотеки OpenGL. Программы позволяют решать конкретные задачи интерпретации комплекса различных методов каротажа и обладают специальными инструментами для решения данных задач (выделение и визуализация аномальных интервалов разреза скважин).
Защищаемые положения
1. Созданное программно-алгоритмическое обеспечение по кластеризации и визуализации многомерных геолого-геофизических данных обеспечивает решение задач по кластеризации сильно зашумленных данных, определению неизвестного числа кластеров, выделению кластеров неэллиптической формы, получению воспроизводимого и устойчивого результата классификации данных сейсморазведки и ГИС.
2. Предложенные методы интерпретации и разграничения (кластеризации) данных каротажа в многомерном пространстве обеспечивают, например, надежное разделение нефтенасыщенного и водонасыщенного коллекторов, разделение терригенного коллектора и непроницаемого интервала в горизонтальных скважинах.
3. Разработанные автором алгоритмы кластеризации и визуализации применены в пространстве сейсмических атрибутов для выделения перспективных сейсмических фаций (нефтегазовых коллекторов). Созданная на их основе методика кластеризации кубов сейсмических атрибутов (кластеризация большого объема данных) используется в ОАО «Центральная Геофизическая Экспедиция» при разработке практических проектов поисково-разведочного бурения.
Практическая ценность
Алгоритмы реализованы в программе 8е1зРгоМ, используются для совместной интерпретации ЗБ данных сейсморазведки и ГИС (выделение перспективных объектов для разведочного бурения) в ОАО «Центральная Геофизическая Экспедиция». Разработанные технологии имеют определенную область применения: интерпретация геолого-геофизических данных. Однако они могут быть использованы и в других отраслях, где возникает необходимость в разделении и визуализации большого количества данных.
Апробация работы
По теме диссертации опубликовано 10 работ. Основные результаты проводимых исследований, изложенных в работе, докладывались на конференциях «Новые идеи в науках о Земле» (Москва, 2005-2007 гг.), «Геофизика-2005» (Санкт-Петербург 2005 г), «Геонауки: от новых идей к новым открытиям» (Санкт-Петербург, 2008 г.), «Геомодель-2008» (Геленджик 2008 г.), опубликованы в журналах «Каротажник» (2006), сборнике «Инновационные технологии, нейросетевая парадигма геологоразведочных работ на нефть, газ и золото» (2007), «Геофизика» (2007).
На основе результатов, изложенных в работе, представлен доклад на конкурсе студенческих и аспирантских работ в рамках Российской технической нефтегазовой конференции и выставки БРЕ (октябрь 2008). По результатам представленного доклада Белянушкиной М.С. было присуждено первое место в конкурсе аспирантских работ.
Гпава 1. Краткий обзор библиографии по теме диссертации
Людям свойственно классифицировать и группировать все объекты и явления, с которыми они сталкиваются, и на основе отнесения объекта к той или иной группе пытаться предсказывать его поведение. В настоящее время, широкое развитие получила методика автоматического разбиения объектов на группы с использованием вычислительной техники — кластерный анализ или кластеризация. Обычно алгоритмы кластеризации используются в тех случаях, когда нет абсолютно никаких предположений о характере взаимосвязи между данными, а результаты их применения нередко являются исходными данными для других алгоритмов, например для построения деревьев решений. Как же работают подобные алгоритмы? Обычно они осуществляют итеративный поиск групп данных на основании заранее заданного числа кластеров. Изначально центры будущих кластеров представляют собой случайным образом выбранные точки в многомерном пространстве возможных значений. Затем все исходные данные перебираются и в зависимости от значений параметров помещаются в тот или иной кластер, при этом постоянно происходит поиск точек, сумма расстояний которых до остальных -точек в данном кластере является минимальной. Эти точки становятся центрами новых кластеров, и процедура повторяется до тех пор, пока центры и границы новых кластеров не перестанут перемещаться. Отметим, что данный алгоритм далеко не всегда приводит к результату, поддающемуся логическому объяснению, — он просто позволяет определить различные группы объектов или событий. Кроме того, не всегда можно с первого раза точно угадать число кластеров, отражающее реально существующее число групп.
Кластерный анализ - совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях (мерах близости) между ними. Меру близости (сходства) объектов удобно представить как обратную величину от расстояния между объектами. В многочисленных изданиях посвященных кластерному анализу описано множество различных способов вычисления расстояния между объектами [24, 25, 37]. По смыслу термин аналогичен терминам: автоматическая классификация, таксономия, распознавание образов без учителя" [45]. Фактически "кластерный анализ" -это обобщенное название достаточно большого набора алгоритмов, используемых при создании классификации. В ряде изданий используются и такие синонимы кластерного анализа, как классификация и разбиение. Кластерный анализ широко используется в науке как средство типологического анализа. В любой научной деятельности классификация является одной из фундаментальных составляющих, без которой невозможны построение и проверка научных гипотез и теорий.
В 1925 г. советский гидробиолог П.В. Тереитьев разработал так называемый "метод корреляционных плеяд" [35], предназначенный для группировки коррелирующих признаков. Этот метод дал толчок развитию методов группировки с помощью графов. Слово "cluster" переводится с английского языка как "гроздь, кисть, пучок, группа". По этой причине первоначальное время этот вид анализа называли "гроздевым анализом". В начале 50-х годов появились публикации Р.Люиса, Е.Фикса и Дж. Ходжеса по иерархическим алгоритмам кластерного анализа. Заметный толчок развитие работ по кластерному анализу дали работы Р.Розенблатта по распознающему устройству (персептроиу), положившие начало развитию теории "распознавания образов без учителя".
В 60-е годы было предложено множество алгоритмов таких авторов, как Дж. Мак-Кин, Г. Болл и Д. Холл по методам k-средних; Г. Лаиса и У. Уильямса, Н. Джардайна и др. - по иерархическим методам. Заметный вклад в развитие методов кластерного анализа внесли и отечественные ученые - Э.М.Браверман, А.А.Дорофеюк, И.Б.Мучпик, Л.А,Растригин, Ю.И.Журавлев, И.И.Елисеева и др. В частности, в 60-70 гг. большой популярностью пользовались многочисленные алгоритмы разработанные новосибирскими математиками Н.Г.Загоруйко, В.Н.Елкиной и Г.С.Лбовым. Это такие широко известные алгоритмы, как FOREL, BIGFOR, KRAB, NTTP, DRET, TRF и др. Интересные программные продукты ППСА и Класс-Мастер были созданы московскими математиками С.А.Айвазяном, И.С.Енюковым и Б.Г.Миркиным [2, 3, 26].
В том или ином объеме методы кластерного анализа имеются в большинстве наиболее известных отечественных и зарубежных статистических пакетах: SIGAMD, DataScope, STADIA, СОМИ, ПНП-БИМ, СОРРА-2, СИТО, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS, GENSTAT, S-PLUS и т.д. Достаточно подробный сравнительный анализ многочисленный статистических пакетов представлен в [24]. Большинство статистических пакетов используют алгоритмы предложенные и разработанные в 60-70 гг [17].
По приблизительным оценкам специалистов число публикаций по кластерному анализу и его приложениям в различных областях знания удваивается каждые три года. Причины этого явления: появление мощной вычислительной техники, без которой кластерный анализ реальных данных практически не реализуем; вторая причина -современная наука все сильнее опирается в своих построениях на классификацию; третья причина - углубление специальных знаний неизбежно приводит к увеличению количества переменных, учитываемых при анализе тех или иных объектов и явлений [3, 17, 22, 47, 51].
Несмотря на то, что кластерный анализ является эффективным и удобным инструментом классификации, а также весьма распространен в практических исследованиях, современных публикаций на эту тему на русском языке мало. В [19] сжатом виде представлены основные идеи кластерного анализа и показаны некоторые сферы его приложения в горных исследованиях. Среди опубликованных в последнее время наибольший интерес представляют работы зарубежных авторов, предлагающих модификации известных алгоритмов с целью повышения скорости работы и устойчивости результатов алгоритмов кластеризации. В работах Moore A.W., Gray A.G., Pelleg D., Wong W.K. (2000 - 2005) предлагаются алгоритмы, настроенные на работу с большим объемом данных. В работе «Estimating the number of clusters» (Cuevas A., Febrero M., Fraiman R., 2000) предлагается новый способ оценки неизвестного заранее количества кластеров.
Многократные попытки классификации методов кластерного анализа приводят к десяткам, а то и сотням разнообразных классов [34]. Такое многообразие порождается большим количеством возможных способов вычисления расстояния между отдельными наблюдениями, не меньшим количеством методов вычисления расстояния между отдельными кластерами в процессе кластеризации и многообразными оценками оптимальности конечной кластерной структуры. Наибольшее распространение в популярных статистических пакетах получили два группы алгоритмов кластерного анализа: иерархические агломеративные методы и итеративные методы группировки.
В зависимости от выбранных алгоритмов и параметров кластеризации, результаты кластерного анализа могут существенно различаться. Существуют две основные проблемы при решении задач кластеризации: определение числа кластеров и получение устойчивого результата. Поэтому в применении процедур кластерного анализа немаловажным аспектом является устойчивость структуры кластеров, отражающая реальную объективность классификации. В качестве одного из возможных способов проверки устойчивости результатов кластерного анализа может быть использован метод сравнения результатов полученных для различных алгоритмов кластеризации. Не меньше проблем и при оценке качества кластеризации. Первые работы которые содержали формулировки критерия минимизации внутрикластерной дисперсии и алгоритм (типа к-средних) поиска оптимального решения появились в конце 50-х гг. В 1963г. в статье Дж. Уорда также излагался подобный оптимизационный иерархический алгоритм. Только в [34] автором дан обзор 45 подобных функционалов качества. Все это говорит о том, что не существует универсального критерия оптимизации кластерного решения. В такой ситуации наилучшим способом утвердиться в том, что найденное кластерное решение является па данном этапе исследования оптимальным, является только согласованность этого решения с выводами, полученными с помощью других методов многомерной статистики.
Всегда необходимо осознавать, что полученный при использовании кластерного анализа результат является одним из возможных. Этот результат необходимо сравнить с аналогичными результатами, полученными с применением других комбинаций метрик, алгоритмов объединения и т.д., а также с результатами использований и других методов анализа данных.
В использовании кластерного анализа имеются такие тонкости и детали, которые проявляются в отдельных конкретных случаях и видны не сразу. Например, роль масштаба признаков может быть минимальной, а может быть и доминирующей в ряде случаев. В таких случаях необходимо использовать преобразования переменных.
Наряду с разработкой математического аппарата кластеризации, важное значение имеют средства представления результатов кластерного анализа и оценки достоверности этих результатов. Современные программные пакеты, предоставляют широкий спектр графических инструментов для анализа результатов кластерного анализа. На практике, наиболее наглядным, является представление полученных кластеров в осях специальных переменных, в которых "удачность" полученной классификации можно оценить визуально.
Термин "визуализация данных" означает, что имеются некоторые данные, например таблица с числами. И эти данные нужно "донести" к конечному пользователю, и не просто "донести", а представить в удобной, понятной, и, самое главное, в визуальной форме. Данные в этом понимании есть просто некоторые абстрактные типы данных, которые нужно представить.
Для визуализации могут быть использованы 1-, 2-, 3-мерные пространства отображений. Под визуализацией данных мы понимаем такой способ представления многомерного распределения данных, при котором, по крайней мере, качественно отражены основные закономерности, присущие исходному распределению - его кластерная структура, топологические особенности, внутренние зависимости между признаками, информация о расположении данных в исходном пространстве. В качестве основных применений методов визуализации можно назвать следующие:
- наглядное представление геометрической метаморфозы данных;
- лаконичное описание внутренних закономерностей, заключенных в наборе данных;
- сжатие информации, заключенной в данных;
- восстановление пробелов в данных;
- решение задачи прогноза и построения регрессионных зависимостей между признаками.
Визуализация данных — задача, с которой сталкивается в своей работе любой исследователь. К задаче визуализации данных сводится проблема представления в наглядной форме данных эксперимента или результатов теоретического исследования. Традиционные инструменты в этой области - графики и диаграммы — плохо справляются с задачей визуализации, когда возникает необходимость изобразить более трех взаимосвязанных величин [27].
Качественная визуализация данных является важной частью любой аналитической системы. Во многих случаях эксперту достаточно просто взглянуть на данные, чтобы сделать необходимые выводы. Но одни и те же данные можно отображать множеством способов, и какой из них будет наиболее приемлем, зависит от решаемой задачи.
Существует большое количество программных средств, нацеленных на аналитическую работу с многомерными структурами данных. Однако при использовании подобных программ пользователь наталкивается на целый ряд проблем. Во-первых, процедуры обработки данных налагают определенные требования на выборку (например, независимость, однородность, случайность, вид распределения). Несоответствие исходной выборки этим требованиям, вообще говоря, приводит к недостоверным результатам обработки. Во-вторых, пользователь — специалист в определенной области знаний -зачастую плохо понимает аппарат многомерного анализа, а при отсутствии образного визуального представления результатов с трудом их воспринимает. И, наконец, значительная часть задач в астрономии, биологии, медицине, экономике и др. науках просто не поддается чисто аналитическому описанию и требует дополнительного описания на качественном образном уровне. Всё это говорит о необходимости создания простых, удобных в использовании средств визуализации данных.
В той или иной мере средства для графического отображения данных поддерживаются всеми системами Data Mining. Вместе с тем, весьма внушительную долю рынка занимают системы, специализирующиеся исключительно на этой функции. Примерами могут служить: программа DataMiner3D (Dimension5); программный продукт SpaceWalker, реализующий преобразование числовой информации об объектах с большим количеством параметров в наглядные графические динамические образы; Deductor Studio, предлагающий много механизмов визуализации, из которых пользователь может выбрать наиболее оптимальные. Для реализации визуализации в собственных разработках возможно использование различных пакетов. Это и известная библиотека OpenGL, и программы, ориентированные в первую очередь на визуализацию многомерных данных: OpenDX, VTK (программное обеспечение для реализации компьютерной графики), а также matplotlib — сравнительно молодой, но богатый возможностями и активно развивающийся проект, является библиотекой для языка Python, РуХ - другой пакет для визуализации с помощью Python [14].
Визуализация один из важных вопросов в интерпретации и моделировании в геофизике. Традиционными для геофизики средствами визуализации являются карты, разрезы, кроссплоты, то есть средства 2D визуализации. В настоящее время возникает потребность графического представления данных более высокой размерности. Очевидно, что повышение достоверности результатов интерпретации данных геофизических исследований и, как следствие, эффективности сейсмических съемок и ГИС в целом в значительной степени обусловлено последними достижениями в области визуализации первичной геолого-геофизической информации. Качественная комплексная визуализация геолого-геофизической информации является ключевым моментом в понимании строения недр. История визуализации в геологии и геофизике берет начало с первых карт, разрезов и графиков, построение которых выполнялось вручную. По мере развития теории и практики нефтегазового бизнеса стали разрабатываться и совершенствоваться полиграфические технологии построения и публикации геолого-геофизических карт и других графических материалов. Однако высокая трудоемкость подобных технологий, с одной стороны, и их высокая зависимость от т.н. «человеческого фактора» — с другой, не позволяли обеспечить надлежащий уровень качества и достоверности получаемых графических геолого-геофизических материалов. Ситуацию резко изменили появившиеся в 70-80-х гг. прошлого столетия первые компьютерные технологии автоматизированного построения карт, графиков и других видов представления геолого-геофизических данных. Переход к следующему этапу произошел, когда на экранах компьютеров появились 3D изображения сейсмических кубов, структурных поверхностей и других геолого-геофизических данных. Сегодня ситуация кардинально изменилась. Современные исследователи имеют возможность получать трехмерное изображение внутреннего модельного строения недр на экране компьютера. Очевидно, что столь сложный процесс построения модели невозможен без качественной комплексной визуализации на каждом этапе. Одним из важных пунктов работы современных компаний является использование удобной и быстрой системы визуализации: Schlumberger (комплекс Petrel), Paradigm
VoxelGeo), Roxar (Irap), Центральная Геофизическая Экспедиция (комплекс программ динамической визуализации DV), Mercury Computer Systems. Такие действия, как интерактивная визуализация больших множеств данных, классификация, подсветка, выделения регионов, представляющих интерес, обрезка изображения, слайсы реализованы в программных продуктах данных компаний.
Современные комплексы визуализации геолого-геофизической информации базируются на современных достижениях вычислительной техники и обычно состоят из следующих основных элементов: вычислительного блока, формирующего цифровое изображение (один или несколько). Обычно это современная вычислительная машина, на базе персонального компьютера или рабочей станции, с повышенными требованиями по производительности. прикладного программного обеспечения, формирующего трехмерное изображение геолого-геофизнческой информации и позволяющего интерактивно управлять полученным изображением. экранного комплекса визуализации. Это главный элемент комплекса визуализации, обычно состоящий из одного, двух, четырех и более проекторов. системы управления всем комплексом, обеспечивающей выбор видеоисточника.-системы звукового сопровождения, которая необходима при проведении видеоконференции и/или при удаленной презентации.
В качестве заключения можно отметить, что хотя еще не закончилась третья революция (данный этап в развитии визуализации), есть все основания полагать, что грядет новая, четвертая революция в технологиях визуализации. Она будет заключаться в реализации технологий высококачественной трехмерной визуализации по скоростным сетевым соединениям и создании условий для работы удаленных виртуальных групп. Такие системы уже создаются [40].
Автор отдает себе отчет, что полная библиография по теме диссертации даже в пределах наук о Земле грандиозна и совершенно необозрима. Автор упомянул в этом обзоре только те работы, которые изучил и которыми пользовался при подготовке работы. Автор приносит извинение читателю, если какие либо из важных работ по данной тематике не попали в диссертацию.
Гпава 2. Кластеризация данных. Разработка новых алгоритмов кластеризации. Разработка системы тестов для алгоритмов кластеризации
Заключение Диссертация по теме "Геофизика, геофизические методы поисков полезных ископаемых", Белянушкина, Мария Сергеевна
4-3. Выводы
• С применением разработанной программы визуализации данных каротажа была выполнена работа по интерпретации каротажа горизонтальных скважин. На первом этапе выполнялось разделение всего разреза на породы различных литологических типов, на втором этапе выделялся целевой объект - коллектор, и удаление неинтересные для интерпретации точки вмещающих пород. Затем точки коллектора использовались для количественной интерпретации. Произведена обработка каротажа скважин на месторождении с коллектором нетрадиционного тцпа: построены плоскости, разграничивающие аномальные объекты и вмещающие породы, вычислены вероятности такого разделения. Выделенные таким образом перспективные интервалы используются для построения гидродинамической модели месторождения.
Традиционная 20 интерпретация СО-картоажа, выделяла нефтецоспые интервалы с вероятностью не более 60-70%. Предложенный и реализованный ЗБ подход позволил повысить эту вероятность до 90%. Пол результатам интерпретации было дано заключение на перфорацию, в результате чего была получена практически чистая нефть. Реализована методика применения алгоритма кластеризации для расчета карт сейсмических фаций. Расчет карт сейсмических фаций выполняется с применением двух взаимодополняющих подходов: кластеризация сейсмических атрибутов и кластеризация участков сейсмических трасс по их форме. Результаты расчетов были использованы при разработке проектов поисково-разведочного бурения.
• Разработана методика расчета сейсмических фаций в объеме: кластеризация кубов сейсмических атрибутов. Выполнен тестовый расчет кластеризации кубов сейсмических атрибутов для одной из площадей региона Западная Сибирь.
Заключение
В диссертационной работе получены следующие основные результаты:
1. На основе существующих алгоритмов теории графов и алгоритмов К-средних разработаны новые алгоритмы для решения основных проблем кластеризации: определение в процессе работы неизвестного заранее количества кластеров, выделение кластеров произвольной формы и получение воспроизводимого и устойчивого результата. Алгоритмы позволяют решать задачу кластеризации данных при наличии шумов разного уровня.
2. Предложена и реализована система тестов для проверки алгоритмов кластеризации и оценки их эффективности, позволяющая сделать выводы о зависимости корректной работы алгоритмов от соотношения плотности частиц в кластерах и плотности частиц в исследуемом поле.
3. В системе MATLAB реализовано приложение, осуществляющее 4D визуализацию многомерных данных в виде кубов с различной плотностью распределения частиц в узлах.
4. Разработано программно-алгоритмическое обеспечение для визуализации многомерных данных с использованием технологии OpenGL. Разработки применены для выделения аномальных интервалов по комплексу каротажа на месторождении с нетрадиционным коллектором, интерпретации каротажа горизонтальных скважин, интерпретации СО-каротажа.
5. Предложена методика расчета кластеризации большого объема данных (кластеризации кубов сейсмических атрибутов) для выделения сейсмических фаций на основе кластеризации сейсмических атрибутов и участков сейсмических трасс по их форме на нескольких площадях региона Западная Сибирь. Результаты расчетов были использовапьт при разработке проектов поисково-разведочного бурения.
Благодарности
Автор выражает благодарность научному руководителю, доктору физико-математических работ, профессору РГГРУ Б.Е. Лухминскому и научному консультанту, заведующему кафедрой высшей математики РГГРУ, профессору Ю.А. Фаркову за внимание, помощь и поддержку, оказанную автору в процессе подготовки данной работы.
Автор выражает благодарность заведующему кафедрой ЯРМиГИ РГГРУ профессору A.A. Никитину, профессору кафедры ЯРМиГИ РГГРУ A.B. Петрову за рекомендации и ценные замечания, руководству ОАО «ЦГЭ» и начальнику отдела интеллектуальной обработки данных Д.В. Логинову за помощь и поддержку при подготовке диссертационной работы.
Библиография Диссертация по наукам о земле, кандидата технических наук, Белянушкина, Мария Сергеевна, Москва
1. Авербух А.Г. Изучение состава и свойсив горных пород при сейсморазведке. М.: Недра, 1982 г.
2. Айвазян С.А., Бежаева З.И., Староверов О.В. Классификация многомерных наблюдений. М.: Статистика, 1974. 240с.
3. Айвазян С.А., Бухштабер В.М. Анализ данных, прикладная статистика и построение общей теории автоматической классификации// Методы анализа данных/ Пер. с фр. М.: Финансы и статистика, 1985. - Вступ. ст. - с. 5-22.
4. Ампилов Ю.П. От сейсмической интерпретации к моделированию и оценке месторождений нефти и газа. М., ООО «Издательство «Спектр», 2008. — 384с.
5. Ануфриев И., Смирнов А., Смирнова Е. МАТЬАВ 7.0. СПб.: БХВ-Петербург, 2005.
6. Белянушкина М.С. Развитие трехмерной интерпретации и визуализации данных каротажа. Материалы V международной геолого-геофизической научно-практической конференции «Геофизика-2005», Санкт-Петербург 2005 г.
7. Белянушкина М.С., Логинов Д.В. Развитие алгоритмов кластеризации сейсмических данных. Материалы X научно-практической конференции «Геомодель2008», Геленджик, 2008 г.
8. Белянушкина М.С., Логинов Д.В., Лухминский Б.Е. Комплексный алгоритм кластеризации многомерных данных. Научно-технический журнал федерального агентства по недропользованию МПР России и ЕАГО «Геофизика» (4.2007), ЕАГО 2007 г.
9. Белянушкина М.С., Логинов Д.В., Лухминский Б.Е. Развитие алгоритмов кластеризации данных и система многомерных тестов для оценки возможности12.
- Белянушкина, Мария Сергеевна
- кандидата технических наук
- Москва, 2009
- ВАК 25.00.10
- Разработка способов организации информационных потоков и повышения надежности прогноза залежей углеводородов при компьютерной интерпретации данных сейсморазведки
- Технология структурной обработки и интерпретации данных геофизических исследований нефтегазовых скважин
- Технология обработки данных глубинной сейсморазведки методами вероятностно-статистического подхода с использованием компьютерной системы "КОСКАД 3D"
- Методика и алгоритмическое обеспечение интегрированной обработки и интерпретации данных сейсморазведки и скважинной геофизики
- Компьютерная технология построения плотностных и магнитных моделей земной коры по данным грави- и магниторазведки