Бесплатный автореферат и диссертация по географии на тему
Применение метода канонической корреляции и автоматической классификации для долгосрочного прогноза температуры воздуха
ВАК РФ 11.00.09, Метеорология, климатология, агрометеорология

Автореферат диссертации по теме "Применение метода канонической корреляции и автоматической классификации для долгосрочного прогноза температуры воздуха"

ФЕДЕРАЛЬНАЯ СЛУЖБА РОССИИ ПО ГИДРОМЕТЕОРОЛОГИИ-,

8 I О

И МОНИТОРИНГУ ОКРУЖАЮЩЕЙ СРЕДЫ

(РОСГИДРОМЕТ) 3 ;

ГИДРОМЕТЕОРОЛОГИЧЕСКИЙ НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ЦЕНТР РОССИЙСКОЙ ФЕДЕРАЦИИ

На правах рукописи

РУДИЧЕВА Наталия Игоревна

ПРИМЕНЕНИЕ МЕТОДА КАНОНИЧЕСКОЙ КОРРЕЛЯЦИИ И АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ДЛЯ ДОЛГОСРОЧНОГО ПРОГНОЗА ТЕМПЕРАТУРЫ ВОЗДУХА Специальность 11.00.09 - Метеорология, климатология к агрометеорология

Автореферат

диссертации на соискание ученой степени кандидата фивико-математических наук

Москва - 1994

Работе выполнена в Гидрометеорологическом научно-исследой! телъском центра Российской Федерации

Научный руководители - кандидат географических паук

Р.М. Еильфанд

кандидат физико-математических науь О.В. Батирева

Официальные оппоненты- доктор физика-математических наук,

Ведущая органигация - Главная геофизическая обсерватория

Гидрометеорологического научно-исследовательского центра Российской Федерации.

Отзывы в днух экземплярах, заверенные печатью, просим напрг дять по адресу: 123242 Москва, Б.Предтечеиский пер., д. 6-13, Гид г метцентр РФ.

О диссертацией можно ознакомиться а библиотеке Гидрометцентра М>.

Автореферат разослан "17" г.

Ученый секретарь

профессор П.Н. Белов

кандидат физико-математических наук

А.В. Муравьев

Ппоциалиаироьанного соьита, кандидат географических наук

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальности исследования. Погодные условия оказывают заметное шяние на экономику России. Поэтому прогноз метеорологических си-гаций является одной ив первоочередных еадач современной науки. ?дду тем качество прогнозов не всегда соответствует требованиям жиз-и. В особенности это касается долгосрочных прогноаов. Следователь-э, всякое улучшение существующих методов долгосрочного прогноза моет дать значительный экономический эффект.

В последние годы арсенал исследовательских средотв метеоролога ущественно обогатился еа счет внедрения в практику персональных ¡омпыотеров, снабженных пакетами прикладных статистических программ п.с.п.). Это позволяло оптимизировать различные статистические юдходы к решению задачи прогнозирования, а не придерживаться какой та одной "жесткой" модели прогноеа. Воспользовавшись пакетами фограмм, можно в ходе экспериментов выполнить некоторые линей-ше преобразования, которые позволят найти "наилучшую", т.е. наибо-иев уотойчивую эмпирическую модель с максимально возможными значениями критерия успешности. Такой подход, особенно эффективен в тех злучаях, когда объем выборки невелик или коэффициенты корреляции между предиктором и предиктантом имеют сравнительно небольшие значения.

Целью работы является. разработка устойчивой модели прогноза аномалии средней месячной температуры воздуха (СЛ.) первого естественно-синоптического (е.с.) района на месяцы теплого полугодия о различной забдаговременноотью.

Научная иоаиэна

1. Экспериментально продемонстрирована принципиальная возможность использования в схемах долгосрочного прогноза аномалии средней месяч-

ной температуры воздуха метода канонической корреляции.

2. Предложен метод автоматической классификации метеорологическ объектов, позволяющий выявить типовом структуру полей аномал средней месячной температуры воедуха.

3. С использованием дискриминантной процедуры разработан мет прогноза эталонных полей предиктантов.

Практическая ценность " .,'"'

Приведенные в работе оценки качества долгосрочных прогнозов с различной ааблаговременноотью свидетельствуют о целесообразное использования предложенных прогностических схем в практической р боте, особенно в тех случаях, когда эаблаговременность прогно больше нулевой.

На аащиту выносятся

1. Результаты численных экспериментов по отбору предикторов и опр делению размерности вектора предикторов для регрессионной схе прогноза средней месячной аномалии температуры воздуха.

2. Результаты сравнения на одном и том же материале различных ст тистических схем прогноза ДЬ, основанных на:

а) методе канонической корреляции;

б) пошаговой регрессии на главных компонентах полей Д1 и Н-БО одномерных индексах циркуляции и полях градиентов температу воды Северной Атлантики;

в) дискриминантном анализе полей главных компонент ПЛ., выделен о помощью объективной классификации.

3. Методика типизации метеорологических полей.

Личный вклад автора. Все работы, включая теоретическое обосн ние и практическую разработку методики построения статистических долгосрочного прогиоеа Д^ статистический анализ эмпирического

риала, создание базы данных, а также численные эксперименты, выпал лись автором самостоятельно.

Апробация 2§боты. Результаты исследований по теме диссертации ишацывались на Всесоюзном Совещании по долгосрочным прогнозам в г. ■чино ( ноябрь 1993г.) и на семинарах Гидрометцентра РХ>.

Публикации. По теме диссертации опубликовано три печатных г^бо-1, перечисленные в конце автореферата.

Структура диссертационной работы. Диссертационьля работа состоит э введения, четырех глэе, заключения и библиографии.

СОДЕРЖАНИЕ ДИССЕРТАЦИОННОЙ РАБОТЫ

Во введении описан;., существующие направления решения проблемы олгоорочного метеорологического прогноза. Обосновывается актуаль-ость и научная новизна работы, определяется ее цель и дается крат-ое описание структуры диссертации.

Первая глава дает краткий анализ исследований, посвященных 1веработке статистических методов долгосрочного прогнозирования метеорологических элементов. Особо отмечена заслуга в этой области 'оссийской школы ученых. Так в Советском Союзе под руководством 5. II. Мулйтановского был разработан и внедрен в практику составления месячных прогнозов погоды метод аналогов. Для преодоления субъективности в подборе аналогов применяются методики, использующие показатели ¡«чеотза прогнозов, предложенные Н.А. Багровым. Г.В. Груза и Е.Я. Ран!ков в качестве критерия аналогичности использовали показатели метрического типа. Для нахождения аналога по нескольким па-

раметрам сходства полно воспользоваться главными компонентами пока эателей аналогичности. Поскольку первая главная компонента всегд, дает наибольший вклад в дисперсию, наилучшим аналогом можно считат; поле, имеющее максимальную величину первой главной компоненты пара метров сходства.

Другая группа прогностических исследований также связана i применением многомерной статистики. Однако в них многомерный анали; выступает не как вспомогательный инструмент для подбора аналогов но в качестве основы для прогностической схемы. Наиболее традиционные модели - линейные уравнения регрессии. H.A. Багров, М.И. Юдин, П.Н. Белов, Е.П. Борисенков, Г.И. Морской, Н.И. Зверев и др. доказ; ли перспективность их применения для прогноза метеоэлементов на те] ритории первого естественно-синоптического (е.с. района). Д.А. Пед: и его ученики, расширив ряд используемых предикторов, получили еще более обнадеживающие результаты.

В шестидесятые годы отдельные исследователи, как у нас в стрз не, так и за рубежом, стали в прогностических моделях использовать каноническое разложение исходных полей метеоэлементов (по полинома Чебышева, по главным компонентам, по канонически).! переменным и т.д Опыт показал, что одними из наиболее удачных среди них оказались Mi дели, использующие каноническую корреляцию полей предиктора и пре-диктанта.

Однако проблема статистического прогноза не исчерпывается од ним выбором схемы. Необходимо также найти- наиболее информативны предсказатели. На основе имеющихся в литературе сведений, и, следу; рекомендациям Н.И. Зверева, можно сделать вывод о том, что дл, прогноза средней месячной аномалии температуры воздуха целесообраэ но использовать индексы циркуляции E.H. Блиновой и A.A. Каца, тем пературное поле в период, предшествующий прогнозу, поле геопотенци

1 на 500 мб поверхности, градиенты температуры воды в различных час-IX Северной Атлантики, стратосферный индекс Д.А. Педя, а также ин-5ксы Североатлантического колебания (САК) и Южного колебания (ЮК).

Исследователи часто связывают САК и ЮК с межгодовыми осцилля-иями метеазлемектов. Основанием для использования этих параметров ак предикторов ь прогнозе средней месячной аномалии температуры полужили оценки коэффициентов корреляции между САК и ЛЬ и ЮК и ЛЬ, олученные автором для малых временных масштабов. Было обнаружено, то корреляция сильно зависит от географического расположения стан-,ий на континенте и, в меньшей степени,- - от заблаговременности. В >яде случаев коэффициенты корреляции превышают критическое значение ■ при 10Х уровне значимости, что свидетельствует о целесообразности жлючения индексов САК и ЮК в регрессионную схему прогноза Ш пер-юго е.с. района.

Вторая глава посвящена обоснованию применения методов многомерной статистики и отбору предикторов для прогноза температуры на иесяц. В качестве основного прогностического метода используется линейный регрессионный анализ. В. матричном виде предложенная схема выглядит следующим образом:

= А.к-Хкз, т

где Уи - матрица предиктанта;

Хк, - матрица предикторов;

А!к - оператор, устанавливающий соответствие между предсказателем и прогнозируемым элементом.

Известно, что идеальная модель регрессии должна содержать независимые друг от друга предикторы, существенно коррелированные с вектором-предиктантом. В то те время метеорологические данные, используемые в качестве предикторов, обычно коррелировали между собой, и эта связь сравнима по величине о корреляцией между предиктором и

предиктантом. Для того, чтобы в этом случае получить идеальную модель регрессии, необходимо выполнить некоторые линейные преобразов; ния. Обычна - эта разложение и каком-либо ортогональном базисе. Пр1 этом исходное поле X преобразуется в ~ак, что:

сог(Х",Х~3)-0 «

Если Х~ упорядочить по возрастанию дисперсии:

D(X~lj)/r...D(X"Pj), ■(£ а общую дисперсию после преобразования оставить неизменной:

P

D- L бп - const, -(4

i-1

то мы придем к разложению по главным компонентам. Такое представление способно не только решить проблему вэаимонеаависишсти векторов-предикторов, но и сжать исходную информацию, что бывает особенно важно в тех случаях, когда временной ряд метеорологических данных невелик, а число предсказателей по порядку сравнимо о ним. Выбрав некоторое число главных компонент так, чтобы они охватывали примерно 70-80 X суммарной дисперсии поля, мы можем сжать исходную информацию в несколько раз.

В данной главе также рассматриваются вопросы выбора оптимальной модели прогноза.

Известно, что рассмотренная выше регрессионная модель является частным случаем метода канонической корреляции, когда число предик-тантов равно единице. В работе Глана также было показало, что и дискршинантиый анализ - частный случай метода канонической корреляции, когда в качеотве скрытой переменной используется матрица, раг мерностью Gxrii, где G - количество используемых групп, в m - размерность i-той группы.

Поэтому мгшо считать, что есть три статистически эквивалентных етода прогноза;

1) Каждая компонента предиктанта прогнозируется отдельно методом множественной регрессии;

2) Прогнозируется все поле предиктанта сразу с помощью метода канонической корреляции;

3) Прогнозируются эталоны выделенных с помощью кластерного анализа классов.

■Сомбинируя эти методы, можно добиться оптимального варианта прогностической схемы.

В качестве оценки успешности прогноза чаще всего используют . . сводный или множественный коэффициент корреляции И между фактическим и прогностическим значением.

Обычно недостаточно просто установить существование тексй корреляции, но и необходимо, чтобы истинное значение И было бы больше некоторого положительного Если выборочное распределение И - Гаус-соео и состоит из независимых наблюдений, то оно имеет вид:

J (И)-,---.-.----\ -, Ш

Г (к/2+ а) а!

/

-¡^п-к-1)

где гГ2- квадрат истинного значения; сводного коэффициента: 0<Н<1; п - объем выборки; к - число предсказателей; Г - галма функция.

Критерием, отвергающим нулевую гипотезу Нс: Но> К служит неравенство (Г= ¡?р(п,к,1?о), где !?р = (?р (п,к,1?о), Яр ~ пороговое значение выборочного коэффициента И. Оно удовлетворяет уравнению:

РСйо.Ю

(Ю Л- Р. {6

И-Ио , гд& р - доверительная вероятность, близкая к единице. Следовательно, чтобы достоверно установить минимальное значение сводного коэффициента И, необходимо использовать таблицы функции ГСпД,*?'"',!?©) ■ С их помощью можно статистически корректно сравнить успешность различных охем по нижней границе доверительного интервала для истинного еначения сводного коэффициента.

В третьей главе изложено два подхода к прогнозу месячной аномалии температуры воздуха на территории 26-90° в.д. 70-45° о.ш. Оба опираются на линейную регрессионную охему Ш и имеют одни и те же предикторы, предотавленные рядами гидрометеорологических элементов эа период с 1963 по 1900 гг. Предиктантами являются средние меояч-ные значения аномалии приземной температуры воздуха над указанным регионом 'в месяцах теплого,.полугодия (апрель-сентябрь). В качеотве предикторов рассматривались индексы ЮК и САК, средние месячные значения Н-БОО в 17-ти узлах стандартней сетки на Северном полушарии, отратосферный индекс.Д,А". Педя,-рассчитанный по полю Н-100, Зональный и меридиональный индексы А.Л. Каца, индекс Е.Н. Блиновой, гра-■ диенты температуры воды между северной и ¡одной, а также западной и восточной четвертями Северной Атлантики, Н-500 над Атлантикой и значения аномалии приземной температуры воздуха на территории 25-90° в.д. 70-45°о.ш. в месяцах, предшествующих прогнозируемому.

Известно, что числа предсказателей должно быть существенно меньше объема выборки, поэтому разрабатывать схек*у прогноза Д I для каждого месяца при длине выборки, равной Ев, нецелесообразно. Для увеличения объема последней данные предиктанта были объединены в одну выборку, длина которой составила 168. Формирование оОуча>сдей выборки

эдикторов было обусловлено тем, что циркуляциошгке особенности и рм!гческие условия летней и зимней атмосферы определяются рлзличны-причинами. Поэтому гидрометеорологические поля предикторов еа пе-од январь-март составили одну выборку, за период - апрель-август -ругую.

Исходные выборки данных Н-БОО и Д1 были разложены по естеотвен-м ортогональным составляющим. Оказалось, что на первые пять неза-юимых компонент поля, приходится более 80 7. общей дисперсии. Сле->вательно мы вправе отбросить остальные двенадцать, не опасаясь, го это существенно скажется на оценке исходных значений М. при осином преобразовании полей.

Оптимальное число предикторов, соотвествующее нганей границе ^Верительного интервала для истинного значения сводного коэффици-нта, рассчитанное по методике, описанной в главе 2, заключено а правдах от двух до девяти. Поэтом-)? проблема избыточности числа предсказателей в описываемом примере па-прежнем"/ далека от разрешения. Она ожет быть успешна решена, если воспользоваться процедурой пошаговой егрессии.

Рассмотрим ее более подробно. Предположим, что в рабочий набор ¡езависимых переменных о уже включено к-переменных, к » 0,1,...,р-1. 'огда значение Г-включения для переменной х, не входящей » о вычио-шется по формуле:

Рух с »Тух о (п-к-2)/(1-Гух.ог ). <7>

*де гух с- частный коэффициент корреляции между V и X при фиксировании значениях переменных из о; т - объем выборки.

Зеличина Гух«с «О служит критерием для проверки гипотезы о том, что предсказание V значимо не улучшается, если X будет включена в набор с, т.е.(Но:Гух.с »0). Если нулевая гипотеза верна, то Гух.с раопреде-

лена по аакону Р(1,п-к-2). Диалогично, величина Г-удал&ния для какой-либо переменной К ив набора о служит статистикой критерия для проверка гилотееы о той, что набор о', получающийся иа о при удалении К и содержащий к'» к-1 переменных, предсказывает У " так же хорошо как и набор с. Иными словами, проверяется гипотеза Но ¡Гун. •О, и статистикой критерия является величина

Гух-с' « Гух-с'2 (п-к-2)/(1-Гух-с8), <

распределенная по вакону Р(1,п-к'-2), если Но верна.

Расчеты показали, что во всех рассмотренных вариантах прогноаа (о нулевой, месячной и двухмесячной ааблаговременностыо) количество предикторов, объясняющих каждую компоненту предиктанта, меньше девя ти. Наиболее информативными предсказателями оказались первая компонента поля ЛЬ, индекс Южного колебания, меридиональный индекс Каца и пятая компонента поля геопотенциала БОО-мб поверхности.

Другой вариант регрессионной схемы, позволяющий оптимизировать число предсказателей опирается на свойства каноничеоких величин, полученных о помощью процедуры канонической корреляции. Исходные век-тори предиктора и предиктанта преобразуются в линейные комбинации так, что:

сог(Х"\,Х~,) - сог(Х^.У"4») • сог(Г1,У^) « 0, <9>

если и сог(Х~1,У^) » шах, если , где Х~1-линейная комбинация предикторов, - линегчая комбинация предиктанта. М(ХЛ) «МСУ4) »0.

Решение вадачи канонической корреляции соответствует решению системы:

(Зц"151а - Эц ).а4 -о, <10>

Ьх I ' Эгг 521 • Щ,

где XI - коэффициент канонической корреляции.

—/ —/ Бц » XX и Бгг » УУ - ковариационные,

а Бгг а Ху' и Бгт » Ух'- взаимоковариационные матрицы.

В качестве предиктанта остается поле пяти главных компонент At. Предикторы - канонические корреляции полей главных компонент Н-500, At и гидрометеорологические индексы.

Таким образои новая схема регрессии имеет вид)

4 4

где X", удовлетворяет соотношениям Ш.

В результате сравнения <11) о регрессией на девятнадцати предикторах было обнаружено, что квадрат, сводного коэффициента в обеих схемах одинаков и зависит только от эаблаговременности. В то же время количество значимых компонент в модели, описываемой уравнением <Ю

меньше, чем в модели регрессии на главных компонентах и индексах. Про-L

цент R , приходящийся на значимые компоненты довольно высок в обеих схемах (более, 75 %), ва исключением случая, соотвествующего двухмесячной ааОлаговременнооти (49Х для канонической l емы и 64Х для регрессии на индексах и главных компонентах). Вообще однозначно говорить о преимуществе метода канонической корреляции нельзя, поскольку выводы подучены на конкретном материале. Однако в рассмотренном примере' прогностическая модель на канонических переменных при переходе к независимому материалу должна быть более устойчивой.

В четвертой главе представлен еще один способ прогнозирования средней месячной аномалии приземной температуры воздуха первого е.о. района, использующий процедуру дискриминации. Известно, что при классической дискриминангной процедуре требуется, чтобы было известно о существовании некоторого числа генеральных совокупностей, и распознающей системе было предъявлено по одной выборке иэ каждой совокупности. Тогда задача дискриминации Судет состоять в выработке правила, позволяющего приписать некоторый новый здемент выборки к одной из совокупностей. Таким образом, чтобы подойти к процедуре дио-

- IE -

криминации, необходимо сначала рассортировать исходные объекты по группам так, чтобы элементы одной группы были " похожи " друг на друга и "непохожи" на объекты другого типа.

В качеотве критерия "сходства" вовьмем ввклидову метрику:

/п-1

Е Piz (Ai« -AißE) , {12}

1-1

где Pi - вео 1-той компоненты,

Ait - значение 1-той компоненты вектора г ( ï - ot ,8 ).

Если объекты классификации представлены главными компонентами At, то для pi можно испольеовать соответствующие им собственные еначения, Ai« и Aj0 - коэффициенты разложения по естественным ортогональным составляющим поля ût.

В настоящей работе предложен и реалиэован следующий алгоритм классификации, сочетающий черты алгоритма Ланда и метода к-средних. Вычислим матрицу расстоянии Dote и выберем пороговое значение do , которое характеривует сходство между двумя ситуациями Ацх и Ajö ; так, что если расстояние между ними не превышает порогового, т.е. Dota < do , ситуации считаются сходными.

На основе этого критерия сходства производится ранжирование всех оитуаций, т.е. всех строк матрицы расстояний < Daß >, а именно: каждой ситуации Ai« присваивается ранг ri -ni Daß ,< dô ,0-1,Nt >, определяющий количество ситуаций, на нее похожих. Ситуация о наибольшим рангом принимается за эталон первого класса. Пооле чего вычисляется нормированное расстояние от каждого объекта выборки Nt до sтало на. Номер ситуации, соотвествующий максимальному расстоянию (наиболее удаленный объект) становится вторым эталоном. На следующем этапе расчитывается сумма растойний от каждого объекта до двух эталонов и, а качестве третьего эталона, выбирается объект, максимально удален-

1ый от обоих объектов-эталонов. Эта процедура повторяется до тек пор, гака не наберем к эталонов. Эатем проводится новая классификация ар-сива по минимуму расстояния до эталона (каждый объект относится к то-<у классу, чей эталон ближе) и снова рассчитываются эталоны, представляющие собой среднее всех элементов, попавших в каждый класс. Эта ¡роцедура многократно повторяется до тех пор, пока очередная итерация ie перестанет изменять эталоны и состав классов.

Для критерия качества классификации J,возьмем отношение внутриклассовой дисперсии к общей:

m п

J« Е, k, EiPiöj,2 , «8>

■де ш - число классов,

- частота J-ro класса, >1 - вео компонентов,

¡tZ - диопероия 1-го компонента вектора для всего архива, ¡и - дисперсия 1-го компонента вектора внутри j-ro класоа.

Значение J ооотввотвуэт средней относительной ошибке прогноза, юли в качестве прогнозируемого объекта будет выбираться эталон клао->а.

С помощью предотавленного алгоритма была проведена машинная ти-[иэация вектора коэффициентов разложения аномалий температуры перво-■о е.с. района, векторов-индексов А.Л. Каца и E.H. Блиновой, а также [ндексов САК и КЖ, первой главной компоненты üt и градиента темпера-•уры воды между северной и южной четвертями Северной Атлантики.

Классификация может Сыть испольвована для выделения компактных рупп аналогов, так как показатели аналогичнооти внутри классов ва-1етно выше, чем для всей выборки. Так вычислялись показатели сходст-

ва между эталонами и элемента)«! каждого класса, а также главные компоненты этих показателей. На ним определялся критерий 1:

Е

1-1

1т -

Е ХЛ12 , {141

1-1

где в числителе стоит значение главной компоненты показателей сходства (внутриклассовое среднее), а в знаменатьле - та же величина для всей выборки (между общим средним и всеми элементами выборки). Оптимальное число классов определялось по характеру изменения 3 к 1 в зависимости от т. При окончательном выборе числа классов учитывалось качество прогноза классов по критическому значению X2. Для определения X2 - критерия использовалось выражение:

Х2= п Е -1 , <10

где <*

1-1.....163 - порядковый номер строки таблицы сопряженности клас

сов реальных и предсказанных полей; 0-1,...,168 - порядковый номер столбца той же таблицы.

VI - Е

л

V] - 1 , где V]1" элемент таблицы сопряженности. 1

Мы отвергаем гипотезу Н0 о независимости предиктора и предиктанта

-X

если пороговое вначение X больше воронее выбранного критическог значения при уровне значимости а . Если при заданном *ш' гипотез

отвергается, а J достаточно велик, то соотвествующее ему значение гп считается оптимальнш.

Предсказание классов (или эталонов) главных компонент осуществлялось с помощью дис1 риминантной процедуры, которая позволяет рассчитать разделительную функцию вида:

г, (Х)-Х^ЕГ1 Mi + 1п -1/2 М^ЕГ1 М,. П6>

где Е 1 - ковариационная матрица, общая для всех классов объектов; М! - средний вектор;

Р! - априорные вероятности каждого класса (если е^Х) > в5(Х) для ^сех з, то мы считаем, что объект X принадлежит 1-тому классу).

Априорная вероятность р4 определялась с помощью процедуры классификации, рассмотренной выше.

Возьмем в качестве предикторов параметры типизированных полей за период , предшествующий прогнозируемому. Найдем разделительную функцию, подставляя в нее 1п Pi для предикторов. Определим оправды-ваемость такого прогноза о помощью соотношения:

р =[^1 / Е13]х 100?. , ШП

где ] -168 - суммарный объем выборки;

Е,1 -168 - число случаев совпадения класса предиктора и пре-диктанта, характеризуемое диагональными элементами таблицы сопряженности. Введем также параметр £> р-р-рсл >

где Рсл ~ вероятность правильной классификации для случайного прог ноза (для классификации по трем признакам рСл -0.33). Наилучший ре-

зультат был получен тогда, когда предиктором служил меридиональный индекс Каца ( р-49% для прогноза с нулевой эаблаговременностью).

Для обнаружения степени связности полей предиктора и предик-танта были использованы критерии сопряженности С ( уже упоминавшийся) и V, введенные Пирсоном и Крамером: 1/2

г С-С Х2/(п+ X2)] <19)

1о < С < 1

V- / X2 , где

q-min(r,c) п-объем выборки;

г-1.....168;

С-1.....168.

В примере о индексом Каца:

С-С26/(1б8+2б)]1/2 - 0.361, при Стах-Гт!п(г-1;с-1)/(1+т1п(г-1;с-1)]1/2 -^1/(1+1)-0.70'; т.е. связь можно характеризовать как удовлетворительную.

В результате выяснилось, что единственная классификация, удовлетворяющая всем рассмотренным критериям связности - классификации по трем признакам.

В последнем параграфе четвертой главы описаны результаты вос-отаиовления метеорологических полей Д1 по прогностическим значения!, главных компонент, и производится сравнение всех предложенных прогностических моделей.

Для определения степени сходства полей по знаку использовался критерии р - (п1-п2)/Н, где п1 характеризует число станций, на которых фактический и прогностический знак Д Ь совпадает, п2- число станций, где знаки аномалии температуры противоположны, или Д Ь-О.

I- полное число метеорологических станций. Степень сходства полей ю величине определяется по формуле: ц ,

гМ)

О- - , {20}

N

где - число метеорологических станций;

- отклонение реальных значений месячной температуры воздуха в от прогностических в 1-ом пункте; б^ - среднее квадратичное отклонение аномалии месячной температуры воздуха в 1-ом пункте. Результаты оценок Ц и р представлены в таблицах 1,2. Очевидно, что качество дискриминантного прогноза по критерию Ц неудовлетворительное. Тогда как значения.р весьма высоки. Следовательно, дискри-минантную процедуру модно с успехом применять для прогноза знака аномалии температуры воздуха с большой заблаговременностью.

Таблица 1

Оценки качества регрессионных моделей прогноза для различных сроков заблаговременности.

11/N Заблаговре-

менность Предиктор Р 0

1. Нулевая три из пяти главных компонент ДЬ 0.33 1, 22

2. Месячная три из пяти главных компонент Л1 0.40 б. 23

3. Двухмесячная три из пяти главных компонент ЛЬ 0.32 6. 32

4. Нулевая пять канонических переменных ЛЬ 0.41 0. ,69

5. Месячная пять канонических переменных ЛЬ о.за 0. .81

6. Двухмесячная пять канонических переменных ЛЬ о.аг? 0, .98

Таблица 2

Оценки качества дискриминантных моделей прогноза для различных сроков еаблаговременности.

н/м Язблаговре-меннооть Классификатор р а бр

1. Нулевая поле главных компонент ДЬ 0.38 3.13 5 %

2. Нулевая пёрвая главная компо-

нента ДЬ 0.39 7.16 8 7,

3. Месячная поле главных компонент ЛЬ 0.33 6.23 3 7.

4. Месячная первая главная компо- X

нента ДЬ о.з? 9.17 В 7.

5. Двухмесячная поле главных компонент дь 0.32 6.87 3 %

6. Двухмесячная первая главная компо-

нента Лt 0.31 8.37

Во всех трех случаях модель с каноническими переменными дает наиболее аффективные оценки, как по внаку, так и по величине.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. Оценена линейная связь между индексом Шного колебания и аномалией температуры .зовдуха первого е.о.района о нулевым, месячным и двухмесячным сдвигом.

Показано, что для ряда станций эта связь статистически значима. Установлено, что корреляционная свяеь между индексом Североат-

лантической осцилляции и значениями первого е.с. района в ряде регионов также имеет значимые величины.

2. С целью ортогоналиэации исходных полей метеоэлементов и сжатия информации проведено их разложение по естественным ортогональным составляющим. Обнаружено, что первые пять ортогональных соатавлающих описывают суммарные дисперсии полей Н-500 и /к на 81-90

3. Показано, что для заданной Еременной выборки I. ■ 168 оптимальная длина вектора-предиктора, определяемая по нижней границе доверительного интервала истинного значения сводного коэффициента корреляции 1?, заключена в пределах от двух до девяти.

4. С помощью процедуры пошаговой регрессии проведен эффективный отбор предикторов для прогноза среднемесячной аномалии температуры воздуха первого е.с. района.

5. Выявлено, что использование канонических пере), "нных для регрессионного прогноза о нулевой, месячной и двухмесячной заблаговремен-ностыо имеет некоторое преимущество перед линейной регрессией на главных компонентах, индексах циркуляции и значениях градиентов температуры воды Атлантики. Оно позволяет получить ту ае оценку успешности прогноза Ш, 1то и линейная регрессия при меньшем числе предсказателей, что делает прогностическую схему на независимом материале более устойчивой.

6. Для классификации метеорологических полей разработан алгоритм, сочетающий черты алгоритма /ища и метода к-ср^дних.

7. С помощью оценки критерия качества классификации и проверки гипотезы связности полей рассчитано оптимальное число классов предикторов.

8. На основе дискриминантного анализа реализована прогностическая схема прогноза эталонов выделенных классов.

9. Выявлен наиболее информативный признак для дискриминантного ана-

лиза аномалии температуры воздуха, а именно, индекс Каца. 10. Средняя успешность прогнозов полей Д1 по каноническим переменным на зависимом материале оказалась довольно высокой (р -0.41; 0-0.69 - для нулевой, р 41.38; 0-0*01 - для месячной, р -0.37; 041.98 - для двухмесячной ваблаговременности). Это свидетельствует о перспективности данной методики для практического исполь-вования.

Основные положения дисоертации изложены в следующих публикациях;

1. Объективная классификация полей аномалий температуры. Депонировано во ВНИИГМИ-МЦД 1146-ГМ93 от 19.06.93.

2. О оводных индексах аналогичнооти полей приземного давления.- "Метеорология и гидрология", 1993, N 11 (В ооавторстве).

3. Применение метода канонической корреляции для прогноза аномалии температуры.- "Метеорология й гидрология", 1993, N 6 (В соавтор-отве).