Бесплатный автореферат и диссертация по биологии на тему
Разработка алгоритмов классификации вирусов и изучение эволюционных связей между ними в рамках нумерической таксономии
ВАК РФ 03.00.06, Вирусология

Автореферат диссертации по теме "Разработка алгоритмов классификации вирусов и изучение эволюционных связей между ними в рамках нумерической таксономии"

АКАДЕМИЯ МЕДИЦИНСКИХ НАУК ИНСТИТУТ ВИРУСОЛОГИИ имени Д. И. ИВАНОВСКОГО

На правах рукописи УДК 578.8

НАЗАРОВА Галина Михайловна

РАЗРАБОТКА АЛГОРИТМОВ КЛАССИФИКАЦИИ ВИРУСОВ И ИЗУЧЕНИЕ ЭВОЛЮЦИОННЫХ СВЯЗЕЙ МЕЖДУ НИМИ В РАМКАХ НУМЕРИЧЕСКОЙ ТАКСОНОМИИ

03.00.06 — вирусология

Автореферат диссертации на соискание ученой степени кандидата биологических наук

Москва — 1990

Работа выполнена в научно-исследовательском институте вирусных препаратов Академии медицинских наук СССР.

научный руководитель —

доктор биологических паук О. Н. Агеева

официальные оппоненты —

доктор биологических наук С. О. Вязов кандидат медицинских наук С. В. Колотвинов

ВЕДУЩЕЕ УЧРЕЖДЕНИЕ — кафедра вирусологии Московского государственного университета им. М. В. Ломоносова.

Защита диссертации состоится « 19-50 г. в /4Г — ча-

сов иа заседании специализированного Совета! Д 001.20.01 при Институте вирусологии им. Д. И. Ивановского АМН СССР (123098, г. Москва, ул. Гамалеи, 16).

Автореферат разослан' « » ОкЛе^/^

1990 г.

С диссертацией можно ознакомиться в библиотеке Института! вирусологии им, Д. И. Ивановского АМН СССР.

Ученый секретарь специализированного Совета, кандидат медицинских наук

А. М. Жуковский

ОВДАЯ ХАРАКТЕРИСТИКА РАБОТЫ . Актуальность проблемы. В настоящее время вирусология располагает большим количеством фактического материала, касающегося юрфологии, структуры, физико-химических свойств вирусов, спосо-5ов репродукции, а также особенностей взаимодействия Еирусоз с [слетками я организмом хозяина..Актуальной задачей сравнительной вирусологии является поэтому разработка методов, позволяющих глубоко и эффективно использовать накопленные данные, сводить их э единую систему знаний. Большое значение при этом приобретает ревизия и развитие уже имеющихся классификаций.

Классификация как наука призвана решать не только задачу собственно группирования в таксоны близких по свойствам объектов, но и задачу определения ранга таксонов, распределения таксонов в иерархии категорий, а также задачу идентификации, т.е. определения таксономической принадлежности неклассифицированных объектов. Общецринятая классификация вирусов, разработанная ,4ендународнш Комитетом по таксономии вирусов (МКТВ), основана га последовательном использовании некоторых ваших для классификации признаков (метод дихотомических ключей) и на экспертной щенке таксономической принадлежности отдельных вирусов Ц.1-/ПеС-(¿с^ , 1978). Этот подход, хотя и позволяет структурировать клас-¡ификационную систему вирусов, однако не решает многие актуаль-ше проблемы классификации. В частности, в ра«дках классического гадхода не решаем вопрос объективного определения ранга таксонов, »тсутствует формализованная методика Еыделения таксонов, основан-;ая на равнозначности таксономических категорий. Классификация !ноеь выделяемых вирусов осуществляется экспертным путем после детального изучения характеризующих вирус признаков, что значи-■ельно увеличивает время определения их таксономической пранад-:енности. Кроме того, в основу классификации МКТВ не заложен рзнцип филогении, а при создании классификаций объектов живой--' рироды закономерно отрешение к их "естественности", которая пределяется тем, насколько учитываются филогенетические данные лассифицирувдих объектов. В вирусологии практически только в оследние годы были разработаны методические подходы к выявлению озможных эволюционных связей между вирусами и группами вирусов, основе этих методов лежит, в основном, сравнениенуклеотидных аминокислотных последовательностей, а также сравнение структур-

ной организации геномов, цричем эффективность этих исследований резко возросла с применением методов матеиатической обработки данных. Если для вирусов некоторых отдельных семейств уже получены данные, указывающие на общность их цроисхоздения, то обоснование потенциального родства Еирусов различных семейств еще требует дальнейших исследований. Актуальной задачей поэтому остается разработка новых методов выявления возможной эволюционной близости различных груш вирусов и разработка таких моделей классификации, которые учитывали бы общность цроисхоздения и эволюционное родство вирусOE•

Учитывая объем имеющихся в вирусологии информационных данныэ следует цризнать, что необходимым условием дальнейшего развития сравнительной вирусологии является привлечение к исследованиям методов прикладной математики.

Коллективом сотрудников НИИ вирусных препаратов АМН СССР щи участии автора диссертации был предложен и реализован метод построения модели числовой классификации вирусов. Зта модель была построена с использованием цринципов нумерической таксономии ( Sokal R.R., Sneath Р.А.А.,1963) и явилась первой моделью такогс рода в вирусологии (Агеева О.Н., и др., 1982).

При построения модели числовой классификации вирусов было показано, что нумерическая таксономия как метод классификации обладает большими потенциальными возможностями и позволяет решить ряд актуальных задач, которые не могут быть решены в рамках классического подхода. Это СЕязано.е тем, что принципы нумерической таксономии позволяют формализовать все стадии процесса классификации -на основе использования строго количественных оценок и позволяют не только распределять вирусы на группы, но и количестве! но анализировать, сопоставлять эти группы в соответствии с их характеристиками.

Следует отметить ваяную особенность цринципов нумерической таксономии - использование для оценки сходства Еирусов большого числа описывающих вирус характеристик, что определяет достаточна объективность основанных на этом принципе классификаций. В рамказ методологии I.5KTB одновременный учет большого количества признаков затруднен, методы же нумерической таксономии в качестве основы для классификации используют интегральную оценку сходства вирусов, и поэтому использование цринципов нумерической таксономии

следует признать наилучшим решением такой комплексной задачз:, как классификация Еирусов.

Целью настоящей работы явилась разработка в рамках нумерической таксономии формализованных принципов объективного выбора таксономического ранга груш вирусов и методов формирования таксонов одинакового ранга, разработка методики числовой классификации неклассифицированных вирусов, а такяе подходов к выявлению макроэволюционных связей менду вирусами.

В соответствии с поставленной целью в задачи исследования входило:

1.- Сконструировать критерии таксономического ранга групп вирусов.

2. На основе числового анализа обучающей выборки груш вирусов определить числовые константы критериев для категории "семейство". ' .

3. Провести на основе сконструированных критериев оценку таксономического ранга груш вирусов, имеющих согласно МК2В статус семейства.

4. Разработать методы формирования групп вирусов заданного ранга.

5. Разработать методы выбора небольшого числа информативных параметров и последующей их обработки для классификации отдельных вирусов.

6. Проверить работоспособность выбранных наборов небольшого числа признаков путем классификации контрольных вирусов.

7. На основе изучения сходства и различия вирусов в рамках нумерической таксономии разработать метод анализа возможных путей эволюции вирусов.

8. Провести анализ возможных- эволюционных связей меаду группами вирусов на основе системного подхода к изучению способов передачи генетической информации.

Научная новизна, теоретическая и практическая значимость работы.

3 данной работе Епервые на основе использования принципов нумерической таксономии и применения математических методов для анализа вирусологических* данных решается комплекс задач сравнительной вирусологии и классификации вирусов.

В рамках нумерической таксономии предлагается решение зада-

чи определения таксономического ранга групп вирусов на осноеэ формализованного количественного подхода. Применение предложенных в работе критериев таксономического ранга впервые позволило выработать объективные рекомендации относительно црисЕоения определенного ранга отдельным грушам вирусов. Предлагаемый метод определения ранга груш вирусов переводит эту задачу, решение которой представляет значительные трудности и сеязшо с неоднозначностью субъективных оценок специалистов, на качественно но- ■ еый уровень, характеризую'днйся использованием строго количественных оценок. При этом Епервые разработана методика, позволяющая не только определять ранг, но и формализовать процесс фор?«ирова-ейя групп заданного ранга, что является определенны:,! вкладом в решение задачи создания иерархической классификационной структуры, характеризующейся равнозначностью таксономических категорий.

Впервые разработана эффективная методика классификации неклассифицированных вирусов, основанная на гибкой стратегии выбора небольшого количества необходимых для классификации характеристик и их последующей обработке по определенным правилам.

Предложенная методика может быть полезной е практической работе при определении таксономической принадлежности неклассифицированных вирусов и уточнении таксономического положения уие известных вирусов. • Предлагаемый алгоритм классификации в случае выделения новых вирусов, потенциально опасных в эпидемическом отношении, позволяет при определении их таксономического положения, во-первых, ограничиться небольшим объемом исследований, и, во-Еторых, планировать эти исследования.

'Использование принципов нумерической таксономии л системного подхода для сравнительного описания большого массива вирусов, включающего большинство семейств вирусов, поражающих животных и человека, позволило предложить новые нетрадиционные подходы к Еыявлешш возможных эволюционных связей между вирусами. Анализ групп Еврусов в рамках предложенных подходов позволяет разработать различные модели макроэволюции вирусов, а также предложить филогенетическую интерпретацию числовой классификации вирусов.

Основные положения, выносимые на защиту

I. В рамках нумерической таксономии разработан метод определения таксономического ранга групп вирусов, основанный на анали-

зе интегральных количественных характеристик, позволяющий решить проблему равнозначности таксономических категорий. Предложены критерии для оценки таксономического ранга и определены числовые константы критериев для категории "семейство". Адекватность метода подтверждена анализом семейств МКТЗ.

2. Оценка таксономического статуса различных групп вирусов на основе разработанного метода показала, что большинство групп вирусов, получивших, в классификации МКТВ ранг семейства, соответствует категории "семейство". Доказана правомерность изменения статуса калици-, нода-, флавиЕирусов и выявлена целесообразность изменения состава семейств Heruesvi^ldae и Togaviridas.

3. Разработана методика формирования груш вирусов одинакового таксономического ранга.

4. Предложена формализованная методика числовой классификации неклассифицированных вирусов, основанная на использовании небольшого числа описывающих Еирус характеристик.

5. Предложены способы выявления возможных эволюционных связей меяду вирусами, основанные на сравнительном анализе сходства вирусов по большому числу характеристик и на анализе системы способов передачи генетической информации. Осуществлена филогенетическая интерпретация числовой классификации вирусов.

■Материалы диссертации полонены на:

1. Научных конференциях НИИ вирусных препаратов АМН СССР 1982г., 1985г., 1987г., 1989г.

2. Всесоюзном симпозиуме "Применение математических методов и ЭЦВМ в медико-биологических исследованиях", Ленинград, 1982.

3. Всесоюзной конференции "Перспективные направления развития информатики и компьютерной техники", Москва, I98S.

4. Всесоюзном семинаре "Математическое обеспечение и программно-технические средства для моделирования развивающихся --'** систем", Славское, 1986.

5. Заседаниях секции микробиологии и вирусологии Московского городского научного общества микробиологов, эпидеггнолбгов и пара-зитологоз им.И.И.Мечникова.

Аптюбашя работы. Диссертация апробирована на ббщеинствтут-ской конференции НИИВП AI.5H СССР 26.12.89г. и на заседании апро-бационного Совета "Молекулярная биология" Института вирусологии

км.Д.И.Ивановского 24.04.90г. По теме диссертации, опубликовано 10 работ.

Структура и объем диссертации. Диссертация изложена на 193 страницах машинописи, включает 134 страницы текста, 12 таблиц, 26 рисунков. Она состоит из введения, четырех глав обзора, четырех глав собственных исследований, обсуждения результатов, выводов и списка цитируемой литературы. Список литературы включает 190 источников (52 отечественных и 138 иностранных авторов).

Программное и математическое обеспечение работы осуществлено старше научным сотрудником ffiffiH АМН СССР кандидатом технических наук В.Ы.Кибардиным.

• СОБСТВЕННЫЕ ИССЛЕДОВАНИЯ

Материалы и методы.

Массив вирусов и описывавших их признаков. В основной анализируемый массив вирусов входишь вирусы следующих семейств: ;>denoviridae, Paoovaviridae, Herpesviridae, Poxviridae, Parvovi-ridae, Caliciviridae, WLcornaviridae, Hodaviridae, Togaviridae, Flaviviridae, Bunyaviridae, Rh.abdovtridae, Reoviridae, Рагашухо-viridae, Ortiioayxcviridae, iureaaviridae, Coronaviridae, Hetrovi-riaae, liicroviridae, Uvoviridae, Leviviridae, Styloviridae, loty-viridae, Potexviridae, Tobseoviridae, Основной массив включал S3 вируса. В расширенный массив из 114 вирусов были включены дополнительно новые вирусы из вышеперечисленных семейств и Енрусы сем. Birnaviridae в сек. Piloviridae. В качестве необходимой информации была признана, информация о 41 признаке, которые характеризует фз-ЗЕК0-Х2ьшческие, морфологические, биохимические к биологические свойства вирусов, а также некоторые особенности репродукции. Част! признаков была представлена несколькими параметрами. В целом вирусы была описаны 64-мя параметрам. Все параметры были статистически обработаны: вычислены выборочные среднее и дисперсия, а затем значения параметров были центрированы и нормированы путем вычитания выборочного среднего и деления на дисперсию (Ю.Нейман,. IS68). В результате подобной обработки все параметры становятся соизмеримы и большинство их значений находится е интервале от +1 до -I. Пробелы в значениях параметров (отсутствие части информада об анализируемых объектах) заполняли или средними значениями соответствующих параметров, вычисленными для оцределенных групп ви-

русов, или же реализациями случайных величин, имеющих то же распределение, что и распределение значений соответствующих параметров.

Способ представления данных..В качестве матеиатической модели представления данных было использовано представление вирусов точками многомерного пространства, координатами которых являются значения описывающих их'параметров. Подобное представление вирусов позволяет сравнивать вирусы меяду собой при введении интегральной меры сходства, в качестве которой выступает евклидово расстояние между точками многомерного пространства, соответствующими' вирусам:

где - расстояние мея^.точками, соответствующими^му и ¿-му вирусам, М - число параметров, К - номера параметров, Х^ и £/£ - значения К-го параметра ¿-го иу'-го вирусов, величина ¿у измеряется в условных единицах. В работе понятия сходства (различия) и взаимного расстояния используются как синонимы. При таком способе представления данных, вирус, отличавшийся от всех других по значению хотя бы одного параметра, займет свое, отличное от других положение. Наиболее сходные по свойствам вирусы будут расположены в пространстве признаков на более близком расстоянии друг от друга, чем менее сходные. Введение меры,различия позволяет решить задачу объединения близких по-свойствам вирусов в группы, т.е., собственно задачу классификации. '

: Алгоритмы последовательного группирования. Задачу автомага-ческой классификации, выделеная групп (таксонов) сходных по свойствам объектов решают алгоритмы последовательного группирования. В работе были использованы различные варианты метода кластерного анализа -алгоритм "средней связи""и алгоритм "ближайшего соседа", которые отличаются способом определения различий медцу группами вирусов (А.Т.Терехин, 1978, Р.Дуда.Н.Харт, 1976). Указанные алго-ритш . были реализованы в виде хгрограмм для ЭВМ. .

. Методы анализа параметров. Анализ взаимозависимости параметров был направлен на выявление минимального числа информативных, -т.е. хорошо описывающих вирус параметров (или их комбинаций) с целью последующего использования выявленных закономерностей для классификации вирусов. В работе использован ряд методов (А.Т.Те-

рехин, 1978, Д.Лоули, А.МаксЕелл, 19Б7):

- метод экспертной оценки информативности параметров,

- метод определения корреляции параметров,

- метод главных компонент.

Методы сокращения числа параметров. Для сокращения числа необходимых для классификации параметров и построения алгоритма классификации новых п неклассифицированных вирусов были использованы метод центроидов (Д.Лоули, 1967) и метод многомерного масштабирования (В.В.Александров, Н.Д.Горский, 1983). Наиболее эффективны:.! для выбора информативного набора параметров оказался метод гжогомерного масштабирования, при котором параметры и их весовые коэффициенты подбираются так, чтобы были минимальными искажения во взаимных расстояниях медцу вирусами после перехода от.исходного к новому пространству параметров. Критерием пригодности найденного набора факторов служила правильность отнесения контрольных вирусов к семействам, причем гирус относили к тому семейству, расстояние до центра которого в новом пространстве было минимальным.

РЕЗУЛЬТАТ ИССЛЕДОВАНИЙ

Разработка в рамках нумерической таксономии критериев . определения таксоногятческого ранга групп вирусов

Метод нумерической таксономии и модель представления данных точками многомерного пространства описывающих их параметров позволяет поставить задачу разработки критериев для определения таксономического ранга той или иной группы вирусов, так как при этом можно количественно описать любые группы и для таксонов данной категории установить предельные значения^количественных характеристик, которые и можно рассматривать в качестве числовых критериев ранга.

Предлагается при выборе ранга той или иной группы вирусов руководствоваться следующими критериями: первый критерий опирается на сопоставление сходства соседних вирусов в таксоне, второй критерий опирается на представление о наличии в таксоне, некоего . стандартного вируса - "ядра", под которым понимается условный вирус, имеющий усредненные для данной группы характеристики. Согласно критерию I группа (таксон) имеет ранг А, если для каадого вируса из группы его отличие от соседних вирусов меньше определенной пороговой величины а отличие от вирусов любых других групп -

- п -

больше пороговой величины А^.По второму критерию вирусы, входящие в таксон, должны отличаться от стандартного вируса на величину, меньшую пороговой Ъ; . а гирусы, не принадлежащие груше -на Ееличину, большую пороговой К,- . Эти пороговые величины, т.е. числовые константы критериев для"всех категорий - семейств, подсемейств, родов - являются основой для создания иерархической системы классификации. В работе определены числовые константы для ранга семейстза.

При конструировании критериев было использовано два подхода. Первый состоял в том, чтобы сформировать набор груш, которые пме-. ют одинаковый ранг в соответствии с решениями экспертов МКТВ и использовать этот набор груш в качестве обучающей выборки. Второй подход состоял в том, чтобы последовательно формировать группы с одинаковыми характеристикам! и на осноге изучения поведения этих характеристик е различных наборах груш определять критерии ранга. Второй подход включает необходимость разработки метода формирования груш с одновременным конструированием критериев ранга.

В качестве обучающей-выборки анализировали группы вирусов, имеющие по классификации МКТВ ранг семейства (всего 18 семейств). Эти вирусы были описаны 64 параметрами. Необходимым условием качественного определения числоеых констант критериев является адекватность описания вирусов этими параметрами. Качество массива (вирусы и характеристики) было проверено путем экспериментов по группированию вирусов методом кластерного анализа при различных способах обработки исходных данных, которые включали различные способы заполнения пробелов в матрице данных и моделирование ошибки определения значения признана в эксперименте. Дендрограмма группирования вирусов при одном из способов заполнения пробелов приведена на рис.1, где утолщенными линиями выделены группы, соответствующие семействам МКТВ. Анализ более 20 подобных дендрограмм при различных вариантах обработки данных показал, что структура группирования вирусов, описанных 64 параметрами, устойчива за небольшими исключениями, касающимися вируса краснухи и вируса ЛДГ мышей сем.Токаг1г1йае, я в целом соответствует классификации ГЖТВ. Таким образом, было показано, что выбранный массив данных - вирусы и описывающие их признаки - монет использоваться I качестве обучающей выборки при формировании критериев для ранга

С»11дМ-

саеосл-

ит

гис1-Тоо-

В«р«-

Рис.1. Дендрограмма, отраяашая процесс- группирования вирусов при заполнении пробелов в данных средними значениями паиаметров. Числа в основании дендрограммы соответствуют но-меЪам вирусов, числа в узлах девдрограммы - этапу объединения Двойными линиями ввделены группы, соответствующие семействам.

семейства.

Для определения констант первого критерия в каждом анализируемом семействе определяли максимальное различие соседних вирусов семейства (рис.2, нижняя кривая), а такке минимальное отличие вирусов данного семейства от остальных вирусов (верхняя кривая). Оказалось, что различие соседних вирусов в каждом семействе не превышает величины в 5 усл.ед., за исключением Группы герпесвиру-сов, в которой наиболее отличаются вирус Зпштейна-Барр и вирус псевдобешенства; группы реовирусов; а также группы тогавирусов, в которой Еирус краснухи и вирус ЛДГ мышей отличаются от других вирусов на величину, большую 5 усл.ед. Расстояние же между вирусами соседних семейств всегда больше 5 усл.ед. Результаты этого анализа показали, "что для первого критерия в качестве •числовой константы таксонов ранга семейства можно выбрать величину в 5 усл.ед.

Для выбора констант второго критерия в- каждом семействе определяли максимальное отличие входящих в него вирусов от стандарта этого семейства (рис.3, нижняя кривая), и величину минимального отличия от этого стандарта ближайшего■вируса соседнего таксона (верхняя кривая). Анализ этого рисунка показывает, что в качестве константй второго критерия можно выбрать величину в 4,8 усл.ед.. Ранг группы герпесвирусов и го второму критерию превышает ранг семейства. То же касается и группы тогавирусов: только выключение из ее состава вируса краснухи и вируса ЛДГ мышей дает основание присвоить ей ранг'"семейства. Важно отметить, что при анализе семейств по первому и го второму критерия!,! между группами вирусов существует хзаатус - разрыв в непрерывности изменения характеристик вирусов, что позволяет говорить об объективности существования таксонов ранга семейства.

Формирование. ГРУШ,.Щгусов одинакового таксономического ранга

Для формирования трупп- одинакового таксономического ранга^,-предлагается использовать итеративные алгоритмы кластерного анализа с контролем характеристик по нритериям I и П. Работа алгоритмов кластерного анализа состоит в последовательном объединении вирусов в группы: сначала объединяются наиболее близкие по свойствам вирусы, .. затем все более и более различные. Группы одинакового ранга получаются, если объединение остановить на этапе, когда их характеристики еще удовлетворяют критерию, в то время, как на

е ч

£

? *8 £ х з

и* и

|||| I

У

& 1 I н

О К л

Рис.2. Изолированность вирусов и групп вирусов. Для каждой группы вирусов дано значение максимальной изолированности вирусов внутри группы (нижняя кривая) и наименьшее отличие вирусов, принадлежав^ группе, от вирусов, не принадлежащих ей (верхняя кривая).

•яа 3

г

« I 1

II 1

I

1 Е I 4 I I ап

II

II?

„ ££2 Я:

Рис.З. Отличие вирусоЕ от стандартов групп. Для ка-кдой группы вирусов указана величина максимального отличия вирусов, принадлежащих группе, от ее стандарта (нижняя кривая) и величина минимального отличия от стандарта этой группы вирусов, не принадлежащих ей (верхняя кривая).

следующем этапе - уже не удовлетворяют.

При контроле максимального различия вирусов в группе можно использовать алгоритм "ближайшего соседа", а при-контроле величина предельного.отличия вирусов в группах от "стандарта" соответствующих групп - алгоритм "средней связи".

Для проверки работоспособности предлагаемого , подхода было доведено группирование расширенного массива из П4 вирусов. В этот массив были включены вирусы не только анализируемых ранее ;емейств, но и вирусы двух новых семейств - Birnaviridae и Piloviri-laе . Группирование осуществляли методом "средней связи". Оказа-гось, что формирование.почти всех анализируемых семейств закаячи-зается к этапу, на котором образуется группа, не удовлетворяющая »гласно критерии П статусу семейства. Таким образом, анализ группирования расширенного массива вирусов показал применимость разработанного подхода к формированию таксонов одинакового ранга с ^пользованием критерия П и алгоритма "средней связи" как метода формирования групп. При этом получено подтверждение особого поло-гения в классификационной структуре вируса Эпштейна-Барр, вируса теевдобёшенства, вируса краснухи и вируса ДЦГ мышей.

При использовании метода кластерного анализа для форлирова-шя груш вирусов можно в процессе кластеризации контролировать шнамику поведения количественных характеристик формирующихся Трупп. Было, например, показано, что выбор оптимального с точки ¡рения таксономии числа групп, образующихся в процессе кластериза-?зи, можно осуществить способом, основаниям на оценке степени сред-1ей изолированности (обособленности) груш вирусов на каждом этапе группирования. Изолированность отдельной.группы - это расстояние ' >т области, занимаемой этой группой, до ближайшего, не принадлежа-цего группе вируса. Выявлено, что на определенных этапах группиро-зания средняя для всех груш величина обособленности достигает своего максимального значения. Так как на этих этапах заканчивается формирование груш, соответствующих семействам, то величину сред-ieñ изолированности можно использовать как критерий ранга и при дестижении ее максимума считать, что образовались группы'опреде-№нного ранга.

Разработка методики числовой классификации неклассифицированных вирусов Метод нумерической таксономии оценивает сходство и различие

вирусов по большому числу признаков, и это затрудняет его практическое применение. Была поставлена задача определить, можно ли классифицировать вирусы этим методом, но по меньшему числу призна • ков. С этой целью определяли избыточность в описании вирусов анализируемого массива, для чего из матрицы описывающих вирус даншд исключали часть:признаков, оценивали сходство вирусов по меньше^ числу оставшихся признаков и методом кластерного анализа проводила группирование в пространстве меньшей размерности. Структуру пс лученного группирования сравнивали с исходной структурой, формирз вдейся при использовании 64 параметров. Серия экспериментов по исключению из массива данных части параметров показала определенную избыточность исходного набора признаков, однако как метод совращения необходимого для классификации количества признаков подобный подход не оптимален. Математические методы обработки данных позволяет сохранить полезную информации, заключенную в исходном массиве, путем конструирования факторов, которые являются прс взводными от исходных признаков.

Выбор факторов классификации осуществляли различными способами: методом линейной комбинации параметров, методом главных ко! понент, методом центроидов. Наиболее приемлемым, однако, был при: ная алгоритм совращения признаков, в основе которого лежит выбор взвешенных параметров - метод многомерного масштабирования. Этот алгоритм включает, во-первых, выбор комбинации нескольких параые' ров, и, во-вторых, выбор весов (коэффициентов) этих параметров. Параметры выбирали путей перебора их комбинаций, а подбор весов осуществляли так, чтобы была минимальными искажения во взаимных расстояниях между таассифициууешшг вирусам, после дерехода от исходного к новому пространству. Бюш -дроанализированы вое лары параметров с различными коэффициентами, а также тройки параметро: и выбраны наборы классифицирующих взвешенных параметров дан разлз ных груш Н1фусов: ДШ£-содБркадих, РНК-содеряащих, и для отдельк групп ЫРЗК-садеравдих я (-)РНК-содержадах виру сое. В табл.1 пр ставлены лары параметров , пригодные для классификации (+ )РНК-сод жащих вирусов.

Для проверки работнсконструироваяного алгоритма определяли таксономическую цринадлежность контрольных, не вошедших в основной массив вирусов: вирусы С дрозофилы, относимого МКЕВ к сем. Р1соглау1г1с1ав , вируса морского льва Сан-Мигель, относимого к ее

Таблица 1.

Параметры Содержание НК в вирионе Кол-во структурн. полипепт. Коэффиц. седимент. вириона НА-активность вириона Хозяин -беспозвоночные

Молекулярная масса НК О ошибок 0 ошибок О ошибок О ошибок

Содержание НК в вирионе 1 ошибка 1 ошибка

Содержание А в вирионе 1 ошибка

Козфф.седиментации НК 1 ошибка О ошибок

Примечание: цифрами 1 или 0 отмечена пари параметров,при использовании которых для образования факторов классификация вирусов содержит одну ошибку или безошибочна.

_ Рис.4. Взаимное расположение групп Еирусов. для каждой группы Еирусов указаны две наиболее близкие по свойствам группы, отметенные исходящими стрелками. Числа у стрелок означают расстояние медцу группами в условных единицах.

Са1хсЗлг1г1&ае, и вируса ■пожелтения жилок осота, относимого к сем. ЕЬ.аьаот±г1аав. При этом оказалось, что даже при использовании тош ко трех взвешенных параметров с помощью разработанного алгоритма классификации контрольные вирусы бшш классифицированы правильно. Это дает основание положительно оценить пригодность предлагаемого метода для классификации вирусов. Практически для любых комбинаций небольшого числа информативных параметров можно подобрать соответствующие веса так, чтобы группирование вирусов в пространстве полученных факторов возможно менее отличалось от группирования в исходном пространстве большого числа признаков. Таким образом, при классификации вновь выделенных вирусов можно планировать изучение тех характеристик, которые доступны для определения в данных условиях эксперимента.

Разработка подходов к выявлению эволюционных связей между вирусами ' Оценка сходства вирусов по большому числу признакоз была полонена е основу анализа возможных путей эволюции, так как естественно предположить, что при эволюции вирусов у ближайших родственников сохраняются основные признаки, и вирусы-предшественники и их потомки обладают определенным сходством описывающих их характеристик. Филогенетическая интерпретация интегрального сходства, по-видимому, оправдана именно для Еирусов вследствии сравнительно небольшого объема генома, что позволяет относительно легко проследить связь между информационной программой и результата!® ее реализации, и поэтому анализ степени различия вирусоЕ по совокупности признаков был полонен в основу изучения возможных эволюционных связей-меаду вирусами. Для каждой группы Еирусов была определена степень ее отличия по комплексу признаков от остальных групп и выявлены самые близкие, которые можно рассматривать в качестве потенциальных предшественников и возможных потомков. На рас.4 представлен граф , отражающий взаимное расположение вирусов в пространстве признаков, причем указаны только-два ближайших соседа. Любая группа вирусов может- и сама являться ближайшим соседом для любого числа груш. Некоторые группы занимают центральное положение, т.е. являются ближайшими соседями для большого числа групп. Это, например, группы пикорнаэирусов и аренавирусов, которые являются ближайшими соседями для пяти и для шести груш соответственно . Некоторые группы занимают периферическое положение, т.е. не

+рд ; _„±д 4

ч__+р \__т

+р 4

. +Л'

±д -л*

• .О'

□з»

-д" ±рд __-¿г ±д »

/ {

« 1 ыг л *

} | -Л ±Д" ^__✓

-, +Д \ '\.'г'~+д

/ \ л иг 4 ^

+р ±рд' „_,,+р -л1 +-д -л' ___+Л ±д'

I 1 ■ !

>ис.5.Часть системы СПГИ, отображавшая СПГИ анализируемых -рупп вирусов и возможные пути их преобразования. Матрицы ]ри транскрипции отменены штрихом ( Р', Л').СПГИ анализи-эуемых групп вирусов указаны номерами.

являются нн для одной группы ближайшими соседями. На основе анак за взаимного расположения групп вирусов было выделено несколько направлений, расхождения вирусов по свойствам и построена предположительная схема возможных направлений эволюции вирусов.

Реализован и другой подход к выявлению потенциально возможных путей эволюции Еирусов, основанный на анализе системы.способов передачи генетической информации - СИГИ - у вирусов. Объедин нне отдельных СПГИ в систему осуществляется с помощью набора пра вил, по которым из одних СПИ получаются'другие. На рис.5 показа часть системы СПГИ и цифрами обозначены те СПГИ, которые реализо ваны у анализируемых в работе вирусов.

Анализ подобной системы позволяет еыявить "близкородственны способы передачи генетической информации, которые могут легко трансформироваться друг в друга. Вирусы, которые реализуют эти способы передачи информации, можно считать с определенной долей вероятности эволюционными родственниками. Система определяет потенциальную возможность эволюционного родства групп вирусов и дает только общую картину взаимосвязи СПГИ, выявляя степень их отличия друг от друга по количеству шагов, которые необходимо сделать для перехода от одного СПГИ к другому. Подобный анализ лег в основу предположительной модели эволюции СПШ, которую моя но интерпретировать и как модель эволюции тех вирусов, у которых данные СПГИ реализованы.

Был проведен также числовой анализ сходства групп вирусов, обладающих определенным типом СПШ, по комплексу признаков. Для каздой группы вирусов, имеющей один тип СПШ, было выявлено по л наиболее близких по свойствам группы и построена модель предполс кительной эволюции групп вирусов. Сравнение модели эволюции виру сое, полученной на основе анализа сходства групп вирусов по совс кутшости их свойств, с моделью, построенной-на основе системы СЛШ, позволяет сделать вывод об однозначности полученных резул* татов по реконструкций возможных эволюционных связей мезду группами вирусов.

Таким образом, в рамках нумерической таксономии на основе единбго методического подходе, решен комплекс задач сравнительно? вирусологии, являющихся.составной частью задачи создания объект! ной иерархической система классификации вирусов с филогенетической основой.

швода

1. Предложен формализованный метод определения таксономического ранга груш вирусов, основанный на анализе интегральных количественных характеристик этих групп.

2. Предложено два критерия для определения таксономического ранга групп вирусов, основанных на величине предельного различия соседних вирусов в таксонах одного ранга и на величине предельного отличия вирусов от "стандартного" вируса данного таксона. Определены числовые константы критериев для выделения таксонов ранга "семейство".

3. Разработаны методы формирования груш вирусов одинакового ранга, включайте формирование групп итеративными алгоритмами кластерного анализа и определение статуса таксонов в соответствии с предложенными критериями ранга.

4. Проведена оценка таксономического статуса различных групп вирусов в соответствии с разработанными критериями ранга и показано, что статус большинства групп вирусов, предложенных МКТВ в качестве семейств, в том числе калици-, шкорна-, нода-, бирна-, :рлави- и филовирусов, соответствует категории семейства. Вштлена целесообразность изменения состава некоторых семейств: показано, что вирус Эпштейна-Барр и вирус псевдобешенства, принадлежащие к сем.Нерревт1г1йае, а также вирус-краснухи и вирус ЛДГ мышей, относящиеся к сем.тогау1г1с1ае, могут быть представителями отдельных таксонов с рангом выше рода.

5. Сконструирован эффективный и удобный для практического применения алгоритм классификации новых и неклассифицированных вирусов.

6. В рамках нумерической таксономии предложена филогенетическая интерпретация классификационной структуры на основе сравнительного анализа сходства (различия) вирусов и груш вирусоЕ по* большому числу характеристик.

7. Предложен способ оценки возможных путей эволюции Еирусов, основанный на анализе сконструированной системы способов передачи генетической информации.

Список табот. опубликованных по теме диссертанта

1. Классификация вирусов при помощи вычислительных машин./ Воцр.внрусол. ,1982,.53, стр.274-270. (соавт.: Агеева О.Н., Анджапаридзе 'О.Г. , Кибардин В.М., Плетенева Е.А. ).

2. Методические подходы к сокращению количества признаков для числовой классификации вирусов. /Вопр.вирусол., 1982,'186,

стр.727-731. (соавт.: Агеева О.Н., Анджапаридзе О.Г., Кнбардин В.М. Плетенева Е.А.).

3. Сравнительное изучение вирусов животных и построение модели их эволюционных связей./Вопр.вирусол. ,1983,JS6, стр.728-733.(соавт.: Агеева О.Н., Анджапаридзе О.Г., Кибардин В.М., Плетенева Е.А

4. Числовая таксономия вирусов./ "Применение математических методов и ЭЦВМ е медико-биологических исследованиях". Тезисы Все-союзн.симпозиума,14.12-15.12,1982,Ленинград, (соавт.: Агеега О.Н., Кибардин В.М.).■

5.. Моделирование в вирусологии./ДАН СССР, 1984,т.274,.'®, стр. I2I4-I2I7. (соавт.: Агеева О.Н., Анджапаридзе O.E., Кибардин В.М., Плетенева Е.А.).

6. Числовая классификация вирусов внутри семейств./Вопр.вирусол.1984,1®,стр.736-740. (соазт.: Агеева О.Н., Анджапаридзе О.Г. Кибардин В.М., Плетенева Е.А.).

7. Построение алгоритма числовой классификации вирусов./Вопр. вирусол.,1985,Jä,стр.68-71. (соазт.: Агеева О.Н., Анджапаридзе О.Г Кибардин В.М., Плетенева Е.А.).

8. Анализ вирусологических данных, построение моделей и их интерпретация./В мат.Всесоюзн. семинара "Математич.обеспечение

и программно-технические средства для моделирования развивающихся систем", Славское, 12.03-17.03 1986, стр.93-98. (соавт.: Агеева О.Н., Кибардин В.М.).

9. Применение ЭВМ для обработки и анализа вирусологических данных./"Перспективные направления развития информатики и компьютерной техники в здравоохранении и медицине". Тезисы Всесоюзн. конференции,25.11-26.II,1986, Москва,

10. Проблема Еыбора таксономического ранга при классификации вирусов. /Вопр.вирусол.,1990. (соавт.: Кибардин В.М.).

/1- i2dOQ ¿Т 2i.06.SDr.

Зак. ЦЦп-) Тар.¿QQ Тнп. Мнн-ва культуры СССР