Бесплатный автореферат и диссертация по биологии на тему
Новые методы восстановления и анализа эволюционных событий при филогенетическом анализе
ВАК РФ 03.00.15, Генетика

Автореферат диссертации по теме "Новые методы восстановления и анализа эволюционных событий при филогенетическом анализе"

На правах рукописи УДК 575.1:575.8

МОРОЗОВ ПАВЕЛ СЕРГЕЕВИЧ

Новые методы восстановления и анализа эволюционных событий при филогенетическом анализе.

Генетика - 03.00.15

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата биологических наук

Новосибирск 2000

Работа выполнена в секторе молекулярной эволюции Института цитологии и генетики СО РАН, г. Новосибирск.

Научные руководители: ^ндидат биологических наук

Матушкин Ю. Г.

Институт цитологии и генетики СО РАН, г.Новосибирск кандидат биологических наук Ржецкий А. Ю.

Колумбийский университет, г.Нью-Йорк

Официальные оппоненты: доктор биологических наук, профессор

Ратнер В.А.

Институт цитологии и генетики СО РАН, г.Новосибирск

кандидат биологических наук Бажан С.И.

Государственный исследовательский центр вирусологии и биотехнологии "Вектор", г.Новосибирск

Ведущее учреждение: Томский государственный

университет г. Томск

Зашита состоится « С» ^^u^Spiil000г. на утреннем заседании диссертационного совета по защите диссертаций на соискание ученой степени доктора наук (Д - 002.11.01) в Институте цитологии и генетики СО РАН по адресу:

630090, Новосибирск, пр. Лаврентьева 10, fax 8-3832-33-12-78, e-mail: dissov@bionet.nsc.ru

С диссертацией можно ознакомиться в библиотеке Института цитологии и генетики СО РАН.

Автореферат разослан «1Я » fp^' 2000 г.

Ученый секретарь диссертационного сопета доктор биологических наук А.Д.Груздев

ЕОШ О

Введение.

Развернувшееся в последние десятилетия массовое секвенсирование последовательностей ДНК дает в руки исследователя уникальный материал для исследования структуры, функции и эволюции генетического материала живых организмов. Методы сравнения последовательностей с целью установления степени родства и законов их изменения по традиции называют филогенетическим анализом.

Общую схему филогенетического анализа, сложившуюся в настоящее время, можно условно разделить на несколько последовательных этапов: сравнение последовательностей и поиск гомологичных участков; оптимальное выравнивание последовательностей; построение эволюционного дерева; восстановление и статистический анализ эволюционных событий, реконструируемых для полученного дерева. Именно исследование эволюционных событий представляет наибольший интерес с точки зрения выявления закономерностей эволюции и соотнесения эволюционных процессов со структурой и функцией генов и белков. К выявляемым на основе анализа набора последовательностей и уже построенного филогенетического дерева эволюционным событиям относятся: типы и характер произошедших замен; распределение замен, делеций и вставок по отдельным участкам филогенетического дерева; распределение замен, делеций и вставок по длине последовательности; а также анализ связности произошедших событий.

Данная диссертация посвящена четвертому этапу приведенной выше схемы филогенетического анализа - восстановлению и статистическому анализу реконструированных эволюционных событий - и включает в себя описание разработанных автором новых методов восстановления и анализа эволюционных событий для данной топологии дерева, их программной реализации и применения к конкретным биологическим данным.

Целью диссертационной работы была разработка двух новых методов анализа:

1. Метода достоверной оценки неравномерности темпов замен по позициям вдоль выравненного набора последовательностей при данном филогенетическом дереве;

2. Метода, восстановления мутационных событий (мутационных спектров), с оценкой достоверности, как в совокупности, для набора последовательностей, так и по отдельным их позициям и участкам заранее известного филогенетического дерева.

Также, целью работы ставилось применение и тестирование разработанных методов на реальных биологических данных. Научная новизна днссеитациониой работы. При разработке метода оценки профиля вариабельности относительных темпов замен впервые в филогенетическом анализе применялись новейшие математические подходы: вэйвлет-разложение и Марковские цепи со случайным выбором параметров.

Разработка новых методов и их применение к реальным биологическим данным стало возможно благодаря комплексному использованию достижений математической теории вероятностей, вычислительной математики,

филогенетической теории и использованию современных программных и вычислительных средств.

Разработанные подходы и методы применены к реальным биологическим данным. Производилось сравнение с уже существующими методам». Результаты анализа реальных данных сопоставлялись с известными результатами исследований той же тематики.

Практическая н научная ценность результатов диссертационной работы.

Разработанные методы анализа позволяют улучшить качество филогенетических исследований и впервые производить оценки достоверности получаемых результатов при анализе эволюционных событий.

Результаты анализа реальных данных представляют собой более качественные оценки параметров эволюционного процесса для соответствующих генов и белков, а также оценки достоверности результатов, полученных в данной работе и в работах других исследователей, что важно при исследовании закономерностей эволюционного процесса.

Анализ генов и белков, ответственных за генетические заболевания человека, позволяет выявить структурную и генетическую предрасположенность отдельных участков гена и/или белка к вредным изменениям, что, в свою очередь, важно для разработки методов профилактики, диагноза и лечения соответствующих заболеваний.

Структура диссертационной работы. Диссертация состоит из введения, 5-ти глав, заключения, выводов, списка литературы и приложения.

В первой главе диссертации проводится краткий обзор существующих методов филогенетического анализа и особое внимание уделено методам, осуществляющим восстановление и анализ эволюционных событий для данного дерева.

Во второй главе представлен новый подход к восстановлению и статистической оценке профиля темпов относительных замен вдоль выравненных последовательностей на основе Фурье- и вэйвлет-разложений. При оценке доверительных интервалов использовался подход, основанный на Марковских цепях, в сочетании со случайным изменением параметров (Марковские цепи Монте Карло, МЦМК). Рассматривается программная реализация разработанных в рамках предложенного подхода методов.

В третьей главе рассматривается приложение разработанных методов к анализу белков человеческого иммуноглобулина и акогольдегидрогеназы дрозофилид.

В четвертой главе диссертации представлен новый метод восстановления мутационных спектров и его программная реализация.

В пятой главе представлены результаты применения разработанного метода восстановления мутационного спектра к следующим генам: опухолевому супрессору Р53; прионам, ответственным за губчатую энцефалию; семейству цитохромов Р450.

В заключении приведена общая характеристика работы и основные выводы по результатам диссертационной работы.

В приложении приведены выравнивания аминокислотных и нуклеотидных последовательностей, использованных в данной работе.

На защиту выносятся;

1. Новый подход к восстановлению и анализу относительных темпов нуклеотидных и аминокислотных замен вдоль выравнивания последовательностей с применением Фурье-разложения, вэйвлет-разложения и Марковских цепей в сочетании со случайным выбором параметров; методы, разработанные в рамках предложенного подхода; их программная реализация.

2. Результаты применения разработанных методов к реальным биологическим данным: иммуноглобулинам человека и генам алкогольдещцрогеназы дрозофилид.

3. Новый метод восстановления мутацимшых спектров белков и его программная реализация.

4. Результаты применения метода к реальным биологическим данным: последовательностям генов Р53, прионов и семейства цитохромов Р450.

Глава 1. Общая схема филогенетического анализа.

Набор выравненных нуклеотидных или аминокислотных последовательностей может быть использован для восстановления (построения) филогенетического дерева. Филогенетическое дерево — это, как правило, бинарный граф, отражающий гипотетическую картину дивергенции последовательностей (рис. 1).

Наиболее теоретически обоснованным методом восстановления филогенетического дерева является метод максимального правдоподобия. Суть метода состоит в поиске дерева, отвечающего максимальному значению функции правдоподобия. Функция правдоподобия L, по определению, является вероятностью получить имеющиеся данные при определенных параметрах модели и запишется как Prob{S | Т, 0}, где 0 - набор значений параметров модели (Felsenstein 1981). Вероятность получить наблюдаемые состояния в 1-й позиции выравнивания при наборе значений параметров 0; = {Q, tu, t^, ..., te/} и дерева Т (рис. 1) равна:

20 20 20

где щ- частотау-й аминокислоты в корне дерева; sih аминокислоты в i-й

позиции реальных последовательностей 1,2, 3 и 4; jj, j2 и }з - аминокислоты в /'-й гомологичной позиции нам предковых последовательностей; tß - длина у-го ребра в /'-й позиции выравнивания. Л/О - у-й элемент матрицы переходных вероятностей между аминокислотами. Как правило, вместо значения функции правдоподобия, которое обычно весьма мало, используют ее логарифм - logL.

Рисунок 1. Гипотетическое дерево для четырех последовательностей. Черные вершины с прте-жащими ребрами соответствуют наблюдаемым (современным) аминокислотам (sj„ Sj„ и s4) в i-ü позиции выравнивания в I, 2, 3, и 4 последовательностях, соответственно. Белые вершины соответствуют аминокислотам (jh j2. и js) в i-ù позиции неизвестных предковых последовательностей. Ожидаемая длина j-го ребра в i-й позиции обозначена через tJf Поиск максимума функции правдоподобия состоит в нахождении значений параметров, максимизирующих значение L. Данная процедура (оптимизация максимального правдоподобия, или МП оптимизация), требует численных методов решения, поскольку общее аналитическое решение данной задачи до сих пор не найдено. Метод максимального правдоподобия дает наиболее достоверные топологии деревьев, но требует значительных вычислительных затрат.

Другим современным методом филогенетического анализа является разработанный Фельзенштейном и Черчиллем метод восстановления филогенетического дерева на основе Марковских цепей со случайным выбором параметров (Марковские цепи Монте Карло - MIJMK)(Felsenstein and Churchill, 1996). При этом используются свойства МЦМК-анализа давать оценки апостериорной вероятности параметров, в данном случае топологии дерева, при надлежащим образом организованной процедуре перебора вариантов деревьев в пространстве всех возможных деревьев. Метод обладает значительной вычислительной емкостью, но, при этом, имеет фиксированное время счета, в отличие от остальных алгоритмов и позволяет получить оценки достоверности не только построенного дерева, но и близких к нему вариантов. Методы оценки параметров эволюционного процесса при построенном дереве. Многие исследования показали наличие неравномерности темпов замен по отдельным позициям нуклеотидных и аминокислотных последовательностей. Показано, что неверно оцененные темпы замен могут привести к серьезным ошибкам при филогенетическом исследовании (Yang et al. 1994; Adachi and Hasegawa 1995; Kuhner and Felsenstein 1994).

Данная неравномерность может быть учтена следующим образом. Набор длин ребер для /-й позиции для дерева с к ребрами, {//,, ta,..., /&}, может быть записан, как ch t2 с„ ..., tk ci), где {tj, t2,..., /*} - набор усредненных ожидаемых длин ребер по всей длине, и с, - положительная константа, определяющая относительный темп замен для /-й позиции. Возможно введение 1-1 независимых параметров для относительных темпов замен Су, с2, ..., С/.; (параметр для /-го равен l-cr...-ci.i), такую модель называют полной.

Возможности вычислительной техники до недавнего времени не позволяли работать с многопараметрическими моделями. Один из наиболее популярных методов уменьшения числа параметров состоит в полагании Cj независимыми и идентично распределегагыми случайными значениями в соответствии с гамма-распределением со средним значением 1 (Golding 1983; Jin

and Nei 1990; Yang 1993). Этот подход реализован в пакете прикладных программ PAML (Yang 1998).

Мутационные события в процессе филогенеза. Для изучения эволюционной истории белка (гена) и законов его эволюции необходимо восстановление аминокислотных (нуклеотидных) замен в ходе эволюционной истории. Как правило, при этом говорят о восстановлении предковых последовательностей. В 60-х -70 - х годах были разработаны методы восстановления предковых последовательностей (до недавнего времени единственные) на основе принципа максимальной экономии (Fitch 1971), и. Лишь в последние несколько лег начали появляться модификации старых методов (Maddison and Maddison 1992; Swofford 1993) и разработки новых методов, основанных на оценке максимального правдоподобия (Yang 1995, 1998).

Методы максимальной экономии чуствительны к неравномерности длин ребер и обратным заменам, хорошо работают лишь для близких последовательностей.

Метод, основанный на принципе максимального правдоподобия, предложен Янгом (Yang et al. 1995 ) (пакет программ филогенетического анализа PAML (Yang 1998). Как и при построении дерева, функция правдоподобия является вероятностью получить имеющиеся данные при определенных параметрах модели и задача сводится к поиску наборов состояний внутренних вершин дерева, максимизирующих функцию правдоподобия. Заключение к главе 1. В настоящее время имеется богатый арсенал методов восстановления филогенетических деревьев. При этом разработано значительно меньшее 'гасло методов для анализа неравномерности темпов замен и анализа мутационных событий в ходе эволюции исследуемых последовательностей генов и белков.

При анализе неравномерностей темпов замен все существующие методы привносят извне дополнительную гипотезу о форме их распределения, что приводит к смещению получаемых оценок. Ни один из существующих методов не позволяет производить статистическую оценку полученного профиля относительных темпов замен, и, соответственно, тестирование статистических гипотез разного рода невозможно.

Все методы восстановления предковых замен выдают консенсусные последовательности, соответствующие внутренним вершинам дерева, при этом снижается разрешающая способность метода. Лишь метод Янга позволяет учесть вероятностный характер восстановления предковых последовательностей, но в существующей реализиции возможна оценка вероятностей лишь по позициям последовательности.

Ни один из методов не позволяет произвести оценку достоверности восстановленных последовательностей для отдельных участков филогенетического дерева. Существующие методы не использует дополнительной биологической информации для повышения точности восстановления предковых последовательностей.

Все вышесказанное определяет необходимость разработки новых методов анализа как для оценки неравномерностей темпов замен по длине последовательностей и филогенетическому дереву, так и для восстановления

спектра эволюционных событий, произошедших в ходе эволюции последовательностей генов и белков.

Глава 2. Анализ профиля относительных темпов замен вдоль выравненного набора последовательностей. Вариации темпов замен по отдельным позициям последовательностей.

Целью данной части работы было создание адекватного подхода к описанию неравномерности относительных темпов замен по позициям последовательности. При этом стояла задача разработать ряд моделей с различным числом параметров, описывающих данный феномен с разной степенью точности и обладающих хоть и большой, но приемлемой вычислительной сложностью. Модели должны вносить минимальные искажения в описываемый профиль относительных темпов замен.

Популярность моделей с малым числом параметров определяется, в основном, вычислительной сложностью задачи, при этом приносится в жертву качество получаемых оценок. Нам удалось показать на реальных наборах данных, что современные вычислительные мощности позволяют уже сейчас перейти к многопараметрическим моделям, получая при этом много более качественные оценки параметров. Прогресс в области вычислительной техники обеспечивает преимущество параметрически богатых моделей. Аналогичная ситуация имела место в молекулярной филогении при переходе от матричных методов построения деревьев к методам, основанным на максимальном правдоподобии в 1990-1995 годах (Nei 1999; Yang 1995).

Фурье- и вэйвлет-модели описания неравномерности относительных темпов замен по позициям выравненного набора последовательностей. В

предлагаемом подходе с, определяется как функцию от номера позиции i и набора параметров {aj,a2, ак} так, что с, =/(/; Д;, а2,..., ак), где

и j)}j~i,k ~ некая базовая функция. Нормировка обеспечивает среднее значение 1 для/(/; а,, а2,..., а*) по всем значениям / = {1, 2,..., /}.

Линейная комбинация базовых функций {у(', обеспечивает точную

аппроксимацию любого профиля относительных темпов замен при k=l-1. При удалении базовых функций с относительно малыми значениями может быть получена менее точная аппроксимация, но при значимо метшем числе параметров. Число параметров не фиксированно и может быть выбрано индивидуально для каждого набора данных. Так как профиль относительных темпов замен не известен a priori, Д<; а¡, а 2, ..., а к) не может быть получена прямым образом, а должна оцениваться па основе методов максимального правдоподобия.

Фурье-модель получается при определении y/(i, J) в выражении, как у/(г, f) = cos(i (flj /Т / l) (см. рис 2.1), где {(pj }j,iji является набором к различных целых чисел от 1 до /-1:

f(i,aua2

В соответствии с определением разложения Фурье, любая дискретная функция, определенная на конечном отрезке, может быть точно представлена конечным рядом Фурье.

Вариант модели, основанный на вэйвлет-функциях, получается при определении у/(/, j) как одной из вэйвлет-функций. В нашей работе мы использовали Хаар-вэйвлет, названный в честь венгерского математика Альфреда Хаара (1885-1933), а также вэйвлет-функции, разработанные Ингрид Даубечи (Daubechies 1992).

Одиночный вэйвлет - это вещественная функция, принимающая ненулевые значения только в пределах некоторого непрерывного интервала и имеющая равные площади над и под осью X. Задачей дискретного вэйвлет-преобразования является представление (и/или аппроксимация) некой функции в виде набора / дискретных значений, где число / является степенью двойки (если / не является степенью двойки, выбирается ближайшая по значению степень двойки).

Базисные функции при использовании вэйвлет-функции Хаара образуются путем сдвига и масштабирования одной и той же ступенчатой функции. Первый шаг разложения профиля на составляющие его функции отличается от остальных -используется не сам вэйвлет, называемый при этом «материнский вэйвлет» <р (х), а дополнительная к нему функция, называемая «отцовский вэйвлет» -<р/(х):

¡0,х < 0, [0,*<0,

<pf{x) = \ 1, г с [0,1], -!,*<= [0,0.5),

[0,х > 1; 11, х с (0.5,1],

0,х>1;

Коэффициент вэйвлет-разложения at для <pf(x) является средним значением профиля по всей длине. В нашем случае а/= 1, так как речь идет об относительных темпах замен. Все остальные коэффициенты относятся к «материнскому вэйвлету» - <р О), первый из которых покрывает всю длину интервала [1,/], два следующих покрывают интервалы [1,//2] и [1/2+1, /], соответственно; каждый из следующих четырех отвечает за один из интервалов: [1,//4], [//4+1,1/2], [//2+1,3//4], и [3//4+1, /], и так далее до момента, когда число функций станет равно 1/2 и каждая функция будет отвечать лишь за две соседние позиции дискретного профиля.

При использования вэйвлет-разложения, в отличие от остальных методов, удаление наименьших значений at приводит к ситуации, когда одни участки (как правило, с более сложной структурой) описаны более подробно в отличие от остальных. Данная особенность позволяет сохранять большее количество информации при аналогичном числе параметров по сравнению с другими методами. В биологии с недавнего времени начато много работ по применению вэйвлетов для поиска функциональных участков и выявления закономерностей в биологических последовательностях (Hirakawa et al. 1999; Ameodo et al. 1998; Altai ski et al. 1996).

Сравнивая Фурье- и вэйвлет-варианты модели, естественно предположить, что Фурье-модель лучше описывает наборы данных с выраженной периодичностью, а вэйвлет-модель более уместна в случае апериодичных данных.

Обе модели определяют громадное пространство моделей и соответствующих вариантов профилей темпов замен. Это пространство определяется числом параметров и набором выбранных функций (гармоник для Фурье-модели). Для сравнения конкурирующих моделей использовался информационный критерий Акаике (Acaike 1974): AIC,=21ogL,-2jV/, где Mt -количество параметров в i-й модели и L( - максимальная величина правдоподобия, полученная при этой модели. Также использовался Байесовский Информационный Критерий (Schwarz 1978): BIC; =21og£; -N,\og(n), где п - объем выборки.

Для вычисления доверительных интервалов для оценок относительных темпов замен использовался метод Марковских цепей Монте Карло. При этом использовалось свойство МЦМК - анализа давать оценки апостериорной вероятности значений параметров при надлежащим образом организованной процедуре перебора параметров.

Компьютерная реализация. Программы написаны на языке С (ANSI стандарт), программы для Фурье-оптимизации реализованы так же на языке MatLab (Math Works Inc.).

Заключение к главе 2. Впервые разработаны модели описания неравномерности относительных темпов замен по позициям последовательности на основе разложения Фурье и вэйвлет-разложения. Модели описывают неравномерность темпов эволюции по отдельным позициям последовательности как функцию от темпа изменения каждой индивидуальной позиции. Число параметров не является фиксированной величиной и может быть выбрано индивидуально для каждого набора данных, начиная с одного параметра и до числа параметров, равного длине последовательности минус один. При расчете доверительных интервалов впервые приметается метод Марковских цепей Монте Карло, дающий апостериорные оценки распределений значений параметров модели.

Создагапле модели обладают приемлемой вычислительной сложностью и не вносят искажений в профиль темпов замен при полном числе параметров. Искажения малы при среднем числе параметров и приемлемы при малом числе параметров.

Глава 3. Применение Фурье/вэйвлет-методов к анализу реальных генетических макромолекул.

Целью данного раздела работы была проверка состоятельности разработанного подхода в применении к реальным данным, оценка приемлемости подхода с точки зрения вычислительных затрат при различных базовых функциях и разном числе параметров, сравнение предлагаемых моделей с альтернативной гамма-моделью. Биологически значимой целью была проверка гипотез о неравномерности темпов мутирования исследуемых генов и белков и о наличии достоверных различий между двумя генами одного семейства, в случае

человеческих иммуноглобулинов, и наличии достоверных различий между генами из различных популяций, в случае алкогольдегидрогеназы дрозофилид.

Как в случае Фурье-модели, так и в случае вэйвлет-модели, производились следующие операции. Построение филогенетического дерева осуществлялось по методу объединения соседей (Saitou and Nei 1987), при расчете дистанционных матриц использовалась Пуассоновская модель замещения аминокислот (Zuckerkandl and Pauling 1965). Длины ребер рассматривались как параметры и оценивались вместе с другими параметрами в ходе МП оптимизации. Исходя из дерева и предположения о равных темпах замен, рассчитывался профиль реальных замен и осуществлялось Фурье- или вэйвлет-разложение с максимальным числом параметров. Далее коэффициенты разложения упорядочивались по убыванию абсолютного значения и осуществлялась МП оптимизация серии моделей, начиная с модели с одним параметром и заканчивая моделью с полным числом параметров.

Вычислительных затруднений при численной оптимизации моделей вплоть до максимального числа параметров не наблюдалось. Профили темпов относительных замен в случае полной модели совпадали с точностью до ошибки оптимизации для моделей, основанных на различных вэйвлет-функциях и для Фурье-модели.

95% "доверительные интервалы" для темпов относительных замен были рассчитаны на основе 10000 МЦМК - итераций. Как и ожидалось, форма апостериорного распределения значений относительных темпов замен значимо отличалась от нормального. Этим объясняется несимметричность доверительных интервалов на рис. 2 и 3.

Анализ вариабельных районов человеческих иммуноглобулинов. Анализировались два набора аминокислотных последовательностей вариабельных участков легких цепей иммуноглобулина человека: VK (Schable and Zachau 1993) и Vj. (Williams et al. 1996).

Профиль относительных темпов замен для VK приведен на рис. 2. Участки с повышенными темпами замен, совпали с гипервариабельными участками, которые являются участками взаимодействия антиген-антитело.

Рисунок 2. Относительные темпы замен (рассчитанные по методу максимального правдоподобия) и 95% доверительные интервалы, рассчитанные из апостериорного распределения вероятности (МЦМК симуляции) для набора при полной модели. Показаны гипервари-абельиые, районы(СОШ, СШ2 и СОЮ).

апостери-

Рисунок 3. Сравнение 95% доверительных интервачов для наборов IgVK и IgVi.

; ! i л i

f

Позиция белка

Нулевая гипотеза о постоянстве относительных темпов замен отвергается для обоих наборов (р < 0.05), т.к. в ряде позиции доверительный интервал оказывается лежащим выше 1. В то же время, наборы двух IgV не отличаются друг от друга (рис. 3). Например, участок между CDR2 и CDR3 (FR3) слегка более вариабелен в V-,. наборе, нежели в V* , однако различия недостоверны.

Начальные значения logL составили: (-885.06) и (-896.67) для VK и V). , соответственно, и после завершения МП оптимизации для полной модели: (794.14) и (-804.33), соответственно. Различия в значениях функции максимального правдоподобия до и после оптимизации составили более чем 109. При анализе этих же данных пакетом PAML (гамма-модель) (Yang 1998) значения logL составили

(-873.73) и (-885.13), соответственно. Окончательные значениях функции максимального правдоподобия при предложенной модели оказались на 80 порядков больше, чем при гамма-модели. Согласно методу максимального правдоподобия, предложенная модель описывает данные много лучше альтернативной.

Анализ алкогольдегидрогеназы семейства Drosophila. Ген алкогольдегидро-геназы (АДГ) является одной из популярных моделей в молекулярной и популяционной эволюционной биологии (Sullivan et al. 1990). В данной работе мы осуществили анализ и сравнение профилей темпов относительных замен для белка АДГ трех монофилетических кластеров видов семейства Drosophila: melanogaster, repleta и hawaiian.

В группах repleta и hawaiian обнаруживается достоверная гетерогенность относительных темпов замен. Несмотря на различный генетический и популяционно-генетичес-кий контекст, в котором эволюционируют гены АДГ у разных видов, статистически значимых различий в профилях темпов замен в данном гене для трех групп дрозофилид нет.

Заключение к главе 3. Применение разработанных моделей к реальным данным продемонстрировало состоятельность разработанного подхода, а также приемлемость вычислительных затрат даже в случае полной модели. В соответствии с информационным критерием Акаикс и с тестом отношения максимальных правдоподобий, при применении к реальным данным, новый метод оказался достоверно лучше гамма-модели.

*

Глава 4. Метод восстановления мутационных спектров и его програмная реализация.

Мутационный спектр - есть список мутаций всех типов, как нуклеотидных, так и с аминокислотных, с указанием их частот для каждой позиции выравненного набора последовательностей и, при возможности, по отдельным ребрам филогенетического дерева.

Можно выделить различные типы мутационных спектров:

1. спектр спонтанно возникающих мутаций, который можно оценить на основе анализа псевдогенов или прямыми экспериментальными процедурами;

2. спектр еще не фиксировавшихся мутаций, представляющих собой составную часть полиморфизма популяции по исследуемому локусу;

3. филогенетически восстановленный спектр мутаций, фиксировавшихся на разных стадиях дивергенции последовательностей, проверенный отбором, который мы можем получить, анализируя реальные гены;

4. спектр соматических мутаций, выявляемый экспериментально.

Данный раздел работы посвящен восстановлению мутационных спектров, полученных при реконструкции эволюционных событий с использованием филогенетического дерева. Далее восстановленные спектры сравнивались с другими видами спектров по приведенной выше классификации. Особенности предлагаемого метода восстановления мутационных спектров. Выявление мутационного спектра отличается от восстановления предковых последовательностей тем, что восстанавливается не единственная последовательность и не своеобразный консенсус, а все возможные варианты распределений замен по дереву, удовлетворяющие заданным условиям. При этом удается избежать неоднозначности консенсусных вариантов восстановления предковых последовательностей (см. табл. 1). Также становится возможной статистическая обработка вариантов распределений, как по отдельным позициям, так и по отдельным участкам дерева.

Разрешенные в данной позиции аминокислоты и соответствующие кодоны Нуклеотидный консенсус кодонов Аминокислоты и соотв. кодоны, восстановленные, исходя из нуклеотидного консенсуса

Туг TAT, TAC Hys CAT, С AC Gin CAA, CAG YAN Туг TAT, ТАС Stop ТАЛ. TAG Hys CAT, С AC Gin CAA.CAG

Таблица 1. Пример ошибок, возникающих при использовании консенсуса, стоп-кодон не является разрешенным состоянием позиции.

В основе данного метода, как и в случае практически всех других методов филогенетического анализа и восстановления мутационных спектров, лежит ряд предположений о характере эволюции исследуемых последовательностей.

Предполагается, что все белки (и гены им соответствующие) в исследуемом наборе обладают одной и той же структурой и функцией на протяжение всего исследуемого промежутка времени. Предполагается, что возникновение (но не фиксация) мутаций происходит равномерно как во времени, так и по длине последовательностей. Метод не требует стационарности частот нуклеотидов и аминокислот.

Метод следует отнести к группе методов максимальной экономии, однако ряд отличий заставляет искать другой термин. Предлагается термин "стабильная эволюция". Фактически это означает наличие однотипного отрицательного давления отбора на всем исследуемом промежутке филогенеза. На любом этапе эволюции данный ген должен быть функционально полноценным. Алгоритм восстановления мутационных спекров. Первоначально, сходно с алгоритмом Фитча (Fitch 1971), происходит заполнение списков возможных состояний позиций. В отличие от алгоритма Фитча, заполняются списки как для нуклеотидных, так и для соответствующих им аминокислотных позиций. В качестве основной матрицы вероятностей переходов между аминокислотами была выбрана матрица построенная Мийятой и коллегами (Miyata et al. 1979), хотя может быть использована и другая.

Для уменьшения числа рассматриваемых вариантов возможных мутаций привлекаются дополнительные биологические данные о структуре и функции гена и белка, в соответствии с которыми каждой позиции / ставится в соответствие своя, наиболее подходящая матрица расстояний между аминокислотами D,. Чаще всего набор стандартных матриц представлен таковыми для разных типов вторичной структуры: а-спиралей, Р-структур, бесструктурных участков и участков поворота. В простейшем же случае берется матрица физико-химических расстояний. Используя набор матриц и пороговые значения для величины изменения свойств аминокислот, ограничивающих разнообразие разрешенных замен, часто можно резко сузить число рассматриваемых вариантов.

Обозначим через A, ={ail,..at„,am^...an^l} набор состояний в вершинах дерева, где переменные at] принимают значения от 1 до 20 и однозначно соответствуют аминокислотам. Первые п состояний {an...alrl} представлены реальными последовательностями, а с п+1 по 2п-1 - гипотетическими предковыми последовательностями. Обозначим через Д* = {а*,а*+1..л*2„_,} набор состояний после введения запрета на определенные состояния, вытекающих из дополнительных биологических данных. Каждой вершине j дерева Т, кроме корневой, поставлен в соответствие один предок B(av | Г) и длина ребра, их соединяющего. Дерево, после удаления "плохих" ветвей, обозначим через Т'.

Искомый набор состояний должен минимизировать общий вес замен в

данной позиции: Wt = \ Т')\D,), где F(a'4,B(al |Г')| Д) - вес

j=1

перехода от состояния В(а'и | 7") к состоянию а,-, при условии дерева Т'. При этом учитывается возможность многократных замен в соответствии с распределением Пуассона, длиной ребра f, и соответствующей данной позиции матрицей расстояний Ц.

Обозначим k-й набор, имеющий минимальный вес, At = {¿> .. .а™*, .. .а™'} .К сожалению, не существует алгоритма, упрощающего выбор вариантов и возникает необходимость переборного процесса. Поиск всех

наборов осуществляется перебором всех не запрещенных вариантов, т.е. всех А' для всех позиций. Результирующий набор состояний для ¿-й позиции, 5,, представлен несколькими наборами с минимальным весом

а™1 а™1 "га+1

< ■<2 .а";, атг

„mk Lfl.i т к "in+1 тк ■".2.1-1 _

Совокупность наборов S = {s,,s2...s,} по всем позициям набора последовательностей и представляет собой полный мутационный спектр. Таким образом, восстанавливается множество возможных предковых последовательностей и все последующие оценки носят статистический характер.

При оценке вариантов возможно использование дополнительных алгоритмов, проверяющих сохранение структуры исследуемой аминокислотной или нуклеотидной последовательности, например предсказания трансмембранных участков, сайтов взаимодействия с ДНК и др. Так, при анализе белка Р53 использовался метод учитывающий гипервариабельность CpG сайтов.

Далее, по полному спектру насчитываются разнообразные статистики: средние значения и дисперсия частоты переходов между нулеотидами по отдельным позициям позициям и ребрам дерева, совокупные статистики для отделных ребер по всем позициям, для отдельных позиций по всем ребрам и по всем позциям и ребрам. Те же самые статистики насчитываются и для аминокислот.

По результатам модельного тестирования процент совпадения с истинными тестовыми предковыми последовательностями составил 72.4% для метода Фитча, 84.2% для метода Янга, 81.8 % для предлагаемого метода при отсутствии дополнительной биологической информации и 92.1% с использованием дополнительной информации.

Программная реализация разработанного метода. Алгоритм реализован в виде пакета прикладных программ AMS (Analysis of Mutational Spectra). Пакет написан на языке программирования С (ANSI стандарт). Пакет тестировался на следующих платформах: IBM PC (DOS 3.2-6.2, WINDOWS 95, WINDOWS NT 4.0, UNIX-Free BSD, Linux); SILICON GRAPHICS (IREX). Заключение к главе 4. Предлагаемый метод обладает наилучшей предсказательной силой при наличии дополнительной информации о структуре и функции гена, и сравнимой с методом максимального правдоподобия предсказательной силой в отсутствие дополнительной информации. Метод свободен от недостатков, присущих методам, использующим консенсусный подход к восстановлению предковых последовательностей. К достоинствам метода также относится то, что восстановленный мутационный спектр позволяет производить статистическую оценку эволюционных событий как по отдельным позициям выравнивания набора последовательностей, так и по участкам филогенетического дерева.

Глава 5. Анализ мутационных спектров генов Р53, цитохромов Р450 и прионовых белков.

Методика проведения анализа. Выравнивание последовательностей производилось с помощью пакетов VOSTORG (Zharkikh et al. 1991) и CLUSTAL (Higgins et al. 1988). Построение деревьев производилось с помощью пакетов программ VOSTORG и MEGA. Оценка достоверности дерева бутстрэп-методом производилась для деревьев, построенных методом объединения соседей (Saito and Nei 1987). Был программно реализован полный-и-частичный бутстрэп-метод (Zharkikh and Li 1992), обеспечивающий несмещенные оценки достоверности. Для гена Р53 использовалась дополнительная оптимизация дерева по методу максимального правдоподобия. Оценка мутационного спектра и дальнейший его анализ производились с помощью пакета программ AMS. Анализ производился только по устойчивым, с точки зрения бутстрэп-метода, участкам дерева.

В ходе применения разработанного метода восстановления и анализа мутационных спектров к анализу реальных данных были получе1гы следующие результаты:

Анализ гена Р53. В норме белок Р53 осуществляет негативную регуляцию роста и деления клеток, повреждения гена Р53 часто приводят к раковому перерождению клетки.

При анализе гена Р53 подтверждено сделанное ранее (Soussi et al., 1990; Greenblatt et al., 1994) предположение о структурной предрасположенности центрального домена человеческого р53 гена к разрушающему мутагенезу. Делается предположение, что имеющиеся базы данных для ассоциированных с раком мутаций р53 содержат большой мутационный "шум", который имеет мало отношения к канцеросвязанной клональной экспансии и к онкогенетическому перерождению вообще. На основе сравнения четырех мутационных спектров в совокупности с независимыми данными и предположениями произведено более точное идентифицирование позиций онкогенного риска для гена р53. Анализ генов семейства цитохромов Р450. Цитохромы Р450 - большое суперсемейство гемсодержагцих, связывающихся с мембраной белков с молекулярным весом 50 ООО DA (400-530 аминокислот). Цитохромы Р450 участвуют в окислительном метаболизме широкого класса экзо- и эндогенных веществ (стероидов, жирных кислот, простагландинов, лекарственных веществ, канцерогенов, мутагенов, всего более 80 веществ) у бактерий, грибов, растений и животных. Большинство членов этого суперсемейства классифицируется как неспецифические монооксигеназы.

В результате сравнительного анализа мутационных спектров показана специфичность процесса мутирования для различных семейств цитохромов Р450, а также видоспецифичность этого процесса в случае семейства CYP2 человека, крысы и мыши. В пределах одного вида - крысы - различные семейства (CYP2 и CYP11) имеют достоверно различающиеся мутационные спектры. Анализ трех паттернов мутаций - эволюционного, псевдогенов и поврежденных аллелей семейства CYP21 (найденных у больных адренальной гиперплазией) не подтверждает распространенную гипотезу о переносе посредством генной конверсии мутаций, возникших в псевдогенах, в нормальные аллели CYP21.

Анализ генов прионов. Прионы представляют собой совершегаю новый класс инфекционных агентов, не содержащих нуклеиновых кислот и вызывающих ряд нейродегенеративных заболеваний, таких как болезнь "скрэпи", куру, синдром Крейцфельда-Якоба (СШ) и другие. Согласно существующей гипотезе, прионовые белки существуют в двух изоформах: в виде нормального клеточного белка ( РгРс), встраивающегося в клеточную мембрану, и в виде анормального белка (РгР&), накапливающегося в мозговой ткани больных особей.

Проведенный анализ показал, что, хотя по темпам эволюции прионовые белки не являются очень консервативными, в предполагаемых а-спиральных участках РгР в ходе эволюции происходили консервативные замены, приводящие к появлению аминокислот только с очень близкими физико-химическими параметрами и способствующими сохранению структуры а-спиралей, что свидетельствует о действии отрицательного отбора, направленного на поддержание вторичной структуры белка.

Применение методов предсказания вторичной структуры белка для анализа полного спектра одноударных аминокислотных замен в последовательностях РгР человека показало, что в прионовых белках, связанных с заболеванием, наблюдается выраженная тенденция к возникновению замен, нарушающих а-спиральность. Полученные данные подтверждают предположение о том, что в основе прионовых заболеваний лежит изменение конформации РгР с разрушением а-спиралей и образованием р-структур. Наиболее интересны данные по а-спиральному участку Н1, замены в котором ведут к резкому увеличению предсказанных р-структур, и который способен вызывать изменение конформации а-спирального участка Н2 в сторону образования р-листа. Было высказано предположение, что участок Н1 играет ключевую роль в конформационном переходе РгРс -> РгР?с . В дальнейшем данное теоретическое предположение было подтверждено независимыми экспериментальными исследованиями.

Заключение к главе 5. В целом, применение метода восстановления и анализа мутационных спектров к конкретным биологическим данным показывает его состооятельность и полезность не только для теоретического анализа эволюции той или иной группы последовательностей, но и для вполне практических целей, как, например, выяснение деталей молекулярного механизма того или иного заболевания и/или оценки объективности и полноты имеющихся данных.

Применение разработанного метода к реальным данным позволяет делать выводы о характере эволюции исследуемых генов и, при наличии соответствующих дополнительных данных, о структуре и функции соответствующих белков.

Общие выводы.

1. Разработан, программно реализован и апробирован новый подход к построению и оценке профиля вариабельности относительных темпов замен на основе Фурье- и вэйвлет-разложений и Марковских цепей со случайным выбором параметров.

2. Выполнены оценки профиля вариабельности относительных темпов замен для иммуноглобулинов человека и алкогольдегидрогеназы дрозофиллид. Проведенное исследование позволяет уточнить детали эволюции данных генов.

3. Разработан новый метод восстановления мутационных спектров, позволяющий оценивать достоверность полученных результатов. Метод реализован в виде пакета прикладных программ.

4. Восстановлены и проанализированы мутационные спектры для генов Р53, цитохрома Р450 и генов прионов. Анализ генов Р53 и прионовых генов показал наличие структурной пердрасположенности к вредным мутациям и информационной неустойчивости. Анализ мутационных спектров суперсемейства генов цитохрома Р450 показал достоверные различия в характере мутационного процесса внутри данного суперсемейства. Апробация работы. Основные положения и результаты работы докладывались и обсуждались на семинарах и конференциях:

1. Доклад и стендовое сообщение на симпозиуме «Геномное разноообразие и эволюция» в рамках годовой встречи Американской Генетической Ассоциации 1999 года, Стэйт Колледж, Пенсильвания, США. (Symposium on "Genome diversity and evolution" in conjuction with the 1999 Annual Meeting of of the American Genetic Association, Pennsylvania State University, State College, Pennsylvania, USA).

2. Доклад и стендовое сообщение на третьем конгрессе по прикладной и индустриальной математике EMPRIM-1998, Новосибирск 1998.

3. Доклад и стендовое сообщение на международной конференции «Современные концепции эволюционной генетики», Новосибирск, 1997

4. Стендовое сообщение на международной конференции «Интеллектуальные системы в молекулярной биологии» (International Conference "Intelligent Systems for Molecular Biology'96". Washington University. St.Louis. Missouri. USA. 1996).

5. Доклад на 5-й конференции по программе «Геном человека-96», Черноголовка, 1996.

6. Доклад и стендовое сообщение на конгрессе по прикладной и индустриальной математике INPRIM-1996, Новосибирск 1996.

Список работ, опубликованных по теме диссертации:

1. Morozov Р, Sitmkova Т, Churchill G, Ayala FJ, Rzhetsky AA New method for characterizing replacement rate variation in molecular sequences. Application of the Fourier and wavelet models to Drosophila and mammalian proteins.// Genetics 2000 Jan; 154(1):381-95

2. Матушкин Ю.Г., Морозова И.Н, Морозов П.С. Теоретический анализ мутационных спектров суперсемейства цитохромов Р450 // Мол. Биол. 1999 Т. 33 № 4 С. 696-9

3. Матушкин Ю.Г., Морозова И.Н, Морозов П.С. Особенности эволюции цитохромов Р450 // Биофизика 1999 Т. 44 № 4 С. 624-627

4. И.Б.Кузнецов, П.С.Морозов, Ю.Г.Матушкин Сохранение альфа-спиралей в прионовых белках // Генетика, 1998 Т.34 № 2, С. 183-189

5. Ю.Г.Матушкин, П.С.Морозов, И.Н.Морозова. Особенности эволюции цитохромов Р450. // в сборнике «Тезисы третьего конгресса по прикладной и индустриальной математике (INPRIM-98)», Новосибирск, 1998, С. 119-120

6. П.С.Морозов. Пакет rip о фа мм AMS: метод восстановления спектра мутациошшх замен в процессе эволюции гена. // в сборнике «Тезисы третьего конгресса по прикладной и индустриальной математике (1NPR1M -98)», Новосибирск, 1998, С. 120-121

7. Kuznetsov IB, Morozov PS, Matushkin YG Prion proteins: evolution and preservation of secondary structure. FEBS Lett 1997 Aug4;412(3):429-32

8. Кузнецов И.Б., Морозов П.С. Матушкин Ю.Г., Сохранение a-спиралей в ходе эволющш прионовых белков. // в сборнике «Тезисы международной конференции «Современные концепции эволюционной генетики», Новосибирск, 1997

9. Morozov P.S., Matushkin Yu.G. // International Conference "Intelligent Systems for Molecular Biology'96". Thesises. Washington University. St.Louis. Missouri. USA. 1996. P. 137.

10. Родин C.H., Матушкин Ю.Г., Морозов П.С., Кузнецов И.Б., Разработка теории и методов филогенетического анализа человеческого генома.// Тезисы 5-й конференции программы «Геном человека -96», Черноголовка, 1996, С..104-105.

11. Матушкин Ю.Г., Морозов П.С., Кузнецов И.Б., Анализ мутационных спектров человеческих генов Р53, FIX и РгР.// Тезисы конгресса по прикладной математике. Новосибирск 1996, С. 201.

Подписано к печати 3/Х-2000г.

Формат бумаги 60x90 1/16 Печ. л. 1. Уч.-изд.л. 0,7.

Тираж 100 экз. Заказ 130.

Ротапринт Института цитологии и генетики СО РАН 630090, Новосибирск, проспект академика М.А.Лаврентьева, 10

Содержание диссертации, кандидата биологических наук, Морозов, Павел Сергеевич

Оглавление.

Введение.

Цель диссертационной работы.

Научная новизна диссертационной работы.

Практическая и научная полезность результатов диссертационной работы.

Структура диссертационной работы.

На защиту выносятся.

Благодарности.

О терминологии.

Глава 1. Общая схема филогенетического анализа.

1.1. Исходные данные и процедура выравнивания.

1.2. Построение филогенетического дерева.;.

1.2.1. Матричные методы.

1.2.2. Метод объединения соседей.

1.2.3. Метод, основанный на принципе максимальной экономии.

1.2.4. Метод, основанный на принципе максимального правдоподобия.

1.2.5. Метод, основанный на Марковских цепях с Монте Карло симуляциями (МЦМК).

1.2.6. Генные и видовые деревья.

1.3. Методы оценки параметров эволюционного процесса при построенном дереве.

1.3.1. Определение длин ребер филогенетического дерева.

1.3.2. Неравномерность темпов замен по отдельным позициям.

1.3.3. Мутационные события в процессе филогенеза.

1.4. Компьютерные инструменты для филогенетического анализа.

Введение Диссертация по биологии, на тему "Новые методы восстановления и анализа эволюционных событий при филогенетическом анализе"

Развернувшееся в последние десятилетия массовое секвенирование последовательностей ДНК, обеспечивающей хранение и передачу наследственных признаков, дает в руки исследователя уникальный материал для исследования структуры, функции и эволюции генетического материала живых организмов.

Задачи исследования последовательностей ДНК и белков обуславливают широкое применение математических методов анализа, как аналитических, так и численных. Компьютер при этом становится одним из важнейших инструментов исследования. Более того, уровень развития компьютерной техники во многом определяет господствующие методы анализа.

Методы сравнения последовательностей с целью установления степени родства и законов их изменения по традиции называют филогенетическим анализом. Гипотеза о преимущественно дивергентной эволюции в явном или скрытом виде присутствует не только в эволюционных исследованиях, но и в любом исследовании, производящем сравнение нуклеотидных или аминокислотных последовательностей с той или иной целью.

Практически все первые шаги по сравнению последовательностей ставили своей целью установление филогении, т.е. построения графа порядка происхождения сравниваемых последовательностей от общего предка. К концу 60-х годов XX века впервые стали доступны в необходимом для анализа количестве последовательности аминокислот, и первой известной попыткой построить филогенетическое дерево на основе анализа этих последовательностей была работа Фитча и Марголиаша по восстановлению филогении некоторых групп млекопитающих на основе анализа цитохрома Ц (Fitch and Margoliash 1967а, 1967b), а также работы Дайхофф (Dayhoff 1965, 1969).

Сравнительная легкость получения результата и ощущение его объективности обеспечили значительную популярность теоретическим молекулярным методам анализа генетических макромолекул (ДНК, РЫК и белков) в среде биологов-эволюционистов.

Именно методами молекулярной филогенетики впервые было установлено наличие третьего крупнейшего таксона живых организмов -архебактерий (Woese and Fox 1977). С помощью анализа последовательностей ДНК решены многие спорные вопросы соотношения крупных таксонов в растительном (например, Goremykin et al. 1996; Troitskiy et al. 1991) и животном (например, Field KG et al. 1988) царствах, не говоря уже о бактериях, где молекулярная филогения является практически единственным приемлемым методом выявления филогении (Fox et al. 1980).

В настоящее время выявление филогении является одной из главных, но не единственной задачей филогенетического анализа. Не менее важное место занимает выявление закономерностей в эволюции последовательностей на основе восстановления и анализа характера распределения аминокислотных и нуклеотидных замен как по отдельным участкам дерева, так и по позициям последовательности.

Структура, функция и эволюция генетических макромолекул взаимосвязаны и оказывают значимое влияние друг на друга, и часто исследование характера эволюции тех или иных последовательностей позволяет делать выводы о структуре и/или функции. Верно также и обратное: зная функцию и/или структуру, можно значительно точнее восстановить эволюционную историю (Fitch and Ayala 1964; Zharkikh 1984; Kolchanov 1983). В таком контексте возможны даже попытки предсказания хода эволюции, как это сделано, например, в работах Фитча и Буша для гена гемагтлютинина вируса гриппа (Bush et al. 1999а, 1999b; Fitch et al. 1991).

Однако, несмотря на успехи современной филогенетики, даже восстановление корректного дерева, не говоря уже об оценках соответствующих ему эволюционных событий, до сих пор остается серьезной проблемой.

Во многом, проблемы лежат в комплексном характере данных. Приведем лишь некоторые причины, затрудняющие корректное восстановление эволюционной истории 1987; 1л & вгаиг 1999): разные участки последовательности подвергаются разному давлению мутационного процесса и разному давлению отбора; наличие обратных мутаций (реверсий) и случаев горизонтального (межвидового) переноса генетической информации; неравномерные темпы мутирования вдоль различных ребер филогенетического дерева; наличие разных уровней кодирования информации в одной и той же последовательности, эволюционирующих по разным законам (Тп йто V 1999).

Даже выбирая для анализа минимально функционально и структурно нагруженные участки последовательностей, не удается избавиться от всех проблем при построении достоверного дерева. Если же речь идет о восстановлении эволюционной истории гена, то все вышеуказанные проблемы встают с полной силой.

Разные методы в разной степени учитывают вышеуказанные сложности. Однако не только не существует метода, успешно справляющегося со всеми проблемами, для многих из них в настоящее время просто не существует удовлетворительных методов даже при предположении отсутствия остальных проблем.

Методы восстановления эволюционной истории постоянно совершенствовались. При этом сохранялась тенденция перехода от грубых и приблизительных, часто эвристических, методов, не предоставляющих возможности корректной статистической оценки, к математически и статистически корректным методам, но требующим значимо больших затрат компьютерного времени. В настоящий момент сложилась ситуация, когда наиболее корректные методы применимы лишь к относительно небольшим наборам данных, тогда как к более крупным наборам приходится применять устаревшие методы, но обеспечивающие получение результата в приемлемое время.

В настоящее время происходит активное внедрение статистических подходов к анализу филогении и особенностей эволюции генетических макромолекул: методов максимального правдоподобия, Байесовского подхода и других (Felsenstein 1996; Nei 1999; Li & Graur 1999 и др.). Основной проблемой при этом является невозможность получения аналитических решений для реальных наборов данных. Лишь недавно Янгом (Yang 2000) получено аналитическое решение для метода максимального правдоподобия для набора из трех последовательностей, составленных из двухбуквенного алфавита. Из вышесказанного вытекает необходимость численного поиска решений. Однако при этом поставленные задачи часто оказываются на грани вычислительных возможностей современной техники даже для небольших наборов данных.

Общую схему филогенетического анализа, сложившуюся в настоящее время, можно условно разделить на несколько последовательных этапов: сравнение последовательностей и поиск гомологичных участков; оптимальное выравнивание последовательностей; построение эволюционного дерева; восстановление и статистический анализ эволюционных событий, реконструируемых для полученного дерева. В зависимости от целей исследования в анализе могут участвовать либо все этапы, либо часть из них. В подавляющем числе работ исследование останавливается на построении филогенетического дерева, в лучшем случае, оценив его достоверность одним из доступных методов, например, бутстрэп-методом. В то же время, именно исследование эволюционных событий представляет наибольший интерес с точки зрения выявления закономерностей эволюции и соотнесения эволюционных процессов со структурой и функцией генов и белков.

К выявляемым на основе анализа набора последовательностей и уже построенного филогенетического дерева эволюционным событиям относятся: типы и характер произошедших замен; распределение замен, делеций и вставок по отдельным участкам филогенетического дерева; распределение замен, делеций и вставок по длине последовательности; а также анализ связности произошедших событий.

Имеющиеся в настоящий момент методы восстановления эволюционных событий, за редким исключением, дают смещенные оценки параметров и не позволяют производить оценку достоверности полученных результатов.

Все компоненты филогенетического анализа связаны между собой. Например, для процедуры выравнивания последовательностей, предшествующей построению дерева, как правило, уже необходимо дерево, а для построения дерева необходима информация о характере замен и их распределении по позициям последовательности. Из подобных ситуаций выходят, внося априорные предположения о том или ином событии, внося в дальнейшем коррективы и, при необходимости, производя итерации. В идеальном же случае все параметры филогенетической модели (топология дерева, распределение и характер замен и др. ) должны оцениваться совместно, однако возникающие при этом технические сложности не представляются преодолимыми, по крайней мере, в течение ближайшего десятка лет. Именно это и определяет существование вышеописанной последовательной схемы филогенетического анализа.

Таким образом, существует насущная потребность в разработке новых методов филогенетического анализа, уделяющих большее внимание биологическим особенностям эволюции последовательностей, с одной стороны, и основанным на современных математических методах - с другой. В особенности, это касается проблем реконструкции эволюционных событий при уже известной топологии дерева. Учитывая постоянно растущую вычислительную мощность современной техники, вычислительная сложность методов является все менее ограничивающим фактором.

Данная диссертация посвящена четвертому этапу приведенной выше схемы филогенетического анализа - восстановлению и статистическому анализу реконструированных эволюционных событий - и включает в себя описание разработанных автором новых методов восстановления и анализа эволюционных событий для данной топологии дерева, их программной реализации и применения к конкретным биологическим данным.

Цель диссертационной работы

Целью работы была разработка двух новых методов анализа:

1. Метода достоверной оценки неравномерности темпов замен по позициям вдоль выравненного набора последовательностей при данном филогенетическом дереве;

2. Метода, позволяющего производить достоверное восстановление мутационных событий (мутационных спектров) как в совокупности, для данного набора последовательностей, так и по отдельным позициям последовательностей и участкам заранее известного филогенетического дерева.

Также, целью работы ставилось применение и тестирование разработанных методов на реальных биологических данных.

Научная новизна диссертационной работы.

При разработке метода оценки профиля вариабельности относительных темпов замен впервые в филогенетическом анализе применялись новейшие математические подходы: вэйвлет-разложение и Марковские цепи со случайным выбором параметров.

Разработка новых методов и их применение к реальным биологическим данным стало возможно благодаря комплексному использованию достижений математической теории вероятностей, вычислительной математики, филогенетической теории и использованию современных программных и вычислительных средств.

Разработанные подходы и методы применены к реальным биологическим данным. Разработка методов, их программная реализация и объемные вычисления при применении к реальным данным производились на вычислительных ресурсах Института Цитологии и Генетики Сибирского Отделения Российской Академии Наук, а также Геномного Центра Колумбийского Университета города Нью-Йорк, США. Производилось сравнение с уже существующими методами. Результаты анализа реальных данных сопоставлялись с известными результатами исследований той же тематики.

Практическая и научная полезность результатов диссертационной работы.

Разработанные методы анализа позволяют улучшить качество филогенетических исследований и впервые производить оценки достоверности получаемых результатов при анализе эволюционных событий.

Результаты анализа реальных данных представляют собой более качественные оценки параметров эволюционного процесса для соответствующих генов и белков, а также оценки достоверности результатов, полученных в данной работе и в работах других исследователей, ч то важно при исследовании закономерностей эволюционного процесса.

Анализ генов и белков, ответственных за генетические заболевания человека, позволяет выявить структурную и генетическую предрасположенность отдельных участков гена и/или белка к вредным изменениям, что, в свою очередь, важно для разработки методов профилактики, диагноза и лечения соответствующих заболеваний.

Структура диссертационной работы.

Диссертация состоит из введения, 5-ти глав, заключения, выводов, списка литературы и приложения.

Заключение Диссертация по теме "Генетика", Морозов, Павел Сергеевич

Выводы.

1. Разработан, программно реализован и апробирован новый подход построения и оценки профиля вариабельности относительных темпов замен на основе Фурье- и вэйвлет-разложений и Марковских цепей со случайным выбором параметров.

2. Выполнены оценки профиля вариабельности относительных темпов замен для иммуноглобулинов человека и алкогольдегидрогеназы дрозофиллид. Проведенное исследование позволяет достоверно уточнить детали эволюции данных генов.

3. Разработан новый метод восстановления мутационных спектров, позволяющий оценивать достоверность полученных результатов. Метод реализован в виде пакета прикладных программ.

4. Восстановлены и проанализированы мутационные спектры для генов Р53, цитохрома Р450 и генов прионов. Анализ генов Р53 и прионовых генов показал наличие структурной пердрасположенности к вредным мутациям и конформационной неустойчивости. Анализ мутационных спектров суперсемейства генов цитохрома Р450 показал достоверные различия в характере мутационного процесса внутри данного суперсемейства.

Апробация работы.

Основные положения и результаты работы докладывались и обсуждались на семинарах и конференциях:

1. Доклад и стендовое сообщение на симпозиуме «Геномное разноообразие и эволюция» в рамках годовой встречи Американской Генетической Ассоциации 1999 года, Стэйт Колледж, Пенсильвания, США. (Symposium on "Genome diversity and evolution" in conjuction with the 1999 Annual Meeting of of the American Genetic Association, Pennsylvania State University, State College, Pennsylvania, USA).

2. Доклад и стендовое сообщение на третьем конгрессе по прикладной и индустриальной математике INPRIM-1998, Новосибирск 1998.

3. Доклад и стендовое сообщение на международной конференции «Современные концепции эволюционной генетики», Новосибирск, 1997

4. Стендовое сообщение на международной конференции «Интеллектуальные системы в молекулярной биологии» (International Conference "Intelligent Systems for Molecular Biology'96". Washington University. St.Louis. Missouri. USA. 1996).

5. Доклад на 5-й конференции по программе «Геном человека-96», Черноголовка, 1996.

6. Доклад и стендовое сообщение на конгрессе по прикладной и индустриальной математике INPRIM-1996, Новосибирск 1996.

По теме диссертации опубликовано 11 печатных работ:

1. Morozov Р, Sitnikova Т, Churchill G, Ayala FJ, Rzhetsky AA New method for characterizing replacement rate variation in molecular sequences. Application of the Fourier and wavelet models to Drosophila and mammalian proteins.// Genetics 2000 Jan;154(l):381-95

2. Матушкин Ю.Г., Морозова И.Н, Морозов П.С. Теоретический анализ мутационных спектров суперсемейства цитохромов Р450 // Мол. Биол. 1999 Т. 33 №4 С. 696-9

3. Матушкин Ю.Г., Морозова И.Н, Морозов Г1.С. Особенности эволюции цитохромов Р450 // Биофизика 1999 Т. 44 № 4 С. 624627

4. И.Б.Кузнецов, П.С.Морозов, Ю.Г.Матушкин Сохранение альфа-спиралей в прионовых белках // Генетика, 1998 Т.34 № 2, С. 183189

5. Ю.Г.Матушкин, П.С.Морозов, И.Н.Морозова. Особенности эволюции цитохромов Р450. // в сборнике «Тезисы третьего конгресса по прикладной и индустриальной математике (INPRIM -98)», Новосибирск, 1998, С. 119-120

6. П.С.Морозов. Пакет программ AMS: метод восстановления спектра мутационных замен в процессе эволюции гена. // в сборнике «Тезисы третьего конгресса по прикладной и индустриальной математике (INPRIM - 98)», Новосибирск, 1998, С. 120-121

7. Kuznetsov IB, Morozov PS, Matushkin YG Prion proteins: évolution and préservation of secondary structure. FEBS Lett 1997 Aug 4;412(3):429-32

8. Кузнецов И.Б., Морозов П.С. Матушкин Ю.Г., Сохранение ос-спиралей в ходе эволюции прионовых белков. // в сборнике «Тезисы международной конференции «Современные концепции эволюционной генетики», Новосибирск, 1997

9. Morozov P.S., Matushkin Yu.G. // International Conférence "Intelligent Systems for Molecular Biology'96". Thesises. Washington University. St.Louis. Missouri. USA. 1996. P. 137.

10.Родин С.H., Матушкин Ю.Г., Морозов П.С., Кузнецов И.Б., Разработка теории и методов филогенетического анализа человеческого генома.// Тезисы 5-й конференции программы «Геном человека -96», Черноголовка, 1996, С. 104-105.

127

11.Матушкин Ю.Г., Морозов П.С., Кузнецов И.Б., Анализ мутационных спектров человеческих генов Р53, FIX и РгР.// Тезисы конгресса по прикладной математике. Новосибирск 1996, С. 201.

Библиография Диссертация по биологии, кандидата биологических наук, Морозов, Павел Сергеевич, Новосибирск

1. Бронштейн JI.H., Семендяев К.А. Справочник по математике. Наука, Москва, 1986.

2. Завадский B.JI. Аппроксимация функций нескольких переменных с ограниченной смешанной производной посредством вейвлетов.// Препринт ИМ НАНБ, 1997, № 1/529.

3. Кузнецов И.Б., Морозов П.С., Матушкин Ю.Г., Сохранение альфа-спиралей в прионовых белках //Генетика, 1998, Т.34 № 2 С.183-189.

4. Кузнецов И.Б., Морозов П.С., Матушкин Ю.Г., Сохранение а-спиралей в ходе эволюции прионовых белков. // в сборнике Тезисы международной конференции «Современные концепции эволюционной генетики», Новосибирск, 1997.

5. Малоземов В.Н., Певный А.Б., Третьяков A.A., Быстрое вейвлетное преобразование дискретных периодических сигналов и изображений // Проблемы передачи инф., 1998, Т.34. Вып. 2. С.77-85.

6. Матушкин Ю.Г., Морозов П.С., Кузнецов И.Б., Анализ мутационных спектров человеческих генов Р53, FIX и РгР.// в сборнике «Тезисы конгресса по прикладной математике», Новосибирск 1996, С.201.

7. Матушкин Ю.Г., Морозов П.С., Морозова H.H. Особенности эволюции цитохромов Р450. // в сборнике «Тезисы третьего конгресса по прикладной и индустриальной математике (INPRIM 98)», Новосибирск, 1998. С. 119-120.

8. Матушкин Ю.Г., Морозова И.Н, Морозов П.С. Особенности эволюции цитохромов Р450 // Биофизика, 1999, Т.44 №4 С. 624-627.

9. Матушкин Ю.Г., Морозова И.Н, Морозов П.С. Теоретический анализ мутационных спектров суперсемейства цитохромов Р450 // Мол. Биол., 1999, Т. 33 №4 С. 696-699.

10. Ю.Морозов П.С. Пакет программ AMS: метод восстановления спектра мутационных замен в процессе эволюции гена. // в сборнике «Тезисы третьего конгресса по прикладной и индустриальной математике (INPRIM 98)», Новосибирск, 1998, С. 120-121.

11. П.Новиков И.Я., Стечкин С.Б. Основы теории всплесков // Успехи математических наук, 1998, Т.53. №6(324) С. 53-128.

12. Петухов А.П. Введение в теорию базисов всплесков. СПб.: Изд-во СПбГТУ, 1999.

13. Покровский В.И., Киселев О.П., Молекулярные основы прионовых заболеваний // Вестник российской Академии медицинских наук, 1998, Т.10 С.45-55.

14. Ратнер В.А., Жарких A.A., Колчанов H.A., Родин С.Н., Соловьев В., Шамин В., Проблемы теории молекулярной эволюции. Наука, Новосибирск, 1985.

15. Родин С.Н. Идея коэволюции. Наука, Новосибирск, 1991.

16. Родин С.Н., Матушкин Ю.Г., Морозов П.С., Кузнецов И.Б. Разработка теории иметодов филогенетического анализа человеческого генома.// Тезисы 5-й конференции программы «Геном человека -96», Черноголовка, 1996, С. 104-105.

17. Рукосуев B.C., Жаворонков A.A. Прионовые болезни и амилоидозисы мозга. //Архив патологии, 1999, Т.61 №2 С.50-55.

18. Тер-Аванесян М.Д., Кушниров В.В., Прионы: инфекционныебелки с генетическими свойствами. //Биохимия, 1999, Т.64 №12 С.1382-1390.

19. Тер-Аванесян М.Д., Шитикова И.Е., Завалишин И.А., Смирнов В.Н. Феномен прионов в медицине и биологии. // Российский физиологический журнал им. Сеченова, 1999, Т.85 №7 С.984-996.

20. Adachi J., and Hasegawa M. Improved dating of the human/chimpanzee separation in the mitochondrial DNA tree:heterogeneity among amino acid sites. // J. Mol. Evol. 1995. V.40: 622-628.

21. Akaike H., A new look at the statistical model identification. IEEE Trans. Autom. Contr. 1974. AC-19: 761-723.

22. Altaiski M., Mornev O., Polozov R. Wavelet analysis of DNA sequences. // Genet Anal. 1996. V. 12 № 5-6 pp. 165-168.

23. Arai N., Nomura D., Yokota K, Wolf D., Brill E., Shohat O., Rotter V Immunologically distinct p53 molecules generated by alternative splicing // Mol Cell Biol 1986. V.6 № 9 pp.3232-3239.

24. Arneodo A., Aubenton-Carafa Y.D., Audit B., Bacry E., Muzy J.F. Thermes C., What we can learn with wavelets about DNA sequences // Physica A 1998. V.249 pp.439-448.

25. Ayala F. J., Campbell C. D. and R. K. Selander Molecular population genetics of the alcohol dehydrogenase locus in the Hawaiian drosophilid D. mimica. // Mol. Biol. Evol. 1996. V.13 pp.1363-1367.

26. Bohr V.A. Gene specific DNA repair. // Carcinogenesis (Lond.). 1991. V.J2 pp.1983-1992.

27. Bohr V.A., Phillips D.H., Hanawalt P.C. Heterogeneous DNA damage and repair in the mammalian genome. // Cancer Res. 1987. V.47 pp.6426-6436.

28. Bush R.M., Bender C.A., Subbarao K., Cox N.J., Fitch W.M. Predicting the evolution of human influenza A. // Science. 1999. V.286 № 5446 pp.9211925.

29. Bush R.M., Fitch W.M., Bender C.A., Cox N.J. Positive selection on the H3 hemagglutinin gene of human influenza virus A. //Mol Biol Evol. 1999. V.16 № 11 pp.1457-1465.

30. Carlson A.D., Obeid J.S., Kanellopoulou N., Wilson R.C., New M.I. Congenital adrenal hyperplasia: update on prenatal diagnosis and treatment. // J Steroid Biochem Mol Biol. 1999. V.69 № 1-6 pp. 19-29.

31. Chetkowski R.J., DeFazio J., Shamonki I., Judd H.L., Chang R.J. The incidence of late-onset congenital adrenal hyperplasia due to 21-hydroxylasedeficiency among hirsute women. // J. Clin. Endocrinol. Metab. 1984. V.58 pp.595-598.

32. Chou P.Y., Fasman G.D. Empirical predictions of protein conformation.// Annu. Rev. Biochem. 1978. V.47 pp.251-276.

33. Chrousos G.P., Loriaux L., Mann D.L., Cutler G.B.,Jr. Late-onset 21-hydroxylase deficiency mimicking idiopathic hirsutism or polycystic ovarian disease. // Ann.Int.Med. 1982. V.96 pp.143-148.

34. Cohen F.E., Pan K.-M., Huang Z., Baldwin M., Fletterick R.J., Prusiner S.B., Structural clues to prion replication.// Science. 1994. V.264 pp.530-531.

35. Coon M.J., Ding X., Pernecky S.J., Vaz A.D.N. Cytochrome P450: progress and predictions.// FASEB J. 1992. V.6 pp.669-673.

36. Daubechies I., 1988 Wavelets S.I.A.M., Philadephia.

37. Dayhoff M.O.,Atlas of protein sequence and structure, V.5, suppl.3, Nat.Biomed.Res.Found., Washington, 1978.

38. Dayhoff M.O. Computer analysis of protein evolution.// Sci.Am. 1969. V.221 № 1 pp. 86-95.

39. Dayhoff M.O. Computer aids to protein sequence determination.// J.Theor. Biol. 1965. V.8№ 1 pp.97-112.

40. Dayhoff, M.O., R. M. Schwartz, and B. C. Orcutt, A model of evolutionary change in proteins. In Atlas of Protein Sequence and Structure, M.O. Dayhoff, ed. (Washington, D.C.: National Biomedical Research Foundation), 1978, pp.345-352.

41. Degtyarenko K.N., Archakov A.I. Molecular evolution of P450 superfamily and P450-containing monooxygenase systems. // FEBS Lett. 1993. V.332 pp.1-8.

42. DeLeo A.B., Jay G., Appella E., Dubois G.C., Law L.W., Old L.J. Detection of a transformation-related antigen in chemically induced sarcomas and other transformed cells of the mouse. II Proc. Natl. Acad. Sci. USA. 1979. V.76 № 5 pp.2420-2424.

43. Donohoue P.A., Van Dop C., McLean R.H., White P.C., Jospe N., Migeon C.J. Exon 7 Ncol restriction site within CYP21B (steroid 21-hydroxylase) is a normal polymorphism. // J. Clin. Endocrinol. Metab. 1986. V. 62. P. 9951002.

44. Dorit R.L., and Ayala F.J. ADH evolution and the phylogenetic footprint. // J. Mol. Evol. 1995. V.40 pp.658-662.

45. Eck, Dayhoff M.O. In Atlas of Protein Sequence and Structure, M.O. Dayhoff, ed. (Washington, D.C.: National Biomedical Research Foundation). 1966.

46. Edwards A.W.F. Likelihood. Cambridge University Press, Cambridge UK, 1972.

47. Felsenstein J. Inferring phylogenies from protein sequences by parsimony, distance, and likelihood methods. // Methods Enzymol. 1996. V.266 pp.418427.

48. Felsenstein J. and. Churchill G.A A hidden Markov model approach to variation among sites in rate of evolution. // Mol. Biol. Evol. 1996. V.13 pp.93-104.

49. Felsenstein J. Evolutionary trees from DNA sequences: a maximum likelihood approach. // J. Mol. Evol. 1981. V.l7 pp.368-376.

50. Felsenstein J. PHYLIP: Phylogenetic Inference Package. University of Washington, Seattle, WA. 1993.

51. Felsenstein J., Confidence limits on phylogenies: an approach using the bootstrap.// Evolution. 1985. V.39 pp.783-791.

52. Field K.G., Olsen G.J., Lane D.J., Giovannoni S.J., Ghiselin M.T., Raff E.C., Pace N.R., RaffR.A. Molecular phylogeny of the animal kingdom. // Science. 1988. V.239 № 4841 Ptl pp.748-753.

53. Fischer M., Rulicke T., Raeber A., Sailer A., Moser M., Oesch B., Brandner S., Aguzzi A., Weissmann C. Prion protein (PrP) with amino-proximal deletions restoring susceptibility of PrP knockout mice to scrapie.// EMBO J. 1996. V.15 pp.1255-1264.

54. Fischer J. A. and Maniatis T. Structure and transcription of the Drosophila mulleri alcohol dehydrogenase genes. // Nucl. Acids Res. 1985. V.13 pp.6899-6917.

55. Fitch W.M. Rate of change of concomitantly variable codons. // J.Mol.Evol. 1971. V.l pp.84-96.

56. Fitch W.M., Leiter J.M., Li X.Q. Palese P Positive Darwinian evolution in human influenza A viruses. // Proc. Natl. Acad. Sci. USA. 1991. V.88 №10 pp.4270-4274.

57. Fitch W.M. and Ayala F.J. Molecular clocks are not as bad as you think. // Soc Gen Physiol Ser. 1994. V.49 pp.3-12.

58. Fitch W.M. and Margoliash E. A method for estimating the number of invariant amino acid coding positions in a gene, using cytochrome c as a model case. // Bioch. Gen. 1967. V.l pp.65-71.

59. Fitch W.M. and Markowitz E. An improved method for determining codon variability in a gene and its application to the rate of fixations of mutations in evolution. // Bioch. Gen. 1970. V.4 pp.579-593.

60. Frishman D., Argos P. Incorporation of long-distance interactions into a secondary structure prediction algorithm.// Protein Engineering. 1996. V.9. pp.133-142.

61. Gamier J., Osguthorpe D.J., B.Robson Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins.//J.Mol.Biol. 1978. V.120 pp.97-120.

62. Golding B, Felsenstein J. A maximum likelihood approach to the detection of selection from a phylogeny.//J Mol Evol. 1990. Y.31 № 6 pp.511-523.

63. Golding G. B. Estimates of DNA and protein sequence divergence: an examination of some assumptions. // Mol. Biol. Evol. 1983. V.l pp. 125-142.

64. Goldman N., Statistical tests of models of DNA substitution. // J. Mol. Evol. 1993. V.36pp.l82-198.

65. Goldman N., Yang Z. A codon-based model of nucleotide substitution for protein-coding DNA sequences. // Mol. Biol. Evol. 1994. V.ll № 5 pp.725736.

66. Gonzalez F.J. Human cytochromes P450: problems and prospects. // Trends Pharmacol. Sci. 1992. V.13 pp.346-352.

67. Gonzalez F.J., Nebert D.W. Evolution of the P450 gene superfamily: animal-plant 'warfare1, molecular drive and human genetic differences in drug oxidation. // Trends Genet. 1990. V.6 pp.182-186.

68. Goodman M., Macromolecular sequences in systematic and evolutionary biology., L.:Plenum Press, New York, 1982.

69. Goodman M., Decoding the pattern of' protein evolution. // Prog.Byophys.Mol.Biol. 1981. V.38 pp.105-164.

70. Green P.J. Reversible jump Markov chain Monte Carlo computation and Bayesian model determination. // Biometrika. 1995. V.82 pp.711-732.

71. Greenblatt et al., Mutations in the p53 tumor suppressor gene: clues to cancer etiology and molecular pathogenesis. // Cancer Res. 1994. V.54 pp.48554878.

72. Guengerich F.P. Reactions and significance of cytochrome P-450 enzymes. // J. Biol. Chem. 1991. V.266 pp. 10019-10022.

73. Han K.A., Kulesz-Martin M.F. Alternatively spliced p53 RNA in transformed and normal cells of different tissue types. // Nucleic Acids Res. 1992. Y.20 pp.1979-1981.

74. Hasemann C.A., Kurumbail R.G., Boddupalli S.S., Peterson J.A., Deisenhofer J. Structure and function of cytochromes P450: a comparative analysis of three crystal structures. // Structure. 1995. V.3 pp.41-62.

75. Helmberg A., Tusie-Luna M.T., Tabarelli M., Kofler R., White P.C. R339H and P453S: CYP21 mutations associated with nonclassic steroid 21-hydroxylase deficiency that are not apparent gene conversions.// Mol. Endocrinol. 1992.Y.6 pp.1318-1322.

76. Higashi Y., Yoshioka H., Yamane M., Gotoh O., Fujii-Kuriyama Y. Complete nucleotide sequence of two steroid 21-hydroxylase genes tandemly arranged in human chromosome: a pseudogene and a genuine gene. // Proc. Natl. Sci. USA 1986. V.83 pp.2841-2845.

77. Hirakawa H, Muta S, Kuhara S, et al. The hydrophobic cores of proteins predicted by wavelet analysis. //Bioinformatics. 1999. V.15 № 2 pp.141-148.

78. Hsiao K., Baker H.F., Crow T.J., Poulter M., Owen F„ Terwilliger J.D., Westaway D., Ott J., Prusiner S.B., Linkage of a prion protein missense variant to Gerstmann-Straussler syndrome.// Nature. 1989. V.338 pp.342-345.

79. Hsiao K.K., Cass C., Schellenberg G.D., Bird T., Devme-Gage E., Wisniewski H., Prusiner S.B. A prion protein variant in a family with the telencephalic form of Gerstmann-Straussler-Scheinker syndrome.// Neurology. 1991. V.41 pp.681-684.

80. Huang Z, Gabriel J.M., Baldwin M.A., Fletterick R.J., Prusiner S.B., Cohen F.E., Proposed three-dimensional structure for the cellular prion protein.// Proc. Natl. Acad. Sci. USA. 1994. V.91 pp.7139-7143.

81. Jenkins J.R., Rudge K., Chumakov P., Currie G.A. The cellular oncogene p53 can be activated by mutagenesis. // Nature. 1985. V.317 № 6040 pp.816-818.

82. Jin L. and Nei M. Limitations of the evolutionary parsimony method of phylogenetic analysis. // Mol. Biol. Evol. 1990. V.7 pp.82-102.

83. Jones D.T., Taylor W.R. and Thornton J.M. The rapid generation of mutation data matrices from protein sequences, // Comp. Appl. Biosc. 1992 V.8 pp.275-282.

84. Kelly C. and Churchill G.A. Biases in amino acid replacement matrices and alignment scores due to rate heterogeneity. // J. Comput. Biol. 1996. V.3 pp.307-318.

85. Kelly C. and Rice J. Modeling nucleotide evolution: a heterogeneous rate analysis. // Math. Biosci. 1996. V.l33 pp.85-109.

86. Kendall M.G. The advanced theory of statistics. Third edition. Hafner, New York, 1956.

87. Kneller D.G., Cohen F.E.and Langridge R. Improvements in Protein Secondary Structure Prediction by an Enhanced Neural Network. // J. Mol. Biol. 1990. V.214pp.l71-182.

88. Kolchanov N.A., Soloviov V.V., Zharkikh A.A. The effects of mutations, deletions and insertions of single amino acids on the three-dimensional structure of globins.// FEBS Lett. 1983. V.161 № 1 pp.65-70.

89. Krone N., Braun A., Roscher A.A., Schwarz H.P. A novel frameshift mutation (141delT) in exon 1 of the 21-hydroxylase gene (CYP21) in a patient with the salt wasting form of congenital adrenal hyperplasia. // Hum.Mutat. 1999. V.14 № 1 pp.90-91.

90. Kuhner M.K., and Felsenstein J. A simulation comparison of phylogeny algorithms under equal and unequal evolutionary rates. // Mol. Biol. Evol. 1994. V.ll pp.459-468.

91. Kumar S., Tamura K. and Nei M. MEGA: Molecular Evolutionary Genetics analysis. The Pennsylvania State University, University Park PA, 1993.

92. Kuttenn F., Couillin P., Girard F., Billaud L., Vincens M., Boucekkine C., Thalabard J.-C., Maudelonde T., Spritzer P., Mowszowicz I., Boue A., Mauvais-Jarvis P. Late-onset adrenal hyperplasia in hirsutism. // N. Engl. J. Med. 1985. V.313 pp.224-231.

93. Kuznetsov I.B., Morozov P.S. GEOMETRY: a software package for nucleotide sequence analysis using statistical geometry in sequence space. // CABIOS. 1996. V.12 №4 pp.297-301.

94. Kuznetsov I.B., Morozov P.S. Matushkin Y.G. Prion proteins: evolution and preservation of secondary structure. // FEBS Lett. 1997. V.412 №3 pp.429-432

95. Labuda D., Striker G. Sequence conservation in Alu evolution. // NAR. 1989. V.17 pp.2477-2491.

96. Lake J.A. Optimally recovering rate variation information from genomes and sequences: pattern filtering. // Mol. Biol. Evol. 1998. V.15 pp.1224-1231.

97. Lake J.A. A rate-independent technique for analysis of nucleic acid sequences: evolutionary parsimony. // Mol.Biol.Evol. 1987. V.4 №2 pp. 167191.

98. Lee H.H., Chao H.T., Lee Y.J., Shu S.G., Chao M.C., Kuo J.M., Chung B.C. Identification of four novel mutations in the CYP21 gene in congenital adrenal hyperplasia in the Chinese. // Hum.Genet. 1998. V.103 №3 pp.304310.

99. Li W.-H., C.-I. Wu and C.-C. Luo, A new method for estimating synonymous and nonsynonymous rates of nucleotide substitutions considering the relative likelihood of nucleotide and codon changes.// Mol.Biol.Evol. 1985. V.2 pp. 150-174.

100. Li WH, D. Graur. The fundamentals of molecular evolution, second edition, New York, 1999.

101. Maddison W.P., Maddison D.R. MacClade: Analysis of Phylogeny and Character Evolution. Sunderland, Sinauer MA, 1992.

102. Mau, W., Newton M.A. and Larget B. Bayesian phylogenetic inference via Markov chain Monte Carlo methods. Department of Statistics, University of Wisconsin-Madison, Technical Report #961, 1996.

103. Miller W.L., Morel Y. The molecular genetics of 21-hydroxylase deficiency. // Annu. Rev. Genet. 1989. V.23 pp.371-393.

104. Mirkin B.G. & Rodin S.N., Graph and genes, Berlin; Heidelberg; New-York;Tokyo; Springer-Verlag, 1984.

105. Miyata T., Miyazawa S., Yasunaga T. Two types of amino acid substitutions in protein evolution.// J. Mol. Evol. 1979. V.12 pp.219-236.

106. Morozov P.S., Matushkin Yu.G. // International Conference "Intelligent Systems for Molecular Biology'96". Thesises. Washington University. St.Louis. Missouri. USA. 1996. p. 137.

107. Nebert D.W., Gonzalez F.J. P450 genes: structure, evolution, and regulation. // Annu. Rev. Biochem. 1987. V.56 pp.945-993.

108. Negishi M., Iwasaki M., Juvonen R.O., Sueyoshi T., Darden T.A., Pedersen L.G. Structural flexibility and functional versatility of cytochrome P450 and rapid evolution. // Mutat. Res. 1996. V.350 pp.43-50.

109. Nei M. Molecular Evolutionary Genetics. Columbia Univ. Press., New York, 1987.

110. Nei M. Phylogenetic analysis in molecular evolutionary genetics. // Annu. Rev. Genetics. 1996. V.30 pp.371-403.

111. Nelson D.R. Cytochrome P450 and the individuality of species. // Arch. Biochem. Biophys. 1999. V.369 № 1 pp. 1-10.

112. Nguyen J., Baldwin M.A., Cohen F.E., Prusiner S.B. Prion protein peptides induce alpha-helix to beta-sheet conformational transitions.// Biochemistry. 1995. V.34 pp.4186-4192.

113. Nunez B.S., Lobato M.N., White P.C., Meseguer A. Functional analysis of four CYP21 mutations from spanish patients with congenital adrenal hyperplasia. // Biochem. Biophys. Res. Commun. 1999. V.262 №3 pp.635637.

114. Ohlsson G., Muller J., Schwartz M. Genetic diagnosis of 21-hydroxylase deficiency: DGGE-based mutation scanning of CYP21. // Hum. Mutat. 1999. V.13 №5 pp.385-389.

115. Ohta T. Amino acid substitution at the ADH locus in Drosophila is facilitated by small population size. // Proc. Natl. Acad. Sci. USA. 1993. V.90 pp.4548-4551.

116. Press W.H., Teukolsky S.A., Vetterling W.T., Flannery B.P. Numerical Recipes in C. Cambridge University Press, New York, 1992.

117. Prusiner S.B. Molecular biology of prion diseases.// Science. 1991. V.252 pp.1515-1522.

118. Prusiner S.B. Prions. // Proc. Natl. Acad. Sci. USA. 1998. V.95 №23 pp.13363-13383.

119. Rothberg P.G., Baker D.W., Bradley J.F. Simultaneous detection of five mutations in the steroid 21-hydroxylase gene using nested allele-specific amplification. // Genet. Test. 1998. V.2 № 4 pp.343-346.

120. Ruggeri et al., Benzoa.pyrene-induced murine skin tumors exhibit frequent and characteristic G to T mutations in the p53 gene.// Proc. Nat. Acad. Sci. USA, 1993. V.90 pp.1013-1017.

121. Russo C.A.M., Takezaki N. and Nei M. Molecular phylogeny and divergence times of drosophilid species. // Mol. Biol. Evol. 1995. V.12 pp.391-404.

122. Safar J., Roller P.P., Gajdusek D.C., Gibbs C.J. Jr. Conformational transitions, dissociation, and unfolding of scrapie amyloid (prion) protein.// Biol. Chem. 1993. V.268 pp.20276-20284.

123. Saitou N., Nei M. The neighbor-joining method: a new method for reconstructing phylogenetic trees. // Mol. Biol. Evol. 1987. V.4 pp.406-425.

124. Schable K.F. and Zachau H.G. The variable genes of the human immunoglobulin locus. // Biol. Chem. Hoppe-Seyler. 1993. V.374 pp. 1001-1022.

125. Schwarz G. Immunological time scale for hominid evolution., Estimating the dimension of a model. // Ann. Stat. 1978. V.6 pp.461-464.

126. Sneath P.H.A., Sokal Robert R. Numerical Taxonomy. The principles and practice of numerical classification. (W.H. Freeman and Co), San Francisco, 1973.

127. Soussi T, Caron de Fromentel C, May P., Structural aspects of the p53 protein in relation to gene evolution. // Oncogene. 1990. V.5 pp.945-952.

128. Speer M.C., Goldgaber D., Goldfarb L.G., Roses A.D., Pericak-Vance M.A., Support of linkage of Gerstmann-Straussler-Scheinker syndrome to theprion protein gene on chromosome 20pl2-pter.// Genomics. 1991. V.9 pp.366-368.

129. Studier J., Keppler K.J. A Note on the Neighbor-Joining Algorithm of Saitou and Nei. // Mol. Biol. Evol. 1988. V.5 №6 pp.729-731.

130. Sullivan D.T., Atkinson P.W. and Starmer W.T. Molecular evolution of the alcohol dehydrogenase genes in the genus Drosophila, pp. 107-148 in: Evolutionary Biology, edited my Hecht, M. K., B. Wallace, and R. J. Macintyre. Plenum Press, New York, 1990.

131. Swofford D.L. PAUP: Phylogenetic Analysis Using Parsimony. In Illinois Natural History Survey, Champaign IL, 1993.

132. Swofford D.L., Olsen G.J., Waddell P.J., Hillis D.M. Phylogenetic inference. In: Molecular Systematics, second edition, ed. by Hillis D.M., Moritz C., Mable B.K., Sinauer Associates, Sunderland, 1996, pp. 407-514.

133. Takahata N. Overdispersed molecular clock at the major histocompatibility complex loci. // Proc. R. Soc. Lond. B. Biol. Sci. 1991. V.243 pp.13-18.

134. Takezaki N., Rzhetsky A. and Nei M. Phylogenetic test of the molecular clock and linearized trees. // Mol. Biol. Evol. 1995. V.12 pp.823833.

135. Tamura K. and Nei M. Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees. // Mol. Biol. Evol. 1993. V. 10 pp.512-526.

136. Tateno Y., Takezaki N. and Nei M. Relative efficiencies of the maximum-likelihood, neighbor-joining, and maximum-parsimony methodswhen substitution rate varies with site. // Mol. Biol. Evol. 1994. V.l 1 pp.261-277.

137. Taylor F.J., Coates D. The code within the codons. // Biosystems. 1989. 22 №3 pp. 177-87.

138. Tomlinson I.M., Williams S.C., Ignatovich O., Corbett S.J. and G. Winter V BASE Sequence Directory. MRC Centre for Protein Engineering, Cambridge, UK 1996.

139. Trifonov E.N. Elucidating sequence codes: three codes for evolution. // Ann. NY Acad. Sci. 1999. V.870 pp.330-338.

140. Troitsky A.V., Melekhovets Yu.F., Rakhimova G.M., Bobrova V.K., Valiejo-Roman K.M., Antonov A.S. Angiosperm origin and early stages of seed plant evolution deduced from rRNA sequence comparisons. // J. Mol. Evol. 1991. V.32 №3 pp.253-261.

141. Tusie-Luna M.T., White P.C. Gene conversions and unequal crossovers between CYP21 (steroid 21-hydroxylase gene) and CYP21P involve different mechanisms. // Proc. Natl. Acad. Sci. USA. 1995. V.92 №23 pp. 1079610800.

142. Waggoner D.J., Drisaldi B., Bartnikas T.B., Casareno R.L., Prohaska J.R., Gitlin J.D., Harris D.A. Brain Copper Content and Cuproenzyme Activity Do Not Vary with Prion Protein Expression Level. // J. Biol. Chem. 2000. V.275 №11 pp.7455-7458.

143. Wakeley J. Substitution rate variation among sites and the estimation of transition bias. // Mol. Biol. Evol. 1994. V.l 1 pp.436-442.

144. Wang X., Ohnishi T. p53-dependent signal transduction induced by stress. // J. Radiat. Res. (Tokyo). 1997. V.38 №3 pp.179-194.

145. Wedell A. Molecular approaches for the diagnosis of 21-hydroxylase deficiency and congenital adrenal hyperplasia. // Clin. Lab. Med. 1996. V.l6 №1 pp.125-137.

146. Westaway D., Goodman P.A., Mirenda C.A., McKinley M.P., Carlson G.A., Prusiner S.B. Distinct prion proteins in short and long scrapie incubation period mice.// Cell. 1987. V.51 pp.651-662.

147. White P.C. Genetic diseases of steroid metabolism. // Vitam. Horm. (New York). 1994. V.49 pp.131-195.

148. White P.C., New M.I., Dupont B. Congenital adrenal hyperplasia. (1). // N. Eng. J. Med. 1987. V.316 pp.1519-1524.

149. White P.C., New M.I., Dupont B. Structure of human steroid 21-hydroxylase genes. //Proc. Natl. Acad. Sci. USA. 1986. V.83 pp.5111-5115.

150. White P.C., Tusie-Luna M.T., New M.I., Speiser P.W. Mutations in steroid 21-hydroxylase (CYP21). // Hum. Mutat. 1994. V.3 pp.373-378.

151. White P.C., Vitek A., Dupont B., New M.I. Characterization of frequent deletions causing steroid 21-hydroxylase deficiency. // Proc. Natl. Acad. Sci. USA. 1988. V.85. pp.4436-4440.

152. Williams, S.C., Frippiat J.-P., Tomlinson I.M., Ignatovich O., Lefranc M.-P. and Winter G., Sequence and evolution of the human germline V repertoire. // J. Mol. Biol. 1996. Y.264 pp.220-232.

153. Woese C.R., Fox G.E. Phylogenetic structure of the prokaryotic domain: the primary kingdoms. // Proc. Natl. Acad. Sci. USA. 1977. V.74 №11 pp.5088-5090.

154. Yang Z. Maximum likelihood estimation of phylogeny from DNA sequences when substitution rates differ over sites. // Mol. Biol. Evol. 1993. V.10 pp.1396-1401.

155. Yang Z. Maximum likelihood phylogenetie estimation from DNA sequences with variable rates over sites: approximate methods. // J. Mol. Evol. 1994. V.39 pp.306-314.

156. Yang Z., Kumar S., Nei M. A new method of inference of ancestral nucleotide and amino acid sequences. // Genetics. 1995. V.141 №4 pp.1641-1650.

157. Yang Z. A space-time process model for the evolution of DNA sequences. //Genetics. 1995. V.139 pp.993-1005.

158. Yang Z. Among-site rate variation and its impact on phylogenetie analyses. // Trends Ecol. Evol. 1996a. V.l 1 pp.367-372.

159. Yang Z. Maximum likelihood models for combined analyses of multiple sequence data. // J. Mol. Evol. 1996b. V.42 pp.587-596.

160. Yang Z. Phylogenetie Analysis by Maximum Likelihood (PAML). Version 1.4. University College London. 1998.

161. Yang Z. Likelihood ratio tests for detecting positive selection and application to primate lysozyme evolution. // Mol. Biol. Evol. 1998. V.l5 №5 pp.568-73.

162. Yang Z. Complexity of the simplest phylogenetie estimation problem. // Proc. R. Soc. Lond. B. Biol. Sci. 2000. V.267 №1439 pp.109-116.

163. Yang Z., Goldman N. and Friday A.E. Comparison of models for nucleotide substitution used in maximum likelihood phylogenetie estimation. // Mol. Biol. Evol. 1994. V. 11 pp.316-324.

164. Yang Z. and Wang T. Mixed model analysis of DNA sequence evolution. //Biometrics. 1995. V.51 pp.552-561.

165. Zhang J., Nei M. Accuracies of ancestral amino acid sequences inferred by the parsimony, likelihood, and distance methods. // J. Mol. Evol. 1997. V.44 Suppl 1 pp.S139-146.

166. Zhang H, Kaneko K., Nguyen J.T., Livshits T.L., Baldwin M.A., Cohen F.E., James T.L., Pmsiner S.B., Conformational transitions in peptides146containing two putative alpha-helices of the prion protein.// Mol. Biol. 1995. V.250 pp.514-526.

167. Zharkikh A, Li. W-H. Statistical properties of bootstrap estimation of phylogenetic variability from nucleotide sequences. I. Four taxa with a molecular clock.// Mol. Biol. Evol. 1992. V.9 pp.1119-1147.

168. Zharkikh A., Rzhetsky A., Morosov P., Sitnikova T., Krushkal J. VOSTORG: package of a microcomputer programs for sequence analysis and phylogenetic trees construction. // Gene. 1991. V. 101 pp.251- 254.

169. Zharkikh AA, Solovyov VV, Kolchanov NA Conformational changes in the globin family during evolution. 1. Analysis of the evolutionary role of insertions and deletions. //J. Mol. Evol. 1984. V.21 №1 pp.42-53.

170. Zharkikh A. Estimation of evolutionary distances between nucleotide sequences. // J. Mol. Evol. 1994. V.39 pp.315-329.

171. Zuckerkandl E. and Pauling L. Evolutionary divergence and convergence in proteins, pp. 97-166 in Evolving Genes and Proteins, edited by V. Bryson, and H.J. Vogel. Academic Press, New York, 1965.

172. Zuckerkandl E. and Pauling L. // in Horizons in Biochemistry, ed. by Kash & Pullman, Academic Press, New-York. 1962.147