Бесплатный автореферат и диссертация по биологии на тему
Математические модели генетической изменчивости
ВАК РФ 03.00.02, Биофизика

Автореферат диссертации по теме "Математические модели генетической изменчивости"

Московский Физико-Технический Институт (Государственный Университет)

На правах рукописи

РГ5 ОД

7 - АВГ 2000

СОЙНОВ ЛЕВ АЛЕКСАНДРОВИЧ МАТЕМАТИЧЕСКИЕ МОДЕЛИ ГЕНЕТИЧЕСКОЙ ИЗМЕНЧИВОСТИ

03.00.02-Биофизика

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата физико-математических наук

Москва, 2000

Работа выполнена на Кафедре Физики Живых Систем Факультета Молекулярной и Биологической Физики Московского Физико-Технического Института (Государственного Университета)

Научные руководители:

Кандидат физико-математических наук, доцент Киреев В.Б. Доктор технических наук Натан A.A.

Официальные оппоненты:

Доктор физико-математических наук, профессор Иванов В.И. Доктор физико-математических наук, профессор Туманян В.Г.

Ведущая организация:

Биологический Факультет

Московского Государственного Университета им. М.В. Ломоносова.

Защита диссертации состоится__ 2000 г., в_на заседании

диссертационного совета К063.91.10 при Московском Физико-Техническом Институте по адресу: 141700, Московская область, Долгопрудный, Институтский переулок 9, МФТИ, Главный корпус, аудитория__.

С диссертацией можно ознакомится в диссертационном совете К063.91.10 при Московском Физико-Техническом Институте.

Автореферат разослан__2000 г.

Ученый секретарь диссертационного совета

кандидат физико-математических наук, доцент Киреев В.Б.

ВВЕДЕНИЕ

Актуальность проблемы. Изменчивость генома на уровне популяций -основной предмет изучения популяционной и эволюционной генетики. Ее изучение важно как с теоретической точки зрения - для понимания генетической структуры популяции, филогенетических соотношений между различными популяциями и видами, так и с точки зрения практики, когда, например, необходимо идентифицировать и классифицировать различные вирусные варианты. Также сегодня широко обсуждаются новые методы анализа популяционных данных и оценки эволюционной зависимости между генетическими последовательностями в судебно-медицинской практике ("случай флоридского дантиста"), установлении отцовства и т.д. Кроме того, возросший интерес к исследованиям высокоизменчивых вирусов, среди которых особое внимание сосредоточено на Вирусе Иммунодефицита Человека, требует разработки новых более совершенных подходов к изучению генетической изменчивости.

Поскольку большинство известных на сегодняшний день моделей разрабатывалось в предположениях низкой интенсивности генетической изменчивости, они оказались малоэффективными при изучении высоковариабельных геномов. Адекватные же представления о динамике и характере генетической изменчивости необходимы как при исследовании характера протекания различных заболеваний, так и при разработке эффективных лекарственных препаратов и вакцин.

Все вышеперечисленное помимо фундаментального, имеет несомненное практическое значение, что и определяет актуальность данной работы.

Цель. Целью данной работы является анализ имеющихся и развитие новых подходов при моделировании генетической изменчивости, а также установлении границ их применимости.

Научная новизна работы.

• Проведен анализ существующих подходов к изучению генетических данных и моделированию генетической изменчивости.

• Проведено усовершенствование методов отображения символьных последовательностей в пространстве числовых векторов.

• Проведена модификация моделей генетической изменчивости с учетом различий участков генома по вариабельности.

• Усовершенствованы методы оценки эволюционной близости между генетическими последовательностями с учетом стохастичности параметров генетической изменчивости.

• Предложен подход к моделированию генетической изменчивости на уровне популяций.

• С помощью разработанных подходов проведено моделирование динамики нуклеотидных замен УЗ-петли gpl20 на множествах нуклеотидных генетических последовательностей принадлежащих субтипам А и С ВИЧ-1. Предложен метод выявления концентрационного консенсуса.

Апробация работы и публикации. Основные положения диссертации были представлены на:

• 5-ой и 6-ой Международных конференциях "СПИД, рак и родственные проблемы" (Санкт-Петербург 1997-98гг).

• Юбилейной научной конференции МФТИ (Москва 1998г). По материалам диссертации опубликовано 14 печатных работ.

Структура и объем работы. Диссертационная работа изложена на 123 страницах машинописного текста, включая 1 таблицу, 21 рисунок. Работа состоит из разделов "Введение"(часть I), "Обзор литературы" (часть II), "Собственные исследования" (часть III), "Графический и иллюстративный материал" (часть IV), "Выводы".

Библиографический список включает 95 наименований.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Глава I Модели генетической изменчивости. Раздел 1.1 8Х-отображение и его свойства.

Для рассмотрения процессов генетической изменчивости с' помощью

существующих математических методов и применения обычных

математических процедур к объекту нашего исследования - генетическим

последовательностям, необходимо ввести взаимно-однозначную процедуру,

сопоставляющую каждому объекту из пространства символьных

последовательностей единственный объект из векторного пространства.

Приведенное ниже определение задает отображение $—► х, которое ставит в

соответствие каждой символьной последовательности 5 числовой вектор х.

Отображение 5—> х, будем называть БХ-отображением.

Определение

БХ-отображением будем называть такую процедуру, которая каждой позиции символьной последовательности 5 ставит в соответствие \£2\-мерный вектор (О-ячейку), ¡-ая координата которого есть вероятность реализации символа а, из алфавита О={(0,}Ю1^! в данной позиции. Основные свойства 8Х-отображения таковы:

• При БХ-отображении какой-либо заданной (неслучайной) символьной последовательности, присутствие в ]-ой позиции этой последовательности символа с номером / из алфавита П означает, что ¡—ая координата )-ой П -ячейки равна единице, остальные — нулю.

ЕХ

• Если = 5, то |х| = X = (1)

• Числовые векторы символов ¿а,, < = 1,..,[п| алфавита Л образуют базис в

|<Г2|- мерном пространстве.

• Концы векторов ЪУ^-отображения заданных (неслучайных) генетических последовательностей образуют дискретное множество на поверхности 8-|Г2|- мерной сферы.

Концы векторов БХ-отображения случайных генетических последовательностей лежат на -1) -мерной гиперплоскости.

Рис.1 Изображение символьных последовательностей с помощью гиперсферы возможных состояний

В дальнейшем, под генетической последовательностью, мы будем понимать символьную последовательность или ее БХ-отображение.

Раздел 1.2 И-операторы и их свойства.

Определение

Назовем к-оператором, оператор, который, действуя на символьную последовательность вносит в нее случайное число замен по случайно выбранным позициям с заданной интенсивностью. При этом матрица к-оператора является блочной матрицей |Д| размера Б-|Л|х

и=

<№1

о

о

к

1*5

(2)

Из свойств Л-оператора следует независимость процесса изменчивости для

различных элементов генетической последовательности.

Определение

Назовем кооператором, оператор, который, действуя на ¡-ую позицию символьной последовательности вносит в нее случайное число замен с заданной интенсивностью. При этом оператор к, представляется следующей матрицей:

КЦ.1

|П|.|П[

(3)

1|г>и|п|

Для нуклеотидных последовательностей, |/?(| - матрица 4x4:

14=

(4)

<2 < <

У

п'г\ "и /

«и ж»

I

я«

1

, где я^ - вероятности изменения к-то символа алфавита О на у'-ый в г-ой позиции генетической последовательности. Условимся обозначать генетическую последовательность х для которой прошло к шагов изменчивости

как х(к). Тогда: /?**(()) = £Л,'х(0) = *(*). (5)

Одним из основных свойств к, -оператора является то, что какими бы ни были ж'к] в матрице переходных вероятностей |Л,| (4), ей всегда принадлежит собственный вектор ¡1 1 1 1||г с собственным значением 1. Простейшим предположением о значениях л'к1 является предположение о том, что вероятности переходов между нуклеотидами не зависят от номера позиции в нуклеотидной последовательности и ее окружения и, кроме того, все переходы между нуклеотидами равновероятны:

п1к = , для любых /■/, /г к,. к2.}!, ]2. (6)

Дальнейшее развитие этого подхода состоит в учете того, что транзиции, т.е. замены одного пуринового или пиримидинового основания другим (/)<-» С,С <-»£/) и трансверсии, т.е. замены пиримидинового основания на пуриновое и наоборот (А,й <->С,и) происходят с различными скоростями или

О

вероятностями. Учет этой особенности приводит к следующей матрице вероятностей переходов между основаниями:

А С в и

А 1-Е У а Р

С У 1 - £ Р а

в а Р 1 - £ У

и Р а У 1-Е

(8)

(7)

, где I = а + р + у. Утверждение 1

В предположениях (7) оператор к* представляется матрицей:

1 + 1 + Лк-Лк2-Лк 1 + Л\-Л\-Л\ 1 + Лк1-Л\-Л\

11+я;-л\-лк \+л\-л^-л\ 1 + Я5-д;-Л? 1 + Я| -Л\ - Лк 1 + 1 + л\-л\-л\

\+л\-хк2-лк 1+л\-л\-л\ 1+я'з -хк2 -я; 1+£я;

, где я; = (1 -2(а + у))к, Я'2 = (1 -2{р + у))к, Л\ =(1-2(а + Р))". (9)

Каждый элемент |[/Д —- матрицы (8) представляет собой вероятность перехода л'ь (к) между 1-ым и }-ым основаниями после к шагов изменчивости.

При этом вероятности р'(к), р?(к) нуклеотиду в г'-ой позиции генетической последовательности остаться неизмененным или замениться на какой-либо

другой нуклеотид после к шагов изменчивости (действий к -оператора) соответственно равны:

Лс« = ^[(1-2(а + /)У +(1-209 + /))' +(1-2(а+ /?))']; (10)

(И)

С помощью Утверждения 1 мы получили возможность определять э(к), т.е. определять изменения генетической последовательности с течением времени под воздействием процесса изменчивости. Утверждение 2

Для нуклеотидных последовательностей, при |П| = 4, вероятности х'ь (к) могут быть выражены в явном виде.

р• {к) = \~\ в ~ 2(а + + ~ + + " 2(а + 1'

Исходя из этого, мы не будем углублять далее рассмотрение моделей генетической изменчивости в направлении усложнения свойств оператора Л с помощью увеличения количества параметров матрицы (4) (максимальное количество параметров, входящих в (4) равно двенадцати) и ограничимся подробным рассмотрением свойств трехпараметрической модели (7), поскольку именно она получила широкое распространение [Ютига, 1981]. Из Утверждения 2 непосредственно следует, что случаи с большим числом параметров также не представляют никакой сложности в методическом плане, но громоздкость их выражений лишь помешала бы нашему дальнейшему рассмотрению. ,

Раздел 1.3 Измерение расстояния между предковой генетической последовательностью и ее потомком.

Рассмотрим подробнее процесс эволюции генетической последовательности под воздействием Л-оператора. Первая задача, которая возникает в связи с этим - это задача локализации потомка предковой последовательности после к шагов изменчивости в пространстве возможных значений символьных последовательностей.

Последовательность ¡(к) полученная в результате ¿-кратного действия к -оператора (2) является случайным вектором. Вероятность реализации каждого из возможных состояний этого вектора, при условии, что известна его предковая последовательность ^(0) есть:

= {5:5,(*) = «,. еО} | 5(0) = :^ = € П}}= П^(к) = } = П№ О2)

1-1 1-|

Расстояние £&(*(*), х(0)) между предковой последовательностью х(0) и ее потомком х(к) через к шагов изменчивости может быть измерено как с помощью евклидовой метрики, так и с помощью метрики Хэмминга (количества несовпадающих символов в сравниваемых последовательностях) -более привычной для специалистов биологов. Поэтому далее, при

использовании понятия генетического расстояния, мы будем обозначать Хэммингово расстояние как dis(s(k),s(0)), а евклидово как с/м(х(£),х(0)).

P{dis(s(k),s(0)) = и;0 < п < S} = с; {pd (k)J (р' (*))'■" = с; (// {к)) (l - p'{k)f" (13) Математическое ожидание и дисперсия этой случайной величины равны:

E{dis{s(k),s(0))) = SPd(k)- (14)

D(rfö(i(*),5(0))) = S ■ Р\к){1 - pd (ifc)). (15)

В выражениях (13-15) мы опустили индекс i, так как pf(k) одинаковы для всех

Q -ячеек в предположениях (7). Кроме того, нетрудно получить, что: P{dis{s(к,), 5(*,)) = < п < 5} = с; (pJ (к, + к2 )У (l - р" (к, + к2 ))*-" (16)

Выражения (13) и (16) дают нам распределение состояний последовательности в пространстве возможных значений, если известна ее предковая последовательность. Необходимо отметить, что, при увеличении числа шагов изменчивости, распределение (13) приобретает стационарный характер и потомки предковой последовательности становятся неразличимыми по параметру расстояния между ними и предковой последовательностью. Действительно, поскольку каждый вектор х, полученный при SX-отображении имеет смысл вектора вероятностей реализации символов последовательности s, его координаты х, должны представлять собой неотрицательные величины в

интервале от 0 до 1, т.е. 0<х, <1, V/ = 1,..,S. Но какова бы ни была форма R,-оператора, существует всего один собственный вектор, отвечающий этим условиям - это вектор ¡1 1 1 1||г.

lim P{dis(s{k,), s(k2)) = л;0 < п < S} = Hm P{dis{s(kt), s(k2)) = n;0 < n < S} = C"s (17)

Итак, при увеличении числа шагов изменчивости, потомки предковой последовательности равномерно заполнят все возможные состояния на гиперсфере возможных значений. Такое состояние будет стационарным, т.к. процесс изменчивости не изменит больше относительных концентраций возможных значений, ведь вектор ¡1 1 1 1||г- собственный вектор R,-оператора. Таким образом, справедливо следующее Утверждение.

Утверждение 3

При рассмотрении распределения потомков некоторой предковой генетической последовательности, вне зависимости от вида оператора к, существует только одно стационарное состояние системы "предковая последовательность - последовательности-потомки". В этом состоянии все возможные значения последовательностей—потомков равновероятны. Итак, при больших к, вероятность обнаружить последовательность-потомок в каком-либо из состояний будет определяться только топологией пространства возможных значений.

P{dis(s(k),s(0))=n}

Рис.З Распределение последовательностей-потомков по гиперсфере возможных состояний

/(¿)«1--(1-10"3Т --!—, где * = *Ч05

У 4 4V ' 4 4 exp(Ä')

Оценим временной интервал, или количество шагов изменчивости, для которого справедливо распределение (17) в случае ВИЧ-1. Учитывая, что средняя интенсивность генетической изменчивости ВИЧ 10"3-10'4 замен/на геном/на цикл репликации [Nowak, 1995], получим что:

(18)

;хр(л ¡

Таким образом, когда ¿>-2-103, при оценке расстояния между предковой генетической последовательностью и последовательностью-потомком имеет смысл пользоваться стационарным распределением (17). Поскольку характерное время смены вирусных популяций in vivo не больше 6 часов [Perelson et.al., 1996], при исследовании эволюционных зависимостей между генетическими последовательностями ВИЧ, которые отделены друг от друга во

времени больше чем на год, использовать распределения (13), (16) неправомерно. Другими словами, (13) и (16) дают хороший результат, когда множество потомков последовательности s(0) достаточно компактно, т.е. дисперсия случайной величины dis(s(k),s(0)) мала.

Раздел 1.4 Распределение интенсивности изменчивости по сайтам генетической последовательности.

Рассмотрим задачу локализации потомка предковой последовательности после к шагов изменчивости на множестве возможных значений в случае, когда параметры интенсивности изменчивости различаются по сайтам генетической последовательности. Для представленной трехпараметрической модели это означает, что оператор Л, будет выражен матрицей (7), но параметры а,Добудут разными для различных позиций последовательности. В этом случае: E{dis{s(k),s(0))) = S(19)

D(dis(s{k),s(0))) = S • рЧк)р' (к) ~ S ■ D[p" (к)) (20)

Сравнивая полученные выражения с выражениями (14), (15) приходим к

выводу, что математическое ожидание dis(s(k),s(0)) в этом случае имеет тот же вид, что и раньше, с той лишь разницей, что в качестве pJ(k) нужно взять его среднее pd(k). Дисперсия же становится меньше на взятую 5 раз величину дисперсии р?(к).

Применительно к картине изменчивости это будет означать, что не все участки генома будут вовлечены в процесс в одинаковой степени. Если в случае, который относится к предыдущим разделам, изменения в составе последовательностей происходят равномерно по всей их длине, то теперь они будут сосредоточены на высоковариабельных участках генома, а консервативные участки не будут вносить большого вклада в эти изменения. Очевидно, такой подход к рассмотрению процесса более адекватен и должен приносить больший эффект. Одна из возможностей его применения продемонстрирована на экспериментальном материале (см. Главу IV).

10

Глава II. Стохастические свойства моделей генетической изменчивости.

Раздел 11.1 Стохастические параметры в моделях изменчивости.

Все приведенные выше результаты опираются на тот факт, что .параметры количества шагов к и интенсивности изменчивости а не являются случайными величинами. В этой главе будет анализироваться случай, когда в (1.9-11): а ->• а ; к -*к (1)

Где величины а, к обозначают случайные, а а, к - детерминированные величины соответственно.

ВИЧ-1, относительно которого строится большинство иллюстраций в этой работе, представляет собой один из наиболее ярких примеров необходимости рассмотрения перехода (1). Действительно, даже небольшое количество точечных мутаций генома ВИЧ способно значительно изменить его репликативный потенциал; скорость репродукции вируса широко варьируется в зависимости от типа клеток мишеней; вирусная динамика в целом по популяции инфицированных клеток модулируется иммунным давлением; эффективность действия иммунной системы в свою очередь зависит от стохастического взаимодействия "клетка иммунной системы - антиген". Таким образом, вопрос о действительных параметрах полученных распределений (1.13,16) является скорее очень сложной и многогранной биологической, нежели математической задачей, при решении которой, прежде всего, необходимо четкое определение шага изменчивости. В случае с ВИЧ, шаг изменчивости можно определить двояко. Например, им можно считать цепь событий от адсорбции свободного вириона на поверхности клетки-мишени до начала производства новых вирионов; или от образования ДНК провируса в результате инфицирования свободным вирионом клетки-мишени, через производство вирионов, к новому ДНК провирусу. И в первом и во втором случаях возможно изменение интенсивности мутаций от шага к шагу.

Раздел 11.2 Влнянне случайных параметров на результаты вычислений Утверждение 4

Для произвольного вида распределения случайной величины а, если

Е{&)< со, £(*)<». к> 2, |0| > 2,

имеют место следующие неравенства:

р?(Е{а\к)>Е{р?(а,к)),

р?(Е(а),Е(£))* Е^{а,к)) Следствия Утверждения 4:

1. При выполнении условий (2), справедливы следующие неравенства: Ща,а),*(к3))) < Е\в.ад)(«/й(| (*,),,(*,)))

Е\и{¿¡МК)Ак2))) < £|Мк2)))

«-£(¿1

£(i)

2. При выполнении условий (2):

1

a.Eia){M^k0),s(k0 + к)))

t-E(k)

In

справедливо при

к < -

I4 И-1

In

аП

I И-1

(2)

(3)

(4)

(5)

(6)

(7)

(8)

(9)

(10)

(И) (12)

При рассмотрении ВИЧ-1, а =1(Г5 и, учитывая (12), можно легко определить, что для выполнения неравенств (9-10) необходимо чтобы число шагов

изменчивости было меньше чем lnfij/lnil-j-КГ3 j«1343. Исходя из (1.18), это

вполне приемлемо для их практического применения. Таким образом, внутри

временного интервала величиной примерно в 103 шагов изменчивости, дисперсия расстояния между предковой последовательностью и ее потомком, а также между потомками одной предковой последовательности оказывается заниженной, если не принять во внимание тот факт, что параметры изменчивости - случайные величины. Это в свою очередь может привести к неверному вычислению времени распространения вирусных вариантов по возможным состояниям, иными словами — времени перехода вирусной популяции в другое (например, с другими частотами встречаемости различных вирусных вариантов) состояние. Данное рассуждение еще раз подчеркивает важность подобных оценок при исследованиях взаимодействия "вирус — иммунная система" [Nowak et.al., 1991], для которых они являются входящими.

Глава III. Общие свойства популяций в рамках моделей генетической

изменчивости.

В предыдущих главах мы в основном интересовались трансформациями отдельных генетических последовательностей, вероятностями перехода от одного варианта к другому в результате процесса изменчивости и т.д. Тем не менее, в реальных биологических условиях, процессы изменчивости тесно связаны с процессом репродукции. Именно поэтому данная глава целиком посвящена распространению и накоплению мутаций от одного поколения к другому и начинается с описания операторов, определяющих появление новых популяционных единиц (в наших примерах - вирусных вариантов) - операторов рождения.

Раздел III.1 Различные типы операторов рождения. Определение

Оператором рождения назовем такой оператор, который, действуя на произвольную генетическую последовательность, продуцирует набор последовательностей - потомков.

Существует два основных типа операторов рождения с фиксированным числом потомков, основанных на понятии R - оператора:

I. L-оператор (L - от англ. last). Оператор, который, действуя на генетическую последовательность, приводит к появлению N потомков, при этом предковая последовательность элиминируется из популяции.

Lx = Y %> |r| = W; у, =kx\ i = l,..,N (1)

II. G-оператор (G - от англ. general). Оператор, который, действуя на

генетическую последовательность, приводит к появлению N потолков,

при этом предковая последовательность остается в популяции.

, , - -

Gx = Z о |Z| = JV + l; z, =ftc; i = l,..,N; z„tl =x (2)

Отметим, что хотя в (1) и (2) везде стоят знаки равенства, действие R - оператора носит вероятностный характер, а у,, z, - случайные символьные последовательности (вектора, если речь идет об их SX-отображении) с биномиальным распределением (см. предыдущие разделы). Результатом действия оператора рождения на некоторое множество последовательностей будет объединение потомков всех его последовательностей.

LX = \jLx; GX = {jGx. (3)

«ЛГ *еХ

Проиллюстрируем возможные пути применения L и G- операторов при исследовании динамики ВИЧ инфекции.

Главное предположение при определении действия оператора рождения состоит в том, что при действии на некоторое множество последовательностей оператор инициирует синхронное (одновременное) возникновение потомков всех его элементов. Поскольку в основе определения оператора рождения лежит R - оператор, для нас основной временной единицей по-прежнему остается шаг изменчивости. Выше были приведены различные способы определения шага изменчивости для ВИЧ. Исходя из них, можно установить, что условия, когда зависимость между количеством предковых геномных последовательностей и последовательностей-потомков строго детерминирована, почти никогда не выполняются. То же касается и требования синхронизации возникновения новой генерации последовательностей-потомков по всей популяции. Тем не менее, концепция операторов рождения позволяет

определить существенные характеристики и свойства процесса возникновения новых популяционных единиц, в части касающейся генетических изменений на уровне популяции.

Проблема применимости того или иного типа оператора рождения должна решаться для каждого объекта исследования в отдельности. Например, L-модель подходит для описания острой вирусной инфекции in vitro, которая обуславливается наличием вирусных вариантов с высокой цитодеструктивной активностью. В этом случае предковая последовательность в большинстве случаев разрушается вместе с клеткой-носителем. Аналогом этого случая in vivo может служить эпидемиологический процесс со 100% летальностью и коротким инкубационным периодом. Напротив, хроническая инфекция in vitro по всей видимости описывается G - оператором.

Раздел III.2 Общие свойства операторов рождения. Определение

Множества символьных последовательностей kL(x), 1 L(x), kG{x) и kG(x) таковы, что:

m«0 k m=0 k

Где kL(x) и kG(x) - множества потомков последовательности x, образованные к- кратным действием нах L и G -операторов соответственно и отделенные от х, их предковой последовательности, т шагами изменчивости. kL(x) и kG(x) - множества потомков последовательности х после k-кратного действия на нее операторов L и G соответственно. „'/,(*), */,(*), „* g, (х) и lg,(*) - элементы множеств *L(x) и kL(x), kG(x) и kG(x) соответственно. Сразу же сделаем необходимые пояснения. Поскольку однократное действие оператора рождения на предковую последовательность х порождает множество

т<к, (4)

т<к, (5)

(6)

последовательностей-потомков, то к- кратное воздействие этого оператора на х порождает множество последовательностей, содержащее подмножества (4-6). Из Определения вытекают следующие свойства операторов рождения:

|о°£М|=|оС(лО| = 1, ^>0; = = (7)

Утверждение 7

Для любой последовательности х, Ь - продуцированные последовательности -потомки подчиняются следующему количественному распределению:

|тЧ(х)( = Лг< -5Ы = | * £(д:)|, т<к, где 8Ы - символ Кронекера. (8) Распределение Ь- продуцированных потомков по расстояниям между ними -биномиально:

р{Нат(к11{х\к11{х))= «}= Д/ф>,р(2/:)] = С;{р"(2к))(\ - р\2к))'~" (9)

Утверждение 8

Для любой последовательности х, 6- продуцированные последовательности -потомки подчиняются следующему количественному распределению:

¡.Зд-сг-лг, = (10)

распределение 6- продуцированных потомков по расстояниям между ними задается следующим выражением:

р{Яат(^,(4'?2(х))=пЬ Ыи ■ Вт[8,п,р{2к)]1(Ы + 1)и. (12) Чтобы оценить границы применимости (12), определим р, для которых выполняется неравенство (11). Например, для алфавита нуклеиновых кислот (|П| = 4), имея ввиду размер генома ВИЧ («104 нуклеотидов), при а = 10"', неравенство (12) эквивалентно N »1. Для гипервариабельного участка УЗ гена епу эта оценка, при а = 10~3, дает тот же результат. Таким образом, распределение (12) справедливо как для генома ВИЧ в целом, так и для отдельных его участков.

Утверждение 8 выходит далеко за рамки обсуждения границ применимости той или иной формулы. Применительно к инфекционной динамике ВИЧ это

означает, что форма распределения по расстояниям внутри субпопуляции s/1 (slow/low) вариантов, при больших N, практически совпадает с формой распределения внутри субпопуляции r/h (rapid/high) вариантов. Таким образом, мутации, приводящие к переключению с r/h фенотипа на s/1 фенотип не приводят к изменению формы распределения по генетическим расстояниям для вирусной популяции в целом. А это означает, что мы имеем возможность применять однородные модели генетической изменчивости при исследовании вирусных популяций, содержащих различные вирусные фенотипы.

Раздел III.3 Обобщение на случай ненулевого Хэммингова расстояния

Допустим теперь, что в качестве начального (предкового) множества имеется не одна, а некое произвольное множество предковых последовательностей X. Очевидно, такая постановка задачи более адекватно отображает реальный процесс инфицирования и последующего развития инфекции. Однако, такого эода задача не может быть решена напрямую с использованием ранее толученных результатов, т.к. до этого мы всегда предполагали, что рассматриваемое множество генетических последовательностей имеет одного общего предка. Т.е. мы a priori предполагали, что одна из последовательностей х' или х' связаны между собой посредством R - оператора. Теперь мы a priori располагаем лишь расстоянием между ними dis(x' ,х'). Утверждение 9

Чусть Ht(k,,k2) (от англ. Hamming) - случайная величина dis(s'(k,), s2(k2)), r'| = |i2| = ,S. Известно, что dis(s\0), j2(0))= w. Тогда производящая функция PHi (/) этой случайной величины равна:

между родительскими последовательностями.

(')=(1 - Рс+рс ■ >У" ■ О - Pä + Pä ■ 0" ;

(13)

(14)

ПСС • Пс? (17)

Утверждение 10

Пусть Н2(к„к2) - случайная величина *'/(х2)), |х'| = |х2| = |П|5. х\ х2-8Х-

отображения последовательностей л-2(0) соответственно. Известно,

что 52(0))= Тогда производящая функция ¥„Д¡) этой случайной

величины равна:

(0=0-Рс+Л- 'Г* • 0 ■- Л, + Л •')" / (16)

Утверждение 11

Пусть Н3(к1Ук2) - случайная величина ¿«('^(х,), *'£(х2)), |х'| = |х2| = |С2|5. х1, х2-5!А'-отображения последовательностей ¿'(0), *2(0) соответственно. Известно, что «/й(«'(0). *2(0))= V/. Тогда производящая функция Ч/Н] (г) этой случайной величины равна:

(ЛГ+О4-''

Найденные характеристические функции позволяют исследователю определять все основные характеристики распределений указанных случайных величин, например математическое ожидание, дисперсию, а также моменты более высоких порядков. Этот результат позволяет отойти от предположения об общем предке для сравниваемых последовательностей. Таким образом, получен важный инструмент сравнения генетических данных, для которых отсутствуют априорные эволюционные связи, либо такие связи неоднозначны (в силу, например, филогенетических построений).

Глава IV. Моделирование изменчивости нуклеотидных последовательностей. Раздел ГУЛ Вариабельность генетических последовательностей В этом разделе рассмотрено влияние генетической изменчивости на динамику распространения вирусных вариантов на множестве возможных значений при помощи анализа нуклеотидных последовательностей УЗ-петли поверхностного гликопротеина §р120 ВИЧ-1.

Такой выбор объясняется тем, что не все области генома ВИЧ характеризуются одинаковым уровнем изменчивости. Наибольшая вариабельность характерна для поверхностных гликопротеинов £р41 и §р120. При этом, наибольшее внимание исследователей в составе §р120 привлекает третий вариабельный домен, фланкированный образующими дисульфидную связь цистеинами в позициях 303-337 (УЗ-петля). Это объясняется тем, что УЗ петля иммунодоминантна и является основной мишенью для выработки нейтрализующих антител, содержит как В-, так и Т-клеточные эпитопы, и даже точечные аминокислотные замены в пределах УЗ-петли существенно влияют на инфекционные свойства, тропизм и синцитиеобразующую способность вируса.

Если отвлечься от внутреннего строения таксонов ВИЧ-1 (имея ввиду их топологическое строение), сами они представляют собой некие "острова состояний" на гиперсфере возможных значений, разделенные между собой областями, о которых, строго говоря, либо ничего не известно, либо такие состояния являются "запрещенными". "Запрещения" обуславливаются влиянием сложного набора различных биологических факторов. В частности, иммуннодоминантность УЗ петли и наличие в ней нейтрализующих эпитопов несомненно оказывают одно из основных воздействий на формирование границ "запрещенных" множеств при взаимодействии с иммунной системой. Определив значение частоты встречаемости каждого возможного состояния и восстановив в каждой точке пространства разрешенных состояний вектор с длиной равной частоте встречаемости данного состояния, перпендикулярно поверхности гиперсферы, мы получим диаграмму значений относительных концентраций состояний. Назовем поверхность, натянутую на концы этих векторов поверхностью концентраций. Если предположить, что все состояния на гиперсфере возможных значений разрешены, то стационарное состояние системы "предковая последовательность, последовательности потомки" будет представлять собой равномерное распределение всех элементов множества по возможным значениям.

Предположение о разрешенности всех состояний, конечно же, не выполнено в реальных условиях в силу тех факторов, о которых сказано выше. Введение же множества запрещенных состояний и дает картину "островов", где будут концентрироваться разрешенные состояния, разделенных "запрещенными" областями.

Введение запрещенных состояний меняет также и внутреннее строение субтипов. Каждый субтип имеет свою границу в 5-|Л|-мерном пространстве. Конфигурация этой границы естественным образом задает и поверхность концентраций. Если в случае изображенном на рис. 1 - это гиперсфера, то в случае рис. 2 поверхность концентраций приобретает "рельеф". Появление ограничений приводит к тому, что некоторые состояния получают преимущество в частоте встречаемости по сравнению с остальными. Это означает, что появляются доминирующие варианты для каждого генотипа - т.н. концентрационные консенсусы. Использование понятия концентрационного консенсуса оказывается более эффективным при исследовании эволюции генома под воздействием изменчивости, чем широко распространенное понятие консенсусной последовательности. Однако, определение частот встречаемости вирусных вариантов на сегодняшний день затруднено, в силу особенностей в сборе информации существующими базами данных. Поэтому в следующем

Рис. 1 Поверхность концентраций для случая равномерного заполнения всех возможных состояний (предельное состояние множества) без наличия "запрещенных" областей.

ения всех (предельное

Рис. 2 Поверхность концентраций при наличии "запрещенных" областей. Темный цвет соответствует более высокой концентрации (частоте встречаемости).

разделе предлагается метод их определения на основе численного эксперимента.

Раздел 1У.2 Исследование экспериментальных данных по вариабельности

Цель дальнейшего исследования - определить метод выявления доминирующих вариантов внутри генотипа, а также проследить динамику образования стационарного состояния различных субтипов ВИЧ-1 имея ввиду участок генома УЗ-петли gpl20. При этом:

1. Процесс изменчивости будем задавать к -оператором.

2. Будем считать, что на формирование доминирующего варианта генома заданного субтипа не влияют последовательности принадлежащие другим субтипам (см. формулу (1) данного раздела).

3. Будем считать (см. Утверждение 8 и комментарии к нему), что на формирование доминирующего варианта генома выделенного множества не влияет распределение вирусных вариантов данного множества по скоростям и интенсивности репликации.

Вероятность перехода между символьными последовательностями задается следующим выражением:

/>{*'(*)-> (0),*2(0))=";0<„ < <?}= = (р"«)"(' - рЧк)Т" (О

Пусть Р1 - матрица вероятностей перехода между элементами /-го субтипа:

Тогда динамика концентраций состояний исследуемого множества задается уравнением:

За основу при моделировании процесса изменчивости и определения стационарного состояния для субтипов А и С ВИЧ-1, а также доминирующих по данным субтипам вариантов были взяты три модели генетической изменчивости.

генетических последовательностей УЗ ер!20, ВИЧ-1.

(5)

С,(к)=Р.*С,( 0)

(6)

Первая модель является однопараметрической, Ä-оператор которой задается матрицей (1.7) при а = ß = у.

Вторая модель - двухпараметрическая, с R -оператором, которой задается матрицей (1.7) при ß = у. Такая модель позволяет учесть различную вероятность транзиций/трансверсий. Отношение частот транзиций/трансверсий принято равным 1,42 [Leitner et.al., 1997].

В Третьей модели учтено различие вариабельности по различным участкам генома. Это сделано при помощи так называемой информационной энтропии [Schneider, 1990]. Для каждой позиции последовательностей было рассчитано

И , . _

значение функции e(i): e(i) = -\n\^df((oJ,i)\og2{f(coJJ)), i = \,..,S (7)

м

Значение e(i) определяет меру недостатка информации (неопределенность), необходимой для описания данной позиции генетической последовательности. Более точно - это мера непредсказуемости состояния данной позиции. При этом f(cori)- частота встречаемости j-го символа алфавита О. в данном множестве последовательностей по /-ой позиции, S - длина последовательности. На основе информационной энтропии все позиции V3-петли исследуемых субтипов были проранжированы по интенсивности изменчивости исходя из того, что значение средней, по участку V3, интенсивности замен должно быть равно 10~3.

Визуализация взаимного расположения генетических последовательностей принадлежащих субтипам А и С ВИЧ-1 в пространстве возможных состояний проведена с помощью метода главных компонент [Натан A.A., 1994]. Карты генетических последовательностей субтипа С и А приведены на рис.3 и рис.4 соответственно, при этом использованы данные о 435-ти последовательностях принадлежащих субтипу С и о 709-ти последовательностях субтипа А.

V3gpl20, Subtype С. 435 sequences 1. v •,

h ш

• /; ч кГ#. Ы * % г.'. •Г

VJ gpl20, Subtype А. 709 sequences ЯЗЁЁ _______

. ♦ • . И. Ч

Рис. 3 Карта взаимного расположения Рис. 4 Карта взаимного расположения

генетических последовательностей генетических последовательностей

принадлежащих субтипу С. принадлежащих субтипу А.

Все три метода показали схожую динамику применительно к субтипу С. Частоты встречаемости всех состояний, по истечении некоторого времени, приходят к стационарным значениям и, таким образом, мы имеем возможность наблюдать общее стационарное положение системы, в котором получает преимущество лишь одно из возможных состояний.

Рис. 5 демонстрирует динамику относительной концентрации доминирующей последовательности для субтипа С (полностью совпадает с характером динамики для субтипа А). Самая нижняя кривая соответствует методу №1, самая верхняя - методу №3. Такое расположение кривых прекрасно согласуется с выводом Раздела 1.4, о том, что дисперсия расстояния между генетическими последовательностями в рамках модели без разделения по интенсивностям изменчивости между сайтами последовательностей, больше, чем в случае учета этих различий.

Учет разницы между транзициями и трансверсиями (метод №2) выделил направление наибольшего возрастания в сторону той же последовательности, что и метод №1, дифференцировка интенсивности изменчивости по сайтам последовательностей лишь усилила этот эффект за счет концентрации процесса

на тех участках генома, которые являются наиболее вариабельными, а следовательно - определяющими при выявлении градиентов изменчивости внутри множества.

70 XОтносительная концентрация доминирующей ■ Iпоследовательности " " №3 '

"Л ,<:' • -о 4 "V

'Ч г" / ;/ ■* 1 А',-,

( / / V . ' 1 ' ' "Л. , •

' *•// :«V ' -

6000

8000 10000 12000

Рис. 5 Кривые накопления доминирующей последовательности по методам №1,2,3. Субтип С. Соответствует Рис.А-1,2. Максимальная концентрация по оси ординат 70 (из 435).

Если мы внимательно посмотрим на карту субтипа А, Рис. 3, то увидим четкое разделение на два подмножества. Одно из этих подмножеств, более мощное, образовано в основном последовательностями, принадлежащими пациентам из стран Африки. Другое, малое, подмножество образовано в основном вариантами от российских и украинских инфицированных. Моделирование по методам №1,2 дало одинаковые результаты: доминирующая последовательность оказалась в менее мощном подмножестве, образованном "российскими" последовательностями. Это приводит к выводу о том, что, по-видимому, это множество является более плотным, чем крупное скопление последовательностей. Метод №3 дает другой результат и позволяет выделить доминанту в более мощном подмножестве. Этот результат, очевидно, более адекватен, поскольку метод №3 позволяет избежать некорректной оценки эволюционной близости между генетическими последовательностями, сводя к минимуму вклад от константных областей генома и пропорционально усиливая влияние вариабельных, определяющих, участков. В целом, разница в результатах применения методов №1,2 и метода №3 иллюстрирует недочеты при применении моделей с малым количеством параметров, не учитывающих

различия в характеристиках изменчивости по сайтам генетических последовательностей.

Остается отметить, что консенсусная последовательностьУЗ §р120 субтипа С, отстоит на единицу в метрике Хэмминга от доминирующей последовательности этого субтипа, т.е. отличается от нее на один нуклеотид. Напротив, расстояние между консенсусом и доминирующей последовательностью УЗ §р120 субтипа А, полученной по методу №3, равно пяти, по методам №1,2 - одиннадцати. Столь большое отличие объясняется более сложной топологией расположения последовательностей субтипа А на карте возможных значений. Кроме того, сравнение консенсусной и доминирующей последовательностей показывает, что консенсус, по сравнению с доминирующей последовательностью, не всегда может служить характеристикой множества, особенно если речь идет о его эволюции.

«ПК ISO US32M 435 lequence* Method #1

I

•fe,-

step! 500

US3284

435 «equence*

Рис. 6 Пример образования доминантной последовательности. Субтип С.

Главные компоненты I, 2.

_0,5_

Шкапа относительных концентраций. Темный цвет соответствует более высокой концентрации.

Method*!

Рис. 7 Диаграмма значений информационной энтропии для различных позиций УЗ %р120 субтипа С. По оси абсцисс отложен номер позиции.

Я ер: 100 Ц61в55 ТОТ щипси жт ... ..

V'-- -

Рис. 8 Пример образования доминантной последовательности. Субтип А.

Главные компоненты 1, 2.

Шкала относительных концентраций. Темный цвет соответствует более высокой концентрации.

! 1

0,9

0,8 0,7

| 0,6

\ 0,5 0,4

I 0.3 0,2 0,1 0

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101

Рис. 9 Диаграмма значений информационной энтропии для различных

позиций УЗ gpl20 субтипа А. По оси абсцисс отложен номер позиции.

ВЫВОДЫ

• Усовершенствован метод отображения символьных последовательностей в пространстве числовых векторов.

• Разработан общий подход к определению переходных вероятностей между генетическими последовательностями на нуклеотидном уровне. Приведены выражения в явном виде для трех- и восьмипараметрической моделей.

• Проведен анализ влияния стохастичности параметров генетической изменчивости на эволюционную близость генетических последовательностей, имеющих общего предшественника.

• Предложена аналитическая модель, описывающая эволюцию генома на уровне популяции. Исследованы динамика и характер распределения генетических последовательностей по расстояниям между ними.

• Проведено численное моделирование динамики распределения генетических последовательностей УЗ петли §р120 субтипов А и С ВИЧ-1 по частотам

встречаемости в области известных (по данным Лос-Аламосской Национальной Лаборатории (США)) жизнеспособных вариантов ВИЧ.

• Разработан способ теоретического определения наиболее часто встречающихся в ходе длительной эволюции последовательностей генома (т.н. концентрационных консенсусов) в условиях заданных ограничений изменчивости соответствующих последовательностей.

• Предложен способ определения концентрационных консенсусов, который может быть использован как инструмент анализа полноты существующих экспериментальных данных и определения основных направлений эволюции генома.

РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ ОПУБЛИКОВАНЫ В РАБОТАХ:

1) Michael Yu. Shchelkanov, Lev A. Soinov, Vadim V. Zalunin, A. A. Slavsky, Maxim V. Denisov, Maxim S. Petrenko, Victor B. Kireev. Basic population properties of generations in the frame of one-parameter discrete model of genetic diversity// Journal of Biomolecular Structure and Dynamics, 2000. - in press.

2) M.Yu. Shchelkanov, L.A.Soinov, A.N. Yudin, M.V. Denisov, A.A. Slavsky, M.S. Petrenko, A.A. Vedenov. Stochastic Properties of One-Parameter Discrete Model of genetic Diversity in the Unique Random Parameter Case.// J Biomol Struct Dyn 1999 ;17(2).

3) M.Yu. Shchelkanov, L.A.Soinov, V.V. Zalunin, N.S. Starikov, A.A. Natan , V.B. Kireev, E.V. Karamov. Dependencies of substitution steps number on Hamming distance are identical for one-parameter discrete models of both direct and parallel genetic diversity.// J Biomol Struct Dyn 1998 Aug;16(l):133-138

4) M.Yu. Shchelkanov, L.A. Soinov, V.V. Zalunin, D.A. Gumennyi, A.N.Yudin, A.A.Natan, V.B.Kireev, E.V .Karamov. One-parameter discrete model of genetic diversity.// J Biomol Struct Dyn 1998 Apr;15(5):887-894

5) M.Yu. Shchelkanov, A.N. Yudin, A.V. Antonov, L.A. Soinov, V.V. Zalunin, A.A. Vedenov, E.V. Karamov. Variability analysis of HIV-1 gpl20 V3 Region: I. Point Estimators for the Amino Acid Distribution Characteristics // Journal of

Biomolecular Structure and Dynamics. Volume 15, Issue Number 2, October 1997.-P.231

6) М.Ю. Щелканов, Л.А. .Сойнов, B.B. Залунин, A.A. Славский, И.Б. Сахурия, В.В. Бурунова, Н.Г. Ярославцева, Э.В. Карамов, P.M. Хаитов. Расстояния между спектрами иммуннореактивности при серотипировании ВИЧ. // Иммуннология (Москва). - 1998.- N 6.

7) М.Ю. Щелканов, И.Б. Сахурия, JI.A. Сойнов, В.В. Залунин, A.A. Славский,, М.В. Денисов, А.Н. Юдин, Э.В. Карамов. Биологические свойства изолятов ВИЧ-1: II. Полуэмпирическая аппроксимация динамики инфекционного процесса. // Проблемы вирусологии (Москва). - в печати.

8) I.B. Sakhuria, M.Yu. Shchelkanov, E.V. Ivannikiv, A.N. Yudin, G.V. Kornilayeva, A.S. Gorbacheva, L.A. Soinov, V.V. Zalunin, V.A. Golikov, E.V. Karamov. Relationship between cellular tropism characteristics of HIV-1 isolates and clinical features of infection process // In: Abstract Book of 5-th International Conference "AIDS, Cancer and Related Problems", 1997, May 25-30, St.-Petersburg, Russia. - St.-Petersburg, 1997. - P. 260.

9) M.Yu. Shchelkanov, V.V. Zalunin, L.A. Soinov, I.L. Novak, A.V. Kozlova,

I.B. Sakhuria, A.V. Abelian, Yu.A. Mirskov, E.V. Karamov. Development of hardware and software maintence for quantitative PCR // In: Abstract Book of 5-th International Conference "AIDS, Cancer and Related Problems", 1997, May 2530, St.-Petersburg, Russia. - St.-Petersburg, 1997. - P. 272.

10) V.V. Zalunin, M.Yu. Shchelkanov, L.A. Soinov, A.N.Yudin, A.A. Natan, V.B. Kireev, E.V. Karamov. Computer-assisted simulation of HIV evolution in the infected organism // In: Abstract Book of 6-th International Conference "AIDS, Cancer and Related Problems", 1998, May 18-22, St.-Petersburg, Russia. - St.-Petersburg, 1998. - P. 86..V.2.

11) L.A. Soinov, M.Yu. Shchelkanov, V.V. Zalunin, D.A. Gumennyi, A.A. Natan, V.B. Kireev, E.V. Karamov. A one-parameter diskrete model of genetic diversity // In: Abstract Book of 6-th International Conference "AIDS, Cancer and Related

Problems", 1998, May 18-22, St.-Petersburg, Russia. - St.-Petersburg, 1998. - P.

89..V.2.

12) A.A. Slavsky, M.Yu. Shchelkanov, L.A. Soinov, V.V. Zalunin, M.S. Petrenko, N.S. Starikov, E.V. Karamov. Evaluetion criteria for immunoreactivity spectra// In: Abstract Book of 6-th International Conference "AIDS, Cancer and Related Problems", 1998, May 18-22, St.-Petersburg, Russia. - St.-Petersburg, 1998. - P. 89..V.2.

13) N.S. Starikov, M.Yu. Shchelkanov, A.N. Yudin, L.A. Soinov, V.V. Zalunin, E.V. Karamov. Distinctions between various sets of peptide fragments derived from sequences of the V3 region of GP120 protein from different taxons of HIV-1 In: Abstract Book of 6-th International Conference "AIDS, Cancer and Related Problems", 1998, May 18-22, St.-Petersburg, Russia. - St.-Petersburg, 1998. -P.90..V.2.

14) JI.A. Сойнов. Моделирование развития ВИЧ-инфекции с учетом генетической изменчивости.// Современные проблемы фундаментальной и прикладной физики и математики. - МФТИ, Долгопрудный 1997, выпуск 3.