Бесплатный автореферат и диссертация по биологии на тему
Анализ эволюции инсерций и делеций в последовательности ДНК, проводимый на основе сравнения полных геномов
ВАК РФ 03.01.09, Математическая биология, биоинформатика

Автореферат диссертации по теме "Анализ эволюции инсерций и делеций в последовательности ДНК, проводимый на основе сравнения полных геномов"



На правах рукописи

Леушкин Евгений Владимирович

Анализ эволюции инсерций и делеций в последовательности ДНК, проводимый на основе сравнения полных геномов

03.01.09 - математическая биология, биоинформатика

21 АВГ 2014

Автореферат диссертации на соискание степени кандидата биологических наук

Москва, 2014

0055518ОУ

005551809

Работа выполнена на факультете биоинженерии и биоинформатпкн Московского государственного университета им. М.В. Ломоносова и в секторе № 4 молекулярной эволюции Федерального государственного бюджетного учреждения науки Институт проблем передачи информации им. A.A. Харкевича Российской академии наук.

Научный руководитель:

Базыкин Георгий Александрович кандидат биологических наук,

заведующий сектором №4 молекулярной эволюции ИППИ РАН

Официальные оппоненты:

Лебедев Юрий Борисович доктор биологических наук.

Заведующий лабораторией сравнительной и функциональной геномнки Федеральное государственное бюджетное учреждение науки Институт биорганической химии им. академиков М.М. Шемякина и Ю.А. Овчинникова Российской академии наук

Кочетов Алексей Владимирович доктор биологических наук,

Заместитель директора по научно-организационной работе

Федеральное государственное бюджетное учреждение науки Институт цитологии и генетики Сибирского отделения Российской академии наук

Ведущая организация:

Федеральное государственное бюджетное учреждение науки Институт молекулярной биологии им. В.А. Энгельгардта Российской академии наук

Защита диссертации состоится 18 сентября 2014 года в 14:00 на заседании диссертационного совета Д 002.077.04 при Федеральном государственном бюджетном учреждении науки Институт проблем передачи информации им. A.A. Харкевича Российской академии наук по адресу: 127994, г. Москва, ГСП-4, Большой Каретный переулок, д. 19, стр. 1.

С текстом автореферата и диссертации можно ознакомиться в библиотеке Федерального государственного бюджетного учреждения науки Институт проблем передачи информации им. A.A. Харкевича Российской академии наук, а также на сайте ИППИ РАН по адресу http://vyww.iitp.ni/ru/dissertation/l 163 .htm.

Автореферат разослан "7" августа 2014 г.

Ученый секретарь диссертационного совета

■. /•.

доктор биологических наук, профессор " Г.И. Рожкова

> »

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Методы секвенирования нового поколения кардинально сократили время и снизили стоимость секвенирования, что привело к быстрому росту числа прочитанных геномов. Происходит как секвенированис новых видов, так и пересеквенирование генотипов многих особей видов с уже секвенированными геномами с целью получения данных популяционной изменчивости. Наличие качественных полногеномных данных по полиморфизму и дивергенции сильно расширило возможности сравнительно-геномного анализа. В частности, теперь возможно с высокой точностью измерить скорости мутагенеза для мутаций даже редких типов, определить интенсивность отрицательного и положительного отбора, действующего на мутации, оценить эффект мутаций на геномное окружение на разных эволюционных временах, а также выяснить, как влияет на мутации генная конверсия.

Основным объектом изучения мы выбрали инсерции и делении (инделы). Инделы изучены гораздо менее подробно, чем однонуклеотидные замены, однако они представляют большой интерес, так как обладают в среднем более радикальным эффектом на функцию участка генома. Основным организмом для исследования была выбрана плодовая мушка ПгохарИИа те1апо£а$1ег. I). melanogaster является хорошо изученным модельным организмом; для неё имеются высококачественные данные по секвенированию и пересеквенированию генома, геном хорошо аннотирован. В отличие от человека, й. те1апо^а.11ег обладает высокой эффективной численностью и популяционной изменчивостью, что значительно расширяет возможности сравнительно-геномного анализа.

Цели н задачи исследования. Получить данные по полиморфизму инсерций и делеций. На основе данных по полиморфизму и дивергенции измерить скорости мутагенеза, приводящего к возникновению инделов, оценить действие отрицательного и положительного отбора. Оценить силу и продолжительность

{ i

воздействия возникшего индела на эволюцию окружающей последовательности ДНК. Определить эффект генной конверсии на эволюцию инделов.

Научная новизна н практическая значимость. Инделы изучены гораздо хуже однонуклеотидых замен из-за меньшего количества данных и большей трудоёмкости анализа. Однако увеличение объёма данных и совершенствование методик позволяет изучать эволюцию инделов более детально. В нашей работе мы впервые анализируем данные по полиморфизму и дивергенции инделов на полногеномном масштабе в модельном виде, чтобы изучить мутагенез, приводящий к возникновению инделов, и отбор, действующий на них. Использование в дополнение к этому данных по скоростям рекомбинации для разных участков генома позволяет изучать действие генной конверсии на эволюцию инделов.

Помимо изучения основных характеристик эволюции инделов, мы исследуем воздействие возникновения индела в определённой позиции кодирующей последовательности на эволюцию геномного окружения этой позиции. Благодаря большому количеству секвенированных видов возможно проследить влияние индела на разных эволюционных временах.

Публикации и апробация работы. По материалам диссертации опубликовано 3 статьи в международных рецензируемых научных журналах. Результаты работы были представлены на международных конференциях МССМВ'11, SMBE'12, российских конференциях ИТИС'10, ИТИС'11. Апробация работы проведена 19 сентября 2013 г. на совместном семинаре лаборатории эволюционной геномики Факультета биоинженерии и биоинформатики МГУ им. М.В.Ломоносова и Сектора молекулярной эволюции Института проблем передачи информации РАН им. A.A. Харкевича.

Структура и объем работы. Диссертация изложена на 88 страницах машинописного текста и содержит следующие разделы: введение, материалы и методы, результаты в трёх главах и выводы. Диссертация включает 28 рисунков, 1 таблицу и список литературы, содержащий 90 ссылок.

СОДЕРЖАНИЕ РАБОТЫ

1) Оценка относительных скоростей мутагенеза инделов.

Для оценки скоростей мутагенеза мы использовали полиморфные мутации, которые встречаются в \—4 генотипах в популяции, считая, что отбор не влияет на встречаемость низкочастотных мутаций в популяции (Рисунок 1). Сравнение встречаемости низкочастотных мутаций в межгенных интервалах показало, что частоты инсерций и делеций составляют соответственно -0,037 и -0,095 от частоты нейтральных однонуклеотидных замен, а их средние длины - 3,46 нт для инсерций и 5,08 нт для делеций. Таким образом, данные по межгенным интервалам показывают, что в отсутствие отбора инсерции с длинами 1-60 нт давали бы прибавку в 0,13 нт в расчёте на одну нейтральную замену; в то же время делеции сокращали бы геном на 0,48 нт, что в сумме при отсутствии отбора приводило бы к потере 0,35 нт на каждую нейтральную замену.

Интроны 70-300НТ

г | ; I оо 11

* I 0.0

□ инс ■ дел

I I I I Л ь А I. ^ Л

I 5

II

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15+ длина индела, нт

Межгенные интервалы

□ инс ■ дел

ш

1 2 3 4 Б 6 7 в 9 10 11 12 13 14 154 длина индела, нт

Рисунок 1. Количество инсерций (инс) и делеций (дел) разных длин в расчёте на однонуклеотидную замену для мутаций с очень низкими частотами (1-4 генотипа из 162) в коротких интронах (А) и в межгенных интервалах (В).

2) Отрицательный и положительный отбор на инделы в различных участках генома.

Сильный отрицательный отбор приводит к недопредставленности даже редких мутаций. Поэтому мы можем оценить сильный отрицательный отбор, сравнивая количества низкочастотных полиморфизмов в различных участках генома (Рисунок 2). Низкочастотные инделы обладают практически одинаковой встречаемостью в интронах различных длин и в межгенных интервалах, что свидетельствует об отсутствии сильного отбора на de novo мутации (Рисунок 2B-D, светло- и тёмно-серые столбики). Напротив, в экзонах даже низкочастотные инделы встречаются значительно реже (Рисунок 2А). Количество инделов снижено в экзонах более чем в 2 раза по сравнению с остальными участками генома. Встречаемость несинонимичных замен также снижена и составляет -0.35 от числа однонуклеотидных замен в данном компартменте.

А

V < 8000

У 6000

2 1 4000

| 2000

s 5 0

С

Еп Е

< 4000

У 3000

I 2000

1000

X § 0

с

W 10000

:0 8000

С и 6000

I 4000

Экзоны (инделы в рамке)

tL

In

ti

ЫЫм

Межгенные интервалы

400000 300000 200000 100000

200000 150000 100000 50000

500000 400000 300000 200000 100000

в

100000 80000 60000 40000 20000

F

50000 40000 30000 20000 10000

J

120000 100000 80000 60000 40000 20000

JtJ

1000000 800000

И 600000 45000 ___ _

400000 30000 №

,00000 .so» П |

ЯШ

I

Длинные интроны

с

75000 60000 45000 30000 15000

750000 600000 450000 300000 150000

инс дел зам

I

инс дел зам

500000 400000 300000 200000 100000

1200000 1000000 800000 600000 400000 200000

6

35000 28000 21000 14000 7000

И

I

к

100000 80000 60000 40000 20000

Л

Короткие интроны D

350000 280000 210000 140000 70000

1000000 800000 600000 400000 200000

3000 2500 2000 1500 1000 500

1500 1200 900 600 300

3000 2500 2000 1500 1000 500

П

II

I

инс дел зам

.1

30000 25000 20000 15000 10000 5000

15000 12000 9000 6000 3000

30000 25000 20000 15000 10000 5000

инс дел зам

инс дел мм

Рисунок 2. Число полиморфных и закреплённых инделов и однонуклеотидных замен в различных участках генома. Верхний ряд (А-Б) -полиморфизмы с частотой производного аллеля (ЧПА) <15%; средний ряд (Е-Н), полиморфизмы с ЧПА >15%; нижний ряд (1-Ь), фиксированные мутации. А, Е, I: кратные трём инделы и миссенс-замены в экзонах; В, Р, .1: мутации в межгенных интервал; С, в, К: мутации в длинных (>300 нт) интронах; Б, Н, Ь: мутации в коротких (70-300 нт) интронах. Светло-серый соответствует инсерциям; тёмно-серый соответствует делениям; жёлтый соответствует миссенс-заменам; синий, однонкулеотидным заменам в некодирующих участках. На каждой панели левая вертикальная ось показывает количество инделов, правая вертикальная ось показывает количество однонуклеотидных

замен.

Действие слабого отрицательного отбора (-1 > Л^ > -5) можно оценить из анализа спектра аллельных частот. Как оценку доли нейтральных мутаций мы используем отношение высокочастотных полиморфизмов к низкочастотным для потенциально отбираемых мутаций, нормированное на то же отношение, но для нейтрального класса мутаций.

Сравнение £ для разных типов мутаций показывает, что в каждом участке генома инделы вреднее однонуклеотидных замен; при этом делеции вреднее инсерций (Рисунок ЗА). Доля вредных мутаций среди полиморфизмов является наибольшей в экзонах: по крайней мере -79% инсерций и -88% делеций являются вредными; для сравнения, доля вредных мутаций среди однонуклеотидных миссенс-замен составляет -72% . В межгенных интервалах и в длинных интронах доля вредных мутаций среди инсерций равна -71%, что меньше, чем для делеций (-82%), но много больше, чем для однонуклеотидных замен (-49%) (Рисунок ЗА). Отбор оказался наиболее слабым для всех типов мутаций в коротких интронах (Рисунок ЗА); однако даже в этом участке генома инделы гораздо чаще являются

вредными (в ~68% случаев для инсерций и ~73% случаев для делеций), чем однонуклеотидные замены (в ~23% случаев).

Очень короткие интроны (с длинами <60 нуклеотидов) заслуживают отдельного рассмотрения: ограничение на минимальную длину интрона ведёт здесь к дополнительному отбору на делеции. В самом деле, зависимость отбора против делеций от длины интрона не является монотонной: доля вредных делеций выше в длинных и в очень коротких интронах по сравнению с интронами средних длин. Она является наибольшей (~81%) для делеций, которые делают интрон короче 50 нуклеотидов. Напротив, доля вредных инсерций является наименьшей в этом классе интронов (Рисунок ЗВ).

А ,г

1

0.6

экюны (в рамке)

Рисунок 3. с для инделов и однонуклеотидных замен. Низкие значения £ соответствуют высокой доле вредных мутаций и наоборот. (А), средние значения с в различных участках генома: экзонах (кратные трём инделы и миссенс-замены), межгенные интервалы, длинные (>300 нт) и короткие (70300 нт) интроны. (В), £ для инделов в коротких н очень коротких интронах. Светло-серым показаны инсерции; темно-серым - делеции; жёлтым, миссенс-замены; синим, однонуклеотидные замены в некодируюших участках генома.

Доверительные интервалы построены по 1000 бутстрепам.

1.2

0.8 0.6

0.4

0.2

межгенные длинные короткие интервалы интроны интроны (70-300 нт)

Л] А

11 кГ|

<50 51-54 55-59 60-64 65-69 70-300 длины интрона после мутации, нт

Рисунок 4 показывает, что положительный отбор на инделы распространён повсеместно по геному О. те\апо§аз1ег. Доля а инсерций, фиксированных под действием положительного отбора, очень велика во всех участках генома: она достигает —61% в экзонах и -67% в межгенных интервалах. Для делеций а -48% в экзонах, но ниже в других участках генома: -32-36%. Оценки а для однонуклеотидных замен значительно ниже: -15% миссенс-замен, и -0% замен для однонуклеотидных замен в некодирующих участках.

а 1

0.8 т

т пЬ

=Ш0

экзоны межгенные длинные короткие ""•2 (в рамке) интервалы интроны интроны

(70-300 нт)

Рисунок 4. а для ннделов и однонуклеотидных замен в различных участках генома: экзоны (кратные трём инделы и миссенс-замены), межгенные интервалы, длинные (>300 нт) и короткие (70-300 нт) интроны. (В), с для инделов в коротких и очень коротких интронах. Светло-серым показаны инсерции; темно-серым - делении; жёлтым - миссенс-замены; синим - однонуклеотидные замены в некодирующих участках генома.

Доверительные интервалы построены по 1000 бутстрепам.

3) Влияние генной конверсии на закрепление мутаций

Чтобы изучить эффект рекомбинации на мутации различных типов, мы проанализировали эволюцию в линии О. те1апо^ах1ег, сравнивая участки с разными скоростями рекомбинации. Сперва мы рассмотрели однонуклеотидные

замены. Скорость их фиксации - самая высокая в участках с самой низкой рекомбинацией, и в ~2 раза ниже в участках с высокой рекомбинацией (Рисунок 5А, левая часть). Эта зависимость, по всей видимости, возникает из-за фиксации слабовредных мутаций в участках с низкой скоростью рекомбинации. Для участков с низким отбором, а также для позиций 8-30 в интронах с длинами <65 нт (считаются участками с самым отбором в геноме), данного эффекта не наблюдается.

Сходная картина наблюдается для инделов длин 5-10нт, закрепившихся в популяции: как инсерции, так и делеции легче закрепляются в участках с более низкой рекомбинацией. Зависимость от рекомбинации одинакова для инсерций и делеций, в результате чего отношение инсерций к делециями от скорости рекомбинации не зависит. Совершенно по-другому зависит от рекомбинации отношение инсерций к делециям для коротких (1—4 нт) инделов. Для делеций длины 1—4 нт вероятность закрепления в популяции по-прежнему отрицательно скоррелирована со скоростью рекомбинации, причём эта корреляция сильнее, чем для более длинных делеций. В то же время для инсерций длин 1—4 нт отрицательная корреляция ослабевает с уменьшением длины инсерции и становится положительной для инсерций 1-3 нт. В результате мы наблюдаем, что отношение инсерций к делециям значительно возрастает с ростом рекомбинации (Рисунок 5В, левая часть). Самый большой контраст (в 5 раз) между участками высокой и низкой рекомбинации наблюдается для однонуклеотидных инделов; он снижается с увеличением длины, и практически отсутствует для инделов длиннее 5 нт (Рисунок 5В, левая часть).

В отличие от закрепившихся инделов, частота полиморфных инделов имеет приблизительно одинаковую зависимость от скорости рекомбинации для инсерций и делеций, так что отношение инсерций к делециям практически не зависит от скорости рекомбинации (Рисунок 5В, средняя часть). Таким образом, различие в скоростях мутагенеза не может объяснить зависимость отношения частот инсерций и делеций от рекомбинации, наблюдаемую на данных по дивергенции.

Следовательно, эта зависимость возникает в процессе закрепления мутаций. На рисунке 5В, правой части для мутаций, расщепляющихся на более высоких частотах (>15%), мы видим паттерн, промежуточный между тем, что наблюдали для dc novo мутаций и для закрепившихся мутаций.

Закреплённые

Низкочастотные

Высокочастотные

с£

X

0 ш с;

1

л; х со о

X х

о с;

и

0.00015 0.00011

6Е«5 0.00003

0.00СЮ6 ОСш» 0.00004

Л Л Л Л

я Л -ъ*

' & * & „?

X X

Г) ф

тз ^

л> ь

О)

г.

5

скорость рекомбинации, сМ/МЬр

скорость рекомбинации, сМ/МЬр

Рисунок 5. Закрепившиеся и полиморфные мутации в некодирующих участках I). те1ипощШег в различными скоростями рекомбинации. (А) Однонуклеотидные мутации. (В) Инсерции и делеции. Серым показаны инсерции, чёрным - делеции, красным - отношение инсерций к делениям, синим — однонуклеотидные замены. Левая часть - закрепившиеся мутации, средняя часть - низкочастотные мутации (<3%), правая часть - мутации с

частотой выше 15%.

В процессе закрепления две направленные силы могут влиять на частоты аллеля: естественный отбор и смещённая генная конверсия. Отбор действует на аллели, различающиеся по приспособленности; положительный отбор увеличивает, а отрицательный отбор уменьшает вероятность закрепления нового аллеля. Для всех типов мутаций отрицательный отбор гораздо распространённее положительного. В отличие от отбора, смещённая генная конверсия действует невзирая на приспособленности аллелей. Действуя на пару антагонистических мутаций, таких как А—Ю против в—»А, или, в нашем случае, инсерции и делеции, она пропорционально увеличивает частоту одних и уменьшает частоту других.

Ряд наблюдений доказывает, что естественный отбор не может объяснить наблюдаемые зависимости отношения инсерций к делециям от рекомбинации. Во-первых, отношение инсерций к делециям не зависит от длины индела в участках с самой низкой рекомбинацией (р<0,32 сМ/МЬр), где действие конверсии предполагается минимальным, в то время как вероятности закрепления как инсерций, так и делеций значительно ниже, чем для нейтральных мутаций, что говорит о том, что отбор здесь сохраняется (Рисунок 6А). Другими словами, в отсутствие рекомбинации отбор не меняет распределение длин инделов. В участках же высокой рекомбинации (Рисунок 6В-Р) наблюдается корреляция вероятности закрепления с длиной индела, отрицательная для инсерций и положительная для делеций. В этих участках длинные делеции имеют более высокую вероятность закрепления в сравнении с короткими делециями, что несовместимо с гипотезой об

отборе. Во-вторых, отбор очень слаб в коротких интронах; тем не менее, если рассматривать отдельно интроны с длиной <70 нт, наблюдаются те же самые значения положительной корреляции, что и для межгенных интервалов (Рисунок 7). В-третьих, отбор должен быть сильнее в более консервативных участках. Однако отношение числа инсерций к числу делеций зависело от консервативности участка (по значению рИазКГопз) лишь незначительно (Рисунок 8). В то же время, для каждого диапазона консервативности наблюдалось сильное различие между участками с низкой и высокой скоростью рекомбинации: в 5 раз для инделов длины 1 нт, в 2-4 раза для инделов длины 2-4 нт (Рисунок 8). Таким образом, рекомбинация, но не степень консервативности, является главным фактором, влияющим на отношение числа инсерций к числу делеций.

А

12.8 6.4 3.2

у

т 16

° 0.8 0.4

0.2

О

12.8 6.4 3.2

т 16 ° 0.8 0.4 0.2

Рисунок 6. Отношение закреплённых мутаций к низкочастотным (ОЗНЧ) для участков с разными скоростями рекомбинации. Зелёным показан нейтральный стандарт, серым инсерцин, чёрным делеции.

р<0.33 сМ/МЬр

в

12.8 6.4 3.2 1.6 0.8 0.4 0.2

0.33<р<1.18 сМ/МЬр

С

12.8 6.4

3.2 1.6 0.8 0.4 0.2

1.18<р<1.89 сМ/МЬр

1.89<р<2.73 сМ/МЬр

1 2 3 4 5Ю10 длина индела, нт

Е

12.8 6.4 3.2 1.6 0.8 0.4 0.2

2.73<р<3.99 сМ/МЬр

Г

12.8 6.4 3.2 1.6 0.8 0.4 0.2

1 2 3 4 5Ю10 длина индела, нт

р>3.99 сМ/МЬр

1 2 3 4 5Ю10 длина индела, нт

2-4 нт

Б-Юнт

скорость рекомбинации. сМ/МЬр

скорость рекомбинации. сМ/МЬр

скорость рекомбинации, сМ/МЬр

Рисунок 7. Отношение инсерции/делеции для закреплённых инделов в коротких (<75 нт) интронах I). тектощЫсг. 95% доверительные интервалы построены по 1000 бутстреп-репликам.

1нт инделы

РЬакГСопз вес

2-4нт инделы

У

РНа5*Соп5 вес

5-10 нт инделы

1.2 1 0.8 0.6 0.4 0.2 О

» Vй

й"1

й О- О'

РИалСоп; вес

р, сМ/МЬр

•0-0.32 •0.» 1.17 • 1.18-1.88 1.89-2.72

• 2.73-3.98

• 3.99-14.79

Рисунок 8. Отношение числа закреплённых инсерций к числу закреплённых делений для некодируюших последовательностей />. те1апо£а.ч(ег с различной степенью консервативности (рИав^опк вес) и разными скоростям рекомбинации (р).

Единственным правдоподобным объяснением наблюдаемого паттерна является генная конверсия, смещённая в сторону инсерций. Как увеличение

вероятности закрепления инсерций длины 1^1 нт, так и снижение вероятности закрепления делеций длины 1-4 нт, объясняются конверсией, благоприятствующей закреплению инсерций и препятствующей закреплению делеций.

Чтобы оценить силу смещённой в сторону инсерций генной конверсии, мы сравнили частоты закрепления коротких инделов (1—4 нт) и инделов с длинами >4 нт, подразумевая, что конверсионное смещение незначимо для последних. Этот анализ показывает, что в среднем по геному генная конверсия увеличивает вероятность закрепления инсерции в 1,60, 1,55, 1,31 и 1,05 раз, и уменьшает вероятность закрепления делеции в 1,43, 1,34, 1,35 и 1,16 раз для инделов с длинами 1, 2, 3 и 4 нт соответственно. В участках с наибольшей скоростью рекомбинации эффект смещённой в сторону инсерций генной конверсии был наибольшим (Рисунок 6И), достигая увеличения в ~2 раза для однонуклеотидных инсерций и уменьшения в -2 раза для однонуклеотидных делеций. Смещение вероятности закрепления соответствует усреднённому по геному конверсионному преимуществу для инсерций А= -0,3-0,4; здесь Ие- эффективный размер популяции, а ш 2кф-0,5), где ф-0,5) величина смещения конверсии, и к -вероятность, что нуклеотидный сайт подвергнется рекомбинации. Отсутствие признаков смещённой в сторону инсерций генной конверсии в участках с низкой скоростью рекомбинации (Рисунок 6А) говорит о том, что рекомбинация является основным источником конверсии. Таким образом, к можно рассчитать как к р/х, где р - скорость рекомбинации, / - длина конверсионного тракта, х - частота конверсии относительно частоты рекомбинации. В О. те1апо£а.ч1ег р находится в пределах от 10"'° (низкая скорость рекомбинации) до 10"7 (высокая скорость рекомбинации) на нуклеотид на поколение, а / ~ 350 нт. Предполагая, что конверсия происходит с той же частотой, что и рекомбинация (х = I), в участках с высокой скоростью рекомбинации к — 10 \ Наконец, А^. = 10° для О. те.]апо%ач!ег^ что означает, что смещение генной конверсии в сторону инсерций /У = 0,7.

4). Изменение адаптивного ландшафта при возникновении инсерций и делеций.

Логично ожидать, что такое радикальное событие в последовательности ДНК, как инсерция или деления, может существенно повлиять на эволюцию окружающей последовательности - например, привести к изменению скорости мутагенеза или/и интенсивности отбора в данном участке. Так, можно ожидать ослабления отрицательного отбора вследствие нарушения структуры и функции участка, содержащего индел, и, как результат, увеличения числа нейтральных замен. Или же, напротив, после индела могут происходить замены, интегрирующие его в структуру белка; в таком случае мы ожидаем увидеть увеличение числа адаптивных замен.

Чтобы исследовать этот вопрос, мы использовали сравнительный анализ ортологичных белков нескольких видов йгояорЬИа в целях изучения возможных эпизодов положительного отбора — адаптивных прогулок, инициируемых инделами (Рисунок 9). Мы применили тест МакДональда-Крейтмана (МК-тест) для аминокислотных замен, которые случилось на расстоянии до 100 аминокислот от сайта индела в линии О. текпю^а.ч/ег после ответвления от линии I). .чесИеШа, соотнеся данные по дивергенции между О. те1апо^ач1ег и I) весИе/Иа с данными по полиморфизму для О. текто^ах1ег в синонимичных и несинонимичных сайтах (Рисунок 10). Мы сравнили результаты теста для случаев, когда индел произошёл в ветке О. те1апо£а*1ег (исследуемый случай), с соответствующими им случаями, когда индел произошёл в сестринской ветке (контроль; Рисунок 9 а а', Ь 1«. Ь' и т.д.). Очевидно, что только в исследуемом случае, а не в контроле, аминокислотные замены могли быть вызваны инделом.

Рисунок 11 представляет данные по эволюции и положительному отбору в терминальном (т.е. после отщепления от линии Э. весЬеШа) сегменте линии О. те1апо%,аз1ег для сайтов, соседствующих с инделом. Мы видим, что инделы чаще происходят в быстроэволюционирующих участках белков, как видно из того, что в аминокислотных сайтах, наиболее близких к сайту индела, число замен выше, по сравнению с более удалёнными сайтами. Это верно как для исследуемого случая, так и для контроля (Рисунок 11, верхний ряд). Однако анализ нуклеотидной

последовательности показывает, что такое ускорение не связано с повышенным мутагенезом вблизи сайта индела. На это указывает тот факт, что число синонимичных замен остаётся постоянным, при том что число несинонимичных замен увеличивается (Рисунок 11, средний и нижний ряды).

1Ш Ш1 Hdi¡H¡

ШШ 'áükM'S.

Рисунок 9. Взаимосвязь между аминокислотными заменами и ннделами в белках дрозофил. На каждой части рисунка слева изображена филогения (((((/). melanogaster, D. sechellia), П. erecta), D. ananassae), fí.pseuiloohscura), D.virilis); время индела отмечено молнией, а сегмент эволюционного древа, содержащий индел, выделен красным. Для 1). melanogaster имеются данные по полиморфизму (обозначено гребёнкой). На рисунках а, а', с, с', е, е' изображены инсерции, а на рисунках b, b\ d, d', f, Г - делеции. На рисунках а - Ь' (нижний ряд) представлены инделы, которые произошли до ответвления D. melanogaster от />. sechellia, а на рисунках с - d' — инделы, которые произошли на участке дерева между ответвлениями /). erecta - (1). melanogaster - I). sechellia) и D. melanogaster -I). sechellia; наконец, рисунки e - f представляют инделы, которые произошли на участке дерева между/), ananassae-((I). melanogaster, I). sechellia), I). erecta) и />. erecta - (I). melanogaster - I). sechellia). На рисунках a, b, c, d, e, f представлены инделы, ведущие к линии 1). melanogaster, а на рисунках а', Ь', с', d', е', f - инделы, произошедшие в боковых ветвях. Стрелка с двумя наконечниками обозначает 2 сравниваемых участка,

использованных для подсчёта числа замен; стрелка с одним наконечником обозначает участок, на котором замены считались с помощью поляризации. Красными точками обозначены нуклеотидные замены.

(а)

0.04 0.02

(а')

0.04 ----

<ь>

(Ь'1

«-0.82, р = О.ООЗ

0.03 002 0 01

г_» = -0.83,р = 0.003

г_* = -0.25. р =0.49

,5 = 0.14. р = 0.70

| 0.05 5 О

г_5 = -0.47. р = 0.17

Г_*= 4) 48. р = 0.16

■_$ = -0.44. р = 0.21

001 Ц-Ы*^ Еп^тН^ 001

■ ■>■ ф.77, р 0.009

г_»--0.83,р-0.003

0.02 0.01

-0.73, р-0.015

Раестоямиедосайтаипсерции.гасон* Расстояяиадосайта^нгерци^.кодеин Рвсстояж-едосайтаделвцк*.ладонь, расаояпмедосвйтэделеци»-. кодоиы

Рисунок 10. Ускоренная эволюция в несинонимичных, но не в синонимичных сайтах вблизи индела. Рисунки а-Ь' на данном рисунке соответствуют рисункам а-Ь' на рисунке 2. Верхний ряд показывает число аминокислотный замещений на аминокислотный сайт, средний ряд показывает число синонимичных замен на синонимичный сайт в ДНК, нижний ряд показывает число несинонимичных замен на несинонимичный сайт в ДНК. 95% доверительные интервалы посчитаны бутстреп-анализом с 1000 испытаний. Корреляция числа замен с расстоянием от индела проанализирована тестом Спирмана; жирным выделены случаи, когда корреляция была значимой (р<0,05).

Ускоренная эволюция, связанная с инделом, также не является следствием повышения мутагенеза. На это указывает отсутствие различий в дивергенции и полиморфизме синонимичных сайтов между исследуемым случаем и контролем (Рисунок 10). Также ускорение эволюции не есть следствие ослабления отрицательного отбора, так как частоты несинонимичного полиморфизма не повышены в исследуемом случае. Лишь число несинонимичных замен было существенно повышено в соседствующих с инделом сайтах для исследуемых случаев при сравнении с контролем (Рисунок 10). Увеличение скорости эволюции было значимым для филогенетических конфигураций, представленных на рисунке 9с (инсерции) и рисунке 9Ь,с1 (делеции). В целом, после события инсерции в среднем происходит 1,03±0,75 дополнительных аминокислотных замен в 100 аминокислотных сайтах слева и справа от позиции индела, а после события делеции - 4,77±1.03 дополнительных замен.

Тот факт, что различие в скоростях аминокислотной эволюции обусловлено только несинонимичными заменами, означает, что все дополнительные аминокислотные замены (Рисунок 10) произошли благодаря положительному отбору.

Опыт

Контроль

Опыт

Контроль

(о)

-НУ 1

;"!»>»- С'1

4 00 '

НКНК (Ь)

] 100

2 00 3 ¡3 _

■ ■ I М I Ц ■ ■ и!«!»»!!« 1..Ц.1.1,11 I И ■ 11 ■ ■

400 1

о*- М

I

Ц|||||1ч|||||ц|<| .............

■■|1|||||Р ||||1|1|Н Р1111|11|Р|1|!1||1||

М

111111111 ■ » ||||||||| ||111111|Ц|||||||18

ТТПГПГТП *» ж* "И ■ «Т - |11111Т1Т1

8?8г?а?2Я2 2?.2^??г8»8 гя^здйазв

Расстояние до сайта инсерции. *<

л Расстояние до сайта

2Я2?Я$г8?8

Расстояние до сайта делеции. нодоны Расстояние до сайта делении, подоны

Рисунок 11. Ускорение адаптивной эволюции в аминокислотных сайтах под действием выпадений и вставок. Части рисунка соответствуют

частям рисунку 9. Серым кружком обозначен сайт инсерции, чёрным кружком - сайт делеции. Слева от сайта индела - 1Ч-конец белка, справа -С-конец. Высота столбца показывает общее количество аминокислотных замен на данном участке, произошедших на терминальном сегменте липки 1). шс1апо^(1\1с,г. Над горизонтальной осью светло-зелёным обозначена доля замен, закреплённых под действием положительного отбора, тёмно-зелёным -доля остальных замен. Под осью светло-лиловым обозначена доля замен, которые произошли в абсолютно консервативных сайтах. На каждой панели в правом верхнем углу показана суммарная информация по 100 кодонам слева и справа от сайта индела.

Наблюдаемое ускорение адаптивной эволюции зависит от времени, прошедшего с момента возникновения мутации. Наш анализ позволяет сравнивать эволюцию для инделов, произошедших сравнительно недавно, в терминальном

сегменте линии D. melanogaster или до ответвления от D. erecta, с эволюцией инделов, которые произошли до ответвления линии D. melanogaster от линий I), ananassae и D. erecta (Рисунок 9e-f). Такие древние инделы уже не вызывают ускорения эволюции в терминальном сегменте (Рисунок 11 e-f), что означает, что адаптивная прогулка продолжается в течение не очень длительного времени.

Свойства адаптивных прогулок, вызванных инсерциями и делециями, существенно различаются. По сравнению с инсерцией, делеция вызывает замены в более широком участке белка (до 100 аминокислотных остатков, по сравнению с -40 аминокислотными остатками для инсерций); большая часть замен на всём участке закреплена под действием положительного отбора (Рисунок 11 а против Ь, с против d). Для делеций (Рисунок llb-b'), но не для инсерций (Рисунок И а-а'), значимое увеличение числа аминокислотных замен наблюдалось даже когда индел случился в терминальном сегменте линии ü. melanogaster, где более слабый эффект ожидался по причине того, что в такой конфигурации невозможно различить замены, которые произошли после индела, от тех, что произошли до индела.

Выводы

1) На 1 нейтральную однонуклеотидную замену у D. melanogaster в среднем происходит 0,036-0,039 инсерций (средняя длина 3,23 нт) и 0,085-0,092 делеций (средняя длина 4,78 нт). Таким образом, на уровне мутагенеза наблюдается сильное смещение в сторону делеций; при отсутствии отбора происходило бы сокращение генома на 0.3 нт на каждую однонуклеотидную замену.

2) Действие отрицательного и положительного отбора препятствует сокращению генома. Среди новых мутаций доля отсеиваемых отрицательным отбором

составляет 71% для инсерций и 82% для делений. Среди мутаций, закрепляющихся в межвидовой эволюции, доля закреплённых под действием положительного отбора составляет 67% для инсерций и 36% для делеций.

3) Инсерции и делеции подвергаются действию генной конверсии, смещённой в сторону инсерций. Смещение вероятности закрепления соответствует усреднённому по геному конверсионному преимуществу для инсерций N¿0 = -0,30,4.

4) Скорость эволюции в синонимических сайтах не меняется после возникновения индела. Из этого следует, что инделы не обладают мутагенным эффектом на окружающую последовательность.

5) Скорость эволюции в несинонимических сайтах значительно возрастает после возникновения индела, причём этот эффект сильнее для делеций. Несинонимичные замены, вызванные инделами, носят исключительно адаптивный характер.

6) Событие инсерции вызывает приблизительно 1 дополнительную аминокислотную замену, а событие делеции - приблизительно 5 дополнительных аминокислотных замен. Различие между инсерциями и делециями, вероятно, связано с тем, что делеции снижают приспособленность сильнее инсерций.

7) Анализ инделов разных возрастов показывает, что адаптивная прогулка происходит за время, которое соответствует 0,1-0,7 синонимическим заменам.

8) Среди замен, которые произошли после события индела, доля тех, что произошла в консервативных сайтах, была выше, чем для замен, не связанных с инделами. Для делеций это различие выражено сильнее, чем для инсерций.

Список публикаций по теме диссертации

Lcushkin EV, Bazykin GA, Kondrashov AS. Insertions and deletions trigger adaptive walks in Drosophila proteins. Proc Biol Sci. 2012 Mar 28

Leushkin EV, Bazykin GA, Kondrashov AS. Strong mutational bias towards deletions in the Drosophila melanogaster genome is compensated by selection. Genome Biol Evol. 2013

Leushkin EV, Bazykin GA. Short indels are subject to insertion-biased gene conversion. Evolution. 2013

Подписано в печать 06.08.2014 г. Печать трафаретная Усл.п.л. —1,5 Заказ № 667 Тираж: 75 экз. Копировальный центр Ргш181с1е Москва, Ул.Большая Серпуховская д.31 корп.1 (495)587 71 31 www.printside.ru

Текст научной работыДиссертация по биологии, кандидата биологических наук, Леушкин, Евгений Владимирович, Москва

Факультет биоинженерии и биоинформатики Федерального государственного бюджетного образовательного учреждения высшего профессионального образования Московского государственного университета имени М.В.

Ломоносова,

Сектор молекулярной эволюции Федерального государственного бюджетного учреждения науки Института проблем передачи информации им. A.A. Харкевича Российской академии наук

04201460647 На правах рукописи

Леушкин Евгений Владимирович

АНАЛИЗ ЭВОЛЮЦИИ ИНСЕРЦИЙ И ДЕЛЕЦИЙ В ПОСЛЕДОВАТЕЛЬНОСТИ ДНК, ПРОВОДИМЫЙ НА ОСНОВЕ СРАВНЕНИЯ ПОЛНЫХ ГЕНОМОВ

03.01.09 - математическая биология, биоинформатика

Диссертация на соискание ученой степени кандидата биологических наук

Научный руководитель: кандидат биологических наук Базыкин Георгий Александрович

Москва-2014

Содержание

Введение...........................................................................................................................4

1. Инсерции и делеции.........................................................................................5

1.1. Механизмы возникновения инсерций и делеций...........................................6

1.2. Темпы инсерционного и делеционного мутагенеза.......................................8

1.3. Практическая важность инделов....................................................................11

2. Естественный отбор, методы выявления.....................................................12

2.1. Тест с1п/сЬ..........................................................................................................13

2.2 Тест Макдональда-Крейтмана.........................................................................14

2.3 Тест двойных замен..........................................................................................15

3. Отбор в сцепленных локусах........................................................................16

4. Генная конверсия................................................................................................17

5. Адаптивный ландшафт..................................................................................18

Материалы и методы.....................................................................................................22

1. Геномные данные...........................................................................................22

2. Идентификация закрепившихся инсерций и делеций в участках дрозофил, приматов и дрожжей..........................................................................................23

3. Идентификация закрепившихся инсерций и делеций в белок-кодирующих участках последовательностей дрозофил для анализа изменений в адаптивном ландшафте на разных филогенетических расстояниях..................................23

4. Идентификация полиморфных инделов в £>. melanogaster.......................25

5. Оценки относительных скоростей мутагенеза инделов.............................27

6. Оценка интенсивности отрицательного отбора..........................................27

7. Оценка интенсивности положительного отбора.........................................30

8. Оценка интенсивности генной конверсии, смещённой в сторону инсерций. ..............................................................................................................................31

9. Расчёт длины адаптивной прогулки.............................................................32

10. Анализ эволюции в аминокислотных сайтах с различной консервативностью ..............................................................................................................................33

11. Теоретическое распределение частот аллелей..........................................33

Глава 1. Анализ инсерций и делеций в популяции И. melanogaster........................34

1.1 Оценка относительных скоростей мутагенеза на данных по низкочастотным инделам................................................................................................................34

1.2 Отрицательный и положительный отбор на инделы в различных участках генома..................................................................................................................36

Глава 2. Влияние генной конверсии на закрепление мутаций.................................44

Глава 3. Изменение адаптивного ландшафта при возникновении инсерций и

делеций...........................................................................................................................63

Выводы............................................................................................................................77

Благодарности................................................................................................................78

Список публикаций по теме диссертации...................................................................79

Список литературы........................................................................................................80

Введение

Выявление закономерностей в молекулярной эволюции в первую очередь основывается на сравнении геномов разных видов и генотипов разных особей одного вида. Технологии секвенирования нового поколения (next-generation sequencing) вызвали в последние годы экспоненциальный рост числа секвенированных геномов, что значительно расширило масштаб сравнительно-геномных исследований. Согласно сайту Genomes OnLine Database (http://www.genomesonline.org/), на 12.09.2013 прочитано 311 эукариотических геномов, 6349 геномов бактерий и 227 геномов архей. Некоторые из этих геномов, например, Homo sapiens (http://www. 1000genoines.org/), Drosophila melanogaster fottps://www.hgsc.bcm.edu/projects/dgrp/, http://www.dpgp.org/), Arabidopsis thaliana (http://www. 1001 genomes.org/), были прочитаны для многих индивидуумов, что даёт возможность изучать внутривидовые различия.

Сравнение геномов разных видов позволяет исследовать процессы, действовавшие в ходе их эволюции после дивергенции от общего предка, а сравнение генотипов особей одной популяции - популяционно-генетические факторы, определяющие полиморфизм. Использование полногеномных данных по дивергенции и полиморфизму позволяет с высокой точностью измерить скорости мутагенеза для мутаций даже редких типов, определить интенсивность отрицательного и положительного отбора, действующего на мутации, оценить

эффект мутаций на геномное окружение и проследить его на разных эволюционных расстояниях, а также выяснить, как влияет на мутации генная конверсия. Основным объектом исследования были выбраны инсерции и делеции, как мутации с значительно более радикальным эффектом на приспособленность, чем однонуклеотидные замены. Основной организм, в котором проводились исследования - плодовая мушка Вгозоркйа melanogaster - выбран, в первую очередь, по тем причинам, что является хорошо изученным модельным организмом, имеет высококачественные данные по секвенированию и пересеквенированию генома, а также, в отличие от человека, высокую эффективную численность и высокую популяционную изменчивость. Некоторые тесты были также выполнены на последовательностях геномов позвоночных и дрожжей.

1. Инсерции и делеции

Инсерции и делеции (инсерции и делеции в последовательности ДНК), наряду с однонуклеотидными заменами, представляют собой важнейший фактор эволюции генома. Инсерции и делеции происходят приблизительно в 10 раз реже однонуклеотидных замен. Однако общее число нуклеотидов, подвергающихся инсерции или делеции, сопоставимо с числом замен, а зачастую, как, например, в геноме человека и приматов, - даже превосходит его [1]. Также инсерция/делеция - в среднем событие более радикальное для участка ДНК, чем нуклеотидная

замена, то есть с большей вероятностью влияет на функцию, выполняемую данным участком генома.

1.1. Механизмы возникновения инсерций и делений

Было предложено несколько моделей для механизма возникновения коротких инсерций и делеций. Большая часть из этих гипотез основывается на том факте, что подавляющее большинство инсерций происходит в участках тандемных повторов [2-5]. Например, в работе [4] было показано, что 98,4% инделов у В1оскткапта сИготагоЛея происходит в таких участках.

Предполагается, что короткие инсерции/делеции возникают в основном за счёт проскальзывания ДНК-полимеразы относительно матрицы, в результате чего образуется микропетля либо на матричной, либо на вновь синтезированной цепи ДНК. Таким образом, некоторый участок ДНК будет соответственно либо пропущен (делеция), либо реплицирован дважды (инсерция) [6,7] (Рисунок!).

-» ) >

Рис. 1. Механизм возникновения инсерций и делеций за счёт эффекта проскальзывания ДНК-полимеразы в ходе репликации ДНК. Сверху показано, как деспирализация двойной цепи ДНК может вызвать образование петли (лиловый)

и последующую инсерцию (красный). В нижней части рисунка петля (зелёный и красный), образовавшаяся из-за наличия участков микрогомологии (отмечены красным), влечёт за собой делецию. Из работы [7].

Для более длинных инсерций предполагается наличие механизма, основанного на процессе негомологичного склеивания концов ДНК в местах двуцепочечных разрывов (NHEJ - nonhomologous end joining). Часто в местах таких разрывов образуются достаточно протяжённые липкие концы. При наличии участков микрогомологии может происходить ошибочное склеивание концов, за которым следует заполнение оставшихся одноцепочечных брешей ДНК. Результат такого процесса будет выглядеть как дупликация фрагмента ДНК. При этом две копии обычно будут разделены небольшим участком недуплицированной последовательности, соответствующей, согласно данному механизму, участку микрогомологии [8].

NHEJ также может вносить вклад в генерацию делеций: в процессе репарации двуцепочечных разрывов ДНК концы последовательностей часто подвергаются частичной деградации, следствием чего будет делеция этого участка. Но в некоторых случаях в ходе такой репарации может происходить инсерция экзогенного фрагмента ДНК - редкий случай инсерции, не являющейся дупликацией [8].

Ещё один механизм - неравный кроссинговер в участке тандемных повторов, который, меняя число копий участка ДНК, приводит к инсерциям и

делециям [9]. Этот механизм не объясняет образование первого повтора и, скорее всего, мало применим к "размножению" коротких повторов, поскольку маловероятно, что короткие повторы могли бы обеспечить достаточную гомологию для неравного кроссинговера; однако он может играть роль в увеличении копийности длинных повторов, в первую очередь - рибосомальных генов.

1.2. Темпы инсерционного и делеционного мутагенеза

Частоты инсерций и делеций, как и частоты других мутаций, можно оценить по наблюдаемому уровню внутривидового полиморфизма или межвидовой дивергенции. Однако в кодирующей последовательности таким оценкам мешает действие отбора. Для обхода этого ограничения можно использовать псевдогены: имея практически тот же нуклеотидный состав, что и функциональные гены, они не испытывают существенного действия отбора и накапливают мутации, в том числе инсерции и делеции, практически нейтрально. В Таблице 1 приведены темпы инсерционного и делеционного мутагенеза в расчете на число однонуклеотидных замен в псевдогенах, полученные из данных по дивергенции [10]. Во всех рассматривавшихся организмах короткие делеции встречаются значительно чаще коротких инсерций.

Скорость мутагенеза можно также измерять напрямую, секвенируя обоих родителей и потомка. Для человека несколько десятков таких троек генотипов были получены в ходе нескольких крупных проектов, в т.ч. в одной из фаз

проекта "1000 genomes". Для однонуклеотидных мутаций скорость мутагенеза

о

составила 1,0-1.2 х 10" [11]. Однако для инделов таких прямых измерений пока не получено. В [12] оценки скоростей мутагенеза инсерций и делеций произведены на основе сравнения полиморфных инделов и однонуклеотидных замен в 62 локусах генома Н. sapiens, ассоциированных с менделевскими заболеваниями; скорость мутагенеза для инсерций составила 0,20 х 10"9, для делеций-0,58 х Ю"9.

Таблица 1. Темпы инсерционного и делеционного мутагенеза, рассчитанные из анализа межвидовой дивергенции последовательностей псевдогенов (из [10]).

Drosophila sp. Laupala sp. Podisma sp. Млекопитающие (приматы и грызуны)

Размер генома (Мб) 179 1910 18150 -3000

Число делеций в расчёте на 1 нуклеотидную замену 0,13 0,07 0,06 0,05

Число инсерций в расчёте на 1 нуклеотидную замену 0,015 0,02 0,03 0,01

Средний размер делеций 35 7,0 1,6 3,2

Средний размер инсерций 2,9 6,5 1,2 2,4

Среднее число

потерянных нуклеотидов 4,5 0,34 0,06 0,13

в расчёте на 1

нуклеотидную замену

Следует отметить, что инсерции и делеции, как и другие мутации, не распределены по геному равномерно, а, напротив, часто образуют скопления - так называемые горячие точки мутагенеза. К примеру, в работе [13] показано, что положения полиморфных позиций (SNP - single nucleotide polymorphism) в популяциях разных видов сильно коррелированны между собой, и что рядом с такими позициями повышается частота других SNP, что можно объяснить только повышенной скоростью мутагенеза на данном участке. При этом повышенная частота инделов в сегменте последовательности коррелированна с повышенной частотой точечных нуклеотидных мутаций [14]. Частота возникновения инделов также сильно зависит от нуклеотидных контекстов. Первостепенным фактором, определяющим вероятность возникновения индела, считается количество повторов последовательности ДНК. В [15] показано, что в микросателлитах частота полиморфных инделов резко возрастает при наличии >10 тандемных повторов одного нуклеотида или >5-6 повторов двух нуклеотидов. Также существуют определенные мотивы последовательности ДНК, в которых инделы

возникают чаще [16]. Возникновению инделов сильно способствует низкий ОС-состав последовательности [8,15].

В функциональных последовательностях инделы подвергаются действию отбора. В большинстве своём инсерции и делеции в белок-кодирующей последовательности - это вредные мутации. Если длина индела не кратна трём, то он приводит к сдвигу рамки считывания. Но даже если длина кратна трём, изменение количества аминокислот в белке может сильно сказываться на его пространственной структуре. Численно это выражается в том, что частота инделов, кратных 3, в кодирующей области примерно в 2 раза ниже, чем в некодирующей, а инделов, некратных 3, - в >100 раз ниже. Инделы происходят в основном в тех белках, в которых ослаблено действие отрицательного отбора, а внутри белка - в менее консервативных участках: в петлях и на границах доменов

[5].

1.3. Практическая важность инделов

Поскольку инделы - это один из наиболее распространённых типов мутаций, часто оказывающий существенное влияние на функцию генов, изучение инделов в геноме человека важно с медицинской точки зрения. По данным [17], у человека изменчивость числа копий генов - т.е. внутрипопуляционный полиморфизм, создаваемый длинными инделами - затрагивает в общей сложности 360 Мб (12% генома), и определённые варианты могут вызывать заболевания. Так, делеция 1,4 Мб, затрагивающая ген ЬЮТШ, повышает риск

заболевания аутизмом и шизофренией [18]. Для делеции генов и НБРУ

показана ассоциация с мужским бесплодием [19]. Известно, что заболевания также могут быть ассоциированы с делециями некодирующих участков, затрагивающих регуляторные области генов. Например, делеция перед геном 11ЮМ чаще встречается у людей с болезнью Крона [20], делеция длиной 7,4 Кб в регуляторной последовательности РОХЬ2 вызывает блефорофимоз [21].

Отдельный класс заболеваний вызывается экспансией тринуклеотидных повторов в кодирующих областях генома. Хорея Хантингтона возникает при наличии >35 повторов кодона САв в гене Хантингтина (нормальное содержание 10-29 повторов) [22]. Хантингтин с повышенным числом повторов глутамина вызывает повреждение клеток мозга, что приводит к нарушению координации и снижению когнитивных способностей человека.

Экспансия другого кодона, СвО, в гене РМШ в Х-хромосоме приводит к метилированию участка генома, содержащего данный ген, и, как следствие, к подавлению экспрессии гена [23]. Для больных характерна умственная отсталость, нарушение речи и координации, часто развивается аутизм.

2. Естественный отбор, методы выявления

Роль естественного отбора в эволюции генома зависит от множества факторов биологии вида. Доля последовательности генома человека, находящейся под действием отбора, не превышает -15%. Напротив, у ВгоБоркИа melanogaster

под отбором находится большая часть генома: среди denovo нуклеотидных мутаций -90% несинонимичных мутаций в экзонах [24] и -50% мутаций в межгенных участках и длинных интронах [25-27] находятся под отрицательным отбором, сила которого достаточна, чтобы радикально уменьшить вероятность закрепления новой мутации. Оценки доли мутаций а, закреплённых под действием положительного отбора, существенно различаются в для разных организмов и для разных методов исследования [24,26,28,29]; однако очевидно, что положительный отбор играет большую роль в закреплении мутаций во всех видах.

Ниже рассмотрены основные методы для выявления следов действия отбора на нуклеотидную последовательность.

2.1. Тест dn/ds

Самым простым тестом для определения действия отбора и его направления в кодирующей последовательности является вычисление отношения числа несинонимичных (Dn) и синонимичных (Ds) замен, приходящихся на несинонимичный (синонимичный) сайт. Так как синонимичные замены не изменяют структуру белка, то в грубом приближении можно считать, что они не вызывают изменения приспособленности. Следовательно, эволюционировать синонимичные сайты будут нейтрально, с постоянной скоростью, определяемой скоростью мутирования. Напротив, несинонимичные замены могут подвергаться действию отбора. Положительный отбор, действующий на сайты определённого

класса, увеличивает вероятность закрепления новых вариантов в этих сайтах, что увеличивает количество замен в них. Таким образом, сЬЛк будет больше 1 в участках исключительного действия положительного отбора. Отрицате�