Бесплатный автореферат и диссертация по биологии на тему
Особенности эволюции различных функциональных областей альтернативно сплайсируемых генов эукариот
ВАК РФ 03.00.28, Биоинформатика

Автореферат диссертации по теме "Особенности эволюции различных функциональных областей альтернативно сплайсируемых генов эукариот"

На правах рукописи

Ермакова Екатерина Олеговна

ОСОБЕННОСТИ ЭВОЛЮЦИИ РАЗЛИЧНЫХ ФУНКЦИОНАЛЬНЫХ ОБЛАСТЕЙ АЛЬТЕРНАТИВНО СПЛАЙСИРУЕМЫХ ГЕНОВ ЭУКАРИОТ

03.00.28 - биоинформатика

Автореферат диссертации на соискание ученой степени кандидата биологических наук

1 6 О КТ 2008

Москва-2008

003448920

Работа выполнена на факультете биоинженерии и биоинформатики Московского государственного университета имени М В Ломоносова и в Учебно-научном центре „Биоинформатика" Учреждения Российской академии наук Института проблем передачи информации им. А.А Харкевича РАН

Научный руководитель: кандидат физико-математических наук,

доктор биологических наук, профессор Гельфанд Михаил Сергеевич

Официальные оппоненты: доктор биологических наук

Алёшин Владимир Вениаминович Институт физико-химической биологии им А Н Белозерского МГУ

доктор биологических наук, профессор Евгеньев Михаил Борисович Учреждение Российской академии наук Институт молекулярной биологии им В А. Энгельгардта РАН

Ведущая организация: Федеральное государственное унитарное предприятие

' Государственный научно-исследовательский институт

генетики и селекции промышленных микроорганизмов

Защита диссертации состоится ИО\ л ОЬЛ 2008 года в часов на заседании диссертационного совета Д.002 077 02 при Учреждении Российской академии наук Институте проблем передачи информации им. А.А Харкевича РАН по адресу: 127994, г. Москва, ГСП-4, Большой Каретный переулок, д 19, стр 1.

С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Института проблем передачи информации им. A.A. Харкевича РАН

Автореферат разослан 2008 года

Ученый секретарь диссертационного совета

доктор биологических наук, профессор /"/О РожковаГИ.

Общая характеристика работы

Актуальность темы

На данный момент секвенировано более 150 геномов эукариот и 1200 геномов прокариот, ведутся работы по секвенированию еще около 200 геномов эукариот и 600 геномов прокариот Темпы секвенирования значительно опережают темпы экспериментального анализа геномов, и изучение структуры и функции ДНК, РНК и белков на всех этапах включает использование специальных вычислительных средств Наличие большого количества геномов сделало возможным изучение эволюции биологических последовательностей биоинформатическими методами Задача восстановления профилей экспрессии и эволюционной истории генов вычислительными методами на основе данных о нуклеотидных последовательностях ДНК и мРНК и аминокислотных последовательностях белков особенно сложна и интересна для генов многоклеточных эукариот, так как они имеют наиболее сложную структуру и считываемая с них пре-мРНК часто альтернативно сплайсируется. Эволюция сайтов сплайсинга и альтернативно сплайсируемых участков генома и составляет предмет данной работы.

У многоклеточных эукариот альтернативный сплайсинг — один из основных механизмов создания разнообразия белковых последовательностей. Альтернативный сплайсинг в кодирующей области может внести слабые изменения в структуру и функцию белка, может резко изменить их, может привести к образованию нетранслируемой изоформы Альтернативный сплайсинг является объектом сложной регуляции, но и сам может выступать в роли регуляторного механизма Хотя в конце 1990х годов уже было описано достаточное количество отдельных важных случаев альтернативного сплайсинга, а также мутаций, нарушающих механизм альтернативного сплайсинга в отдельных генах и являющихся причиной врожденных заболеваний, альтернативный сплайсинг казался редким явлением: считалось, что альтернативно сплайсируются примерно 5% генов человека. Только недавние проекты по массовому секвенированию EST-маркеров, результатом которых стало накопление большого объёма нуклеотидных последовательностей фрагментов мРНК человека, породили достаточно данных для реальных оценок распространённости альтернативного сплайсинга Выравнивание нуклеотидных последовательностей EST-маркеров с последовательностями хромосомной ДНК и полноразмерных мРНК показало, что альтернативно сплайсируется по меньшей мере треть генов человека (Mironov et al 1999). Последующее накопление данных и усовершенствование биоинформатических алгоритмов только увеличило эту оценку.

Есть все основания считать, что альтернативно сплайсируемые участки генов служат „экспериментальной площадкой" молекулярной эволюции. Многие исследования подтверждают эту точку зрения. Так, альтернативные изоформы часто эволюционно молоды как в генах млекопитающих, так и в генах насекомых. Плотность несинонимичных нуклеотидных замен (dig) в альтернативных областях генов выше, чем в постоянных областях Постоянные экзоны в генах с геномспецифичным альтернативным сплайсингом эволюционируют быстрее, чем постоянные участки генов с консервативной структурой. Многие молодые (специфичные для грызунов, и отсутствующие в ортологичных генах человека и свиньи) экзоны альтернативно сплайсируются и при сравнении нуклеотидной последовательности мыши и крысы обнаруживают dN/ds>l. Частота несинонимичных одно нуклеотидных полиморфизмов в генах человека выше в альтернативных областях, чем в постоянных.

Существенную роль в эволюции кодирующих, в том числе, альтернативно сплайсируемых, последовательностей играют точечные нуклеотидные замены, т. е. зафиксировавшиеся в популяции точечные мутации. Литературные данные о фиксации нуклеотидных замен в альтернативно сплайсируемых генах были противоречивы и нуждались в повторном анализе В данной работе изучено распределение точечных нуклеотидных замен в альтернативных кодирующих областях генов млекопитающих, на материале полных

геномов человека и мыши, и насекомых, на примере полных геномов двух видов плодовой мушки. Отдельно исследовано поведение нуклеотидных замен в концевых и внутренних участках гена Рассмотрены как синонимичные замены, так и замены, изменяющие последовательность кодирумого белка Установлено их взаимное распределение на геномном уровне, что позволило промоделировать действие отрицательного и положительного отбора на кодирующие области альтернативно сплайсируемых генов.

Недавно были исследованы перекрывающиеся сайты сплайсинга со сдвигом сайта на три нуклеотида: акцепторных, с консенсусом КАОКАй, и донорных, с консенсусом СТОСГО. При выборе альтернативы в таком сайте не происходит сдвига рамки считывания, однако мотив вУМОУИ далёк от консенсусной последовательности донорного сайта, и левый (5") сайт оказывается нарушенным. Поэтому возникла необходимость рассмотрения перекрывающихся донорных сайтов и других типов

Цель и задачи исследования

Целью данной работы было изучение экспрессии и эволюции альтернативно сплайсируемых генов эукариот методами сравнительной геномики. Были поставлены и решены следующие задачи

поиск потенциальных донорных сайтов сплайсинга, перекрывающихся с активными донорными сайтами сплайсинга;

оценка возможности порождения транслируемой изоформы потенциальными сайтами сплайсинга, а также сайтами сплайсинга, подтвержденными только фрагментами мРНК (БЭТ-маркерами),

изучение консервативности потенциальных и активных перекрывающихся донорных сайтов человека в геномах мыши и собаки;

установление корреляции между взаимным расположением перекрывающихся донорных сайтов, их весами, предпочтениями при экспрессии, транслируемостью порождаемых ими изоформ и их сохранением в процессе эволюции; реализация метода Ины оценки числа синонимичных и несинонимичных нуклеотидных замен,

сравнение скорости фиксации точечных мутаций в постоянных и альтернативных кодирующих участках генов млекопитающих и насекомых,

сравнение скорости фиксации точечных мутаций в различных классах альтернативных кодирующих участков,

реконструкция действия естественного отбора на кодирующие области альтернативно сплайсируемых генов

Новизна работы

В работе впервые на геномном уровне изучены перекрывающиеся альтернативные донорные сайты сплайсинга, переключающие рамку считывания. Впервые получены данные о молекулярной эволюции альтернативно сплайсируемых участков генов насекомых, а также выявлены особенности эволюции концевых альтернативных участков генов млекопитающих и насекомых. Полученные данные о фиксации синонимичных и несинонимичных нуклеотидных мутаций в кодирующих областях генов млекопитающих и насекомых позволяют уточнить действие сил отбора на альтернативных участках генов

Практическая ценность

Реализованы алгоритмы построения матрицы позиционных весов и последующего вычисления веса сайта. Построенная весовая матрица для донорного сайта сплайсинга человека может применяться для оценки активности потенциальных донорных сайтов сплайсинга и интенсивности экспрессии альтернативных изоформ.

Разработана программная реализация метода Ины оценки числа синонимичных и несинонимичных нуклеотидных замен способная производить оценку эволюционных параметров для очень длинных выравниваний (~106 п. н ).

Полученные данные о функционировании перекрывающихся донорных сайтов могут быть использованы в биоинженерии

Апробация работы

Материалы исследований по теме диссертации были представлены на международных конференциях XII Международной конференции студентов, аспирантов и молодых ученых „Ломоносов" (Москва, апрель 2005), 2nd Int Moscow Conference on Computational Molecular Biology MCCMB'05 (Москва, июль 2005), школе „Биоинформатика, геномика, протеомика" (Алма-Ата, Казахстан, апрель 2006), Human Genome Meeting HGM2006 (Хельсинки, Финляндия, июнь 2006), 4th Special Interest Group Meeting on Alternative Splicing AS-SIG 2007 (Вена, Австрия, июль 2007), 15th Annu. Int. Conf on Intelligent Systems for Molecular Biology and 6th European Conf. on Computational Biology ISMB/ECCB'07 (Вена, Австрия, июль 2007), 3rd Int. Moscow Conference on Computational Molecular Biology MCCMB'07 (Москва, июль 2007), а также на 30-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'07 (Звенигород, сентябрь 2007) и на научных семинарах на факультете биоинженерии и биоинформатики МГУ и в ИППИ РАН.

Объём и структура диссертации

Диссертационная работа изложена на (С'Ъ страницах и состоит из введения, четырех глав, выводов и списка цитированной литературы. Глава 1 содержит обзор литературы по теме диссертации Глава 2 содержит описание использованных данных, а также программного обеспечения (в том числе авторского) и алгоритмов, применявшихся для решения задач, поставленных в диссертации Главы 3 и 4 содержат описание новых результатов и их обсуждение в контексте литературных данных. Список литературы включает 2-7 наименований Работа содержит 2.Í рисунков и $ таблиц.

Содержание работы

Глава 1. Обзор литературы

Содержит мотивировку поставленных задач, а также аналитический обзор современной литературы по проблемам, рассмотренным в диссертации.

Глава 2. Материалы и методы

Данные об сплайсинге в генах человека (разметка альтернативных и постоянных сайтов сплайсинга на геномной последовательности) были взяты из базы EDAS (EST-Denved Alternative Splicing database, Neverov et al 2005, http-//www.genebee msu.su/edas). Данные о сплайсинге в генах плодовой мушки Drosophila melanogaster были взяты из базы данных FlyBase (Misra et al 2002, Grumbling et al 2006, flybase bio indiana edu), 3 версия аннотации

Поиск ортологов и выравнивание геномных последовательностей ортологичных генов для человека и мыши было проведено как в (Jordan et al 2001), для Drosophila melanogaster и Drosophila pseudoobscura — как в (Malko et al 2006). Тройки ортологичных генов человека, мыши и собаки были взяты из (Linblad-Toh et al 2005).

Для оценки количества несинонимичных замен на несинонимичную позицию dN и синонимичных замен на синонимичную позицию ds был использован метод Ины (Ina 1995), реализованный в виде специально написанной программы на языке Perl Время обработки программой одного выравнивания длиной 5904081 п. н составляет 28 секунд (AMD Sempron 3100+, ОЗУ 512 МБ) Необходимость в разработке собственной программы была вызвана тем,

что известные автору программные реализации данного метода были рассчитаны на исследование отдельных генов и не могли обрабатывать выравнивания длины, сравнимой по порядку с полным эукариотическим геномом Кроме того, была существенна возможность запуска программы из командной строки это позволило автоматизировать запуск программы (всего в процессе исследования было обработано несколько десятков тысяч выравниваний).

Для определения точности оценки эволюционных параметров на конкатенированных выравниваниях был применён метод бутстреппинга. Для каждого выравнивания было построено 2000 выравниваний, составленных случайным образом из столбцов исходного выравнивания с возвращением.

Для построения матрицы позиционных весов была использована выборка из 85798 постоянных донорных сайтов, подтвержденных полноразмерной мРНК илиЕЗТ-маркерами из как минимум двух независимых клонотек Использовались позиции сайта с -3 по +6 Позиционные веса нукпеотидов вычислялись как в (Ое1Гапс1 е1 а12000)

П'(Ь,т)=1о8[ЩЬ.т)+ 0,5]-0,25 £ 1оё[Щ1,т)+0,5]

1=ЛСвТ

где Ы(Ь,т) — количество сайтов выборки, содержащих нуклеотид Ь в позиции т Матрица \¥(Ь;т) приведена в таблице 1. Вес сайта (Ь_з,. .,Ь)), состоящего из нуклеотидов Ь,, вычислялся как сумма позиционных весов-

Таблица 1. Весовая матрица для донорного сайта сплайсинга

-3 -2 -1 1 2 3 4 5 6

А 0,3945 1,2554 -0,1238 -1,0455 -2,5929 1,6810 1,4464 -0,3671 -0,2059

С 0,4488 -0,5347 -1,3751 -1.743С 0,438^ -1,3981 -0,7729 -0,8412 -0,3878

G -0,2227 -0,4793 1,9448 5,5628 -2,9786 1,0544 -0,3427 1,7347 -0,1666

Т -0,6207 -0,2414 -0,4459 -2,7743 5,1327 -1,3372 -0,3307 -0,5264 0,7603

Отождествление ортологичных сайтов сплайсинга в генах человека, мыши и собаки проводилось при помощи программ BLAT (Kent 2002) и Pro-Gen (Novichkov et al 2001) Программа IsoformCounter (Neverov et al 2005) использовалась для предсказания транслируемых и нетранслируемых изоформ зрелых мРНК альтернативно сплайсируемых генов Лого-диаграммы были построены при помощи программы WebLogo [weblogo berkeley.edu] Статистические проверки значимости были проведены при помощи статистического пакета R [http://www.r-project org].

Для обработки и статистического анализа данных применялись программы, написанные автором на языках Perl и Java. В частности, были реализованы алгоритмы построения матрицы позиционных весов и последующего вычисления веса сайта, а также метод Ины оценки числа синонимичных и несинонимичных нуклеотидных замен

Глава 3. Перекрывающиеся донорные сайты сплайсинга в геноме человека

Более половины всех донорных сайтов сплайсинга в геноме человека имеют потенциальный перекрывающийся альтернативный донорный сайт на расстоянии 3-6 нуклеотидов. Сохранность этих потенциальных сайтов в ортологичных генах определяется требованиями консенсуса и положением сайта в экзоне либо в интроне относительно активного сайта. Несколько сотен пар перекрывающихся сайтов альтернативно сплайсируются, активность каждого из них может быть подтверждена белком, полноразмерной мРНК или EST-маркерами из двух независимых клонотек. Стремление обоих перекрывающихся сайтов к консенсусу может предъявлять противоречивые требования к области их перекрывания Альтернативно

сплайсируемые пары донорных сайтов со сдвигом на четыре нуклеотида наиболее распространены, несмотря на порождаемый ими сдвиг рамки считывания в области гена, кодирующей белок. Частота использования двух перекрывающихся сайтов, как правило, сильно отличается, причём основной сайт чаще сохраняется в ортологичных генах других млекопитающих. Функции перекрывающихся донорных и акцепторных сайтов сплайсинга, видимо, отличаются: выбор альтернативного акцепторного сайта обычно приводит лишь к небольшим вариациям последовательности белка, тогда как выбор альтернативного донорного сайта часто порождает сдвиг рамки считывания, что приводит к значительным изменениям белковой последовательности либо к синтезу нетранслируемых изоформ, способных играть регуляторную роль, например, становясь мишенью для механизмов деградации мРНК.

Определения. Консенсус донорного сайта сплайсинга человека — МАОрТЯАОТ (Ое1Гапё 1989). Будем считать, что донорный сайт сплайсинга состоит из 9 нуклеотидов, пронумерованных, как показано на рисунке 1. Пара нуклеотидов (+1, +2) образует ядро донорного сайта сплайсинга. Именно ядро — наиболее строго регламентированный и консервативный участок сайта сплайсинга.

(а) 5'

а8

донорный сайт'

1

I

интрон

' акцепторный сайт

-12-11-10 -9 -8 -7 -6 -5 -4 -

левый сайт

(б)

правый сайт

Рисунок 1. (а) донорные и акцепторные сайты сплайсинга (б) альтернативные донорные сайты сплайсинга

Консенсус акцепторного сайта сплайсинга человека (У„)ЫУА0|0. Нумерация нуклеотидов показана на рисунке 1. Пара нуклеотидов (-2, -1) образует ядро акцепторного сайта сплайсинга.

Далее потенциальным донорным сайтом сплайсинга будет считаться мотив из 9 нуклеотидов, пронумерованных (-3, ~2, -1, +1, +2, +3, +4, +5, +6), имеющий динуклеотид ОТ в позиции (+1, +2).

Расстояние (в нуклеотидах) между потенциальными экзон-интронными границами пары потенциальных донорных или акцепторных сайтов сплайсинга будем называть сдвигом сайта.

Поскольку традиционно последовательность ДНК записывают слева направо от 5' к 3' концу, из пары потенциальных сайтов сплайсинга ближайший к 5' концу гена далее будем называть левым, а ближайший к 3' концу — правым. Как левый, так и правый сайт в паре может быть активным либо спящим (спящим будем называть сайт сплайсинга, активность которого не подтверждена текущими данными о белках, мРНК и ЕБТ-маркерах).

Будем говорить, что потенциальный сайт сплайсинга находится в положении лХ относительно активного сайта сплайсинга, если первый находится ближе второго к 5' концу

гена на X нуклеотидов, и в положении пХ, если первый находится ближе второго к 3' концу гена на X нуклеотидов. В данной работе рассматриваются потенциальные сайты, находящиеся в положениях лб, л5, л4, лЗ и пЗ, п4, п5, пб относительно активного сайта, т. е. со сдвигом X от 3 до 6 нуклеотидов

Сайт в альтернативно сплайсируемой паре будем называть основным, если он используется не менее чем в двух третях случаев (по данным ЕБТ-маркеров) и минорным, если он используется менее чем одной трети случаев (в некоторых парах оба сайта используются со сравнимой частотой).

Далее запись вида „СТЫкСТ" означает, что имеются в виду как альтернативно сплайсируемые пары вида [СТЫ^СГ, так и потенциальные пары, в которых активен только левый (|СШкОТ) или только правый (СШ^СГ) сайт.

Активными считались только донорные сайты, подтверждённые белком, полноразмерной мРНК или ЕБТ-маркерами из двух или более независимых лабораторий (по данным базы ЕОАЗ). Мы рассматривали только канонические сайты с ядром ОТ.

Результаты. Мы рассмотрели 187725 донорных сайтов сплайсинга человека. 96968 (52%) из них имели вТ в позиции лб, л5, л4, лЗ, пЗ, п4, п5 или пб (таблица 2) Потенциальные сайты типа пЗ оказались самыми редкими (0,6%), тогда как потенциальные сайты типа п4 — самыми частыми (39,4%), т. к. вТ — консенсус позиций (+5, +6) донорного сайта сплайсинга человека

Таблица 2. Статистика потенциальных донорных сайтов на расстоянии 3-6 нуклеотидов __от активного донорного сайта сплайсинга___

позиция потенциального сайта Лб Л5 Л4 ЛЗ ПЗ П4 П5 Пб

количество 8841 5555 3379 3895 1182 74019 7181 12034

частота 4,7% 3,0% 1,8% 2,1% 0,6% 39,4% 3,8% 6,4%

385 пар донорных сайтов со сдвигом от 3 до 6 нуклеотидов, для которых был подтвержден альтернативный сплайсинг, удалось картировать на тройки ортологичных генов человека, мыши и собаки. Альтернативно сплайсируемые пары со сдвигом на 4 нуклеотида встречались наиболее часто.

Веса левого (у/„) и правого (чу„) сайтов в альтернативно сплайсируемых парах вычислялись, как описано в главе 2. Совместное распределение \у„ и \у„ для альтернативно сплайсируемых пар с основным левым сайтом, с основным правым сайтом и без выраженного основного сайта показано на рисунке 2. В парах вида |ОТЫ|СТ два сайта не могли оказаться сильными одновременно, т. к перекрытие сайтов создает конфликт консенсусов.

В парах вида ¡СП^вТ левые сайты сильнее и чаще предпочитаются правым. Для пар вида |СТМ3|ОТ и ¡СШ^СТ распределения весов и отличаются мало Сила сайта как правило (но не всегда!) определяет, будет ли сайт основным или минорным при любых расстояниях между альтернативными сайтами.

Поскольку по определению для подтверждения альтернативного варианта было достаточно только БЭТ-маркеров (т. е в базе данных могло не присутствовать полноразмерной изоформы, содержащей данный вариант), мы использовали алгоритм ЬоГогтСоиШег (Ысусгоу й а12005) для предсказания транслируемых изоформ (таблица 3).

л а. |стм|ст л 6. |ОТИ |6Т

- —1—к — - 1Г

п

в. |ст(ч3|ст

-г * 1 , 14 '

' I ' 1

л г. |стм4|ет

-их ? т »

т т ? т т

д. все альтернативно Л сплайсируемые пары

««-«Б — ■ж?

т » У

Рисунок 2. Корреляция веса донорного сайта сплайсинга с его предпочтением при экспрессии

Таблица 3. Использование альтернативных донорных сайтов сплайсинга __в белок-кодирующих изоформах (транслируемость)_____

сдвиг сайта (нукл.)

левый транслируемый правый транслируемый 3 4 5 6 всего

+ + 14 31 20 52 117

+ - 7 121 15 10 153

- + 28 23 5 3 59

- - 3 39 6 8 56

всего 52 214 46 73 385

Пары с двумя нетранслируемыми сайтами располагались в нетранслируемых областях. В парах вида |СТЫ3|ОТ с одним транслируемым сайтом, как правило, правый сайт был транслируемым, тогда как в парах вида |ОТЫ4|ОТ — левый сайт Как и ожидалось (из-за большого расстояния между сайтами и сдвига на число нуклеотидов, кратное трем), наибольший процент пар, в которых обе изоформы порождают белок, оказался среди пар вида |ОШ4|ОТ (71%)

Рисунок 3. Сохранение потенциальных донорных сайтов вблизи сохраненного активного донорного сайта в геноме мыши и в геноме собаки. Над каждым столбцом гистограммы —

отношение количества потенциальных донорных сайтов, находящихся рядом с сохраненным в геноме мыши (собаки) активным донорным сайтом к общему числу таких активных сайтов, выделены группы по положению потенциального сайта относительно

активного

Транслируемая изоформа, как правило, оказывается основной по данным EST-маркеров. Однако, нетранслируемые изоформы могут быть мишенями нонсенс-мотивированной деградации или других управляемых клеточных механизмов деградации, поэтому они могут быть недопредставлены в базах EST-маркеров Когда обе изоформы могут породить белок, сдвига интенсивности экспрессии в пользу левого или правого сайта не наблюдается.

Сайт сплайсинга человека считался консервативным в ортологичном гене мыши или собаки, если его позиция в соответствующем геноме могла быть определена при помощи программ BLAT (Kent 2002) и Pro-Gen (Novichkov et al 2001) и определённый таким образом ортологичный сайт содержал GT в позициях (+1, +2).

Из 126326 донорных сайтов сплайсинга человека, картированных на тройки ортологичных генов человека, мыши и собаки, 88696 (70%) были консервативны в геноме мыши и 89280 (71%) — в геноме собаки. Количество и консервативность потенциальных сайтов рядом с консервативными донорными сайтами сплайсинга показаны на рисунке 3. Как и ожидалось, интронные потенциальные сайты менее консервативны, чем экзонные, исключение составляют потенциальные сайты в позиции п4, согласующиеся с консенсусом активного сайта. Наименее консервативны GT в позиции пЗ, т. к. они вступают в конфликт с консенсусом.

Консервативность левых и правых сайтов в зависимости от частоты использования и величины сдвига отражена в таблице 4. Как и ожидалось, основные сайты чаще оказываются консервативными, чем минорные, и пары, сохраняющие рамку считывания, более консервативны, чем пары, сдвигающие ее.

Таблица 4. Сохранение перекрывающихся альтернативно сплайсируемых

донорных сайтов сплайсинга __(а) в геноме мыши _

сдвиг сайта 3 4 5 6 всего

Л П Л П Л П Л II Л П

левый основной 8/9 (90%) 5/9 (60%) 120/148 (80%) 97/148 (70%) 22/26 (80%) 12/26 (50%) 25/31 (80%) 13/31 (40%) 175/214 (80%) 127/214 (60%)

нет основного 4/6 (70%) 3/6 (50%) 10/21 (50%) 8/21 (40%) 1/4 (30%) 2/4 (50%) 10/15 (70%) 11/15 (70%) 25/46 (50%) 24/46 (50%)

правый основной 22/37 (60%) 28/37 (80%) 24/45 (50%) 29/45 (60%) 11/16 (70%) 12/16 (80%) 16/27 (60%) 24/27 (90%) 73/125 (60%) 93/125 (70%)

всего 34/52 (70%) 36/52 (70%) 152/214 (70%) 128/214 (60%) 35/46 (80%) 22/46 (50%) 51/73 (70%) 45/73 (60%) 272/385 (70%) 231/385 (60%)

(б) в геноме собаки

сдвиг сайта 3 4 5 6 всего

Л П л п л П Л П л П

левый основной 8/9 (90%) 5/9 (60%) 118/148 (80%) 91/148 (60%) 23/26 (90%) 8/26 (30%) 25/31 (80%) ю/31 (30%) 174/214 (80%) 114/214 (50%)

нсг основного 6/6 (100%) 5/6 (80%) 8/21 (40%) 6/21 (30%) 0/4 (0%) 1/4 (30%) 11/15 (70%) 12/15 (80%) 25/46 (50%) 24/46 (50%)

правый основной 23/37 (60%) 29/37 (80%) 23/45 (50%) 11 11/16 (70%) 12/16 (80%) 21/27 (80%) 24/27 (90%) 78/125 (60%) 93/125 (70%)

всего 37/52 (70%) 39/52 (80%) 151/214 (70%) 131/214 (60%) 33/46 (70%) 252/46 (50%) 57/73 (80%) 49/73 (70%) 278/385 (70%) 244/385 (60%)

Обсуждение. Структура консенсуса может определять функциональные особенности перекрывающихся донорных сайтов Консенсус донорного сайта сплайсинга содержит готовое ядро для донорного сайта на 4 нуклеотида правее, таким образом, левый сайт сильнее и в альтернативно сплайсируемых парах он, как правило, является основным Ранее было показано, что альтернативный донорный сайт, как правило, сдвигает рамку считывания (эта статистика определяется, в основном, сдвигами на 4 нуклеотида, обусловленными консенсусом) (Tadokoro et al 2005, Akerman and Mandel-Gutfreund 2006), причём этот сдвиг не компенсируется сдвигом акцепторного сайта на втором конце интрона Напротив,

альтернативный акцепторный сайт, как правило, сохраняет рамку считывания (Akerman and Mandel-Gutfreund 2006)

Нами показано, что в 40% пар перекрывающихся донорных сайтов только левый (5') сайт, а в 15% пар — только правый (3') сайт порождает транслируемую изоформу, таким образом, вторая изоформа может индуцировать регулируемую деградацию Хиллер и соавторы (Hiller et al 2006) экспериментально подтвердили использование обоих перекрывающихся донорных сайтов вида |GYN|GYN для семи генов человека, но не обнаружили тканеспецифичных различий в экспрессии парных изоформ Более того, были исследованы различные аллели гена STAT3, и разницы в экспрессии изоформ для разных генотипов не было обнаружено Если каждый из перекрывающихся донорных сайтов порождает транслируемую изоформу, полученные белки могут различаться адгезивными свойствами (Vogan et al 1996) или внутриклеточной локализацией (Tadokoro et al 2005), но на данный момент мне не известно ни одного сообщения о тканеспецифичной экпрессии изоформ, порождённых перекрывающимися альтернативными донорными сайтами, тогда как изоформы, порождаемые перекрывающимися акцепторными сайтами часто экспрессируются тканеспецифично (Tadokoro et al 2005). Эти наблюдения показывают, что функциональная роль тандемных донорных сайтов состоит скорее в равномерном поддержании концентраций белков, чем в их тканеспецифичной регуляции

Остаётся неразрешенным вопрос о функциональной роли изоформ, которые либо порождают сильно изменённый укороченный белок, либо становятся мишенью для нонсенс-мотивированной деградации (НМД). Данные подтверждают, что эти сайты используются достаточно часто, что является серьёзным аргументом в пользу их функциональной важности. Было бы очень заманчиво приписать им регуляторную роль — например, намеренного уничтожения транскриптов в определённых условиях. Впрочем, подобную функцию принято приписывать непродуктивному альтернативному сплайсингу в целом (ср Lareau et al 2004, 2007), а он широко распространён: показано (Lewis et al 2003), что 45% альтернативно сплайсируемых генов человека могут порождать изоформы с преждевременным стоп-кодоном — потенциальные мишени НМД

Глава 4. Нуклеотидные замены в альтернативных и постоянных белок-кодирующих участках генов

В последние несколько лет секвенирование полных геномов эукариот, а также масштабные проекты секвенирования мРНК сделали возможным проведение полногеномных исследований альтернативного сплайсинга. В данной работе проведено полногеномное исследование нуклеотидных замен в альтернативно сплайсируемых генах млекопитающих (на примере человека и мыши) и насекомых (на примере двух видов дрозофилы)

Рассмотрено 3029 генов человека и 790 генов плодовой мушки Drosophila melanogaster, альтернативно сплайсируемых в кодирующей области, и их ортологи в геномах мыши (Mus musculus) и другого вида плодовой мушки, Drosophila pseudoobscura, соответственно.

Анализировался только консервативный альтернативный сплайсинг, причём рассматривались только сайты, подтверждённые выравниванием полноразмерных транслированных мРНК с геномной последовательностью.

Определения. В альтернативно сплайсируемом гене назовём постоянными участки ДНК, образ которых всегда присутствует в кодирующей части сплайсируемой мРНК, а альтернативными — участки, образ которых может как присуствовать в кодирующей части, так и вырезаться как часть интрона (или целый интрон) при сплайсинге. Таким образом, нуклеотидная последовательность гена разбивается на интронные, экзонные некодирующие, постоянные и альтернативные участки. Экзон может быть постоянным, альтернативным, некодирующим или состоять из нескольких постоянных, альтернативных, а также некодирующих участков.

На нуклеотидных выравниваниях ортологичных генов были размечены постоянные (П) и альтернативные (А) участки Среди альтернативных участков были выделены N-концевые (AN), внутренние (А1, от internal — „внутренний") и С-концевые (Ас). альтернативный участок будем называть N-концевым, если в разметке гена нет постоянных участков, находящихся ближе к 5' концу, и С-концевым, если в разметке гена нет постоянных участков, находящихся ближе к 3' концу, иначе будем называть его внутренним альтернативным участком.

После разметки выравнивания каждого гена составлялись метавыравнивания (конкатенированные выравнивания) участков пяти классов (П, A, AN, А1, Ас) Рассматривались метавыравнивания двух типов' локальные, объединяющие кодирующие участки одного класса в пределах одного гена (например, все внутренние альтернативные участки гена BRCA1), и глобальные, объединяющие участки одного класса всех генов какой-либо выборки (например, внутренние альтернативные участки генов человека и мыши) Неполные кодоны, а также кодоны с делециями в выравнивании в метавыравнивания не включались Для оценки dN и ds для парного выравнивания необходимо наличие достаточно длинного выравнивания (Ina 1995), мы использовали порог 80 п н. Использование метавыравниваний позволило учесть не только длинные альтернативные фрагменты генов, такие, как кассетные экзоны, но и совсем короткие, такие, как удлинения — участки между двумя альтернативными донорными или двумя акцепторными сайтами. Для генов с длинными альтернативами сравнивалось эволюционное поведение альтернативных участков разных классов и постоянных участков, используя локальные метавыравнивания.

Оценивались три эволюционных параметра. Плотность несинонимичных замен (dN) служит мерой расхождения аминокислотных последовательностей, соответствующих гомологичным участкам двух генов, и характеризует „насыщение" кодирующего участка несинонимичными заменами. Плотность синонимичных замен (ds) позволяет судить как об интенсивности мутаций в том или ином кодирующем участке (в сравнении с dN), так и об эволюции „небелковых" элементов гена, например, регуляторных последовательностей, таких, как экзонные энхансеры сплайсинга Нормировка dN и d<- согласована, и, в то время как dN и ds оценивают количество нуклеотидных замен с момента расхождения двух видов и зависят от времени, их отношение co=dN/ds есть уже не функция времени, но характеристика давления отбора на этот участок. Если давление отбора отсутствует (т е. любые замены нейтральны для организма), <а~1 При <а>1 заключают, что рассматриваемый участок белка и соответствующий ему кодирующий участок гена находятся под действием положительного отбора.

Результаты. Мутации пиримидиновых оснований в пиримидиновые или пуриновых в пуриновые в геномной ДНК происходят гораздо чаще, чем мутации пиримидиновых оснований в пуриновые и наоборот Отношение скоростей транзиций и трансверсий R, необходимое для вычисления синонимичного и несинонимичного потенциала нуклеотидной позиции, оценивалось методом Ины (Ina 1995, глава 2) по метавыравниваниям всех кодирующих участков Получилось, что для человека и мыши R=5,28, для двух дрозофил R=2,24

В ортологичных белках у Н sapiens и М musculus идентичны 81% аминокислот, у D. melanogaster и D. pseudoobscura — 64% аминокислот.

Эволюционные параметры оценивались как для генома в целом (по глобальным метавыравниваниям), так и для классов медленно, средне и быстро эволюционирующих генов (по глобальным метавыравниваниям) и, где это было возможно, для отдельных генов (по локальным метавыравниваниям)

Как в генах млекопитающих, так и в генах плодовых мушек плотность нуклеотидных замен в альтернативных областях выше, чем в постоянных, одновременно ds(A)>d\(n) и ds(A)>ds(n) (рисунок 4) Более того, частота аминокислотных замен на альтернативных

участках выше, чем на постоянных, т к. ds(A)>ds(n), а давление отбора на аминокислотную последовательность на альтернативных участках меньше, чем на постоянных: а>(А)>ш(П). Таким образом, на альтернативных участках положительный отбор усиливается и / или отрицательный отбор ослабевает по сравнению с постоянными участками.

Распределение синонимичных замен в генах млекопитающих и мух отличается В генах мух в альтернативных областях больше синонимичных замен, чем в постоянных областях, а в генах млекопитающих существенной разницы в плотности синонимичных замен в альтернативных и постоянных областях не наблюдалось. Анализ отдельных генов подтверждает эти закономерности

Среди всех классов альтернативных участков белков мух, аминокислотная последовательность N-концевых альтернативных участков наиболее консервативна, а внутренних альтернативных участков наименее консервативна, un (AN)<dN(Ac)<dN(AI) При этом даже в наиболее консервативных альтернативных участках — N-концевых, плотность несинонимичных замен выше, чем в постоянных, dN(AN)>d\j(n). В то время как различия между постоянными и альтернативными участками обусловлены большей плотностью нуклеотидных замен в целом, различия между классами альтернативных участков обусловлены разным соотношением синонимичных и несинонимичных замен: dN(AN)<dN(Ac)<dN(A') и одновременно ds(AN)>ds(Ac)>ds(AI).

У млекопитающих плотность нуклеотидных замен на альтернативных участках распределена иначе, чем у мух. Плотность нуклеотидных замен в альтернативных участках возрастает в направлении от 5' конца к 3' концу гена, в то время как замены в постоянных участках распределены равномерно по всей длине гена ds и а неожиданно резко возрастают на С-концевых альтернативных участках. На качественном уровне соотношение скоростей замен в постоянных и альтернативных участках сохраняется для генов, эволюционирующих с разной скоростью

Обсуждение. Эволюционное поведение различных функциональных участков генома существенно отличается Гены с медленно эволюционирующей последовательностью дуплицируются чаще (Davis and Petrov 2004), хотя вскоре после дупликации скорость эволюции может увеличиться, т к. отрицательный отбор ослабевает (Kondrashov et al 2002, Conant and Wagner 2003) и действие отбора на две копии может быть различным (Zhang et al 2003) Дюре и Муширу (Duret and Mouchiroud 2000) показали, что в генах, которые экспрессируются в большом числе тканей, уровень нссинонимичных нуклеотидных замен ниже, чем в генах, которые экспрессируются в ограниченном числе тканей, а уровень синонимичных нуклеотидных замен в этих группах генов примерно одинаков Пал, Папп и Хёрст (Pal et al 2001) показали, что интенсивно экспрессирующиеся гены более консервативны, чем гены, экспрессирующиеся менее интенсивно. Результаты, полученные в нашей работе, согласуются с этими наблюдениями, если принять, что постоянные участки экспрессируются в большем числе тканей и/или более интенсивно, чем альтернативные участки первое объяснение работает для альтернативных участков тканеспецифичных изоформ, второе — для альтернативных участков изоформ, экспрессирующихся в различных тканях равномерно.

Молодые участки генов склонны эволюционировать быстро. Несколько исследований (Kondrashov et al 2002, Conant and Wagner 2003, Zhang et al 2003, Jordan et al 2004) показывают ослабление отрицательного отбора в паралогах вскоре после дупликации. В нашей работе показано, что в альтернативных участках генов положительный отбор сильнее и/или отрицательный отбор слабее, чем в постоянных, таким образом, эта закономерность может быть обобщена с целых генов на фрагменты генов

Так как были рассмотрены только альтернативы, подтверждённые полноразмерными мРНК, находившимися на момент анализа в базах данных, некоторые возможности альтернативного сплайсинга могли быть упущены, и часть альтернативных участком могли

0,437 А1 0,445

0,405 0,414 0,410 Ас

П А А"

А 0,37

П 0,31 Ас

0,28 А' 0,28

0,23

С1

в

Рисунок 4. Оценки эволюционных параметров с1к, с15 и ш, полученные с помощью глобальных метавыравниваний. Чёрным показаны результаты для человека и мыши, серым — для двух дрозофил. Указана медиана результатов оценивания параметров для 2000 выравниваний, полученных в результате бутстреппинга, высота эллипса равна 3(яз-я,), где и ^ - первый и третий квартили. Другие обозначения см. в тексте

ш

1,43

0,79 П

0,80

0^62 А"

0,90

А-0,297

А А"

П - А'

- 0,183 0,186

0,168 0,169

быть аннотированы как постоянные Но это могло лишь сделать наблюдаемые эффекты менее отчетливыми, но не изменить их содержание

Недавно Цин и Ли (Xing and Lee 2005) описали такое же поведение несинонимичных замен в альтернативных и постоянных участках, но иное поведение синонимичных замен они получили пониженный уровень синонимичных замен в альтернативных участках, особенно тканеспецифичных кассетных экзонах (Xing and Lee 2005) Одно из предложенных авторами объяснений этого эффекта — повышенное содержание энхансеров сплайсинга в альтернативных экзонах (Yeo et al 2005) Естественно предположить, что такие энхансеры будут консервативны, как в гене BRCA1 (Hurst and Pal 2001, Orban and Olah 2001), и это может привести к дополнительным требованиям консервативности синонимичных позиций Однако, это объяснение, по-видимому, некорректно' хотя ds действительно ниже в энхансерах сплайсинга, доли постоянных и альтернативных участков, покрытых энхансерами, одинаковы (Parmley et al 2006), и если давление отбора на уровне мРНК в альтернативных и постоянных участках одинаково, на величину со это не повлияет

В нашем исследовании понижение ds на альтернативных участках не было обнаружено и уровни нуклеотидных замен отличаются от полученных в (Xmg and Lee 2005) Так как полученные нами результаты согласованы между собой, статистически значимы для всех типов выборок генов и участков генов и не являются следствием недостаточной чистоты данных, должны быть другие объяснения такому несовпадению Во-первых, в нашем исследовании принимались во внимание все типы альтернатив, а не только кассетные экзоны, как в (Xing and Lee 2005) При этом были рассмотрены короткие альтернативные участки. Во-вторых, при оценке эволюционных параметров были использованы разные методы мы реализовали метод Ины (Ina 1995, см. Материалы и методы), в то время как Цин и Ли использовали метод наибольшего правдоподобия, реализованный в пакете PAML (Yang 1997, http://abacus gene ucl ac.uk/softwarc/paml.html). С другой стороны, мы рассматривали только альтернативы, подтвержденные полноразмерными мРНК, и не различали основные и минорные изоформы.

Возможно также, что общая длина регуляторных сайтов, подверженных отрицательному отбору мала по сравнению с общей длиной альтернативных участков При этом ответственные за альтернативный сплайсинг ск-регуляторныс элементы могли быть расположены вне самих участков, в том числе в некодирующих областях.

Выводы

1. Показано, что альтернативно сплайсируемые пары донорных сайтов в геноме человека участвуют в контроле экспрессии генов на пост-транскрипционном уровне: наиболее распространены пары со сдвигом на 4 нуклеотида, смещающим рамку считывания, и в 61% случаев один из сайтов пары порождает транслируемую изоформу, в то время как вторая изоформа может стать мишенью нонсенс-мотивированной деградации мРНК.

2. Установлено, что в большинстве альтернативно сплайсируемых пар перекрывающихся донорных сайтов уровни экспрессии изоформ резко отличаются, и области значений весов сайтов и консенсусов последовательностей для однозначных пар и для двузначных пар с одним основным сайтом пересекаются. Таким образом, для выбора сайта в паре необходима дополнительная регуляция.

3 Разработана техника метавыравниваний, которая позволяет учитывать при анализе скоростей нуклеотидных замен даже небольшие альтернативные участки. 4. Показано, что уровень несинонимичных нуклеотидных замен в альтернативных областях генов выше, чем в постоянных.

5 Показано, что в альтернативных участках генов усилено действие положительного отбора, и/или ослаблено действие отрицательного отбора Это может быть связано с относительной молодостью альтернативных участков.

6. Показаны таксоноспецифичные особенности эволюции альтернативных участков генов У млекопитающих плотность как синонимичных, так и несинонимичных замен на альтернативных участках увеличивается в направлении от 5' к 3' концу и наблюдается резкий скачок на С-концевых альтернативных участках. У дрозофил суммарная плотность замен на альтернативных участках генов примерно постоянна, но доля синонимичных и несинонимичных среди них различна Плотность синонимичных замен в синонимичных позициях выше всего на N-концевых альтернативных участках, а плотность несинонимичных замен в несинонимичных позициях — на внутренних альтернативных участках.

7. Показано, что внутренние альтернативные участки генов дрозофил находятся под положительным отбором' плотность несинонимичных замен в несинонимичных позициях превышает плотность синонимичных замен в синонимичных позициях почти в полтора раза.

8. Сделан общий вывод о том, что альтернативно сплайсируемые участки генов служат „экспериментальной площадкой" молекулярной эволюции,

Я выражаю глубокую благодарность Михаилу Сергеевичу Гельфанду за чуткое научное руководство, постоянное внимание к моей работе и поддержку, а также искреннюю признательность Валентине Боевой, Ольге Калининой, Антону Митягину, Рамилю Нуртдинову, Дмитрию Малько и Дмитрию Виноградову.

Список публикаций по теме диссертации Статьи

1. Ermakova ЕО, Nurtdinov RN, Gel/and MS Overlapping alternative donor splice sites in the human genome//J Bioinform Comput Biol. 2007 V 5. №5 P.991-1004.

2 Ermakova E O., Nurtdinov R.N., Gelfand MS Fast rate of evolution in alternatively spliced coding regions of mammalian genes // BMC Genomics 2006. V 7 №1. 84.

3 Ермакова ЕО, Малько ДБ, Гельфапд M С. Эволюционные отличия альтернативных и постоянных белок-кодирующих участков альтернативно сплайсируемых генов Drosophila // Биофизика. 2006. Т. 51. №4. С.581-588

4 Нуртдипов Р.Н, Неверов АД, Малько ДБ, Космодемьянский ИА, Ермакова Е О, Раменскиц В.Е, Миронов А А, Гельфанд M С EDAS — база данных альтернативно сплайсированных генов человека // Биофизика. 2006. Т. 51. №4 С.589-592.

Тезисы конференций

1. Ermakova ЕО., Nurtdinov R.N, Gelfand MS Overlapping alternative donor splice sites // Информационные технологии и системы. ИТиС'07, Звенигород, 18-21 сентября 2007. С 241-244.

2. Malko D В, Ermakova Е О Evolution of splicing in insects // Proceedings of the 3-rd Moscow Conference on Computational Molecular Biology. MCCMB'07, Москва, 27-31 июля 2007. P 193.

3. Ermakova E.O, Nurtdinov RN, Gelfand M S Ovelapping alternative donor splicing sites in the human genome // ISMB/ECCB 2007 Proceedings. ISMB/ECCB'07, Вена, Австрия, 21-25 июля 2007.

4. Ermakova E.O, Malko D В, Gelfand MS Patterns of selection and evolution of the exon-intron structure in alternatively spliced genes of nine Droshophila species and the malarial mosquito // ISMB/ECCB 2007 S1G Meetings Program Materials. 4th Special Interest Group Meeting on Alternative Splicing AS-SIG 2007, Вена, Австрия, 19-20 июля 2007. P.145-146.

5. Ermakova E О Evolutionary patterns in alternatively spliced coding regions of mammalian and Drosophila genes // Proceedings of the 11th Human Genome Meeting HGM2006, Хельсинки, Финляндия, 31 мая - 3 июня 2006. Р.54

6 Ермакова ЕО Точечные нуклеотидные замены и эволюция различных функциональных участков генома млекопитающих // Материалы Международной школы „Биоинформатика, геномика, протеомика". Школа „Биоинформатика, геномика, протеомика", Алма-Ата, Казахстан, апрель 2006 С.13-17.

7 Ermakova Е О Alternatively spliced regions evolve faster // Proceedings of the International Moscow Conference on Computational Molecular Biology. MCCMB'05, Москва, июль 2005 P.95-96

8 Ермакова ЕО, Гельфанд МС Положительный отбор в альтернативных областях генов человека // Материалы XII международной конференции студентов, аспирантов и молодых учёных „Ломоносов". XII Международная конференция студентов, аспирантов и молодых учёных „Ломоносов", Москва, апрель 2005. С.15-16.

Ермакова Екатерина Олеговна

ОСОБЕННОСТИ ЭВОЛЮЦИИ РАЗЛИЧНЫХ ФУНКЦИОНАЛЬНЫХ ОБЛАСТЕЙ АЛЬТЕРНАТИВНО СПЛАЙСИРУЕМЫХ ГЕНОВ ЭУКАРИОТ

Рассматривались перекрывающиеся альтернативные донорные сайты сплайсинга, расположенные на расстоянии от 3 до 6 нуклеотидов друг от друга, и потенциальные сайты сплайсинга, находящиеся на таком же расстоянии от активного сайта сплайсинга Показано, что альтернативно сплайсируемые пары донорных сайтов в геноме человека участвуют в контроле экспрессии генов на пост-транскрипционном уровне. В большинстве альтернативно сплайсируемых пар перекрывающихся донорных сайтов уровни экспрессии изоформ резко отличаются. Разработана техника метавыравниваний, которая позволяет учитывать при анализе скоростей нуклеотидных замен даже небольшие альтернативные участки. Изучено поведение точечных замен в альтернативно сплайсируемых кодирующих областях генов млекопитающих, на материале полных геномов человека и мыши, и насекомых, на примере полных геномов двух видов плодовой мушки В альтернативных кодирующих участках генома нуклеотидные замены фиксируются чаще, чем в постоянных, и давление отбора ослаблено как на уровне мРНК, так и на уровне белка Отдельно исследовано поведение нуклеотидных замен в концевых и внутренних участках гена. Рассмотрены таксоноспецифичные особенности эволюции альтернативных участков генов. Внутренние альтернативные участки генов дрозофилы находятся под положительным отбором, а в альтернативных участках генов человека, соответствующих С-концу белка, отрицательный отбор слабее и/или положительный отбор сильнее, чем в других альтернативных участках. Сделан общий вывод о том, что альтернативно сплайсируемые участки генов служат „экспериментальной площадкой" молекулярной эволюции

Ermakova Ekatenna Olegovna

CHARACTERISTICS OF EVOLUTION OF DIFFERENT FUNCTIONAL REGIONS OF ALTERNATIVELY SPLICED EUKARYOTIC GENES

Overlapping alternative donor splice sites with the site shift from 3 through 6 nucleotides and similar potential splice sites were considered and their role in post-transcnptional expression control was described, showing dramatical differences of expression levels for most pairs of overlapping donor splice sites. The meta-alignments technique was developed, allowing us to analyze evolutionary patterns in relatively short alternatively spliced regions It was applied to nucleotide substitutions m alternatively spliced genes of mammals (human and mouse genomes) and insects (two fluitfly genomes) Nucleotide substitutions are more abundant in alternative regions than in constitutive regions, and negative selection is reduced at the mRNA level and at the protein level The pattern of nucleotide substitutions in internal and terminal regions is different The evolution of alternative regions has taxon-specific features. The internal alternative regions of fruitfly genes evolve under positive selection. The negative selection is weaker and/or positive selection is stronger in the C-terminal alternative regions of mammals compared to other alternative regions. Overall, this study demonstrates that alternative splicing serves as a testing ground for molecular evolution.

Заказ № 225/09/08 Подписано в печать 26 09 2008 Тираж 100 экз Уел пл 1,25

ООО "Цифровичок", тел (495) 797-75-76, (495) 778-22-20

www.cfr.ru; е-таИ:info@cfr.ru

Содержание диссертации, кандидата биологических наук, Ермакова, Екатерина Олеговна

ВВЕДЕНИЕ

1 ОБЗОР ЛИТЕРАТУРЫ

1.1 Альтернативный сплайсинг: общее введение

1.2 Функции альтернативного сплайсинга в клетке

1.2.1 Альтернативный сплайсинг и регуляция

1.2.2 Функциональность альтернативного 21 сплайсинга

1.2.2.1 PACT: регулируемый 22 антипродуктивный альтернативный сплайсинг и трансляция

1.2.3 Альтернативный сплайсинг и структура 25 белка

1.3 Парные альтернативные сайты сплайсинга 26 в геноме человека

1.4 Эволюция альтернативно сплайсируемых 30 областей

1.4.1 Метод молекулярной эволюции

1.4.2 Молекулярная эволюция эукариотических 36 геномов

1.4.3 Образование и дальнейшая эволюция 37 альтернативно сплайсируемых областей

2 МАТЕРИАЛЫ И МЕТОДЫ

2.1 Данные

2.1.1 Аннотация альтернативного сплайсинга

2.1.2 Поиск ортологичных генов и геномные 42 выравнивания

2.2 Алгоритмы

2.2.1 Оценка количества нуклеотидных замен. 42 Метод Ины

2.2.2 Асимметрия мутаций нуклеотидов

2.2.3 Точность оценки эволюционных 46 параметров

2.2.4 Веса сайтов 47 2.3 Программное обеспечение

2.3.1 BLAT и Pro-Gen: идентификация 47 ортологичных сайтов сплайсинга

2.3.2 IsoformCounter: предсказание 48 функциональности сплайсированных мРНК

2.3.3 WebLogo: построение лого-диаграмм

2.3.4 R: статистика

2.3.5 Авторское программное обеспечение

3 ПЕРЕКРЫВАЮЩИЕСЯ ДОНОРНЫЕ САЙТЫ СПЛАЙСИНГА 49 В ГЕНОМЕ ЧЕЛОВЕКА

3.1 Определения

3.2 Результаты

3.3 Обсуждение

4 НУКЛЕОТИДНЫЕ ЗАМЕНЫ В АЛЬТЕРНАТИВНЫХ И 61 ПОСТОЯННЫХ БЕЛОК-КОДИРУЮЩИХ УЧАСТКАХ ГЕНОВ

4.1 Определения

4.2 Результаты

4.3 Обсуждение 73 ВЫВОДЫ 77 БЛАГОДАРНОСТИ 79 СПИСОК ЛИТЕРАТУРЫ

Введение Диссертация по биологии, на тему "Особенности эволюции различных функциональных областей альтернативно сплайсируемых генов эукариот"

Под воздействием химических или физических факторов ДНК клетки может претерпеть изменения, она эволюционирует. Эти изменения, мутации, могут существенно повлиять на фенотип всего организма, но они редко фиксируются, обычно мутировавшие клетки погибают и не влияют на организм в целом. Наибольшее значение имеют мутации, происходящие в первой зародышевой клетке или половых клетках, образовавших её, так как они влияют на все клетки нового организма. Если рассматривается организм в целом, остальными мутациями пренебрегают, и говорят о геноме организма, а не о геноме отдельной клетки. Также часто пренебрегают отличиями геномов организмов одного вида и говорят о геноме вида, например, о геноме человека.

Основная задача геномики — полное описание генотипов всех живых организмов, их эволюции и отображения во множество фенотипов. Для эукариотических организмов эта задача особенно сложна и интересна, так как гены эукариот содержат интроны, вырезаемые из матричной РНК (мРНК) во время сплайсинга, и одинаковые мРНК могут быть при разных условиях сплайсированы по-разному. Более 50% генов человека [1] и минимум 20% генов плодовой мушки (flybase.org) альтернативно сплайсируются. Эволюция сайтов сплайсинга и альтернативно сплайсируемых участков генома и составляет предмет данной работы.

Различные участки хромосом несут неодинаковую функциональную нагрузку. Гены транскрибируются: специальные ферменты, РНК-полимеразы, создают РНК-копии генов, которые могут впоследствии функционировать в клетке как самостоятельные функциональные единицы, а могут быть процессированы (т.е. модифицированы), а также впоследствии транслированы, т.е. послужить шаблоном для белка. Также хромосомы содержат межгенные участки, у человека они составляют 90% всего генома. Отдельные участки как генов, так и межгенных областей участвуют в регуляции: они могут иметь специфическую последовательность, узнаваемую регуляторными или структурными белками, могут быть ответственными за сворачивание ДНК в клетке и т. д. Поэтому мутации в различных функциональных областях генома могут иметь неодинаковые последствия для организма: могут никак не повлиять на его фенотип, могут быть вредными или даже летальными, а могут и улучшить его приспособленность.

Эволюция генома складывается из полногеномных дупликаций, хромосомных перестроек, делеций и вставок в хромосомы нуклеотидных последовательностей разного размера, а также точечных замен нуклеотидов. t

Границы делеций, вставок, перестроек, как правило, приходятся на некодирующие области (интроны и межгенные области). В эволюции кодирующих последовательностей одну из ведущих ролей играют точечные нуклеотидные замены.

Генетический код вырожден, некоторые аминокислоты могут кодироваться различными тройками нуклеотидов. Поэтому часть нуклеотидных замен в кодирующей области гена не приводит к замене аминокислоты в белке. Например, триплеты AGT и AGC, отличающиеся одним нуклеотидом, оба кодируют серин. Такие нуклеотидные замены называют синонимичными. Нуклеотидные замены в кодирующей области, приводящие к замене аминокислоты, называют несинонимичными. Точечная нуклеотидная замена может повлиять на вторичную структуру транскрибированной РНК и на регуляторные сайты, например, сайт сплайсинга или энхансер. Дополнительное давление отбора на синонимичную позицию может также возникнуть из-за предпочтения организмом тех или иных кодонов вырожденного семейства вследствие различий в эффективности трансляции синонимичных кодонов или смещённого GC-состава локуса, содержащего исследуемый ген. Таким образом, вообще говоря, даже синонимичная замена может не быть нейтральной.

В данной работе изучено поведение точечных замен в альтернативно сплайсируемых кодирующих областях генов млекопитающих, на материале полных геномов человека и мыши, и насекомых, на примере полных геномов двух видов плодовой мушки. Показано, что в альтернативных кодирующих участках генома нуклеотидные замены фиксируются чаще, чем в постоянных, и давление отбора ослаблено как на уровне мРНК, так и на уровне белка. Отдельно исследовано поведение нуклеотидных замен в концевых и внутренних участках гена. Показано, что внутренние альтернативные участки генов дрозофилы находятся под положительным отбором, а в альтернативных участках генов человека, соответствующих С-концу белка, отрицательный отбор слабее и/или положительный отбор сильнее, чем в других альтернативных участках.

Недавно были исследованы перекрывающиеся донорные сайты со сдвигом сайта на три нуклеотида и консенсусом GYNGYN ([2], см. таюке обзор литературы). При выборе альтернативы в таком сайте не происходит сдвига рамки считывания, однако мотив GYNGYN далёк от консенсуса, а левый сайт оказывается нарушенным. Поэтому в данной работе рассмотрены перекрывающиеся донорные сайты и других типов. Пары сайтов со сдвигом на четыре нуклеотида (GYNNGY) наиболее близки к консенсусу, но сдвигают рамку считывания. Хотя этот мотив оказался наиболее распространённым [3, 4], ранее он не рассматривался подробно.

В данной работе рассматриваются перекрывающиеся альтернативные донорные сайты сплайсинга, находящиеся на расстоянии от 3 до 6 нуклеотидов, и потенциальные сайты сплайсинга (т. е. динуклеотиды GY), находящиеся на таком же расстоянии от активного сайта сплайсинга. Показано, что пары со сдвигом сайта на 4 нуклеотида встречаются гораздо чаще прочих, несмотря на то, что они сдвигают рамку считывания.

При рассмотрении сохранности потенциальных и активных сайтов сплайсинга в геномах мыши и собаки показано, что потенциальные донорные сайты сплайсинга в интронах сохраняются реже, чем потенциальные донорные сайты сплайсинга в экзонах, исключая потенциальные GT сайты, находящиеся в интроне на расстоянии 4 нуклеотида от активного сайта, т. е. соответствующие консенсусу этого донорного сайта сплайсинга. Основные (т. е., чаще используемые) сайты сплайсинга сохраняются чаще минорных (т. е., реже используемых). Пары сайтов, оставляющие рамку считывания неизменной, сохраняются чаще, чем сдвигающие её.

Наконец, показано, что в 55% альтернативно сплайсируемых пар одна из изоформ транслируется, в то время как другая (как правило, минорная) — нет. Такие нетранслируемые изоформы, по-видимому, являются мишенью нонсенс-мотивированной деградации (НМД, nonsense-mediated decay, NMD) и могут играть существенную роль в регуляции экспрессии генов.

Таким образом, различные методы сравнительной геномики подтверждают, что экспрессия альтернативно сплайсируемых участков генов является объектом тонкой регуляции, а их нуклеотидные последовательности подвержены направленному отбору.

Задачи, рассмотренные, в данной работе, существенны в контексте глобальной проблемы определения экспрессии гена (в том числе, экзон-интронной структуры, альтернативного сплайсинга, взаимодействий с регуляторными молекулярными комплексами) по его нуклеотидной последовательности.

1 ОБЗОР ЛИТЕРАТУРЫ

Разнообразны как представители одного вида, так и клетки в составе одного и того же организма. Более того, это разнообразие с течением времени изменяется: клетка рождается, реагирует на внешние условия и умирает, организм растёт и развивается, вид эволюционирует. Альтернативный сплайсинг активно участвует в создании разнообразия эукариотических живых организмов как в пространстве, так и во времени.

Альтернативный сплайсинг позволяет получать из одного гена несколько функциональных продуктов. Они могут присутствовать одновременно в одной клетке или быть тканеспецифичными (пространственное разделение), могут участвовать в разных этапах развития клетки или организма в целом (временное разделение). Также альтернативные участки генов служат „экспериментальным полем" эволюции. Эволюция на уровне фенотипа предопределяется изменениями в последовательности ДНК организма.

Под молекулярной эволюцией далее мы будем подразумевать эволюцию последовательности ДНК. Более всего нас будут интересовать точечные мутации в последовательностях генов. Точечные мутации и альтернативный сплайсинг тесно взаимодействуют: точечные мутации могут разрушить сайт сплайсинга или создать новый, могут повлиять на регуляцию альтернативного сплайсинга, например, сделать постоянный сайт сплайсинга альтернативным или наоборот, а вовлечённость того или иного участка гена в альтернативный сплайсинг может повлиять на свободу его эволюции.

Заключение Диссертация по теме "Биоинформатика", Ермакова, Екатерина Олеговна

выводы

1. Показано, что альтернативно сплайсируемые пары донорных сайтов в геноме человека участвуют в контроле экспрессии генов на пост-транскрипционном уровне: наиболее распространены пары со сдвигом на 4 нуклеотида, смещающим рамку считывания, и в 61% случаев один из сайтов пары порождает транслируемую изоформу в то время как вторая изоформа может стать мишенью нонсенс-мотивированной деградации мРНК.

2. Установлено, что в большинстве альтернативно сплайсируемых пар перекрывающихся донорных сайтов уровни экспрессии изоформ резко отличаются, и области значений весов сайтов и консенсусов последовательностей для левых (правых) однозначных пар и для двузначных пар с левым (правым) основным сайтом пересекаются. Таким образом, для выбора сайта в паре с достаточно близким к консенсусу ядром необходима дополнительная регуляция.

3. Разработана техника метавыравниваний, которая позволяет учитывать при анализе скоростей нуклеотидных замен даже небольшие альтернативные участки.

4. Уровень несинонимичных нуклеотидных замен в альтернативных областях генов выше, чем в постоянных.

5. Показано, что в альтернативных участках белков усилено действие положительного отбора, и/или ослаблено действие отрицательного отбора ослаблено. Это может быть связано с относительной молодостью альтернативных участков.

6. Показаны таксоноспецифичные особенности эволюции альтернативных участков генов. У млекопитающих плотность как синонимичных, так и несинонимичных замен на альтернативных участках увеличивается в направлении от 5' к 3' концу и наблюдается резкий скачок на С-концевых альтернативных участках. У дрозофил суммарная плотность замен на альтернативных участках генов примерно постоянна, но доля синонимичных и несинонимичных среди них различна. Плотность синонимичных замен в синонимичных позициях выше всего на N-концевых альтернативных участках, а плотность несинонимичных замен в несинонимичных позициях — на внутренних альтернативных участках.

7. Показано, что внутренние альтернативные участки генов дрозофил находятся под положительным отбором: плотность несинонимичных замен в несинонимичных позициях превышает плотность синонимичных замен в синонимичных позициях почти в полтора раза.

8. Сделан общий вывод о том, что альтернативно сплайсируемые участки генов служат „экспериментальной площадкой" молекулярной эволюции.

БЛАГОДАРНОСТИ

Я глубоко благодарна Михаилу Сергеевичу Гельфанду, за чуткое научное руководство, постоянное внимание к моей работе и поддержку, а также моим коллегам Рамилю Нуртдинову, Дмитрию Малько, Дмитрию Виноградову, Валентине Боевой, Ольге Калининой, Антону Митягину, сотрудникам УНЦ „Биоинформатика" ИППИ РАН и участникам рабочего семинара по альтернативному сплайсингу.

Библиография Диссертация по биологии, кандидата биологических наук, Ермакова, Екатерина Олеговна, Москва

1. Nurtdinov R.N., Artamonova I.I., Mironov A.A., Gelfand M.S. Low conservation of alternative splicing patterns in the human and mouse genomes //Hum Mol Genet 2003. V. 12. P.1313-1320.

2. Hiller M., Huse K., Szafranski K., Rosenstiel P., Schreiber S., Backofen R., Platzer M. Phylogenetically widespread alternative splicing at unusual GYNGYN donors I I Genome Biol. 2006. V. 7. R65.

3. Akerman M., Mandel-Gutfreund Y. Alternative splicing regulation at tandem 3' splice sites // Nucleic Acids Res. 2006. V. 34. P.23-31.

4. Jurica M.S., Moore M.J. Pre-mRNA splicing: awash in a sea of proteins // Mol Cell. 2003. V. 12. №1. P.5-14.

5. Schwartz S.H., Silva J., Burstein D., Pnpko Т., Eyras E., Ast G. Large-scale comparative analysis of splicing signals and their corresponding splicing factors in eukaryotes // Genome Res. 2008. V. 18. №1. P.88-103.

6. Lim L.P., Burge C.B. A computational analysis of sequence features involved in recognition of short introns I I Proc Natl Acad Sci USA. 2001. V. 98. №20. P.l 1193-11198.i

7. Wang Z, Xiao X., Van Nostrand E., Burge C.B. General and specific functions of exonic splicing silencers in splicing control // Mol Cell. 2006. V. 23. №1. P.61-70.

8. Gattoni R., Keohavong P., Stevenin J. Splicing of the E2A premessenger RNA of adenovirus serotype 2. Multiple pathways in spite of excision of the entire large intron //JMol Biol. 1986. V. 187. №3. P.379-397.

9. Yl.Carmo-Fonseca M., Carvalho C. Nuclear Organization and splicing control // in Alternative splicing in the postgenomic era. ed. Blencowe В J., Graveley B.R. Landes Bioscience. 2007.

10. Komblihtt A.R., de la Mata M., Fededa J.P., Munoz M.J., Nogues G. Multiple links between transcription and splicing // RNA. 2004. V. 10. P.1489-1498.

11. Berget S.M., Moore C., Sharp P.A. Spliced segments at the 5' terminus of adenovirus 2 late mRNA // Proc Natl Acad Sci USA. 1977. V. 74. P.3171-3175.

12. Chow L.T., Gelinas R.E., Broker T.R., Roberts R.J. An amazing sequence arrangement at the 5' ends of adenovirus 2 messenger RNA // Cell. 1977. V. 12. P.l-8

13. R.DeNoto F.M., Moore D.D., Goodman H.M. Human growth hormone DNA sequence and mRNA structure: possible alternative splicing // Nucleic Acids Res. 1981. V. 9. P.3719-3730.

14. Нуртдинов Р.Н., Неверов А.Д., Малъко Д.Б., Космодемьянский И.А., Ермакова Е.О., Рамепский В.Е., Миронов А.А., Гелъфанд М.С. EDAS — база данных альтернативно сплайсированных генов человека // Биофизика. 2006. Т. 51. №4. С.589-592.

15. Wang B.B., Brendel V. Genomewide comparative analysis of alternative splicing in plants // Proc Natl Acad Sci USA. 2006. V. 103. №18. P.7175-7180

16. Sikder S.K., Kabat E.A., Morrison S.L. Alternative splicing patterns in an aberrantly rearranged immunoglobulin kappa-light-chain gene // Proc Natl Acad Sci USA. 1985. V. 82. №12. P.4045-4049.

17. Behlke M.A., Loh D.Y. Alternative splicing of murine T-cell receptor beta-chain transcripts // Nature. 1986. V. 322. №6077. P.379-382.

18. Naor D., Sionov R.V., Ish-Shalom D. CD44: structure, function, and association with the malignant process // Adv Cancer Res. 1997. V. 71. P .241-319.

19. Schiaffino S., Reggiani C. Molecular diversity of myofibrillar proteins: gene regulation and functional significance // Physiol Rev. 1996. V. 76. №2. P.371-423.

20. Saccone G., Pane A., Polito L.C. Sex determination in flies, fruitflies and butterflies // Genetica. 2002. V. 116. №1. P.15-23.

21. Mironov A.A., Fickett J. W., Gelfand M.S. Frequent alternative splicing of human genes // Genome Res. 1999. V. 9. P.l288-1293.

22. Brett D., Hanke J., Lehmann G., Haase S., Delbriick S., Krueger S., Reich J., BorkP. EST comparison indicates 38% of human mRNAs contain possible alternative splice forms // FEBS Lett. 2000. V. 474. №1. P.83-86.

23. Kan Z., Rouchka E.C., Gish W.R., States D.J. Gene structure prediction and alternative splicing analysis using genomically aligned ESTs // Genome Res. 2001. V. 11. №5. P.889-900.

24. Brett D., Pospisil H., Valcarcel J., Reich J., Bork P. Alternative splicing and genome complexity // Nat Genet. 2002. V. 30. №1. P.29-30.

25. Gelfand M.S. Computational analysis of alternative splicing // in Handbook of computational molecular biology. Ed. Alluru S. New York. Chapman & Hall/CRC. 2005. Chapman & Hall/CRC Computer & Information Science Series. V. 9.

26. Artamonova 1.1., Gelfand M.S. Comparative Genomics and Evolution of Alternative Splicing: The Pessimists'Science // Chem Rev. 2007. V. 107. P.3407-3430.

27. AQ.Kim H., Klein R., Majewski J., Ott J. Estimating rates of alternative splicing in mammals and invertebrates // Nat Genet. 2004. V. 36. №9. P.915-916.41 .Harrington E.D.; Boue S.; Valcarcel J.; Reich J.G.; BorkP. II Nat. Genet. 2004. V. 36. 916.

28. Davis C.A., Grate L., Spingola M., Ares M. Jr. Test of intron predictions reveals novel splice sites, alternatively spliced mRNAs and new introns in meiotically regulated genes of yeast // Nucleic Acids Res. 2000. V. 28. №8. P.1700-1706.

29. Graveley B.R. Alternative splicing: increasing diversity in the proteomic world // Trends Genet. 2001. V. 17. №2. P.100-107.

30. Kan Z., States D., Gish W. Selecting for functional alternative splices in ESTs // Genome Res. 2002. V. 12. №12. P. 1837-1845.

31. Rinn J.L., Euskirchen G., Bertone P., Martone R., Luscombe N.M., Hartman S., Harrison P.M., Nelson F.K., Miller P., Gerstein M., Weissman S., Snyder M. The transcriptional activity of human Chromosome 22 // Genes Dev. 2003. V. 17. №4. P.529-540.

32. Carninci P. Tagging mammalian transcription complexity // Trends Genet. 2006. V. 22. №9. P.501-510.51 .Modrek В., Lee C. A genomic view of alternative splicing // Nat Genet. 2002. V. 30.№1.P.13-19.

33. Zhang Т., Haws P., Wu Q. Multiple variable first exons: a mechanism for cell- and tissue-specific gene regulation // Genome Res. 2004. V. 14. №1. P.79-89.

34. Auboeuf D., Batsche E., Dutertre M, Muchardt C., O'Malley B.W. Coregulators: transducing signal from transcription to alternative splicing // Trends Endocrinol Metab. 2007. V. 18. №3. P. 122-129.

35. Komblihtt A.R. Promoter usage and alternative splicing // Curr Opin Cell Biol. 2005. V. 17. №3. P.262-268.

36. Akiva P., ToporikA., Edelheit S., Peretz Y., DiberA., Shemesh R., NovikA., Sorek R. Transcription-mediated gene fusion in the human genome // Genome Res. 2006. V. 16. №1. P.30-36.

37. Parra G., Reymond A., Dabbouseh N., Dermitzakis E.T., Castelo R., Thomson T.M., Antonarakis S.E., Guigo R. Tandem chimerism as a means to increase protein complexity in the human genome // Genome Res. 2006. V. 16. №1. P.37-44.

38. Sampson N.D., Hewitt J.E. SF4 and SFRS14, two related putative splicing factors on human chromosome 19p 13.11 // Gene. 2003. V. 305. №1. P.91-100.

39. Modrek В., Resch A., Grasso C., Lee C. Genome-wide detection of alternative splicing in expressed sequences of human genes //Nucleic Acids Res. 2001. V. 29. №13. P.2850-2859.

40. Sl.Letunic I., Copley R.R., Bork P. Common exon duplication in animals and its role in alternative splicing // Hum Mol Genet. 2002. V. 11. №13. P.1561-1567.

41. Graveley B.R. Mutually exclusive splicing of the insect Dscam pre-mRNA directed by competing intronic RNA secondary structures // Cell. 2005. V. 123. №1. P.65-73.

42. Caceres J.F., Stamm S., Helfman D.M., Krainer A.R. Regulation of alternative splicing in vivo by overexpression of antagonistic splicing factors // Science. 1994. V. 265. №5179. P. 1706-1709.

43. SS.Soares L.M., Zanier K., Mackereth C., Sattler M., Valcarcel J. Intron removal requires proofreading of U2AF/3' splice site recognition by DEK // Science. 2006. V. 312. №5782. P.1961-1965.

44. SS.Lynch K. W. Regulation of alternative splicing by signal transduction pathways // In Alternative splicing in the postgenomic era. ed. Blencowe В .J., Graveley B.R. Landes Bioscience. Austin. 2007.

45. Matter N., Herrlich P., Konig H. Signal-dependent regulation of splicing via phosphorylation of Sam68 //Nature. 2002. V. 420. №6916. P.691-695.

46. Brett D., Kemmner W., Koch G., Roefzaad C., Gross S., Schlag P.M. A rapid bioinformatic method identifies novel genes with direct clinical relevance to colon cancer// Oncogene. 2001. V. 20. №33. P.4581-4585.

47. Hui L., Zhang X, Wu X., Lin Z., Wang Q„ Li Y„ Ни G. Identification of alternatively spliced mRNA variants related to cancers by genome-wide ESTs alignment // Oncogene. 2004. V. 23. №17. P.3013-3023.

48. Xie H., Zhu W.Y., Wassevman A., Grebinskiy V., Olson A., Mintz L. Computational analysis of alternative splicing using EST tissue information // Genomics. 2002. V. 80. №3. P.326-330.

49. Koslowski M., Tureci O., Bell C., Krause P., Lehr H.A., BrunnerJ., Seitz G., Nestle F.O., Huber C., Sahin U. Multiple splice variants of lactate dehydrogenase С selectively expressed in human cancer // Cancer Res. 2002. V. 62. №22. P.6750-6755.

50. Venables J.P. Aberrant and alternative splicing in cancer // Cancer Res. 2004. V. 64. №21. P.7647-7654.

51. Graham R.R et al. A common haplotype of interferon regulatory factor 5 (IRF5) regulates splicing and expression and is associated with increased risk of systemic lupus erythematosus // Nat Genet. 2006. V. 38. №5. P.550-555.

52. Xing Y., Lee C. Evidence of functional selection pressure for alternative splicing events that accelerate evolution of protein subsequences // Proc Nat Acad Sci USA. 2005. V. 102. P.13526-13531.

53. SorekR., Shamir R., Ast G. How prevalent is functional alternative splicing in the human genome? // Trends Genet. 2004. V. 20. №2. P.68-71.

54. Rouayrenc J.F., Boise L.H,. Thompson C.B., Privat A., Patey G. Presence of the long and the short forms of Bcl-X in several human and murine tissues // С R Acad Sci III. 1995. V. 318. №5. P.537-540.

55. Lewis B.P., Green R.E., Brenner S.E. Evidence for the widespread coupling of alternative splicing and nonsense-mediated mRNA decay in humans // Proc Natl Acad Sci USA. 2003. V. 100. №1. P. 189-192.

56. Wl.Veldhoen К, Metcalfe S., Milner J. A novel exon within the mdm2 gene modulates translation initiation in vitro and disrupts the p53-binding domain of mdm2 protein // Oncogene. 1999. V. 18. P.7026-7033.

57. Zhang J., Maquat L.E. Evidence that translation reinitiation abrogates nonsense-mediated mRNA decay in mammalian cells // EMBO J. 1997. V. 16. P.826-833.

58. Chester A., Somasekaram A., Tzimina M., Jarmuz A., Gisbourne J., O'Keefe R., Scott J., Navaratnam N. The apolipoprotein В mRNA editing complex performs a multifunctional cycle and suppresses nonsense-mediated decay // EMBO J. 2003. V. 22. P.3971-3982.

59. Jones R.B., Wang F., Luo Y, Yu C. Jin C., Suzuki Т., Kan Mt. McKeehan W.L. The nonsense-mediated decay pathway and mutually exclusive expression of alternatively spliced FGFR2IIIb and -IIIc mRNAs // J Biol Chem. 2001. V. 276. №6. P.4158-4167.

60. YlX.Homma K, Kikuno R.F., Nagase Т., Oh or a O., Nishikawa K. Alternative splice variants encoding unstable protein domains exist in the human brain // JMol Biol. 2004. V. 343. №5. P. 1207-1220.

61. Kriventseva E. V., Koch I., Apweiler R., Vingron M., BorkP., Gelfand M.S., Sunyaev S. Increase of functional diversity by alternative splicing // Trends Genet. 2003. V. 19. P. 124-128.

62. YH.Taneri В., Snyder В., Novoradovsky A., Gaasterland T. Alternative splicing of mouse transcription factors affects their DNA-binding domain architecture and is tissue specific // Genome Biol. 2004. V. 5. №10. R75.

63. WangP., Yan В., Guo J.Т., Hicks C., Xu Y. Structural genomics analysis of alternative splicing and application to isoform structure modeling // Proc Natl Acad SciU S A. 2005. V. 102. №52. P. 18920-18925.

64. Loraine A.E., Helt G.A., Cline M.S., Siani-Rose M.A. Exploring alternative transcript structure in the human genome using blocks and InterPro // J Bioinform Comput Biol. 2003. V. 1. №2. P.2S9-306.

65. Neverov A.D., Artamonova 7.7., Nurtdinov R.N., Frishman D., Gelfand M.S., Mironov A.A. Alternative splicing and protein function // BMC Bioinformatics. 2005. V. 6. 266.

66. Hiller M., Huse K., Szafranski K., John N. Натре J., Schreiber S., Backofen R., Platzer M. Widespread occurrence of alternative splicing at NAGNAG acceptors contributes to proteome plasticity // Nat Genet. 2004. V. 36. P.1255-1257.

67. Ъ1 Miller M., Huse K., Szafranski K, Jahn N., Натре J., Schreiber S., Backofen R., Platzer M. Single-nucleotide polymorphisms in NAGNAG acceptors are highly predictive for variations of alternative splicing // Am J Hum Genet. 2006. V. 78. P.291-302.

68. Li L., Howe G.A. Alternative splicing of prosystemin pre-mRNA produces two isoforms that are active as signals in the wound response pathway // Plant Mol Biol. 2001. V. 46. P.409-419.

69. Modrek В., Lee C.J. Alternative splicing in the human, mouse and rat genomes is associated with an increased frequency of exon creation and/or loss // Nat Genet. 2003. V. 34. P. 177-180.

70. Lynch M., Conery J.S. The evolutionary fate and consequences of duplicate genes // Science. 2000. V. 290. №5494. P.l 151-1155.

71. Kopelman N.M., Lancet D., Yanai L Alternative splicing and gene duplication are inversely correlated evolutionary mechanisms // Nat Genet. 2005. V. 37. №6 P.588-589.

72. Su Z., Wang J., Yu J., Huang X., Gu X. Evolution of alternative splicing after gene duplication // Genome Res. 2006. V. 16. №2. P.l82-189.

73. Mazumder B, Seshadri V, Fox PL. Translational control by the 3'-UTR: the ends specify the means. Trends Biochem Sci. 2003, 28:91-98.

74. Sunyaev S., Ramensky V., Koch I., Lathe W. 3rd, Kondrashov A.S., BorkP. Prediction of deleterious human alleles // Hum Mol Genet. 2001. V. 10. №6. P.591-597.

75. Jukes Т.Н., Cantor C.R. Evolution of protein molecules // In Munro H.N., ed. Mammalian protein metabolism. Academic Press. New York. 1969. P.21-132.

76. Liang H., Landweber L.F. A genome-wide study of dual coding regions in human alternatively spliced genes // Genome Res. 2006. V. 16. №2. P.190-196.

77. Kafatos F.C., Efstratiadis A., Forget B.G., Weissman S.M. Molecular evolution of human and rabbit beta-globin mRNAs // Proc Natl Acad Sci USA. 1977. V. 74. №12. P.5618-5622.

78. Ikemura T. Codon usage and tRNA content in unicellular and multicellular organisms // Mol Biol Evol. 1985. V. 2. P.13-35.161 .Akashi H., Eyre-Walker A. Translational selection and molecular evolution // Curr Opin Genet Dev. 1998. V. 8. №6. P.688-693.

79. Mukhopadhyay P., BasakS., Ghosh T.C. Nature of selective constraints on synonymous codon usage of rice differs in GC-poor and GC-rich genes // Gene. 2007. V. 400. №1-2. P.71-81.

80. Voight B.F., Kudaravalli S., Wen X., Pritchard J.K. A map of recent positive selection in the human genome // PLoS Biol. 2006. V. 4. №3. e72.

81. Saitou N., Yamamoto F. Evolution of primate ABO blood genes and their homologous genes//Mol Biol Evol. 1997. V. 14. P.399-411.

82. Haldane J.B.S. Disease and evolution // Ricercha Sci. 1949. V. 19. Suppl. P.68-76.

83. Kondrashov F.A., Koonin E.V. Origin of alternative splicing by tandem exon duplication // Hum Mol Genet. 2001. V. 10. №23. P.2661-2669.

84. Artamonova I.I., Gelfand M.S. Evolution of the exon-intron structure and alternative splicing of the MAGE-A family of cancer/testis antigens // J Mol Evol. 2004. V. 59. №5. P.620-631.

85. Lev-Maor G., Sorek R., Shomron N., Ast G. The birth of an alternatively spliced exon: 3' splice-site selection in Alu exons // Science. 2003. V. 300. №5623. P.1288-1291.

86. Alekseyenko A. V., Kim N., Lee C.J. Global analysis of exon creation versus loss and the role of alternative splicing in 17 vertebrate genomes // RNA. 2007. V. 13. №5. P.661-670.

87. Sorek R., Shemesh R., Cohen Y., Basechess O., Ast G., Shamir R. A non-EST-based method for exon-skipping prediction // Genome Res. 2004. V. 14. P.1617-1623.

88. Clark F., Thanaraj T.A. Categorization and characterization of transcript-confirmed constitutively and alternatively spliced introns and exons from human // Hum Mol Genet. 2002. V. 11. №4. P.451-464.

89. Burset M., Seledtsov I.A., Solovyev V.V. Analysis of canonical and non-canonical splice sites in mammalian genomes // Nucleic Acids Res. 2000. V. 28. P.4364-4375.

90. S7.Filip L.C., Mundy NJ. Rapid evolution by positive Darwinian selection in the extracellular domain of the abundant lymphocyte protein CD45 in primates //Mol Biol Evol. 2004. V. 21. P.l504-1511.

91. Hurst L.D., Pal С. Evidence for purifying selection acting on silent sites in BRCA1 // Trends Genet 2001. V. 17. №2. P.62-65.

92. Orban T.I., Olah E. Purifying selection on silent sites — a constraint from splicing regulation? // Trends Genet. 2001. V. 17. P.252-253.

93. Ina Y. New methods for estimating the numbers of synonymous and nonsynonymous substitutions // J. Mol Evol. 1995. V. 40. P. 190-226.

94. Kimura M. A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences // J Mol Evol. 1980. V. 16. P.l 11-120.

95. Gelfand M.S., Koonin E.V., Mironov A.A. Prediction of transcription regulatory sites in Archaea by a comparative genomic approach // Nucleic Acids Res. 2000. V. 28. P.695-705.

96. Kent W.J. BLAT — the BLAST-like alignment tool // Genome Res. 2002. V. 12. №4. P.656-664.

97. Novichkov P.S., Gelfand M.S., Mironov A.A. Gene recognition in eukaryotic DNA by comparison of genomic sequences // Bioinformatics. 2001. V. 17. №11. P.1011-1018.

98. Schneider T.D., Stephens R.M. Sequence logos: A new way to display consensus sequences //Nucleic Acids Res. 1990. V. 18. P.6097-6100.

99. Crooks G.E., Hon G., Chandonia J.M., Brenner S.E. WebLogo: A sequence logo generator // Genome Research. 2004. V. 14. P.l 188-1190.

100. Gel/and M.S. Statistical analysis of mammalian pre-mRNA splicing sites // Nucleic Acids Res. 1989. V. 17. №15. P.6369-6382.

101. Lareau L.F., Green R.E., Bhatnagar R.S., Brenner S.E. The evolving roles of alternative splicing // Curr Opin Struct Biol. 2004. V. 14. №3. P.273-282.

102. Lareau L.F., Brooks A.N., Soergel D.A.W., Meng Q., Brenner S.E. The coupling of alternative splicing and nonsense-mediated mRNA decay // in Alternative splicing in the postgenomic era. ed. Blencowe B.J., Graveley B.R. Landes Bioscience. Austin. 2007.

103. Duret L., Mouchiroud D. Determinants of substitution rates in mammalian genes: expression pattern affects selection intensity but not mutation rate // Mol Biol Evol. 2000. V. 17. P.68-74.

104. WJCing Y., Lee C.J. Protein modularity of alternatively spliced exons is associated with tissue-specific regulation of alternative splicing // PLoS Genet. 2005. V. I.e34.

105. Parmley J.L., Chamary J.V., Hurst L.D. Evidence for purifying selection against synonymous mutations in mammalian exonic splicing enhancers // Mol Biol Evol. 2006. V. 23. №2. P.301-309.

106. Yang Z. PAML: a program package for phylogenetics analysis by maximum likelyhood // Comput Appl Biosci. 1997. V. 13. P.555-556.

107. Cusack B.P., Wolfe K.H. Changes in alternative splicing of human and mouse genes are accompanied by faster evolution of constitutive exons // Mol Biol Evol. 2005. V. 22. P.2198-2208.