Бесплатный автореферат и диссертация по биологии на тему
Эволюция альтернативного сплайсинга генов млекопитающих
ВАК РФ 03.00.28, Биоинформатика

Автореферат диссертации по теме "Эволюция альтернативного сплайсинга генов млекопитающих"

На правах рукописи

Нуртдинов Рамиль Наилевич

ЭВОЛЮЦИЯ АЛЬТЕРНАТИВНОГО СПЛАИСИНГА ГЕНОВ МЛЕКОПИТАЮЩИХ

03 00 28 Биоинформатика

Автореферат диссертации на соискание ученой степени кандидата физико-математических наук

003449133

Москва-2008

003449133

Работа выполнена на Факультете биоинженерии и биоинформатики Московского Государственного Университета имени М В Ломоносова

Научный руководитель

доктор биологических наук, кандидат физико-математических наук, профессор Миронов Андрей Александрович

Официальные оппоненты

доктор биологических наук Карягина Анна Станиславовна ГУ НИИ эпидемиологии и микробиологии имени Н Ф Гамалеи

кандидат физико-математических наук Макеев Всеволод Юрьевич ФГУП ГНЦ РФ «ГосНИИгенетика»

Ведущая организация

Учреждение Российской Академии Наук Институт общей генетики им НИ Вавилова РАН

Защита диссертации состоится ноября 2008 года в ■/ часов на заседании диссертационного совета Д002 077 02 при Учреждении Российской академии наук Институт проблем передачи информации им А А Харкевича РАН по адресу 127994, Москва, ГСП-4, Большой Каретный переулок, д 19, стр 1

С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Институт проблем передачи информации им А А Харкевича РАН

Автореферат разослансо^^и^й^лД 2008 года

Ученый секретарь диссертационного совета

доктор биологических наук, профессор

Общая характеристика работы Актуальность темы

Характерной особенностью эукариотических генов является существование механизма вырезания из первичного транскрипта пре-мРНК протяженных участков, называемых интронами Оставшиеся участки, экзоны, сшиваются, и получаемая мРНК впоследствии используется как матрица для синтеза белка Процесс вырезания интрона и сшивки экзонов называется сплайсинг Каждое событие сплайсинга вырезает один интрон и, как правило, сплайсинг интрона происходит независимо от сплайсинга остальных интронов Для многих генов характерен альтернативный сплайсинг - процесс неоднозначного вырезания интронов В результате один ген может кодировать несколько разных белков, которые могут иметь как сходные функции, так и сильно отличаться друг от друга Согласно современным представлениям, более половины генов млекопитающих подвержены альтернативному сплайсингу

Для предсказания экзон-интронной структуры гена и возможного альтернативного сплайсинга используются два класса методов статистические методы и методы, основанные на выравнивании Статистические методы используют статистики длин экзонов и интронов, их аминокислотный (после формальной трансляции) и нуклеотидный состав, частоты нуклеотидов в сайтах сплайсинга Недостатком статистических методов является недостаточная точность предсказания и предсказание сильно ограниченного множества из возможных схем альтернативного сплайсинга

Другим классом методов является выравнивание нуклеотидной последовательности уже прошедших сплайсинг мРНК с последовательностью геномной ДНК Для предсказания альтернативного сплайсинга необходим очень большой объем таких данных Обычно ген имеет одну, базовую, схему вырезания интронов Альтернативные варианты белка порождаются реже, или, в случае регулируемого альтернативного сплайсинга,

достигают уровня экспрессии базового варианта в ограниченном наборе тканей или в течение ограниченного промежутка времени

Уровень современных технологий секвенирования мРНК не позволяет получать в большом количестве мРНК для конкретных генов, поскольку для этого требуется большой объем ручного труда Сейчас разработаны методики массового секвенирования, позволяющие в автоматическом режиме быстрое, качественное и достаточно полное секвенирование всей клеточной мРНК Это позволяет за счет объема данных получить адекватную информацию об экспрессии большинства генов Получаемые нуклеотидные последовательности мРНК были названы EST (Expressed Sequence Tag) Преимуществом EST является их массовость, дающая возможность получать данные об экспрессии генов в разных тканях и на разных стадиях эмбрионального и постэмбрионального развития Массовость EST одновременно является и их недостатком, поскольку вероятность секвенирования мРНК для определенного гена зависит от уровня его экспрессии, что дискриминирует гены со слабым уровнем экспрессии

Как и любой другой клеточный процесс, сплайсинг подвержен ошибкам В общем случае нет четкой границы между ошибками сплайсинга и альтернативным сплайсингом Однако большинство ошибок сплайсинга приводят к образованию мРНК, кодирующих нефункциональные короткие варианты белка из-за нарушения рамки считывания вследствие ее сдвига или вставки в мРНК последовательностей содержащих терминирующие кодоны

Использование данных EST является основным методом изучения альтернативного сплайсинга Анализ большого количества последовательностей (около восьми миллионов EST человека) невозможен без использования современных компьютерных технологий, начиная с выравнивания последовательностей и хранения полученных экзон-интронных структур в базе данных, и заканчивая алгоритмами анализа графов для выявления альтернативного сплайсинга

Цели и задачи исследования Целью данной работы является исследование альтернативного сплайсинга и его эволюции, с использованием биоинформатических методов анализа EST данных При этом решались следующие задачи

• Предварительная оценка консервативности альтернативного сплайсинга

• Создание базы данных для альтернативно сплайсируемых генов

• Оценка достоверности наблюдаемых альтернатив

• Определение свойств альтернатив, таких как частота встречаемости, влияние на аминокислотную последовательность белка, функциональность белка, кодируемого альтернативным вариантом мРНК

• Определение консервативности альтернатив в зависимости от их свойств

• Выявление закономерностей эволюции альтернативного сплайсинга

Научная новизна и практическое значение

• Впервые оценена доля неконсервативного альтернативного сплайсинга генов млекопитающих

• Создана база данных альтернативно сплайсируемых генов EDAS

• Разработан метод анализа выделения сложных и элементарных альтернатив с использованием алгоритмов анализа графов сплайсинга

• Реализован метод оценки достоверности наблюденных альтернатив

• Проведен анализ консервативности элементарных событий альтернативного сплайсинга человека в геномах мыши и собаки

• Проведен анализ консервативности элементарных событий альтернативного сплайсинга мыши в геномах человека, собаки и крысы

• Оценена доля эволюционных новоприобретений в ходе эволюции грызунов для групп генов с разными скоростями молекулярной эволюции

Апробация работы

Результаты работы были представлены на международных конференциях S Third International Conference on Bioinformatics ot Genome Regulation and Structure

(BGRS'2002), Новосибирск, 2002, S First Moscow Conference on Computational Molecular Biology (MCCMB'03, Москва, 2003)

S Second Moscow Conference on Computational Molecular Biology (MCCMB'05, Москва, 2005),

S Meeting ol HHMI International Research Scholars (Ashburn, Virginia, USA, 2006), S а также на конференции Информационные технологии и системы (ИТиС'07, Звенигород, 2007)

По материалам диссертации опубликовано 9 работ в рецензируемых российских и международных журналах

Объем и структура диссертации

Диссертация изложена на 104 страницах и состоит из введения и 3 глав Глава 1 содержит обзор литературы, в главах 2-3 представлены оригинальные результаты Список литературы, приведенный в конце диссертации, содержит 127 наименований Работа содержит 22 рисунка и 6 таблиц

Содержание работы

Глава 1 Предварительная оценка консервативности альтернативного сплайсинга

Первоначально была исследована консервативность альтернативно сплайсируемых участков человека в ортологичных генах мыши и, наоборот, консервативность альтернативно сплайсируемых участков мыши в ортологичных генах человека Работа была выполнена на небольшой группе ортологичных генов (166 пар) Альтернативный сплайсинг для исследуемых генов определялся выравниванием последовательностей мРНК и EST из GenBank (Wheeler DL at al 2003) и двух баз данных альтернативно спланированных генов AsMamDB (Ji Н at al 200!) и HASDB (Modrek В at al 2001) Полученные выравнивания просматривались вручную, выделялись и классифицировались элементарные альтернативы Для 84 пар генов альтернативный сплайсинг был известен у обоих организмов, для 42 пар генов альтернативный сплайсинг был найден только у гена человека, для 40 пар генов только у мыши

Таблица 1 Консервативность альтернативного сплайсинга по данным полноразмерных мРНК и данный EST К - консервативные альтернативы, НК - неконсервативные альтернативы

Человек Мышь

Тип альтернативы мРНК EST мРНК EST

К НК К НК К НК К НК

Кассетный экзон 56 25 74 26 70 5 39 9

Альт донорный сайт 18 7 16 10 24 6 17 6

Альт акцепторный сайт 13 5 19 15 15 6 16 9

Удерживаемый интрон 4 3 5 0 8 7 10 4

Всего генов 45 28 41 44 68 22 30 26

Консервативность исследуемых элементарных альтернатив приведена в Таблице 1 Альтернатива человека считалась неконсервативной, если соответствующий участок отсутствует в геноме мыши Анализ консервативности показал, что приблизительно 30% альтернатив человека не консервативны в мыши, 20% альтернатив мыши не консервативны в человеке Около 50% генов человека имеют неконсервативные в геноме

мыши альтернативы, и около 40% генов мыши имеют неконсервативные в геноме человека альтернативы Недостаточно большая выборка не позволила нам учесть в анализе несколько важных свойств элементарных альтернатив, таких как частота наблюдения альтернативного варианта мРНК и способность кодирования этим вариантом функционального варианта белка Дальнейшие исследования альтернативного сплайсинга генов человека и мыши, с использованием всей доступной мРНК, EST и белковой информации, потребовали существенной автоматизации процесса выделения, хранения и анализа событий альтернативного сплайсинга

Глава 2 Создание базы данных альтернативно сплайсируемых генов человека EDAS

Был создан набор программных средств, позволяющий с минимальным участием пользователя производить отбор EST, выравнивание их с соответствующим участком геномной последовательности, оценку качества полученных выравниваний и последующую обработку для получения информации о сплайсинге Полученная информация о 20809 генах человека и 31811 генах мыши собрана в базу данных EDAS

Для каждого гена на основе набора всех наблюденных экзонов и интронов был построен граф сплайсинга Вершинами этого графа являются сайты сплайсинга, а ребрами - экзоны и интроны Анализ графа сплайсинга позволяет выделить альтернативный сплайсинг Среди всех возможных схем альтернативного сплайсинга выделялись четыре базовых схем альтернативного сплайсинга (Рисунок 1), те элементарных альтернатив

Рисунок 1 Элементарные альтернативы Альтернативный донорный А и акцепторный Б сайты сплайсинга, кассетный экзон В и удерживаемый интрон Г

Для каждой элементарной альтернативы определялся базовый вариант - путь, наблюденный в известной последовательности белка Если оба варианта наблюдаются в белке, то базовым является путь, покрытый наибольшим числом EST, и, соответственно, второй путь объявлялся альтернативным Если ни один из путей не наблюдается в белке, то альтернатива считалась некодирующей и исключалась из дальнейшего рассмотрения

В рамках общепризнанной модели ошибочного сплайсинга предполагается, что вероятность порождения ошибочного варианта мРНК имеет биноминальное распределение Считается, что в рамках этой модели вероятностный параметр, биноминальная вероятность, может быть оценен значением 0 01 (Neverov AD at al 2005) В настоящем исследовании для каждой альтернативы оценивалась интегральная вероятность порождения ошибочной альтернативы, имеющей сходное EST-покрытие Исследуемая альтернатива считалась ошибочной в случае превышения данной вероятностью значения 0 05

С точки зрения последовательности мРНК, все альтернативные схемы вырезания интронов относительно базовой схемы можно разделить на две группы альтернативы, приводящие к удалению участка мРНК, и альтернативы, приводящие к добавлению участка мРНК Шкала, основанная только на частоте использования альтернативного варианта мРНК, не учитывает данное различие, поэтому она была видоизменена За основу была взята частота более длинного (по длине нуклеотидной последовательности) варианта Таким образом, по определению событие вставки нуклеотидов (вставка экзона или использование сайтов сплайсинга, находящихся вне экзона) имеет частоту в интервале 00 5 Событие удаления нуклеотидов (пропуск экзона или использование сайтов сплайсинга, находящихся внутри экзона) имеет частоту в интервале 0 5-1

Глава 3 Статистический анализ альтернативных сайтов сплайсинга

Всего нами было наблюдено 6183 альтернативных акцепторных и 4468 альтернативных донорных сайтов Был проведен статистический анализ появления альтернативного сайта сплайсинга вне или внутри экзона в зависимости от длины окружающих его экзона и интрона Для анализа были отобраны 3902 альтернативных акцепторных и 2975 альтернативных донорных сайтов, находящихся на расстоянии 9 и более нуклеотидов от базового сайта Для разных интервалов длин интрона исследовалось распределение доли удлиняющих или укорачивающих его альтернативных сайтов, по сравнению с интроном, получаемым в результате реализации базовой схемы сплайсинга (Рисунок 2)

1(1 81) 110 210 410 200(1 оо 50 80 110 210 100 2000 оо

Удлинение 64 119 227 198 127 429 10 18 31 31 98 74

Укорочение 10 61 128 180 308 203 1 7 18 28 47 32

10 80 110 2Ю 100 2000 во 10 80 110 210 500 2000 се

Удитенне 41 222 93 71 141 182 10 10 21 29 18 18

Укорочение 7 91 60 49 89 117 0 8 18 20 33 31

Рисунок 2 Доля удлиняющих интрон альтернативных акцепторных (вверху) и альтернативных донорных (внизу) сайтов сплайсинга генов человека, в зависимости от длины интрона Слева редкие или нарушающие рамку считывания, справа частые и сохраняющие рамку считывания альтернативные сайты сплайсинга

Как следует из Рисунка 2, короткие интроны преимущественно удлиняются при использовании альтернативных сайтов сплайсинга Соотношение укорачивающих и удлиняющих интрон альтернативных акцепторных и донорных сайтов стабилизируется с ростом длины интрона и составляет приблизительно 60%

Распределение альтернативных сайтов сплайсинга согласуется с моделью случайной фиксации сайтов Для разных интервалов длин экзонов исследовалось распределение числа альтернативных акцепторных и альтернативных донорных сайтов, удлиняющих или укорачивающих его, по сравнению с экзоном, получаемым в результате реализации базовой схемы сплайсинга (Рисунок 3)

О 30 60 90 120 IV) 180 210 0 30 «0 90 120 140 180 210

Удлинение 13 87 203 234 171 89 Ч 1 10 33 31 24 12 7

Укорочение 3 <16 200 339 367 292 139 0 3 24 44 61 46 28

0 30 60 90 120 НО 180 210 0 30 60 90 120 140 180 210

Удлинение 9 75 144 172 126 88 39 3 11 20 26 20 17 6

Укорочение 0 44 178 271 274 191 131 0 4 19 29 40 33 24

Рисунок 3 Доля удлиняющих экзон альтернативных акцепторных (вверху) и альтернативных донорных (внизу) сайтов сплайсинга генов человека, в зависимости от длины экзона Слева редкие или нарушающие рамку считывания, справа частые и сохраняющие рамку считывания альтернативные сайты сплайсинга

Для каждой группы альтернатив наблюдается сильная корреляция между преимущественным положением сайтов сплайсинга и длиной экзона Альтернативные

сайты предпочитают удлинять короткие экзоны и укорачивать длинные Для всех групп альтернативных сайтов равновесие между укорочением и удлинением экзона достигается приблизительно в районе 90 нуклеотидов, что соответствует моде распределения длин экзонов

Такое поведение альтернативных сайтов сплайсинга хорошо согласуется с предположением о фиксации случайных сайтов В самом деле, вероятность появления случайного сайта внутри экзона возрастает с ростом его длины, а укорочение очень короткого экзона маловероятно Для проверки данной гипотезы была рассмотрена модель фиксации случайных сайтов Мы предположили, что альтернативный сайт сплайсинга может с одинаковой вероятностью порождаться вследствие случайной мутации в любом месте относительно экзона, при условии, что его использование не приведет к нарушению рамки считывания Тем самым, вероятность укорочения экзона путем появления внутри альтернативного акцепторного или донорного сайтов пропорциональна его длине, а вероятность удлинения экзона пропорциональна расстоянию до ближайших находящихся в рамке считывания терминирующих кодонов (Рисунок 4)

tag_cag_gtag_tag

Рисунок 4 Интервал, в котором возможна фиксация случайного сайта сплайсинга

Равновесие достигается в случае, если вероятности удлинения и укорочения станут равными между собой, что эквивалентно равенству длин экзона и длин сегментов слева и справа от него Поэтому среднее расстояние до терминирующих кодонов должно быть равно средней длине экзона Было смоделировано распределение расстояния от случайной точки в интроне до 5' и 3'терминирующих кодонов Суммарное среднее расстояние до терминирующих кодонов составляло 138 нуклеотидов, что близко к средней длине экзона в 130 нуклеотидов

Глава 4. Консервативность альтернативного сплайсинга

Для 10961 генов человека были получены ортологичные гены мыши и собаки из работы (Lindblad-Toh К at all 2005) Первоначально последовательности ДНК ортологичных генов были выравнены программой Blat (Kent WJ at al 2002) Результатом этого выравнивания является цепочка консервативных на аминокислотном уровне участков, формирующая набор пар сегментов ДНК Границами этих сегментов служат хорошо выравнивающиеся кодирующие белок экзоны Для каждого такого сегмента исследовалась возможность реализации всех содержащихся внутри него интронов человека в исследуемом гене мыши или собаки при помощи программы ProGene (Novichkov PS at al 2001) Результатом работы программы ProGene является набор пар ортологичных акцепторных и донорных сайтов Внутренний кодирующий белок считался консервативным, если были определены ортологи для его акцепторного и донорного сайтов сплайсинга Экзон, содержащий внутри себя терминирующий кодон, считался консервативным, если был найден ортолог его акцепторного сайта

Таблица 2 Консервативность константных экзонов

EST покрытие экзона Всего экзонов Консервативность(%) Консервативность (штуки экзонов)

Мышь Собака Везде Только в мыши Только в собаке Нигде

0 EST 3208 96,9% 97,0% 3042 65 69 32

1-10 EST 15482 97,0% 97,8% 14804 212 337 129

10-50 EST 2298 98,4% 98,7% 2239 23 28 8

Более 50 EST 719 99,4% 99,3% 711 4 3 1

Консервативность константных (не подверженных альтернативному сплайсингу) экзонов представлена в Таблице 2 Консервативность константных экзонов очень высока, доля неконсервативных экзонов не превышает 3% Хотя мышь находится на эволюционно более близком расстоянии к человеку, чем собака, консервативность константных экзонов человека в геноме собаки немного выше, чем в геноме мыши Это согласуется с известным наблюдением о повышенной скорости молекулярной эволюции геномов грызунов

Консервативность константных экзонов повышается с ростом EST покрытия экзона. Это естественно, поскольку EST покрытие отражает уровень экспрессии генов, а высокоэкспрессирующиеся гены, как правило, эволюционируют медленней.

100% 80% 60% 40% 20% 0%

• Мышь и Собака

96 (26.4%)

126 ( 7.2%)

42 (11.6%)

199 (54,8%)

0.6

f---- ГГЪ

78 (57,8%) 10 ( 7.4%) Ш 14 (10,4%) 33 (24,4%) 138 (72.6%) П 8 ( 4.2%) М 17 ( 8,9%) 27 (14.2%) 114 (84.4%) "J 1 ( 0.7%) I 10 ( 7,4%) 10 ( 7.4%) 291 (89.5%) _j 10 ( 3,1%) Н 17 ( 5,2%) - 7 ( 2,2%) 435 (94,4%) 4 ( 0,9%) ■1 10 ( 2.2%) 12 ( 2,6%) 866 ( 94,9%) 3 17 ( 1,9%) ■ 18 ( 2,0%) ■ 12 ( 1.3%)

100% 80% 60% -10% 20% 0%

• » » *

♦ Мыгпь в Собака

■ ■ ♦

0 0.01 0.2 0.-1 0.6 0.8 0.»

95 ( 9.7%) 88 ( 9,0%)

151 (15,4%) 649 (66,0%)

29 (14.2%)

] 16 ( 7.8%)

I 40 (19,6%)

119 (58,3%)

43 (26,5%) 11 ( 6.8%) 23 (14.2%) 85 (52,5%)

55 (83,3%)

3 ( 4.5%)

4 ( 6.1%) 4 ( 6.1%)

298 (94,6%)

7 ( 2,2%)

8 ( 2,5%) 2 ( 0,6%)

Л

547 (95,3%) 15 ( 2,6%)

5 (о.1 : 7 ( 1.2%)

У 26 ( 2,2%) 22 ( 1,9%) 6 ( 0,7%)

Рисунок 5. Консервативность сохраняющих (вверху) и нарушающих (внизу) рамку считывания кассетных экзонов в ортологичных генах человека, мыши и собаки. На диаграммах зеленым цветом показана доля не консервативных в мыши и в собаке альтернатив. Серым цветом показана доля полностью консервативных альтернатив. Красным цветом показана доля альтернатив консервативных только в мыши, а синим цветом - только в собаке.

Консервативность сохраняющих и нарушающих рамку считывания кассетных экзонов человека в геномах мыши и собаки показана на Рисунке 5. Консервативность кассетных экзонов повышается с ростом частоты включения экзона. Консервативность кассетных экзонов, нарушающих рамку считывания, в целом меньше, чем консервативность экзонов,

сохраняющих рамку считывания Однако для экзонов, имеющих высокую частоту включения, разница в консервативности между сохраняющими и нарушающими рамку считывания экзонами крайне мала Наблюдается достаточно высокая (35%) консервативность сохраняющих рамку считывания кассетных экзонов, имеющих крайне низкую частоту включения Консервативность редко включаемых и при этом нарушающих рамку считывания кассетных экзонов (результата потенциальных ошибок или артефактов) менее высокая (24%), но не нулевая

Для альтернативных сайтов сплайсинга существует некоторая эволюционная асимметрия между сдвигом сайта сплайсинга в экзон и сдвигом в интрон Даже если внутренний сайт сплайсинга не используется для создания альтернативного варианта белка, он может быть консервативен из-за требования консервативности аминокислотной последовательности экзона Эта асимметрия подтверждается анализом консервативности альтернативных сайтов сплайсинга Внутренние альтернативные сайты сплайсинга существенно более консервативны, чем внешние В остальном консервативность альтернативных сайтов сплайсинга сходна с консервативностью кассетных экзонов Альтернативно сплайсируемые участки генов человека, консервативные в только в геноме мыши, и альтернативно сплайсируемые участки, консервативные только в геноме собаки, являются эволюционными потерями в ходе эволюции соответственно собаки и мыши Альтернативно сплайсируемые участки генов человека, неконсервативные ни в геноме мыши, ни в геноме собаки могут являться либо эволюционными приобретениями в ходе эволюции человека, либо ошибками сплайсинга, попавшими в EST и ошибочно трактованными как альтернативные варианты мРНК Одна из возможных оценок доли эволюционных приобретений среди неконсервативных альтернативно сплайсируемых участков будет дана далее Косвенным доказательством значительной доли таких альтернатив является заметная доля неконсервативных альтернатив, имеющих высокое EST-покрытие, а косвенным доказательством функциональности альтернатив, имеющих

крайне низкую, на уровне ошибки сплайсинга, частоту использования является их консервативность

Аналогичное исследование было проведено для альтернативного сплайсинга генов мыши Важность такого исследования заключается в том, что доступность родственного генома крысы позволяет оценить долю "молодых" (таксон-специфичных) элементарных альтернатив При этом были отдельно рассмотрены гены, эволюционирующие с разной скоростью В качестве выборки ортологичных генов были использованы данные Homologene (Wheeler DL at al 2003) Для 11014 генов мыши из EDAS были получены ортологичные гены человека, собаки и крысы

Для определения скоростей молекулярной эволюции генов в каждом гене были выделены ортологичные экзоны и оценено их сходство Для определения скорости молекулярной эволюции использовались только последовательности белков человека, собаки и мыши, а скорость молекулярной эволюции генов крысы принималась равной скорости эволюции генов мыши Набор экзонов был получен выравниванием белковых последовательностей мыши, человека и собаки с соответствующей последовательностью генома Было проведено попарное выравнивание кодируемых каждым экзоном аминокислотных последовательностей между разными видами (человек-мышь, человек-собака и собака-мышь) Ортологичные экзоны выявлялись при помощи метода ВВН (best bidirectional hit или лучшее двустороннее сопоставление), распространенного на тройки выравниваемых объектов Для каждого экзона был найден максимально сходный аналог в двух других организмах, экзоны считались ортологичными, если такое сопоставление является самосогласованным и единственными для всех трех экзонов из разных организмов Далее было отсеяно 911 кластера, для которых более четверти аминокислот мыши и человека не попали в набор ортологичных экзонов Аминокислотные последовательности ортологичных экзонов были объединены в рамках соответствующих видов и выравнены друг с другом с использованием матрицы сходства BIosum62

Полученное распределение уровня сходства белковых последовательностей показано на Рисунке 6

0,35

0,15

X

30

40 45 50 55 Е0 65 70 75 80 85 90 95 100

Человек-мышь

- Человек-собака

- Собака-мышь

Рисунок 6 Распределение сходства белков человека собаки и мыши

Расхождение видов мыши и крысы произошло относительно недавно, поэтому консервативность в геноме крысы элементарных альтернатив мыши может быть объяснена сходством ДНК последовательностей, не накопивших достаточного количества мутаций, а не функциональной значимостью альтернативы, защищающей ее от случайных мутаций При исследовании кассетных экзонов для учета такой возможности мы провели анализ консервативности случайно отобранных участков интронов мыши моделирующих кассетные экзоны, 14448 участков без терминирующих кодонов внутри, и 10799 участков, содержащих терминирующие кодоны Консервативность псевдоэкзонов зависит от их длины и наличия внутреннего терминирующего кодона, поэтому размер выборки псевдоэкзонов был подобран так, чтобы обеспечить покрытие в 100 и более штук на каждый 12 нуклеотидный интервал длины Мы оценивали вероятность случайного сохранения в геноме крысы кассетного экзона как среднюю консервативность псевдоэкзонов, имеющих сходную длину Количество случайно сохраненных экзонов оценивали как сумму соответствующих вероятностей для каждого не консервативного в геномах человека и собаки экзона Доля "истинных" эволюционных новоприобретений вычислялась вычитанием полученной доли случайно консервативных экзонов из всех консервативных только в геноме крысы кассетных экзонов

53 (48.6%) 184 (85.2%) ^П 200 (96.8%) П 575 (99.0%)

2 ( 1.8%)ВН 1 ( 0.5%Ж~| 0 ( 0.0*]Г1 2 ( 0.3%)

3 ( 2.8%)|~| 5 I 2.3%)Г~| 2 ( 1.0%)М 4 ( 0.7%) 2 ( 1.8У.)|В 6 I 2Л%|М 1 ( 0.57,)ВВ О I 0.0%)

4 ( 3.7%)Н 2 ( 0.9%Л| 1 I 0.5%)ГН О ( 0.0%) 45 (41.3%)[_^] 18 ( мД 3 ( 1.4%)Г1 0 ( 0.0%)

29 (90.6%)_ 628 (99.7%)

0 ( 0.0%® 0 ( 0.0%)

1 ( 3.1%)И| 2( 0.3%) О ( О.ОМВЦ 0 ( 0.0%)

О ( 0.0%)ГЩ 0 ( 0.0%) г ( б.у/.)~ о ( 0.0%)

Рисунок 7. Консервативность сохраняющих (слева) и нарушающих (справа) рамку считывания кассетных экзонов мыши в генах человека, собаки и крысы для разных интервалов частоты включения кассетного экзона. (Продолжение на следующей странице).

Консервативность подсчитана отдельно для трех групп генов вверху быстро эволюционирующие гены (2717 генов, уровень сходства белковых последовательностей менее 80%), посередине 3939 гена с уровнем сходства между 80% и 92%, внизу крайне консервативные гены (3447 генов, уровень сходства более 92%) На диаграммах серым цветом показана доля полностью консервативных альтернатив Красным цветом показана доля альтернатив консервативных только в генах собаки, а синим цветом только в генах человека Светло-зеленым цветом показаны неконсервативные кассетные экзоны Экзоны мыши, консервативные только в генах крысы, разделены на две подгруппы, случайно консервативные экзоны - коричневые, и экзоны, появившиеся в ходе эволюции грызунов ("молодые экзоны") - темно-зеленые

Консервативность сохраняющих и нарушающих рамку считывания кассетных экзонов мыши показана на Рисунке 7 Консервативность была подсчитана отдельно для трех групп генов с разной скоростью молекулярной эволюции белковой последовательности Консервативность кассетных экзонов мыши сходна с консервативностью кассетных экзонов человека Существует положительная корреляция между скоростью молекулярной эволюции генов (скоростью накопления и фиксации в геномной последовательности мутаций) и скоростью эволюции альтернативного сплайсинга, кассетные экзоны в быстро эволюционирующих генах существенно менее консервативны, чем кассетные экзоны в высоко консервативных генах Доля экзонов, "случайно консервативных" в геноме крысы, составляет около половины от всех консервативных только в крысе экзонов, а оставшаяся половина кассетных экзонов является эволюционными новоприобретениями в ходе эволюции грызунов Однако, в отличие от кассетных экзонов мыши, консервативных только в человеке или собаке, трактуемых как эволюционные потери в собаке или человеке соответственно, или неконсервативных кассетных экзонов мыши, мы можем лишь оценить лишь долю "молодых экзонов", в то время как для остальных экзонов можно конкретно указать к какой группе они принадлежат Доля "молодых экзонов" уменьшается с ростом частоты его включения в мРНК, что подтверждает теорию о том, что новые экзоны первоначально порождаются как кассетные экзоны с крайне малой частотой

включения в мРНК, и, постепенно, увеличивают ее в ходе эволюции Доля "молодых экзонов" также существенно выше в быстро эволюционирующих генах по сравнению с высоко консервативными генами

Глава 5. Альтернативный сплайсинг в дуплицированных генах

Крайне интересным является вопрос об эволюции альтернативного сплайсинга в дуплицированных генах Обычно дуплицированная копия гена является функционально избыточной и деградирует в результате накопления множества мутаций, приводящих к появлению терминирующих кодонов или к сдвигу рамки считывания и досрочному прекращению трансляции белковой последовательности Для предотвращения уничтожения дуплицированная копия должна частично или полностью изменить функцию кодируемого ей белка, а получившийся в результате новый ген должен давать преимущество, достаточное для его фиксации в популяции в ходе эволюции Альтернативный сплайсинг является хорошим тестовым полигоном для тестирования и отбора новых экзонов и привносимых ими новых свойств белков, поэтому мы предположили, что в дуплицированных генах должна наблюдаться повышенная доля новых кассетных экзонов, в частности "молодых экзонов"

К исследуемой выборке дуплицированных генов мы предъявляли следующие требования

1 Дупликация произошла в ходе эволюции грызунов

2 Дупликация произошла до расхождения предковых видов мыши и крысы

3 В ходе эволюции были сохранены исходный вариант гена в геноме человека, собаки, мыши и крысы и дуплицированный вариант гена в геноме мыши и крысы

В исследуемых генах мы анализировали консервативность кассетных экзонов мыши в генах человека, собаки и крысы

Для поиска генов, дуплицированных в ходе эволюции грызунов мы выравняли аминокислотные последовательности всех доступных в ЕОАЭ генов, 21791 генов мыши и 19718 генов человека при помощи программы В1а1 Для каждого гена мыши был определен наиболее близкий, сходный по аминокислотной последовательности кодируемого белка, ген человека, гомолог Гены мыши, имеющие гомологом один и тот же ген человека, отбирались для дальнейшего анализа Для каждого гена мыши исследовалось наличие его ортолога в геноме крысы Все дуплицированные гены мыши, имеющие ортолога в крысе, были разделены на две группы сохранившие исходную функцию гены (СФ гены) определялись как наиболее близкие к соответствующему гомологу человека дуплицированные гены мыши, а в группу изменивших исходную функцию гены (ИФ гены) были отнесены все остальные дуплицированные гены Всего было получено 250 СФ генов и 387 ИФ генов

Таблица 3 Суммарная информация о консервативности кассетных экзонов мыши

дуплицированные гены ортологичные гены эволюционирующие

ИФ СФ быстро умеренно медленно все

Консервативные экзоны 29 (62%) 43 (72%) 877 (76%) 1591 (78%) 1813(81%) 4281 (79%)

"Молодые экзоны" 11 (23%) 7(12%) 77 (7%) 114 (6%) 100 (4%) 291 (5%)

Оценка реального числа "молодых экзонов" 6(13%) 4 (7%) 44 (4%) 61 (3%) 48 (2%) 153 (3%)

Неконсервативные экзоны 7(15%) 10(17%) 196 (17%) 331 (16%) 327(15%) 854 (16%)

Анализ данных ЕОАЭ выявил наличие 47 кассетных экзонов в ИФ генах и 60 экзонов в СФ генах, что недостаточно для детального анализа консервативности наблюденных экзонов, поэтому мы суммировали информацию о консервативности кассетных экзонов для всех исследуемых групп генов в Таблице 3 Доля неконсервативных кассетных экзонов мыши совпадает для всех исследуемых групп генов Доля "молодых экзонов" в дуплицированных генах существенно больше, чем в не дуплицированных, а среди дуплицированных генов доля "молодых экзонов" в ИФ генах в два раза больше, чем в СФ генах

Основные результаты и выводы

1 Создана база данных альтернативно сплайсируемых генов ЕБАв, в которой собрана информация об альтернативном сплайсинге генов человека и мыши

2 Разработан алгоритм анализа выделения сложных и элементарных альтернатив с использованием алгоритмов анализа графов сплайсинга Реализован алгоритм оценки достоверности наблюденных альтернатив

3 Проведен анализ консервативности элементарных событий альтернативного сплайсинга генов человека в геномах мыши и собаки, а также анализ консервативности элементарных событий альтернативного сплайсинга генов мыши в геномах человека, собаки и крысы Впервые показана существенно меньшая консервативность альтернативных экзонов и сайтов сплайсинга по сравнению с константными

4 Показано, что нарушающие рамку считывания альтернативы существенно менее консервативны, чем сохраняющие рамку считывания Показано, что существенная доля редких нарушающих рамку считывания альтернатив функциональны

5 Показано, что распределение альтернативных сайтов сплайсинга согласуется с моделью случайной фиксации сайтов Альтернативный вариант акцепторного и донорного сайтов преимущественно приближает длину экзона к стандартной, укорачивая длинные экзоны и удлиняя короткие

6 Установлено, что максимальная консервативность кассетных экзонов наблюдается в генах с наименьшей скоростью молекулярной эволюции, в более быстро эволюционирующих генах возрастает доля неконсервативных альтернатив

7 Показано, что гены с повышенной скоростью молекулярной эволюции существенно более часто приобретают новые кассетные экзоны в ходе эволюции Также такое поведение характерно для дуплицированных генов, особенно для изменивших в ходе эволюции функцию кодируемого белка дуплицированных копий генов

Список рлбот опубликованных по теме диссертации

1 Нуртдинов РН, Миронов АА и Гельфанд МС Консервативен ли альтернативный сплайсинг млекопитающих? // Биофизика, 2002,47(4) 587-594

2 Nartdtnov RN, Artamonova II, Mironov АА and Gelfand MS Low conservation of alternative splicing patterns in the human and mouse genomes // Hum Mol Genet, 2003, 12(11) 1313-1320

3 Offman MN, Nurldinov RN, Gelfand MS and Frishman D No statistical support for correlation between the positions of protein interaction sites and alternatively spliced regions II BMC Bioinformatics, 2004,5 41

4 Neverov AD, Artamonova II, Nurtdinov RN, Frishman D, Gelfand MS and Mironov AA Alternative splicing and protein function II BMC Bioinformatics 2005,6 266.

5 Ermakova EO, Nurtdinov RN and Gelfand MS Fast rate of evolution in alternatively spliced coding regions of mammalian genes // BMC Genomics, 2006, 7 84

6 Нуртдинов РН, Неверов АД, Малько ДБ, Космодемьянский ИА, Ермакова ЕО, Раменский BE, Миронов АА и Гельфанд МС EDAS, база данных альтернативно сплайсируемых генов человека II Биофизика, 2006, 51(4), 589-592

7 Ermakova ЕО, Nurtdinov RN, Gelfand MS Overlapping alternative donor splice sites in the human genome // J Bioinform Comput Biol 2007,5(5) 991-1004

8 Nurtdinov RN, Neverov AD, Favorov A V, Mironov AA, Gelfand MS Conserved and species-specific alternative splicing in mammalian genomes // BMC Evol Biol 2007, 7 249

9 Ramensky VE, Nurtdinov RN, Nevei ov AD, Mironov AA, Gelfand MS Positive selection in alternatively spliced exons of human genes // Am J Hum Genet 2008, 1 94-98

Нуртдинов Рамиль Наилевич

Эволюция альтернативного сплайсинга генов млекопитающих Была исследована эволюция альтернативного сплайсинга Альтернативный сплайсинг является одним из важнейших механизмов образования белкового многообразия млекопитающих Наш предварительный анализ впервые показал, что доля видоспецифичных альтернатив по разным методам оценки составляет от одной четверти до одной трети от всех альтернатив

Была создана база данных альтернативно сплайсируемых генов ЕБАБ Эта база данных содержит информацию о конститутивном и альтернативном сплайсинге 20809 генов человека и 31818 генов мыши Анализ консервативности альтернативно сплайсированных участков генов человека показал, что консервативность кассетных экзонов зависит от частоты их использования и способности сохранять рамку считывания при трансляции Было показано, что распределение альтернативных сайтов сплайсинга подчиняется модели фиксации случайных сайтов альтернативные сайты сплайсинга преимущественно удлиняют короткие экзоны и укорачивают длинные

Далее был проведен анализ специфичного для грызунов альтернативного сплайсинга Для этого были сравнены геномы мыши и крысы, а геномы человека и собаки были использованы в качестве внешних объектов Данная схема позволяет отделить возможные ошибочные варианты мРНК от настоящих кассетных экзонов, появившихся в ходе эволюции линии грызунов В результате было показано, что гены с повышенной скоростью молекулярной эволюции и дуплицированные копии генов существенно чаще (по сравнению с общей выборкой) приобретают новые кассетные экзоны в ходе эволюции

Nurtdinov Ramil Nailevich

Evolution of mammalian alternative splicing We addressed the evolutionary aspect of alternative splicing Alternative splicing is one of the main mechanisms for generating functional and evolutionary diversity ot proteins in mammals Our initial comparative-genomic analyses of alternative splicing for the first time demonstrated that the fraction of genome-specific alternative splicing may be as high as 1/4 to 1/3 of all observed alternatives

We developed a database of alternatively spliced genes, EDAS This database now contains information about splicing and alternative splicing ot 20809 human and 31811 mouse genes In a study of conservation of human alternatively spliced genes in the mouse and dog genomes, we demonstrated that conservation of cassette exons depends on their expression level and their frame-preservation ability The distribution of alternative sites is consistent with a model ot random fixation alternative splice sites tend to extend short exons, truncate long exons, and extend very short introns

We then extended this analysis to rodent-specific alternative splicing by comparing mouse and rat genomes with human and dog as outgroups This study design allowed us to distinguish between spicing noise and bona fide lineage-specific alternative splicing and to estimate the rate of the latter We also demonstrated that rodent-specific alternative exons are relatively more frequent in rapidly evolving genes and inparalogs

Автор выражает глубокую благодарность научному руководителю А А Миронову, а также М С Гельфанду, соавторам многих совместных работ и сотрудникам Национальной Лаборатории Лоуренса в городе Беркли, США за предоставленные вычислительные ресурсы

В разное время научная работа была поддержана грантами РФФИ (00-15-99362), РФФИ (04-04-49440), ШТА8 (99-1476), ШТА5 (05-1000008-8028), ННМ1 (55000309), ННМ1 (55001056), ЫСК/СГШР (ЯВ0-1268) и программой "Молекулярная и клеточная биология" РАН России

Заказ № 225/09/08 Подписано в печать 26 09 2008 Тираж 100 экз Уел пл 1,5

- ООО "Цифровичок", тел (495) 797-75-76,(495) 778-22-20 ' ( :, \vrnv с/г га , е-тсч1 т/о@с/г ги

Содержание диссертации, кандидата физико-математических наук, Нуртдинов, Рамиль Наилевич

Введение

Актуальность темы

Цели и задачи исследования

Научная новизна

Апробация работы

Публикации

Глава 1. Обзор литературы

1.1 Методы предсказания экзон-интронной структуры гена.

1.2 Альтернативный сплайсинг.

1.3 Альтернативный сплайсинг и структура белка

1.4 Современные представления об эволюции альтернативного сплайсинга . 39 Выводы по главе 1- • • • • • • • • I

Глава 2. Материалы, алгоритмы и методы

2.1 Данные работы по предварительному анализу консервативности альтернативного сплайсинга

2.2 Создание базы данных альтернативно сплайсируемых генов ЕОАБ

2.2.1 Последовательности

2.2.2 Выравнивания

2.2.3 Алгоритм выделения элементарных альтернатив

2.3 Методика определения консервативности экзонов и альтернативно сплайсируемых участков

2.4 Создание выборки участков интронов мыши, предназначенных для анализа доли случайно консервативных альтернатив

2.5 Выделение дуплицированных генов

Глава 3. Результаты

3.1 Предварительная оценка консервативности альтернативного сплайсинга

3.2 Создание базы данных альтернативно сплайсируемых генов ЕБАБ

3.3 Оценка доли альтернативно сплайсируемых генов

3.4 Статистический анализ альтернативных сайтов сплайсинга

3.5 Консервативность элементарных событий альтернативного сплайсинга генов человека в геномах мыши и собаки

3.6 Консервативность элементарных событий альтернативного сплайсинга генов мыши в геномах человека, собаки и крысы

3.7 Альтернативный сплайсинг в дуплицированных генах . Основные результаты и выводы

Благодарности

Введение Диссертация по биологии, на тему "Эволюция альтернативного сплайсинга генов млекопитающих"

Актуальность темы

Все живые организмы на Земле можно, базируясь на клеточной организации, разделить на две группы, прокариоты и эукариоты (от греческого слова карион — ядро). Клетки прокариот не имеют полноценного клеточного ядра, в то время как для эукариот характерно четко выраженное клеточное ядро, отделенное от цитоплазмы двойной ядерной мембраной, а также наличие большого количества других мембранных органелл.

Характерной особенностью эукариотических генов является существование механизма вырезания из первичного транскрипта пре-мРНК протяженных участков, называемых интронами. Оставшиеся участки, экзоны, сшиваются, и получаемая мРНК впоследствии используется как матрица для синтеза белка. Процесс вырезания интрона и сшивки экзонов называется сплайсинг. Сильно упрощенный процесс сплайсинга наблюдается также у некоторых видов прокариот: самосплайсинг у бактерий и архей, а также сплайсинг пре-мРНК в хлоропластах, однако он наблюдается у незначительного числа генов и не играет значительной роли. Каждое событие сплайсинга вырезает один интрон и, как правило, спласинг интрона происходит независимо от сплайсинга остальных интронов. Сплайсинг осуществляется сплайсосомой, комплексом, состоящим из нескольких малых ядерных РНК и большого числа белков, непосредственно участвующих в процессе вырезания интрона. Кроме того, существует большая группа белков, называемых факторами сплайсинга, которые осуществляют регуляцию сплайсинга, блокируя, или наоборот, способствуя вырезанию конкретных интронов или групп интронов. донорныи сайт акцепторный сайт сплайсинга сайт сплайсинга ветвления и) 5П(?МР ленин

А тпдга

Абеи А (ТгАОви экзон 1 интрон экзон 2

Рисунок I. Нуклеотидные последовательности, участвующие в процессе сплайсинга.

В процессе сплайсинга происходит распознавание трех участков пре-мРНК (Рисунок I): донорного сайта сплайсинга (консенсус Ав/СиИЛОи; косая черта обозначает границу интрона и экзона), сайта ветвления (консенсус СТЯАУУ), и акцепторного сайта сплайсинга (консенсус УТУУУУУЫСАОЛЗ). В процессе распознавания сайтов сплайсинга происходит узнавание донорного сайта сплайсинга комплексом малых ядерных РНК иб/114, а также узнавание сайта ветвления малой ядерной РНК Ш. На следующем этапе происходит сближение 5' и 3' концов интрона и образование комплекса Ш, 114/1)6. Далее происходит разрезание мРНК по донорному сайту сплайсинга и замыкание 5' конца интрона на 2' положение рибозы нуклеотида точки ветвления (Рисунок 2).

Соединенные экзоны

Рисунок 2. Сплайсинг пре-мРНК.

Малая ядерная РНК и5 сводит вместе донорный и акцепторный сайт сплайсинга. В результате последующей реакции происходит сшивка донорного и акцепторного сайта и полное вырезание интрона.

Для многих генов характерен альтернативный сплайсинг - процесс неоднозначного вырезания интронов. В результате один ген может кодировать несколько разных белков, которые могут иметь как сходное строение и функцию, так и сильно отличаться друг от друга. В случае недостаточно эффективного узнавания донорного, акцепторного сайта или сайта ветвления соответствующий экзон может иногда быть пропущен и отсутствовать в зрелой мРНК, что приведет к появлению двух разных матриц. При наличии рядом двух одинаковых или почти одинаковых донорных или акцепторных сайтов сплайсинга выбор только одного сайта будет невозможен, и частота появления соответствующих мРНК будет зависеть от соотношения эффективностей связывания с ними комплекса сплайсосомы. Существует также регулируемый альтернативный сплайсинг, когда некоторые белки, связываясь с пре-мРНК, могут препятствовать образованию комплекса сплайсосомы, либо, наоборот, усиливать действие слабых сайтов, делая их более предпочтительными.

Как и любой другой клеточный процесс, сплайсинг подвержен ошибкам, в частности, альтернативный сплайсинг можно рассматривать как своего рода "узаконенную" ошибку сплайсинга, приносящую пользу организму. В общем случае нет четкой границы между ошибками сплайсинга и альтернативным сплайсингом. Единственным критерием может быть функциональность альтернативной формы белка. Например, если в результате альтернативного или ошибочного сплайсинга изменится активный центр белка-фермента, фермент может превратиться из катализатора в ингибитор соответствующей реакции, в результате чего скорость этой реакции будет зависеть от соотношения концентраций этих двух вариантов белка. Если такая регуляция полезна, возможность создания альтернативной формы может быть закреплена в о популяции, и возможная ошибка сплайсинга станет альтернативным сплайсингом.

Большинство ошибок сплайсинга приводят к образованию мРНК, кодирующих нефункциональные короткие варианты белка. В основном это происходит из-за сдвига рамки считывания, получаемого в результате пропуска экзона длины не кратной трем, не кратного трем сдвига сайта сплайсинга, а также вставок в мРНК последовательностей, содержащих терминирующие кодоны. Для предотвращения массового образования таких белков клетка имеет механизм уничтожения ошибочных мРНК — NMD (nonsense-mediated decay). После вырезания интрона в месте соединения акцепторного и донорного сайтов остаются белки, являющиеся мишенями для белков, разрушающих одноцепочечную РНК. Рибосома, транслируя матрицу, счищает эти белки-мишени, и, в случае правильной матрицы, полностью их убирает. Ошибка сплайсинга, приводящая к досрочному прекращению трансляции белка, оставляет несколько белков-мишеней на 3' конце мРНК, и данная матрица через некоторое время уничтожается.

Для предсказания экзон-интронной структуры гена и возможного альтернативного сплайсинга используются два класса методов: статистические методы и методы, основанные на выравнивании. Статистические методы используют статистики длин экзонов и интронов, их аминокислотный (после формальной трансляции) и нуклеотидный состав, частоты нуклеотидов в сайтах сплайсинга. Недостатком статистических методов является недостаточная точность предсказания и предсказание сильно ограниченного множества из возможных схем альтернативного сплайсинга.

Другим классом методов является выравнивание нуклеотидной последовательности уже прошедших сплайсинг мРНК с последовательностью геномной ДНК. Для предсказания альтернативного сплайсинга необходим очень большой объем таких данных. Обычно ген имеет одну, базовую, схему вырезания интронов. Альтернативные варианты белка порождаются реже, или, в случае регулируемого альтернативного сплайсинга, достигают уровня экспрессии базового варианта в ограниченном наборе тканей или в течение ограниченного промежутка времени.

Уровень современных технологий секвенирования мРНК не позволяет получать в большом количестве мРНК для конкретных генов, поскольку для этого требуется большой объем ручного труда. Необходимо отделить требуемые мРНК от продуктов экспрессии других генов. Для качественного и многократного секвенирования выделенных матриц необходимы дорогостоящие реагенты и технологии. Сейчас разработаны методики массового секвенирования, позволяющие в автоматическом режиме быстрое, качественное и достаточно полное секвенирование всей клеточной мРНК. Это позволяет за счет объема данных получить адекватную информацию об экспрессии большинства генов. Получаемые нуклеотидные последовательности мРНК были названы EST (Expressed Sequence Tag). Первоначально их природа соответствовала содержащемуся в названии слову tag — обрывок, поскольку это были короткие последовательности длиной 200-500 нуклеотидов. Современные методы выделения и секвенирования позволяют получать практически полноразмерные мРНК. Преимуществом EST является их массовость, дающая возможность получать данные об экспрессии генов в разных тканях и на разных стадиях эмбрионального и постэмбрионального развития. Массовость EST одновременно является и их недостатком, поскольку вероятность секвенирования мРНК для определенного гена зависит от уровня его экспрессии. Из-за этого гены с высоким уровнем экспрессии, например гены белков рибосомы, в сотни или даже тысячи раз более представлены среди EST чем, например, гены систем клеточной регуляции. Поскольку сплайсинг подвержен ошибкам, большое количество EST приводит к секвенированию и этих ошибочных вариантов.

Согласно современным представлениям, более половины генов млекопитающих подвержены альтернативному сплайсингу. Сходные по функции гены имеют сходный альтернативный сплайсинг, например, для многих рецепторов характерно существование трех вариантов белка: растворимой или секретируемой, закрепленной в мембране функциональной или цитоплазматической и закрепленной в мембране нефункциональной или мембранной форм. Выбор между этими вариантами белка осуществляется в результате альтернативного сплайсинга. Трансмембранный домен рецептора обычно кодируется одним экзоном, пропуск его приводит к образованию растворимой формы белка. Функциональный домен, взаимодействующий с соответствующим лигандом, обычно кодируется последним экзоном, его модификация или замена на альтернативный вариант приводит к образованию нефункционального варианта рецептора.

Многие белки, связывающиеся с ДНК, содержат несколько копий ДНК-связывающих доменов, каждый из которых обычно кодируется одним экзоном. В результате альтернативного сплайсинга в белке варьируется количество таких доменов и расстояние между ними.

Альтернативный сплайсинг играет ключевую роль во многих важных клеточных процессах, например, регулирует выбор пола у дрозофилы. Выбор пола дрозофилы зависит от соотношения X хромосом и аутосом. При развитии в мужскую особь в гене sex-lethal (sxl) во 2-м кодирующем экзоне происходит терминация трансляции и образование нефункционального белка. Женский путь развития отличается тем, что происходит блокировка данного экзона, его пропуск, и образование функционального белка. Функциональный белок Sxl участвует в регуляции альтернативного сплайсинга своего собственного гена, закрепляя женский путь развития. Кроме того, он действует на ген transformer (tra) блокируя один из пары акцепторных сайтов, который, так же как и в случае гена sxl, приводит к синтезу нефункционального белка при мужском пути развития. Вместе оба функциональных белка Sxl и Тга способствуют активации альтернативного акцепторного сайта сплайсинга гена doublesex (dsx), продукт которого является уже непосредственным участником процесса дифференциации в женскую особь.

В общем случае альтернативный сплайсинг может порождать большое количество вариантов белка. Например, альтернативный сплайсинг гена человека CD44 может породить более тысячи разных вариантов белка. В центральной области данного гена находятся подряд десять экзонов, каждый из которых, независимо, может быть включен в мРНК или исключен из нее. Описание и анализ всех возможных вариантов кодирования белка для таких генов является крайне затруднительным и нолученные результаты не сопоставимы при сравнении разных генов, поэтому необходимо иметь унифицированную систему описания альтернативного сплайсинга.

Так как интроны вырезаются из мРНК практически независимо друг от друга, то альтернативный сплайсинг каждого из них можно также рассматривать отдельно. Можно выделить несколько характерных путей реализации альтернативного сплайсинга, элементарных альтернатив (Рисунок 3).

Элементарные альтернативы описывают самый простой уровень альтернативного сплайсинга, сплайсинг одного интрона и прилежащих экзонов. Альтернативный донорный сайт сплайсинга - выбор между двумя донорными сайтами сплайсинга (Рисунок ЗА). Альтернативный акцепторный сайт сплайсинга - выбор между двумя акцепторными сайтами сплайсинга (Рисунок ЗБ). Кассетный экзон - возможность пропуска экзона (Рисунок ЗВ). Удерживаемый интрон - возможность не вырезать интрон из мРНК (Рисунок ЗГ). Приведенные выше типы элементарных альтернатив не покрывают весь спектр наблюдаемых вариантов альтернативного сплайсинга, однако большинство сложных вариантов можно свести к набору вышеперечисленных элементарных альтернатив.

Цели и задачи исследования

Объект исследования: объектом исследования является альтернативный сплайсинг генов млекопитающих.

Цель исследования: целью данной работы является исследование альтернативного сплайсинга и его эволюции с использованием биоинформатических методов анализа данных EST.

Сильно снизившееся, по сравнению с предварительными оценками, количество генов человека указывает на значительную роль альтернативного сплайсинга в процессах эмбрионального и постэмбрионального развития человека. Исследование консервативности альтернативного сплайсинга дает возможность отделить альтернативный сплайсинг характерный, например, для млекопитающих и общий для всех них от вариантов белков, возникших, например, в ходе эволюции приматов. Информация о тканевой принадлежности и стадии развития, на которой получена последовательность EST, позволяет определять места и стадии экспрессии как гена в целом, так и его альтернативно сплайсируемых вариантов.

В ходе исследования решались следующие конкретные задачи:

• Предварительная оценка консервативности альтернативно сплайсируемых участков человека в геномной последовательности ортологичных генов мыши, и наоборот.

• Создание базы данных для альтернативно сплайсируемых генов и наблюдаемых схем альтернативного сплайсинга.

• Оценка вероятности того, что наблюдаемая альтернатива является ошибкой данных EST или ошибкой непосредственно самого процесса сплайсинга.

• Оценка доли альтернативно сплайсированных генов человека и мыши.

• Определение свойств альтернативы, таких как частота встречаемости альтернативного варианта, влияние на последовательность белка (удаление или вставка аминокислот), функциональность (способность кодировать полноразмерный белок) альтернативного варианта мРНК.

• Определение консервативности альтернатив человека в геномах мыши и собаки в зависимости от свойств альтернатив.

• Определение консервативности альтернатив мыши в геноме человека, собаки и крысы.

• Выявление закономерностей эволюции альтернативного сплайсинга на основе данных о его консервативности на уровне вида, таксона и класса.

• Выявление закономерностей эволюции альтернативного сплайсинга на основе данных о его консервативности внутри разных по скорости молекулярной эволюции групп генов.

• Выявление закономерностей эволюции альтернативного сплайсинга дуплицированных генов.

Научная новизна

Впервые оценена доля неконсервативного альтернативного сплайсинга: около 30% альтернативно сплайсируемых участков человека не консервативны в геноме мыши, около 20% альтернативно сплайсируемых участков мыши не консервативны в геноме человека.

В ходе выполнения работы создан набор программных средств, позволяющий с минимальным участием пользователя производить отбор EST, выравнивание их с соответствующим участком геномной последовательности, оценку качества полученных выравниваний и последующую обработку для получения информации о сплайсинге.

Полученная информация о 28957 генах человека и 31811 генов мыши собрана в базу данных EDAS. Разработан и реализован алгоритм выделения альтернатив и декомпозиции их на элементарные альтернативы.

На основании полученных данных об альтернативном сплайсинге оценена частота встречаемости альтернативно сплайсируемых генов человека. Исследована зависимость доли альтернативно сплайсированных генов от степени EST-покрытия генов и от степени EST-покрытия альтернативы.

Создан web интерфейс, позволяющий наглядно демонстрировать структуру гена, наблюдаемые альтернативы, информацию о тканевой экспрессии каждого экзона, интрона или всего гена. Реализована возможность фильтрации данных, позволяющая варьировать качество EST-покрытия экзонов, интронов и альтернатив. Создана система поиска нужного гена по его названию или его части, короткому имени и по идентификаторам общепризнанных баз данных.

Реализован метод оценки возможной ошибочности наблюденных альтернатив, на основании сравнения EST-покрытия базового и альтернативного вариантов.

Для приблизительно 10 тысяч генов человека определены ортологичные гены мыши и собаки.

Для белок-кодирующих альтернатив человека исследовалась консервативность элементарных событий альтернативного сплайсинга человека в геномах мыши и собаки, в зависимости от EST-покрытия и функциональности альтернативного варианта белка.

Выделены группы ортологичных генов, имеющих разные скорости молекулярной эволюции аминокислотной последовательности. Для каждой группы был проведен анализ консервативности элементарных альтернатив мыши в человека, собаке и крысе.

Набор программных средств и база данных EDAS были использованы в ряде совместных проектов:

1. Оценка встречаемости альтернативного сплайсинга среди разных по функциональности групп генов.

2. Анализ скоростей эволюции белковой последовательности в альтернативно сплайсируемых участках генов.

Апробация работы

Результаты работы были представлены на международных конференциях:

S Third International Conference on Bioinformatics of Genome Regulation and Structure.

BGRS'2002), Новосибирск, 2002; S First Moscow Conference on Computational Molecular Biology (МССМВ'ОЗ, Москва, 2003).

S Second Moscow Conference on Computational Molecular Biology (MCCMB'05, Москва, 2005);

S Meeting of HHMI International Research Scholars (Ashburn, Virginia, USA, 2006); S а также на конференции Информационные технологии и системы (ИТиС'07, Звенигород, 2007).

Публикации

1. Нуртдинов РН, Миронов АА и Гельфанд МС: Консервативен ли альтернативный сплайсинг млекопитающих? Биофизика, 2002, 47(4): 587-594.

2. Nurtdinov RN, Artamonova II, Mironov АА and Gelfand MS: Low conservation of alternative splicing patterns in the human and mouse genomes. Hum. Mol. Genet., 2003,12(11): 1313-1320.

3. Offinan MN, Nurtdinov RN, Gelfand MS and Frishman D: No statistical support for correlation between the positions of protein interaction sites and alternatively spliced regions. BMC Bioinformatics, 2004, 5: 41.

4. Neverov AD, Artamonova II, Nurtdinov RN, Frishman D, Gelfand MS and Mironov AA: Alternative splicing and protein function. BMC Bioinformatics. 2005, 6: 266.

5. Ermakova EO, Nurtdinov RN and Gelfand MS. Fast rate of evolution in alternatively spliced coding regions of mammalian genes. BMC Genomics, 2006, 7: 84.

6. Нуртдинов РН, Неверов АД, Малько ДБ, Космодемьянский ИА, Ермакова ЕО, Раменский BE, Миронов АА и Гельфанд МС: EDAS, база данных альтернативно сплайсируемых генов человека. Биофизика, 2006, 51(4), 589-592.

7. Ermakova ЕО, Nurtdinov RN, Gelfand MS: Overlapping alternative donor splice sites in the human genome. J Bioinform Comput Biol. 2007, 5(5): 991-1004.

8. Nurtdinov RN, Neverov AD, Favorov AV, Mironov AA, Gelfand MS: Conserved and species-specific alternative splicing in mammalian genomes. BMC Evol Biol. 2007, 7: 249.

9. Ramensky VE, Nurtdinov RN, Neverov AD, Mironov AA, Gelfand MS: Positive selection in alternatively spliced exons of human genes. Am J Hum Genet. 2008,1: 94-98.

Заключение Диссертация по теме "Биоинформатика", Нуртдинов, Рамиль Наилевич

Основные результаты и выводы

1. Создана база данных альтернативно сплайсируемых генов ЕЭАБ, в которой собрана информация об альтернативном сплайсинге генов человека и мыши.

2. Разработан алгоритм анализа выделения сложных и элементарных альтернатив с использованием алгоритмов анализа графов сплайсинга. Реализован алгоритм оценки достоверности наблюденных альтернатив.

3. Проведен анализ консервативности элементарных событий альтернативного сплайсинга генов человека в геномах мыши и собаки, а также анализ консервативности элементарных событий альтернативного сплайсинга генов мыши в геномах человека, собаки и крысы. Впервые показана существенно меньшая консервативность альтернативных экзонов и сайтов сплайсинга по сравнению с константными.

4. Показано, что нарушающие рамку считывания альтернативы существенно менее консервативны, чем сохраняющие рамку считывания. Показано, что существенная доля редких нарушающих рамку считывания альтернатив функциональны.

5. Показано, что распределение альтернативных сайтов сплайсинга согласуется с моделью случайной фиксации сайтов. Альтернативный вариант акцепторного и донорного сайтов преимущественно приближает длину экзона к стандартной, укорачивая длинные экзоны и удлиняя короткие.

6. Установлено, что максимальная консервативность кассетных экзонов наблюдается в генах с наименьшей скоростью молекулярной эволюции, в более быстро эволюционирующих генах возрастает доля неконсервативных альтернатив.

7. Показано, что гены с повышенной скоростью молекулярной эволюции существенно более часто приобретают новые кассетные экзоны в ходе эволюции. Также такое поведение характерно для дуплицированных генов, особенно для изменивших в ходе эволюции функцию кодируемого белка дуплицированных копий генов.

Благодарности

Автор данной работы благодарен научному руководителю А.А Миронову, а также М.С. Гельфанду за огромное количество идей, поправок и замечаний в процессе непосредственно научной работы, а также при подготовке диссертационной работы.

Особая благодарность выражается соавторам многих совместных работ:

А.Д. Неверову, И.И. Артамоновой, Е.О. Ермаковой, А.Д. Фаворову, В.Е. Раменскому, И.А.

Космодемьянскому, Д.Б. Малько, а также коллегам из Германии М.Н. Оффману и Д.

Фришману.

Также благодарность выражается сотрудникам Национальной Лаборатории Лоуренса в городе Беркли США под руководством И. Дубчак за предоставленные вычислительные ресурсы, и конкретно А. Полякову.

В разное время научная работа была поддержана грантами: РФФИ (00-15-99362), РФФИ (04-04-49440), ШТАБ (99-1476), ШТАБ (05-1000008-8028), ННМ1 (55000309), ННМ1 (55001056), ЫСК/СЮЭР (КВО-1268) и программой "Молекулярная и клеточная биология" РАН России.

Библиография Диссертация по биологии, кандидата физико-математических наук, Нуртдинов, Рамиль Наилевич, Москва

1. Wang J, Li S, Zhang Y, Zheng H, Xu Z, Ye J, Yu J, Wong GK: Vertebrate gene predictions and the problem of large genes. Nat Rev Genet. 2003, 9: 741-749

2. Mather C, Sagot M, Schiex T, Rouze P: Current methods of gene prediction, their strength and weaknesses. Nucl. Acids Res. 2002, 30(19): 4103-4117.

3. Bürge С, Karlin S: Prediction of Complete Gene Structures in Human Genomic DNA. J.

4. Mol. Biol. 1997, 268(1): 78-94.

5. Kulp D, Haussler D, Reese M, Eeckman F: A generalized Hidden Markov Model for the recognition of human genes in DNA. Intell. Sys.for Mol. Biol., 4: 134-142.

6. Salamov A, Solovyev V: Ab initio gene finding in Drosophila genomic DNA. Genome Res. 2000,10(4): 516-522.

7. Lukashin A, Borodovsky M: GeneMark.hmm: new solution for gene finding. Nucl. Acids Res 1998,26(4): 1107-1115.

8. Sorek R, Shemesh R, Cohen Y, Basechess O, Ast G, Shamir R: A non-EST-based method for exon-skipping prediction. Genome Res., 2004,14(8): 1617-1623.

9. Sorek R, Ast G: Intronic sequences flanking alternatively spliced exons are conserved between human and mouse. Genome Res., 2003,13(7): 1631-1637.

10. Dror G, Sorek R, Shamir R: Accurate identification of alternatively spliced exons using support vector machine. Bioinformatic, 2005, 21(7): 897-901.

11. Sorek R, Dror G, Shamir R: Assessing the number of ancestral alternatively spliced exons in the human genome. BMC Genomics. 2006, 7: 273.

12. Yeo GW, Van Nostrand E, Holste D, Poggio T, Bürge CB: Identification and analysis of alternative splicing events conserved in human and mouse. Proc Natl Acad Sei USA, 2005, 102(8): 2850-2855.

13. Pan Q, Bakowski MA, Morris Q, Zhang W, Frey BJ, Hughes TR, Blencowe BJ: Alternative splicing of conserved exons is frequently spccies-specific in human and mouse.

14. Trends Genet, 2005, 21(2): 73-77.

15. Wang M, Marin A: Characterization and prediction of alternative splice sites. Gene, 2006,366(2): 219-227.

16. Clark F, Thanaraj TA: Categorization and characterization of transcript-confirmed constitutively and alternatively spliced introns and exons from human. Hum Mol Genet., 2002,11(4): 451-464.

17. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ: Basic local alignment search tool. J Mol Biol. 1990, 215(3): 403-410.

18. Gelfand MS, Mironov AA, Pevzner PA: Gene recognition via spliced sequence alignment.

19. Proc Nat Acad Sci USA. 1996, 93(17): 9061-9066.

20. Mott R: ESTGENOME: a program to align spliced DNA sequences to unspliced genomic DNA. Comput Appl Biosci. 1997,13(4): 477-478.

21. Needleman SB, Wunsch CD: A general method applicable to the search for similarities in the amino acid sequence of two proteins. J Mol Biol. 1970, 48(3): 443-453

22. Mironov AA, Novichkov PS, Gelfand MS: Pro-Frame: similarity-based gene recognition in eukaryotic DNA sequences with errors. Bioinformatics, 2001,17(1): 13-15.

23. Parra G, Agarwal P, Abril JF, Wiehe T, Fickett JW, Guigo R: Comparative gene prediction in human and mouse. Genome Res., 2003,13(1): 108-117.

24. Novichkov PS, Gelfand MS, Mironov AA: Gene recognition in eukaryotic DNA by comparison of genomic sequences .Bioinformatics. 2001, 17(11): 1011-1018.

25. Berget SM, Moore C, Sharp PA: Spliced segments at the 5' terminus of adenovirus 2 latemRNA. Proc Natl Acad Sci USA. 1977, 74(8): 3171-5317.

26. Chow LT, Gelinas RE, Broker TR, Roberts RJ: An amazing sequence arrangement at the 5' ends of adenovirus 2 messenger RNA. Cell, 1977,12(1): 1-8.

27. Behlke MA, Loh DY: Alternative splicing of murine T-cell receptor beta-chain transcripts. Nature, 1986, 322(6077): 379-382.

28. Sikder SK, Kabat EA, Morrison SL: Alternative splicing patterns in an aberrantly rearranged immunoglobulin kappa-light-chain gene. Proc Natl Acad Sci USA, 1985, 82(12): 4045-4049.

29. Naor D, Sionov RV, Ish-Shalom D: CD44: structure, function, and association with the malignant process. Adv Cancer Res. 1997, 71: 241-319.

30. Houck KA, Ferrara N, Winer J, Cachianes G, Li B, Leung DW: The vascular endothelial growth factor family: identification of a fourth molecular species and characterization of alternative splicing of RNA. Mol Endocrinol, 1991,5(12): 1806-1814.

31. McKeown M: Sex differentiation: the role of alternative splicing. Curr Opin Genet Dev. 1992, 2(2): 299-303.

32. Sharp PA: Split genes and RNA splicing. Cell, 1994, 77(6): 805-815.

33. Fields C, Adams MD, White O, Venter JC: How many genes in the human genome? Nat Genet. 1994, 7(3): 345-346.

34. Mironov AA, Fickett JW, Gelfand MS: Frequent alternative splicing of, human genes.

35. Genome Res., 1999, 9(12): 1288-1293.

36. Liang F, Holt I, Pertea G, Karamycheva S, Salzberg SL, Quackenbush J: Gene index analysis of the human genome estimates approximately 120,000 genes. Nat Genet., 2000, 25(2): 239-240.

37. Brett D, Hanke J, Lehmann G, Haase S, Delbrück S, Krueger S, Reich J, Bork P: EST comparison indicates 38% of human mRNAs contain possible alternative splice forms.

38. FEBSLett., 2000, 474(1): 83-86.

39. Ewing B, Green P: Analysis of expressed sequence tags indicates 35,000 human genes.

40. Nat Genet., 2000, 25(2): 232-234.

41. Modrek B, Resch A, Grasso C, Lee C: Genome-wide detection of alternative splicing in expressed sequences of human genes. Nucleic Acids Res., 2001, 29(13): 2850-2859.

42. Venter JC, at al: The sequence of the human genome. Science 2001, 291(5507):1304-1351.

43. International Human Genome Sequencing Consortium: Initial sequencing and analysis of the human genome. Nature, 2001, 409(6822): 860-921.

44. Kan Z, Rouchka EC, Gish WR, States DJ: Gene structure prediction and alternative splicing analysis using genomically aligned ESTs. Genome Res. 2001,11(5): 889-900

45. Kan Z, States D, Gish W: Selecting for functional alternative splices in ESTs. Genome Res., 2002,12(12): 1837-1845.

46. International Human Genome Sequencing Consortium: Finishing the euchromatic sequence of the human genome. Nature, 2004, 431(7011): 931-945.

47. Southan C: Has the yo-yo stopped? An assessment of human protein-coding genenumber. Proteomics, 2004, 4(6): 1712-1726.

48. Schadt EE, at al: A comprehensive transcript index of the human genome generated using microarrays and computational approaches. Genome Biol., 2004, 5(10): R73.

49. Goodstadt L, Ponting CP: Phylogenetic reconstruction of orthology, paralogy, and conserved synteny for dog and human. PLoS Comput Biol. 2006, 2(9): el33.

50. Kim E, Magen A, Ast G: Different levels of alternative splicing among eukaryotes.

51. Nucleic Acids Res. 2007, 35(1): 125-131.

52. Chromosomes: A synthesis, by Robert P. Wagner, Marjorie P. Maguire, and Raymond L. Stailings, Wiley-Liss, New York, 1993, 523 pp.

53. Antequera F, Bird A: Number of CpG islands and genes in human and mouse. Proc Natl AcadSci USA. 1993,90(24): 11995-11999.

54. Wheeler DL, Church DM, Federhen S, Lash AE, Madden TL, Pontius JU, Schuler GD, Schriml LM, Sequeira E, Tatusova TA, Wagner L: Database resources of the National Center for Biotechnology. Nucleic Acids Res., 2003, 31(1): D28-33.

55. Quackenbush J, Liang F, Holt I, Pertea G, Upton J: The TIGR gene indices: reconstruction and representation of expressed gene sequences. Nucleic Acids Res., 2000, 28(1): 141-145.

56. Dunham I, at al: The DNA sequence of human chromosome 22. Nature, 1999, 402(6761): 489-495.

57. Springer MS, Murphy WJ, Eizirik E, O'Brien SJ: Placental mammal diversification and the Cretaceous-Tertiary boundary. Proc Natl Acad Sci USA, 2003 100: 1056-1061.

58. Lejeune F, Li X, Maquat LE: Nonsense-mediated mRNA decay in mammalian cells involves decapping, deadenylating, and exonucleolytic activities. Mol Cell, 12(3):675-687.

59. Gatfield D, Izaurralde E: Nonsense-mediated messenger RNA decay is initiated by cndonucleolytic cleavage in Drosophila. Nature, 2004, 429(6991): 575-578.

60. Gehring NH, Kunz JB, Neu-Yilik G, Breit S, Viegas MH, Hentze MW, Kulozik AE: Exon-junction complex components specify distinct routes of nonsense-mediated mRNA decay with differential cofactor requirements. Mol Cell, 2005, 20(1): 65-75.

61. Rehwinkel J, Raes J, Izaurralde E: Nonsense-mediated mRNA decay: target genes and functional diversification of effectors. Trends Biochem Sci., 2006, 31(11): 639-646.

62. Mitrovich Q, Anderson P: Unproductively spliced ribosomal protein mRNAs are natural targets of mRNA surveillance in C. elegans. Genes Dev., 2000,14(17): 2173-2184.

63. Cuccurese M, Russo G, Russo A, Pietropaolo C: Alternative splicing and nonsensemediated mRNA decay regulate mammalian ribosomal gene expression. Nucleic Acids Res., 2005, 33(18): 5965-5977.

64. Lewis BP, Green RE, Brenner SE: Evidence for the widespread coupling of alternative splicing and nonsense-mediated mRNA decay in humans. Proc Natl Acad Sci USA, 2003, 100(1): 189-192.

65. Pruitt KD, Tatusova T, Maglott DR: NCBI Reference Sequence (RefSeq): a curated nonredundant sequence database of genomes, transcripts and proteins. Nucleic Acids Res., 2005, 33(Database issue): D501-504.

66. Shoemaker DD, et al: Experimental annotation of the human genome using microarray technology. Nature, 2001, 409(6822): 922-927.

67. Deloukas P et al: The DNA sequence and comparative analysis of human chromosome 20. Nature. 2001, 414(6866): 865-871.

68. Johnson JM, Castle J, Garrett-Engele P, Kan Z, Loerch PM, Armour CD, Santos R, Schadt EE, Stoughton R, Shoemaker DD: Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science, 2003, 302(5653): 2141-2144.

69. Torrents D, Suyama M, Zdobnov E, Bork P: A genome-wide survey of human pseudogenes. Genome Res. 2003,13(12): 2559-2567.

70. Harrison PM, Zheng D, Zhang Z, Carriero N, Gerstein M: Transcribed processed pseudogenes in the human genome: an intermediate form of expressed retrosequence lacking protein-coding ability. Nucleic Acids Res., 2005, 33(8): 2374-2383.

71. Sakai H, Koyanagi KO, Imanishi T, Itoh T, Gojobori T: Frequent emergence and functional resurrection of processed pseudogenes in the human and mouse genomes. Gene, 2007, 389(2): 196-203.

72. Svensson O, Arvestad L, Lagergren J: Genome-wide survey for biologically functional pseudogenes. PLoS Comput Biol., 2006, 2(5): e46.

73. Mouse Genome Sequencing Consortium: Initial sequencing and comparative analysis of the mouse genome. Nature. 2002, 420(6915): 520-562.

74. Lindblad-Toh K at all: Genome sequence, comparative analysis and haplotype structure of the domestic dog. Nature. 2005, 438(7069): 803-819.

75. Pontius JU at all: Initial sequence and comparative analysis of the cat genome. Genome Res., 2007,17(11): 1675-1689.

76. Hubbard TJ at all: Ensembl 2007. Nucleic Acids Res., 2007, 35: D610-617.

77. Kriventseva EV, Koch I, Apweiler R, Vingron M, Bork P, Gelfand MS, Sunyaev S: Increase of functional diversity by alternative splicing. Trends Genet., 2003,19(3): 124-128.

78. Apweiler R et al: The InterPro database, an integrated documentation resource for protein families, domains and functional sites. Nucleic Acids Res., 2001, 29(1): 37-40.

79. Homma K, Kikuno RF, Nagase T, Ohara O, Nishikawa K: Alternative splice variants encoding unstable protein domains exist in the human brain. J Mol Biol., 2004, 343(5): 1207-1220.

80. Taneri B, Snyder B, Novoradovsky A, Gaasterland T: Alternative splicing of mouse transcription factors affects their DNA-binding domain architecture and is tissue specific.

81. Genome Biol., 2004, 5(10): R75.

82. Cline MS, Shigeta R, Wheeler RL, Siani-Rose MA, Kulp D, Loraine AE: The effects of alternative splicing on transmembrane proteins in the mouse genome. Pac Symp Biocomput. 2004, 17-28.

83. The FANTOM Consortium and the RIKEN Genome Exploration Research Group Phase I and II Team: Analysis of the mouse transcriptorae based on functional annotation of 60,770 full-length cDNAs. Nature, 2002, 420(6915): 563-573.

84. Wang P, Yan B, Guo JT, Hicks C, Xu Y: Structural genomics analysis of alternative splicing and application to isoform structure modeling. Proc Natl Acad Sci USA, 2005, 102(52): 18920-18925.

85. Boeckmann B, Bairoch A, Apweiler R, Blatter MC, Estreicher A, Gasteiger E, Martin MJ, Michoud K, O'Donovan C, Phan I, Pilbout S, Schneider M: The SWISS-PROT protein knowledgebase and its supplement TrEMBL. Nucleic Acids Res., 2003, 31(1): 365-370.

86. Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE: The Protein Data Bank. Nucleic Acids Res., 2000, 28(1): 235-242.

87. Proc Natl Acad Sci USA, 2006,103(22): 8390-8395.

88. Liu S, Altman RB: Large scale study of protein domain distribution in the context of alternative splicing. Nucleic Acids Res., 2003, 31(16): 4828-4835.

89. Pruitt KD, Maglott DR: RefSeq and LocusLink: NCBI gene-centered resources. Nucleic Acids Res., 2001, 29(1): 137-140.

90. Marchler-Bauer A, Panchenko AR, Shoemaker BA, Thiessen PA, Geer LY, Bryant SH: CDD: a database of conserved domain alignments with links to domain three-dimensional structure. Nucleic Acids Res., 2002, 30(1): 281-283.

91. Resch A, Xing Y, Modrek B, Gorlick M, Riley R, Lee C: Assessing the impact of alternative splicing on domain interactions in the human proteome. JProteome Res., 2004, 3(1): 76-83.

92. Sonnhammer EL, Eddy SR, Durbin R: Pfam: a comprehensive database of protein domain families based on seed alignments. Proteins, 1997, 28(3): 405-420.

93. Ponting CP, Schultz J, Milpetz F, Bork P: SMART: identification and annotation of domains from signalling and extracellular protein sequences. Nucleic Acids Res., 1999, 27(1): 229-232.

94. Schmucker D, Clemens JC, Shu H, Worby CA, Xiao J, Muda M, Dixon JE, Zipursky SL: Drosophila Dscam is an axon guidance receptor exhibiting extraordinary molecular diversity. Cell, 2000,101(6): 671-684.

95. Chen BE, Kondo M, Gamier A, Watson FL, Puettmann-Holgado R, Lamar DR, Schmucker D: The molecular diversity of Dscam is functionally required for neuronal wiring specificity in Drosophila. Cell, 2006,125(3): 607-620.

96. Zipursky SL, Wojtowicz WM, Hattori D: Got diversity? Wiring the fly brain with Dscam. Trends Biochem Sci., 2006, 31(10):581-588.

97. Wojtowicz WM, Flanagan JJ, Millard SS, Zipursky SL, Clemens JC: Alternative splicing of Drosophila Dscam generates axon guidance receptors that exhibit isoform-specific homophilic binding. Cell, 2004,118(5): 619-633.

98. Zhan XL, Clemens JC, Neves G, Hattori D, Flanagan J J, Hummel T, Yasconcelos ML, Chess A, Zipursky SL: Analysis of Dscam diversity in regulating axon guidance in Drosophila mushroom bodies. Neuron, 2004, 43(5): 673-686.

99. Graveley BR, Kaur A, Gunning D, Zipursky SL, Rowen L, Clemens JC: The organization and evolution of the dipteran and hymenopteran Down syndrome cell adhesion molecule (Dscam) genes. SNA, 2004,10(10): 1499-1506.

100. Crayton ME 3rd, Powell BC, Vision TJ, Giddings MC: Tracking the evolution of alternatively spliced exons within the Dscam family. BMC Evol Biol., 2006, 6: 16.

101. Letunic I, Copley RR, Bork P: Common exon duplication in animals and its role in alternative splicing. Hum Mol Genet., 2002,11(13): 1561-1567.

102. Kondrashov FA, Koonin EV: Evolution of alternative splicing: deletions, insertions and origin of functional parts of proteins from intron sequences. Trends Genet., 2003, 9(3): 115119.

103. Artamonova II, Gelfand MS: Evolution of the exon-intron structure and alternative splicing of the MAGE-A family of cancer/testis antigens. J Mol Evol., 2004, 59(5): 620-631.

104. Sorek R, Ast G, Graur D: Alu-containing exons are alternatively spliced. Genome Res., 2002,12(7): 1060-1067.

105. Claverie JM, Makalowski W: AIu alert. Nature, 1994, 371(6500): 752.

106. Lev-Maor G, Sorek R, Shomron N, Ast G: The birth of an alternatively spliced exon: 3' splice-site selection in Alu exons. Science, 2003, 300(5623): 1288-1291.104. http://www.ncbi.nlm.nih.gov/sites/entrcz?db=:PubMed

107. Duret L, Mouchiroud D, Gouy M: HOVERGEN: a database of homologous vertebrate genes. Nucleic Acids Res., 1994, 22(12): 2360-2365.

108. Modrek B, Lee CJ: Alternative splicing in the human, mouse and rat genomes is associated with an increased frequency of exon creation and/or loss. Nat Genet. 2003, 34(2): 177-80.

109. Nurtdinov Nurtdinov RN, Artamonova II, Mironov AA, Gelfand MS: Low conservation of alternative splicing patterns in the human and mouse genomes. Hum Mol Genet. 2003, 12(11): 1313-1320.

110. Thanaraj TA, Clark F, Muilu J: Conservation of human alternative splice events inmouse. Nucleic Acids Res. 2003, 31(10): 2544-2552.

111. Clark F, Thanaraj TA: Categorization and characterization of transcript-confirmed constitutively and alternatively spliced introns and exons from human. Hum Mol Genet., 2002,11(4): 451-464.

112. Malko DB, Makeev VJ, Mironov AA, Gelfand MS: Evolution of exon-intron structure and alternative splicing in fruit flies and malarial mosquito genomes. Genome Res., 2006, 16(4): 505-509.

113. Nurtdinov RN, Neverov AD, Favorov AV, Mironov AA, Gelfand MS: Conserved and species-specific alternative splicing in mammalian genomes. BMC Evol Biol. 2007, 22; 7:249.

114. Wang W, Zheng H, Yang S, Yu H, Li J, Jiang H, Su J, Yang L, Zhang J, McDermott J, Samudrala R, Wang J, Yang H, Yu J, Kristiansen K, Wong GK, Wang J. Origin and evolution of new exons in rodents. Genome Res., 2005,15(9): 1258-1264.

115. Alekseyenko AV, Kim N, Lee CJ: Global analysis of exon creation versus loss and the role of alternative splicing in 17 vertebrate genomes. RNA, 2007, 13(5): 661-670.

116. Blanchette M, Kent WJ, Riemer C, Elnitski L, Smit AF, Roskin KM, Baertsch R, Rosenbloom K, Clawson H, Green ED, Haussler D, Miller W: Aligning multiple genomic sequences with the threaded blockset aligner. Genome Res. 2004,14(4): 708-715.

117. Ji H, Zhou Q, Wen F, Xia H, Lu X, Li Y: AsMamDB: an alternative splice database of mammals. Nucleic Acids Res., 2001, 29(1): 260-263.

118. Altschul SF, Boguski MS, Gish W, Wootton JC: Issues in searching molecular sequence databases. Nat Genet., 1994, 6(2): 119-129.

119. Modrek B, Resch A, Grasso C, Lee C: Genome-wide detection of alternative splicing in expressed sequences of human genes. Nucleic Acids Res., 2001, 29(13): 2850-2809.

120. Mironov AA, Novichkov PS, Gelfand MS: Pro-Frame: similarity-based gene recognition in eukaryotic DNA sequences with errors. Bioinformatics, 2001,17(1): 13-15.

121. Maglott D, Ostell J, Pruitt KD, Tatusova T: Entrez Gene: gene-centered information at NCBI. Nucleic Acids Res. 2005, 33: D54-58.121. ftp://ftp.ncbi.nih.gov/repository/UniGene/

122. Neverov AD, Artamonova II, Nurtdinov RN, Frishman D, Gelfand MS and Mironov AA: Alternative splicing and protein function. BMC Bioinformatics. 2005, 6: 266.

123. Kent WJ: BLAT—the BLAST-Iike alignment tool. Genome Res. 2002,12(4): 656-664.

124. Drummond DA, Bloom JD, Adami C, Wilke CO, Arnold FH: Why highly expressed proteins evolve slowly. Proc Natl Acad Sci USA. 2005,102(40): 14338-14343.

125. Choi JK, Kim SC, Seo J, Kim S, Bhak J: Impact of transcriptional properties on essentiality and evolutionary rate. Genetics. 2007,175(1): 199-206.