Бесплатный автореферат и диссертация по биологии на тему
Исследование общих закономерностей эволюции генома человека при дупликации генов и точечном мутагенезе
ВАК РФ 03.01.09, Математическая биология, биоинформатика

Автореферат диссертации по теме "Исследование общих закономерностей эволюции генома человека при дупликации генов и точечном мутагенезе"

На правах рукописи

ПАНЧИН АЛЕКСАНДР ЮРЬЕВИЧ

ИССЛЕДОВАНИЕ ОБЩИХ ЗАКОНОМЕРНОСТЕЙ ЭВОЛЮЦИИ ГЕНОМА ЧЕЛОВЕКА ПРИ ДУПЛИКАЦИИ ГЕНОВ И ТОЧЕЧНОМ МУТАГЕНЕЗЕ

03.01.09- математическая биология, биоинформатика

АВТОРЕФЕРАТ диссертации на соискание степени кандидата биологических наук

- 1 ДЕК 2011

Москва 2011

005003149

Работа выполнена на Факультете биоинженерии и биоинформатики Московского государственного университета им. М.В. Ломоносова.

Научный руководитель: кандидат биологических наук Артамонова Ирена Игоревна

Официальные оппоненты:

кандидат физико-математических наук, доктор биологических наук, профессор Миронов Андрей Александрович

Факультет биоинженерии и биоинформатики Московского государственного университета им. М.В. Ломоносова

доктор биологических наук Спиридонов Сергей Эдуардович

Институт проблем экологии и эволюции им. А.Н. Северцова РАН Ведущая организация:

ФГУП Государственный НИИ генетики и селекции промышленных микроорганизмов

Защита состоится 19 декабря 2011 года в 16.00 часов на заседании диссертационного совета Д.002.077.04 при Учреждении Российской академии наук Институте проблем передачи информации им. A.A. Харкевича РАН по адресу: 127994, г. Москва, ГСП-4, Большой Каретный переулок, д. 19, стр.1.

С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Института проблем передачи информации им. A.A. Харкевича РАН

Автореферат разослан 18 ноября 2011 года.

Ученый секретарь диссертационного совета, доктор биологических наук, профессор

Г.И. Рожкова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы.

Активное развитие технологий секвенирования генетических последовательностей сделало возможными широкомасштабные проееты по чтению геномов. В 1995-ом году был опубликован первый полный геном - геном гемофильной палочки Haemophilus influenzae, а уже в 2001 году - геном человека. На сегодняшний день прочитаны геномы представителей практически всех известных крупных таксономических групп эукариот. За последние десять лет разработаны такие методы, как SOLiD, метод пиросеквенирования (технология 454), SOLEXA и Ion Torrent. Интенсивно разрабатываются методы секвенирования последовательностей ДНК, позволяющие анализировать одиночные молекулы, например, технологии Helicos и SMART. Стали доступны не только последовательности генов и полных геномов огромного количества живых организмов, но и, в ряде случаев, данные по полиморфизмам в этих последовательностях, данные по транскрипции (например, EST - expressed sequence tags), сплайсингу, наличию белковых продуктов, функциональной аннотации генов, а также профили метилирования ДНК в различных тканях и типах клеток.

Геном человека является удобной моделью для анализа закономерностей эволюции и мутагенеза благодаря высокому качеству сборки и постоянному притоку большого количества сопряженных данных. Наряду с полностью прочитанным геномом человека, также прочитаны геномы ископаемых представителей рода Homo: неандертальца Homo neanderthalensis и Денисовского человека Denisova hominin, а также геномы родственных приматов, таких как шимпанзе Pan troglodytes, орангутанов Pongo abelii, Pongo pygmaeus и макаки Macaca mulata. Большой интерес представляют как закономерности точечного мутагенеза (например, зависимость мутационных процессов от нуклеотидного контекста), так и закономерности эволюционных событий большего масштаба, например, дупликаций генов и последующего изменения их моделей сплайсинга.

Цели и задачи исследования:

Целью данного исследования является выявление закономерностей эволюции генетических последовательностей человека. Особенное внимание здесь уделено

1

закономерностям точечного мутагенеза и эволюции генов после дупликаций. При этом были поставлены следующие задачи:

• Создание коллекции "мусорных" фрагментов транскриптов (EST) человека. Анализ источников загрязнений.

• Анализ встречаемости 1-7 нуклеотидных слов в 139 полных геномах эукариот.

• Установление предковых состояний одиночных нуклеотидных полиморфизмов в геноме человека и поиск ранее не описанных мутационных контекстов, в которых наблюдается избыток или недостаток мутаций.

• Анализ эволюции генов человека, возникших в результате недавних дупликаций.

• Анализ закономерностей эволюции сайтов сплайсинга в генах человека после дупликаций.

• Исследование взаимосвязи между степенью метилирования цитозинов и частотой CpG>TpG мутаций в CpG островах и в остальных областях генома человека. Научная иовизиа и практическая значимость.

В ходе данной работы мы использовали наиболее современные (на момент исследования) базы данных и провели анализ, который раньше был невозможен в силу недоступности или недостаточности экспериментальных данных. Так, в сравнительный анализ частот нуклеотидных слов в геномах эукариот нами было включено 139 полностью прочитанных геномов (включая геном человека), покрывающих значительную часть филогенетического древа эукариот. Анализ подобного масштаба позволил выявить ряд интересных закономерностей, которые могут помочь дальнейшему исследованию механизмов мутагенеза.

Для анализа частот мутаций в геноме человека мы использовали выборку из нескольких миллионов полиморфизмов в геноме человека, что позволило оценить частоты мутаций в мутационных контекстах длиной до 4-х букв, исключив при этом возможный статистический шум. Эти мутационные данные, наряду с появившимися совсем недавно данными по полногеномному анализу метилирования в эмбриональных стволовых клетках человека, были также использованы для исследования причин пониженной частоты CpG>TpG мутаций в CpG островах.

Новизна исследований, посвященных эволюции недавно дуплицированных генов человека, прежде всего, заключается в предложенном методологическом подходе - мы использовали семейства паралогичных генов для реконструкции предковых состояний в узлах филогенетических деревьев. Нам удалось подтвердить, что после дупликации две копии гена в значительной части случаев накапливают замены с разной скоростью и показать, что в быстро эволюционирующих копиях недавно дуплицированных генов человека среди замен, меняющих кодируемый белок, перепредставлены замены, влияющие на функцию белкового продукта. Нами также было показано, что после дупликаций генов появление сайтов сплайсинга преобладает над исчезновением, а также, что конститутивные сайты сплайсинга реже становятся альтернативными, чем наоборот.

Результаты исследований могут быть полезны в области медицинской генетики.

Публикации и апробация работы.

По материалам диссертации опубликовано 4 статьи в международных рецензируемых научных журналах, индексируемых в PubMed (две в журнале Journal of Bioinformatics and Computational Biology, одна в BMC Bioinformatics и одна в Biology Direct). Материалы работы были представлены на конференциях: Московской конференции по вычислительной молекулярной биологии (МССМВ 2007; МССМВ 2009; МССМВ 2011, Москва), конференции "Информационные технологии и системы" (ИТиС 2008; ИТиС 10; ИТиС И, Геленджик; ИТиС 2009, Москва), "Ломоносов-2008" (Москва) и на Русско-Швейцарском семинаре "Сравнительная геномика и разнообразие транскриптома" (Женева, 2010).

Структура и объем работы.

Диссертация изложена на 192 страницах машинописного текста и содержит следующие разделы: введение, обзор литературы, а также шесть глав, каждая из которых содержит свое введение, методы, результаты, обсуждение (в главах 1, 2 и 5 результаты и обсуждение объединены вместе) и выводы. В конце приведены выводы, а затем список литературы. Материал иллюстрирован 35 рисунками. В работе 15 таблиц. Библиографический указатель включает 238 ссылок.

СОДЕРЖАНИЕ РАБОТЫ

1. Анализ "загрязнений" транскрипционных данных человека

Одной из наиболее полных баз транскрипционных данных, используемых в биоинформатических исследованиях (в том числе - в данной работе), является база данных dbEST. EST (expressed sequence tags) - это последовательности длиной порядка 500 нуклеотидов, полученные путем секвенирования клонов кДНК из кДНК-библиотек. Эти библиотеки создаются с помощью процесса обратной транскрипции молекул РНК, выделенных из образцов (тканей, клеточных культур), и представляют собой фрагменты существующих в образце РНК. В связи с тем, что все клеточные РНК образуются путем транскрипции на матрице геномной ДНК (для человека, геномы ядра или митохондрий), можно было бы ожидать, что все EST человека будут соответствовать геномным последовательностям человека. Однако последовательности многих EST не имеют сходства ни с какими геномными последовательностями.

Нами создана и проанализирована коллекция "мусорных" EST человека: последовательностей, которые, вопреки обозначенному источнику происхождения, не имеют сходства с какими-либо последовательностями в геноме человека. На рисунке 1 представлена схема построения коллекции "мусорных" EST.

Рисунок 1. Создание коллекции "мусорных"

EST. Последовательности базы данных EST человека (dbEST) сравнивались с геномом человека. EST, которые не имели сходства с геномом, отмечались как "мусорные". Те мусорные EST, которые не имели сходства с другими мусорными EST, удалялись из выборки. Оставшиеся собирались в контиги с помощью программы

SeqMan. Контиги вновь сравнивались с геномом человека и сохранялись в коллекции только, если сходства найдено не было.

VecScan

Всего на момент исследования было обнаружено 11542 "мусорных" EST, которые были объединены в 4425 контигов. Эти контиги находятся в открытом доступе. Классификация EST по потенциальному источнику происхождения представлена на рисунке 2.

Рисунок 2. Классификация "мусорных" EST человека по источнику происхождения.

Большинство "мусорных" EST не имели сходства ни с какими последовательностями из доступных на момент исследования разделов базы данных GeneBank. Распространены загрязнения последовательностями бактерий, других млекопитающих, вирусов, а также растений и грибов.

Наш анализ показал, что в базе данных EST человека есть последовательности, которые имеют наибольшее сходство с последовательностями растений (Viridiplanlae). В некоторых случаях найденные последовательности практически идентичны растительным генам, участвующим в фотосинтезе. Поскольку по аннотации не ясно, каким образом, эти последовательности попали в базу данных EST человека, мы исследовали их подробней.

Количество обнаруженных EST, имеющих высокий уровень сходства с растительными последовательностями, но не имеющих сходства с геномом человека велико (по крайней мере, 36 EST). Большая часть этих EST попала в три контига. Два контига соответствуют хлорофилл а/Ь-связывающему белку (15 EST), а третий соответствует гену малой субъединицы рибулозобисфосфаткарбоксилазы/оксигеназы (RuBisCo, 6 EST).

Наиболее простое объяснение этого наблюдения заключается в том, что на определенном этапе секвенирования произошло загрязнение ряда образцов или была допущена ошибка при аннотации последовательностей. Тем не менее, есть ряд аргументов против такого объяснения:

1. Подобные растительные загрязнения были обнаружены в нескольких лабораториях независимо и в независимых библиотеках кДНК.

2. Подобные растительные загрязнения содержатся и в других базах данных EST млекопитающих, например, Mus musculus, Bos taurus.

3. Последовательности RuBisCo из базы данных EST Mus musculus были проанализированы с помощью ДНК-микрочипов. Анализ базы данных GEO показал наличие сильного сигнала, интенсивность которого варьировала между различными мышиными тканями.

Хотя мы понимаем, что, скорее всего растительные EST попали в базу данных EST человека как случайные загрязнения, можно выдвинуть альтернативную гипотезу. РНК растительного происхождения могли попасть в ткани животных из растительной пищи. Передача двухцепочечной РЖ из пищи в ткани хорошо изучена на примере круглого червяка С. elegans. Механизм транспорта двухцепочечной РНК описан не полностью, но известно, что в нем принимает участие канал под названием Sidl. Гомологичный этому каналу белок кодируется и в геноме человека, а так же в геномах ряда других животных, причем гиперэкспрессия Sidl ведет к увеличению чувствительности клеток человека к малым интерферирующим РНК.

Один из важных выводов данного анализа заключается в том, что в базах транскрипционных данных любого биологического вида может присутствовать значительное количество загрязнений (преимущественно, нуклеотидных последовательностей других видов). Мы делаем особый акцент на этом предположении в ходе дальнейшей работы. Например, при определении сайтов сплайсинга мы следим, чтобы сайты подтверждались EST из нескольких библиотек.

2. Сравнительных анализ частот нуклеотндных слов в геноме человека, а также в геномах других эукарнот

Мы проанализировали частоты 1-7 буквенных нуклеотидных слов в последовательностях в трех выборках: 139 полных геномов эукарнот, включая геном человека; 33 генома, в которых известные повторы заменены на N; кодирующие области 35 геномов.

В этой задаче нас интересовали систематически недопредставленные или перепредставленные (по сравнению с предсказаниями статистических моделей) нуклеотидные слова. Известно, что в ряде случаев отклонение частот слов от ожидаемых частот ассоциировано с существованием контекст-зависимых мутационных механизмов, поэтому такой анализ может помочь поиску механизмов мутагенеза. В качестве меры недопредставленности или перепредставленности нуклеотидных слов мы используем величину "частотность".

Частотностью слова W = (wi .. w„) (где каждое щ - это символ из алфавита А, Т, G, С) назовем величину С = ((Obs(W) - Exp(W))/Exp(W))* 100% , где Obs(W) - число слов W в геноме, a Exp(W) - ожидаемое число слов W в соответствии с моделью. Иными словами, «частотность» отражает степень недопредставленности или перепредставленности слова в процентах.

Мы использовали следующие критерии:

• C(W) < -10% означает, что слово W существенно недопредставлено в геноме;

• C(W) > 10% означает, что слово W существенно перепредставлено в геноме.

В Таблице 1 приведены примеры наиболее интересных случаев недопредставленности или перепредставленности нуклеотидных слов и их распределение по различным таксономическим группам. Значения частотности всех 1-7 буквенных слов для всех 139 геномов опубликованы и находятся в открытом доступе.

Самое недопредставленное слово в проанализированных геномах - ТА. Оно недопредставлено в 130 из 139 изученных геномов и во всех 33 геномах с отфильтрованными повторами. В тех геномах, где ТА недопредставлено, его частотность варьирует от -56% (Sporobolomyces roseus) до -12% (Theileria parva). Среднее значение частотности слова ТА по всем геномам составляет -25%. Биологические виды, в которых ТА недопредставлено, входят в состав всех таксономических групп, включенных в исследование, кроме типа пластинчатые (Placozoa). Несмотря на то, что недопредставленноегь ТА наблюдается повсеместно, нам удалось обнаружить ряд важных исключений. В организме Mycosphaerella ßjiensis (Fungí) ТА перепредставлено

(частотность +40%). В организмах Myceliophthora thermophila, Sporoírichum thermophilum и Thielavia terrestris (Fungi), Acyrthosiphon pisum (Arthropoda), Plasmodium falciparum (Alveolata) и Trichoplax adhaerens (Placozoa) частотность слов ТА колеблется в пределах от -10% до +10%. Изучение биохимических процессов, происходящих в этих организмах, может помочь понять, чем обусловлена недопредставленность слова ТА в большей части эукариотических геномов, в том числе в геноме человека.

Если ТА - наиболее часто недопредставленное слово, то CG недопредставлено наиболее сильно (хоть и в меньшем числе геномов). Например, средний уровень недопредставленности CG в 32 видах группы челюстноротых Gnathostomata (к которой относится человек) составляет -77%, в то время как средняя недопредставленность ТА в той же группе составляет лишь -29%. В таксономической группе членистоногих {Arthropoda) частотность варьирует в зависимости от конкретного организма и значения контраста меняются в диапазоне от -14% (Drosophila pseudoobscura) до +66% {Apis melífera).

Частоты двухбуквенных слов в кодирующих частях геномов в большинстве случаев ведут себя сходным образом с тем, как они ведут себя в полных геномах. Например, слово ТА недопредставлено во всех изученных кодирующих частях геномов, а слово CG недопредставлено во всех изученных кодирующих частях геномов, за исключением двух организмов {Drosophila melanogasier и Caenorhabditis elegans). Однако мы обнаружили ряд расхождений между частотами слов в полных геномах и соответствующих им кодирующих областях. Прежде всего, существуют слова, значения частотности которых в кодирующих участках существенно отличаются от значений частотности комплементарных слов (эффект, которого мы не наблюдаем для полных геномов). Например, слово СС перепредставлено в кодирующих участках 25 анализированных видов из 35, в то время как GG перепредставлено только у одного вида. Во-вторых, есть слова, которые систематически более редки или менее редки в кодирующих участках по сравнению с полным геномом. Например, триплет TAG, который может служить стоп-кодоном, что не удивительно, реже встречается в кодирующих участках. С другой стороны триплет TGG, который может служить кодоном

триптофана, чаще встречается в кодирующих последовательностях, что не согласуется с редкой встречаемостью триптофана в аминокислотных последовательностях белков.

CCC (GGG) СТА (TAG) AA (TT) AC (GT) CA (TG) CC (GG) CGCG CG TATA TA

Fungi (38) 3:35:0 33:5:0 0:28:10 17:21:0 3 7:18 8:29:1 6:29:1 27:9:2 1:25:12 35:2:1

Gnathostomata (32) 8:24:0 0:32:0 0:6:26 27:5:0 0 0:32 0:6:26 1:5:26 32:0:0 1:31:0 32:0:0

Arthropode* (18) 4:14:0 12:6:0 0:1:17 13:5:0 1 5:12 2:14:2 0:15:3 3:11:4 0:18:0 17:1:0

Nematoda (7) 3:4:0 0:7:0 0:0:7 7:0:0 6:1 0:7:0 0:4:3 2:4:1 0:6:1 7:0:0

Streptophyta (7) 7:0:0 1:6:0 0:2:5 6:1:0 1:6 0:4:3 0:3:4 7:0:0 0:6:1 7:0:0

Chlorophyta (7) 0:7:0 7:0:0 0:3:4 1:6:0 0:3 4:3:0 0:7:0 3:0:4 2:5:0 4:1:0

A/veo/ata (5) 4:1:0 3:2:0 0:3:2 4:1:0 3:2 0:0:5 1:2:2 5:0:0 1:4:0 1:1:0

Mollusca (2) 0:2:0 0:2:0 0:1:1 0:2:0 0:2 0:2:0 0:0:2 2:0:0 0:2:0 2:0:0

Bacillariophyta (2) 0:2:0 2:0:0 0:1:1 0:2:0 1:1 1:1:0 0:2:0 1:1:0 1:1:0 2:0:0

Cnidaria (2) 0:2:0 1:1:0 0:0:2 0:2:0 1:1 0:0:2 0:0:2 2:0:0 0:2:0 2:0:0

Dictyosteliida (2) 2:0:0 2:0:0 0:0:2 2:0:0 0:2 0:0:2 1:1:0 2:0:0 0:2:0 2:0:0

Kinetopiastida (2) 0:2:0 2:0:0 0:1:1 0:2:0 0:2 1:1:0 0:2:0 0:2:0 0:1:1 2:0:0

Peronuspurales (2) 0:2:0 2:0.0 0:2:0 0:2:0 0:2 2:0:0 0:2:0 0:2:0 0:2:0 2:0:0

Rhodophyta (1) 0:1:0 1:0:0 0:1:0 0:1:0 0:1 1:0:0 0:1:0 0:0:1 0:1:0 1:0:0

Entamoeba (1) 1:0:0 1:0:0 0:0:1 1:0:0 0:1 0:1:0 1:0:0 1:0:0 1:0:0 1:0:0

Petromyzontidae (1) 0:1:0 1:0:0 0:0:1 0:1:0 0:1 0:1:0 0:1:0 1:0:0 0:1:0 1:0:0

Cephalochordata (1) 0:1:0 0:1:0 0:1:0 0:1:0 0:1 0:1:0 0:0:1 1:0:0 0:1:0 1:0:0

Tunicata (1) 0:1:0 1:0:0 0:0:1 0:1:0 0:1 0:1:0 0:1:0 1:0:0 0:1:0 1:0:0

Echinodermata (1) 0:1:0 0:1:0 0:1:0 0:1:0 0:1 0:0:1 0:0:1 1:0:0 0:1:0 1:0:0

Annelida (1) 0:1:0 1:0:0 0:1:0 1:0:0 0:1 0:1:0 0:1:0 1:0:0 0:1:0 1:0:0

Placozoa (1) 0:1:0 0:1:0 0:1:0 0:1:0 1:0 0:1:0 0:1:0 0:1:0 0:1:0 0:1:0

Heterolobosea (2) 1:1:0 1:1:0 0:1:1 2:0:0 0:2 0:2:0 0:1:1 2:0:0 1:1:0 2:0:0

Isochrysidales (1) 1:0:0 1:0:0 0:1:0 0:1:0 1:0 1:0:0 0:1:0 0:1:0 0:0:1 1:0:0

Pelagophyceae (1) 1:0:0 1:0:0 0:0:1 0:1:0 0:0 1:0:0 0:1:0 0:0:1 0:0:1 1:0:0

Choanoßagellida (1) 0:1:0 1:0:0 0:0:1 0:1:0 0:1 1:0:0 0:1:0 1:0:0 0:1:0 1:0:0

Таблица 1. Примеры систематически недопредставленных или перепредставленных слов. В названиях столбцов приведены изученные таксономические группы (в скобках указано количество изученных полных геномов в данной группе). В ячейках через двоеточие указано количество геномов, в которых данное слово недопредставлено, не выделяется или перепредставлено, соответственно. Светлые и темные ячейки соответствуют перепредставленности и недопредставленности слова в большей части геномов в данной таксономической группе, соответственно.

3. Исследование мутационных контекстов в геноме человека

Продолжением исследования описанного в предыдущей главе стал анализ зависимости частот мутаций от нуклеотидного контекста в геноме человека. Нам удалось восстановить предковые состояния для более чем трех миллионов би-аллельных (имеющих два установленных аллеля) полиморфизмов, расположенных в межгенных

участках генома человека путем сравнения геномов человека, шимпанзе и орангутана и составить выборку направленных мутаций. Эти данные находятся в свободном доступе.

Мы использовали величину, называемую "контраст", чтобы оценить влияет ли добавление конкретного нуклеотида к 5' или 3' концам одно-, двух- или трехбуквенных слов на вероятность определенного типа мутации в конкретной позиции.

По сравнению со средней частотой мутаций из цитозина в тимин (ОТ) в геноме человека, существует избыток в 5.1 раз мутаций из цитозина в тимин, если за цитозином следует гуанин. Мы описываем такой мутационный контекст как {С>Т|1, CG} и указываем его контраст, который в данном случае равен 5.1 при сравнении с его подконтекстом {С>Т|1, С}. При значениях контраста больших единицы можно говорить об избытке мутаций, в то время как при значениях контраста меньше единицы - о недостатке. Значения контрастов для пары мутационного контекста {mut|pos, W} и подконтекста {mut|pos\ W'} вычисляются на основании частот слов Pw и Pw и числа мутаций, наблюдаемых в контекстах N|imit:Pos, w) и N(mut!p0s', w> Здесь pos означает позицию в слове, в котором происходит мутация, a mut - тип мутации, например, ОТ или A>G.

_ N(mutlp0».wl/Pw

K0HTPaCT((mutlpo»,W},írnut|po«',YV}) - 7Г /р

{nratlpoe .w }/ №

Мы предлагаем оценивать отклонения частот мутаций двумя значениями контраста: "смещение частоты мутаций" и "минимальный контраст". Значение минимального контраста - это наиболее близкое к 1 значение контраста, достигаемое при сравнении контекста со всеми возможными его подконтекстами. Например, контекст {ОТ|2, ACG} имеет три подконтекста: {ОТ|2, AC}, {ОТ|1, CG} и {ОТ|1, С} со значениями контраста 5.08, 1.08 и 5.48, соответственно. 1.08 - это значение минимального контраста для контекста {ОТ|2, ACG}. Значения контраста, полученные по отношению к однобуквенному подконтексту, например, к {ОТ|1, С} называются смещением частоты мутаций. Значение 5.48 это смещение частоты мутаций для контекста {С>Т|2, ACG} потому, что есть избыток в 5.48 раз ОТ мутаций во второй позиции слова ACG, по сравнению со средней частотой ОТ мутаций в геноме человека.

На рисунке 3 изображено распределение значений минимального контраста и смещений частот мутаций. Данный анализ не позволяет нам установить, на какой из двух цепей ДНК произошла мутация, поэтому, каждый мутационный контекст имеет комплементарный контекст со схожими свойствами: точки расположены на диаграмме парами. Кроме большого кластера, включающего большинство мутационных контекстов можно увидеть еще три отчетливых кластера. Как и ожидалось, кластер, характеризующийся наибольшими значениями смещения частоты мутаций и минимального контраста, представлен контекстом {С>Т|1, СО} и комплементарным контекстом {й:>А|2, СО}. Второй кластер характеризуется малыми значениями минимального контраста, но большими значениями смещения частоты мутаций - он состоит из всех таких и только таких контекстов для которых {С>Т|1, СО} или {0>А|2, СО} являются подконтекстами. Наконец, есть еще один кластер, который выделяется как за счет больших значений смещения частот мутаций, так и больших значений минимального контраста. Он содержит три пары контекстов: {Т>С|2, АНТ}} и комплементарный ему {А>0|3, СААТ}; {Т>С|2, АТАО} и {А>0|3, СТАТ}; и {А>С|1, АСАА} и {Т>С|4, ТТСТ}. Кроме этого можно заметить, что частоты мутаций в геноме варьируют в широком диапазоне в зависимости от контекста и могут отличаться более чем в 20 раз.

Рисунок 3. Распределение смещений частот

мутаций и минимального контраста. Каждая точка представляет один

мутационный контекст. Оранжевым выделены области, в которые попали уже известные

мутационные контексты с высокой вероятностью мутировать. Красным выделена область, в которую попали

обнаруженные нами

мутационные контексты.

Минимальный контраст

11

з-

си О

2.4 1.7

Содержащие {С>Т|1. СО} и <С>А|2. Сй} подконтексты

(Т>С|2. АТАО {А>С|3. СТАТ} (Т>С|2. АТТСэ} {А>С|3. СААТ} {А>С|1. АСАА} {Т=-С|4. ТТСТ}

{с>Т|1. се) и

{С>А|2. ей}

Мы обнаружили, что существует избыток в 3.5 и 3.3 раза Т>С мутаций во второй позиции слов АТГО и АТАО, соответственно. Можно предположить, что существует мотив АТ[АЯ]С (АТ\¥С) в геноме человека, в котором часто происходят мутации. Кроме того установлено, что существует избыток в 3.4 раза А>С мутаций в первой позиции слова АСАА. Наличие избыточных мутаций в описанных выше контекстах статистически значимо при сравнении с любыми из возможных подконтекстов (с учетом поправки на множественные сравнения, Р < 10~1!).

4. Исследование эволюции недавно дуплицированных генов человека

Мы составили выборку из 97 семейств паралогичных генов человека, содержащую 511 генов. Семейства были выбраны таким образом, чтобы в каждом насчитывалось не менее трех генов. С использованием этой выборки мы проанализировали, как меняется сила действия естественного отбора с момента дупликации генов, а также закономерности распределения замен между копиями генов.

Для оценки силы и направления естественного отбора, действующего на ген, можно использовать отношение (МАК. ¿И - число несинонимичных (меняющих аминокислотную последовательность кодируемого белка) замен на несинонимичный сайт, с18 - число синонимичных замен (не меняющих аминокислотную последовательность белка) на синонимичный сайт. (ШЛИ < 1 характеризует отрицательный отбор, <¿N/(15 > 1 -положительный отбор, сИЧ/с18~1 свидетельствует о нейтральной эволюции.

Чтобы вычислить индивидуальные, специфичные для гена, значения (ЙЧ и сК, мы выбрали ближайшего паралога (т.е. паралога с максимальным уровнем сходства) для каждого гена внутри семейства. Мы называли такой ген ближайшим соседом по отношению к исходному гену. Для выбранной пары генов мы находили следующий по сходству ген из того же семейства, расположенный на филогенетической ветви внешней по отношению к выбранной паре генов. Такой ген мы называем вторым ближайшим соседом.

Для каждого гена, имеющего второго ближайшего соседа, мы вычисляли индивидуальные значения <М ((й^) и ё5 (с^), используя следующие формулы:

ам, = (а^ч+аки-ак^/г; аз^саз^+аэи-аз^уг,

где индексы [/'-у'], [¡-к], [¡-к] означают попарные значения сШ или ёЭ для гена г, его ближайшего соседа] и его второго ближайшего соседа к. Индивидуальные значения ¿N1 и таким образом, отражают количество несинонимичных замен на несинонимичный сайт и синонимичных замен на синонимичный сайт, произошедших с момента последней дупликации данного гена.

Описанная процедура позволила нам сравнить скорость эволюции отдельных генов. Мы анализировали только гены, которые возникли в результате недавних дупликаций, то есть на генах с небольшими значениями индивидуальных ёБ (от 0.005 до 0.6).

Зависимость между индивидуальными значениями сНЧ/ёБ (силой отбора) и аэ (параметра, характеризующего время, прошедшее с момента последней дупликации, при условии нейтральной эволюции) показана на рисунке 4. Зависимость между индивидуальным с^ и <15 показана на рисунке 5. Мы наблюдаем уменьшение роста ам (уменьшение сТЫ/аЯ) с ростом аБ. Коэффициент линейной регрессии для зависимости аИ/аБ от аэ составляет -1.37, а 95% доверительный интервал - (-2.43; -0.30). Это утверждение верно как для подвыборки одноэкзонных генов, так и для многоэкзонных генов. Поскольку ам/аБ является мерой действия естественного отбора, а аэ - оценкой времени с момента последней дупликации, мы можем утверждать, что паралоги, разошедшиеся раньше, эволюционируют под действием более сильного отрицательного отбора, в то время как более молодые паралоги эволюционируют под ослабленным отрицательным отбором, а в ряде случаев - под положительным.

Всего нашлось 144 пары генов, в которых каждый ген имел ближайшего соседа и второго ближайшего соседа. Мы посчитали количество аминокислотных замен в кодируемых этими генами белках, используя второго ближайшего соседа для установления аминокислоты предкового белка методом максимальной экономии (т.е.

13

минимизируя число замен между тремя белками). 26 пар генов из 144 (18%) были статистически значимо асимметричны по количеству аминокислотных замен в кодируемых белках (Р < 0.05). Вероятность случайно наблюдать 26 и более успехов из 144 при испытаниях Бернулли с р = 0.05 равна 1.33x10"8. Вычисленные значения позволяют нам говорить о том, что такое количество асимметричных пар генов не объясняется случайными причинами и описанное явление отражает тенденцию в эволюции паралогичных генов человека: примерно одна пятая часть от всех пар дуплицированных генов эволюционирует асимметрично.

о.з Рисунок 4. Зависимость между

индивидуальными значениями dN/dS и dS генов. Одноэкзонные гены отмечены голубыми точками. Многоэкзонные гены а отмечены зелеными

02 д треугольниками. Линии

14 представляют соответствующие

4 4 . • линейные регрессии. Отображены

только гены с индивидуальными значениями 0.005 < dS < 0.6

Рисунок 5. Зависимость между 50

индивидуальными значениями 45 dN и dS генов. Одноэкзонные гены

отмечены голубыми точками. 4.0 Многоэкзонные гены отмечены

зелеными треугольниками. Линии 3-5

представляют соответствующие сл 30 линейные регрессии Отображены только гены с индивидуальными ^ " значениями 0.005 < ёБ < 0.6

1.5 к

1.0 г:

0.5 1

4

0.0

iif Ü А«» " * ^ * * 4

0.0

С помощью программы PolyPhen мы оценили долю несинонимичных замен, потенциально влияющих на функционирование кодируемого белка, как для быстро и медленно эволюционирующих копий генов из асимметрично эволюционирующих пар паралогов, так и для генов из паралогичных пар эволюционирующих без наблюдаемой асимметрии. В 288 белках, кодируемых генами, которые использовались для исследования асимметрии, произошло 8104 аминокислотных замены. Эти замены классифицировались как "функциональные" или "нейтральные". 542 из 8104 (6.7%) замен были охарактеризованы, как функциональные, из них 128 оказались в генах из асимметричных пар. Из этих 128 мутаций 127 оказались в быстро эволюционирующих копиях генов и лишь одна - в копиях, эволюционирующих медленно. Количество функциональных мутаций перепредставлено в быстро эволюционирующих копиях генов (Р < 0.001) и недопредставлено в медленно эволюционирующих копиях (Р < 0.001) по сравнению с выборкой неасимметричных пар генов.

При асимметричной эволюции одна из двух копий генов в асимметрично эволюционирующих парах набирает мутации очень быстро. Могло оказаться, что это связано с тем, что некоторые из таких генов являются псевдогенами и, поэтому, так быстро накапливают мутации. Чтобы исключить такую возможность следует предоставить свидетельства того, что быстро эволюционирующие копии генов из асимметричных пар не являются псевдогенами. Данные об экспериментально прочитанных фрагментах аминокислотных последовательностей белков, содержащиеся в базе данных Pride могут быть использованы для демонстрации существования белкового продукта гена. С использованием базы данных Pride мы установили, что для 23 из 26 быстро эволюционирующих генов из асимметричных пар прочитаны фрагменты кодируемых ими белков. Оставшиеся три гена и их ближайшие соседи вообще в базе данных Pride представлены не были. Этот анализ свидетельствует в пользу того, что наблюдаемая нами асимметрия генов после дупликации не связана с тем, что один из генов является псевдогеном.

5. Исследование закономерностей эволюции сайтов сплайсинга в семействах паралогичных генов человека

С использованием генов из базы данных RefSeq и программы Blat мы составили выборку семейств многоэкзонных паралогичных генов человека. Мы использовали данные о транскрипции из баз данных EST и мРНК, чтобы обнаружить сайты сплайсинга в исследуемых генах. Мы использовали только те сайты, которые подтверждаются последовательностями сплайсированных EST или мРНК из двух и более библиотек или курированной мРНК из RefSeq (с индификатором "NM").

Участки длиной в 100 нуклеотидов (по 50 нуклеотидов слева и справа от каждого сайта сплайсинга) каждого гена сравнивались со всеми остальными генами семейства, с помощью программы discontigous megablast для выявления участков, гомологичных обнаруженным сайтам сплайсинга. Найденные гомологичные участки объединялись в кластеры. Кластеры, содержащие не менее трех генов и не более одной последовательности для каждого гена, выравнивались программой ClustalW. Таким образом, были получены множественные выравнивания участков паралогов, содержащих сайт сплайсинга, и гомологичных им участков.

Также с помощью программы ClustalW строились выравнивания белков, кодируемых генами, представленными в анализируемых кластерах. Для этих выравниваний с помощью программы Phyml были построены филогенетические деревья. Методом максимального правдоподобия (maximum likelihood) с помощью пакета программ Paml проводилась реконструкция предковых последовательностей во всех узлах деревьев для участков от -13 до +1 позиции акцепторных сайтов сплайсинга или от -3 до +7 позиции донорных сайтов сплайсинга. Эволюционная история сайтов сплайсинга тоже восстанавливалась методом максимального правдоподобия.

Подобный подход позволил выделить 4 типа ветвей филогенетических деревьев в зависимости от того, произошло ли появление или исчезновение сайта сплайсинга на данной ветви, и от наличия или отсутствия сайта в предковом узле дерева (сайт сохранился; исчез; появился; или не появился). Всего было проанализировано 8688

ветвей. Кроме того, сайты разделялись на альтернативные (используются не во всех транскриптах) и конститутивные (используются во всех транскриптах) и анализировались переходы между этими состояниями. Примерно в 70% рассмотренных семейств многоэкзонных генов было обнаружено хотя бы одно событие изменения модели сплайсинга гена (всего в нашей выборке удалось идентифицировать 399 событий появления или исчезновения сайтов сплайсинга).

В Таблице 3 приведены числа ветвей различного типа, обнаруженных в данном анализе. Общее количество появившихся сайтов сплайсинга (237) несколько превышает количество исчезнувших сайтов (162). В 22% случаев для акцепторных сайтов и в 25% случаев для донорных сайтов появление сайта сплайсинга согласовано с появлением ключевого динуклеотида. В 11% случаев для акцепторных и в 21% случаев для донорных сайтов исчезновение сайта согласовано с мутацией ключевого динуклеотида.

Акцепторные сайты Потомок

Есть сайт Нет сайта

Предок Есть сайт 3051 89

Нет сайта 123 969

Донорные сайты Потомок

Есть сайт Нет сайта

Предок Есть сайт 3361 73

Нет сайта 114 908

Таблица 3 (слева). Появление и исчезновение сайтов сплайсинга. В ячейках представлены числа ветвей каждого из 4-ех типов (сайт сохранился; исчез; появился; не появился)

Таблица 4 (справа). Появление и исчезновение альтернативных и конститутивных сайтов сплайсинга. Показано число ветвей, на которых появился или исчез альтернативный или конститутивный акцепторный или донорный сайт.

Акцепторные сайты

Альтернативные Конститутивные

Появление 103 20

Исчезновение 69 20

Донорные сайты

Альтернативные Конститутивные

Появление 94 20

Исчезновение 49 24

В Таблице 4 приведены числа случаев появления и исчезновения сайтов сплайсинга в зависимости от того, является ли сайт альтернативным или конститутивным. Альтернативные сайты появляются и исчезают намного чаще, чем конститутивные, несмотря на то, что конститутивных сайтов в нашей выборке в целом значительно больше.

В Таблице 5 приведено число переходов между альтернативными и конститутивными сайтами сплайсинга. Хотя конститутивных сайтов больше, чем альтернативных, альтернативные сайты чаще становятся конститутивными, чем наоборот (точный тест Фишера, Р < 0.001), то есть в ходе эволюции происходит "конститутизация" имеющихся альтернативных сайтов сплайсинга.

Таблица 5. Переходы между альтернативными и

конститутивными сайтами. В

ячейках показано число ветвей, на которых наблюдается переход.

Акцепторные сайты Потомок

Ал ьт ер нати в н ый Ко нститути в II ы й

Предок Альтернативный 1031 184

Ко н ститутив ны й 162 1674

Донорные сайты Потомок

Альтернативный Конститутивный

Предок Альтернативный 1087 210

Конститутивный 187 1877

Мы проанализировали изменения веса сайтов сплайсинга на различных типах ветвей. Вес сайта - это его мера сходства с консенсусом сайтов сплайсинга, полученным на большой выборке подтвержденных сайтов. Вес сайта (Н) подсчитывался по формуле:

Н = ^1п(Г1/0.25);

Здесь суммирование идет по всем рассматриваемым позициями сайта, а {, - частота наблюдаемого нуклеотида в ¡-ой позиции матрицы частот. На рисунках 6 и 7 показана зависимость веса сайта потомка от веса предкового сайта для четырех упомянутых выше типов ветвей. Несмотря на то, что в целом появление сайтов сплайсинга ассоциировано с увеличением их веса (точный тест Фишера, Р < 0.01) в ряде случаев сайт появился без каких-либо изменений. В некоторых таких случаях (но не во всех), мы обнаружили изменения в сайте партнере (например, появление ключевого динуклеотида или вставку, содержащую "готовый" сайт). Интересно отметить, что наблюдались случаи (всего 24) возникновения и исчезновения экзонов без каких-либо изменений и в донорных, и в акцепторных сайтах.

а Сайт сохранился Сайт исчез

■ Сайт появился Сайт не появился

• •

а Л .»

-1 . Ж?"' "О . «

. л 1М ВД* ♦ * ♦

•ч • .

•V

Л'. ■ • ♦

0

Рисунок 6. Зависимость веса акцепторных сайтов от веса их предков. Одна точка соответствует одной ветви на эволюционном дереве. Зеленым отмечены ветви, на которых сайт появился. Желтым - ветви, на которых сайт исчез. Красным - ветви, на которых сайтне появился. Синим - ветви, на которых сайт сохранился.

-12 -10 -в -6 л

Рисунок 7. Зависимость веса донорных сайтов от веса их предков. Одна точка соответствует одной ветви на эволюционном дереве.

Зеленым отмечены ветви, на которых сайт появился. Желтым - ветви, на которых сайт исчез. Красным - ветви, на которых сайт не появился. Синим - ветви, на которых сайт сохранился.

Вес предка

о Сайт сохранился Сайт исчез

в Сайт появился Сайт не появился О ♦ н

• ^ шШ

'» щЩВШ'1 '

1 а

г : 1 Г

« ® *

» ; 1 % ♦ ♦

:: ♦ ; • V

-12-------------------'-----------------

Вес предка

Кроме того, оказалось, что вес вновь возникших сайтов сплайсинга в среднем

меньше, чем вес сайтов, которые являются потомками существовавших ранее сайтов (И-

критерий Мана-Уитни, Р < 0.01), как в случае донорных, так и в случае акцепторных

сайтов. Мы предположили, что это может быть связано с тем, что чаще рождаются

альтернативные сайты, вес которых в среднем меньше, чем вес конститутивных сайтов.

19

Поэтому мы повторно применили и-критерий Мана-Уитни, рассмотрев в качестве контроля только те сайты, которые были и остались альтернативными. Появившиеся альтернативные сайты по-прежнему имели значимо меньший вес (Р < 0.01), чем сайты из контрольной выборки.

Мы также проанализировали как зависит количество наблюдаемых мутаций в позиции сайта сплайсинга от информационного содержания позиции и от типа рассматриваемой ветви филогенетического дерева (сайт появился, сохранился, исчез, не появился). Информационное содержание I позиции задается следующей формулой:

Здесь а - четыре разных нуклеотида, Р„ . вероятность наблюдать нуклеотид а (можно принять за 0.25 для всех а), а - частота нуклеотида а в данной позиции.

Для ветвей, на которых сайт не исчез, существует сильная отрицательная корреляция между информационным содержанием позиции и количеством мутаций в сайтах сплайсинга (-0,93 и -0,96 для донорных и акцепторных сайтов, соответственно; Р < 0.001; критерий Пирсона). Для других типов ветвей наблюдается положительная корреляция, как для донорных, так и для акцепторных сайтов, но во всех случаях, кроме появления акцепторных сайтов эта корреляция статистически не значима (Р > 0,05).

В таблице 6 показано число случаев увеличения веса сайта при переходе альтернативных сайтов в конститутивные. При таком переходе вес сайта чаще увеличивается, чем при сохранении сайта в состоянии альтернативного (точный тест Фишера, Р < 0.05) как для донорных, так и для акцепторных сайтов.

Тип ветви Акцепторные сайты Донорные сайты

Вес сайта увеличился Вес сайта не увеличился Вес сайта увеличился Вес сайта не увеличился

Альтернативный сайт переходит в конститутивный 24 160 17 193

Альтернативный сайт сохранился 61 970 42 1040

Таблица 6. Положительные изменения веса сайтов при превращении альтернативных сайтов в конститутивные и при сохранении альтернативности сайтов.

Дупликация генов является хорошо известным механизмом увеличения разнообразия транскриптов и белков. Кроме того, такое разнообразие может достигаться альтернативным сплайсингом. Существует представление, что дупликация генов и альтернативный сплайсинг могут конкурировать между собой: гипотеза о меньшем разнообразии альтернативно сплайсируемых изоформ дуплицированных генов неоднократно обсуждалась в литературе. Результаты наших исследований согласуются с таким представлением, свидетельствуя в пользу конститутизации сайтов сплайсинга после дупликаций, однако противоречат ему при анализе появлений и исчезновений альтернативных сайтов сплайсинга - событий появления альтернативных сайтов заметно больше.

6. Метилированные цитозины реже мутируют в СрС островах

Как уже обсуждалось в разделе 2, Сй - наиболее недопредставленный динуклеотид в геномах млекопитающих, в том числе в геноме человека. Есть основания полагать, что это связано с повышенной частотой мутаций метилированных Срй динуклеотидов. Однако в геноме человека существуют особые Срй-богатые участки, называемые Срй островами, в которых частота транзиций СрО>ТрО примерно в 7 раз меньше, чем в остальном геноме. Считается, что этот эффект связан с пониженным уровнем метилирования Срв динуклеотидов в Срв островах.

Недавно были получены экспериментальные данные по полногеномному метилированию в эмбриональных стволовых клетках человека. Мутации, которые происходят в таких клетках, могут быть переданы в следующие поколения и есть

основания полагать, что профиль метилирования в таких клетках достаточно хорошо соответствует профилю метилирования в клетках зародышего пути в целом. Анализированные в разделе 3 полиморфизмы в геноме человека, для которых удалось реконструировать предковые состояния, можно рассмотреть как направленные мутации в клетках зародышего пути человека. Объединив описанные выше данные, мы сравнили частоту 5тСрО>ТрО мутаций в СрО островах человека и в остальном геноме, контролируя уровень метилирования.

Для каждого СрО динуклеотида мы фиксировали степень метилирования (доля экспериментальных чтений данного динуклеотида при которых цитозин оказался метилированным от общей доли чтений). Мы отобрали 149507 5тСрО динуклеотидов, расположенных внутри СрО островов. Для каждого 5тСрО динуклеотида из СрО островов мы пытались найти пару - 5 "'СрО динуклеотид со сходной степенью метилирования, но вне СрО островов. Если мы не могли найти подходящий контроль, то исходный СрО динуклеотид устранялся из образца. В силу особенностей наших мутационных данных, мы анализировали только те Срв динуклеотиды, которые достаточно хорошо выравнивались с геномами шимпанзе и орангутана, чтобы мы могли восстановить предковое состояние возможного полиморфизма в таком Срб динуклеотиде. Мы использовали три метода для формирования контрольной выборки. Эти методы описаны ниже.

Во всех случаях контрольная выборка формировалась случайным образом из областей генома, не принадлежащих СрО островам. СрО динуклеотиды контрольной выборки должны были находиться на той же хромосоме, иметь примерно такую же степень метилирования и глубину прочтения (число прочтений данного нуклеотида при составлении метилома), что и СрО динуклеотиды из образца (+/- 10%). Таким образом, наша модель учитывает отличия в частотах мутаций между хромосомами. Первый («мягкий») метод формирования контрольной выборки не учитывал влияние локального С+й или СрО состава на частоту мутаций. Второй («умеренный») метод формирования контрольной выборки требовал, чтобы число цитозинов и гуанинов в окне размером в 21 нуклеотид (с центром в рассматриваемой позиции) между образцом и контролем

отличалось не больше, чем на 2, а число CpG динуклеотидов не больше, чем на 1. Третий (жесткий) метод требовал полного совпадения C+G и CpG состава в указанном окне. Мы считали, что CpG динуклеотид мутировал, если в нем наблюдался С/Т или A/G полиморфизм с предковым состоянием С или G, соответственно. Сравнение частот мутаций между CpG островами и контролями представлено в Таблице 7.

Метод Исключе иные CpG Всего CpG CpG остров Контроль Контроль/ остров

Число мутаций Частота мутаций Число мутаций Частота мутаций

Мягкий 16 149491 949 0.0063 2033 0.0136 2.14

Умеренный 423 149084 944 0.0063 1953 0.0131 2.07

Жесткий 9405 140102 893 0.0064 1654 0.0118 1.85

Таблица 7. Сравнение частот "'СрС>ТрС мутаций в СрС островах человека и в трех типах контролен. Во второй колонке показано число СрО динуклеотидов из СрО островов, для которых не был найден подходящий контрольный динуклеотид.

Мы заметили, что по мере увеличения «жесткости» контрольной выборки уменьшается частота 5шСрО>ТрО мутаций. Однако даже в жестком контроле частоты 5тСрО>ТрО мутаций примерно в 2 раза выше, чем в Срй островах. Этот эффект статистически значим (точный тест Фишера, р < Ю"100). Таким образом, различия в степени метилирования, не объясняют всю недопредставленность 5тСрО>ТрО мутаций в Срв островах.

Мы исследовали, какие другие факторы могут отвечать за наблюдаемые различия в частотах мутаций между Срй островами и последовательностями контролей. Известно, что при рекомбинации в случае когда между гомологичными хромосомами есть отличие -на одной хромосоме стоит С или О, а на другой А или Т, более вероятно превращение А или Т в С или в, чем наоборот (смещенная генная конверсия). Поскольку генная конверсия происходит при рекомбинации, можно предположить, что она будет более эффективной в участках генома с высокой частотой рекомбинаций. С использованием данных о частоте рекомбинаций в геноме человека из трех баз данных мы разделили все наши выборки на подвыборки из области с высокой и низкой частотой рекомбинации

(частота рекомбинации ниже или выше средней по трем источникам данных) и посчитали частоты мутаций в эти областях. Результаты представлены в Таблице 8.

Выборка и тип контроля СрС острова Контроль Контроль /остров

Число мутаций Всего СрС Частота мутаций Число мутаций Всего СрС Частота мутаций

СрС с низким уровнем рекомбинации Мягкий 230 50896 0.0045 600 49303 0.0122 2.69

Умеренный 228 50751 0.0045 554 48597 0.0114 2.54

Жесткий 220 47587 0.0046 468 44911 0.0104 2.25

СрС с высоким уровнем рекомбинации Мягкий 372 45470 0.0082 681 45124 0.0151 1.84

Умеренный 370 45359 0.0082 681 45695 0.0149 1.83

Жесткий 346 42565 0.0081 604 43770 0.0138 1.70

Таблица 8. Сравнение частот '""СрОТрС мутаций в СрС островах человека при высокой и низкой

степени рекомбинации.

Во всех сравнениях, частоты 5тСрО>ТрО мутаций в контроле остаются выше (точный тест фишера Р < Ю"10), чем в Срб островах. В областях с низкой частотой рекомбинации отличия между частотами мутаций в СрО островах и вне островов возрастают. Мы предполагаем, что если бы рекомбинации не было вовсе, то разница между СрО островами и остальным геномом была бы существенно больше, чем наблюдаемая в данной работе. Таким образом, процессы, происходящие при рекомбинации, не могут быть причиной наблюдаемого снижения частот 5тСрО>ТрО мутаций в Срв островах.

Еще один эффект, который может вызывать снижение частот 5тСрО>ТрО мутаций в СрС островах, - естественный отбор. Чтобы исключить действие отбора хотя бы на уровне генов, мы сравнили частоты 5тСрО>ТрО мутаций в СрО островах и в контролях в межгенных областях генома и в окрестности генов отдельно. Анализ показал, что в обоих случаях частоты 5тСрО>ТрО существенно ниже в СрО островах (тест Фишера, Р < Ю"100).

Можно предположить, что частота дезаминирования цитозинов в Срв контексте сама по себе ниже в Срв островах в силу пока неизвестных молекулярных механизмов, возможно в связи с наличием каких-нибудь ДНК-белковых взаимодействий в Срв островах или другого состояния хроматина.

выводы

1. Создана коллекция фрагментов транскриптов человека, содержащая 4,260 последовательностей EST, которые, вопреки обозначенному источнику происхождения, не имеют сходства с какими-либо последовательностями в геноме человека. Анализ этой коллекции показал, что транскриптом человека загрязнен нуклеотидными последовательностями прокариот, вирусов и даже последовательностями других млекопитающих и растений.

2. Проведен анализ встречаемости 1-7 нуклеотидных слов в 139 полных геномах эукариот. Слово ТА является недопредставленным в наибольшем числе геномов. Описан ряд организмов, в геномах которых обнаружены отклонения от известных закономерностей недопредставленности и перепредставленности нуклеотидных слов и выявлен ряд новых закономерностей.

3. Установлено предковое состояние для примерно трех миллионов одиночных полиморфизмов человека. Выявлен более чем трехкратный избыток Т>С мутаций во вторых позициях слов ATTG и ATAG, а также А>С мутаций в первой позиции слова АСАА.

4. Проведен анализ эволюции семейств паралогичных генов человека, содержащих более 500 генов. Примерно одна пятая часть пар ближайших паралогов человека накапливают несинонимичные замены с разной скоростью, при этом доля функционально важных несинонимичных замен существенно преобладает в быстро эволюционирующих копиях генов.

5. В 70% рассмотренных семейств многоэкзонных генов обнаружено хотя бы одно событие изменения модели сплайсинга гена после дупликации. Альтернативные сайты эволюционно подвижнее: они чаще рождаются и умирают, а также чаще переходят в конститутивные, чем наоборот.

6. Подтверждено, что частота мутаций метилированных цитозинов в CpG динуклеотидах внутри CpG островов понижена по сравнению с остальным геномом. Показано, что этот эффект не объясняется отличиями в частоте рекомбинаций или локальным нуклеотидным составом.

ПУБЛИКАЦИИ ПО ТЕМЕ РАБОТЫ

1. Panchin A.Y., Spirin S.A., Lukyanov S.A., Lebedev Y.B., Panchin Y.V. "Human trash ESTs - sequences from cDNA collection that are not aligned to genome assembly". // Journal of Bioinformatics and Computational Biology. -2008-V. 6-P. 759-73.

2. Mitrofanov S.I., Panchin A.Y., Spirin S.A., Alexeevski A.V., Panchin Y.V. "Exclusive sequences of different genomes". // Journal of Bioinformatics and Computational Biology. - 2010 - V. 8 - P. 519-34.

3. Panchin A.Y., Gelfand M.S., Ramensky V.E., Artamonova 1.1.. Asymmetric and non-uniform evolution of recently duplicated human genes. // Biology Direct. - 2010 - V. 5 - P. 54.

4. Panchin A.Y., Mitrofanov S.I., Alexeevski A.V., Spirin S.A., Panchin Y.V. "New words in human mutagenesis". // BMC Bioinformatics. - 2011 - V. 12 - P. 268.

5. Panchin A.Y., Shustrova E.N., Artamonova I.t. "Recently duplicated human genes: Basics of evolution". IIJ Biomol Struct Dyn. - V. 28 - P. 1068

6. Panchin A.Y. et al. "Human trash EST study". // Proceedings of the International Moscow Conference on Computational Molecular Biology (MCCMB'07) - 2007 - P. 124.

7. Панчин А. Ю., Артамонова И. И. "Эволюция недавно дуплицировавшихся паралогов генома человека". «Информационные технологии и системы» (ИТиС'08). Сборник тезисов. - 2008 - С. 308-313

8. Panchin A.Y., Artamonova I.I., Ramensky V.E., Gelfand M.S. "Major trends in the evolution of young human paralogs". // Proceedings of the International Moscow Conference on Computational Molecular Biology (MCCMB'09). - 2009 - P. 281.

9. Mitrofanov S.I., Panchin A.Y., Alexeevski A.V., Spirin S.S., Panchin Y.V. "Exceptional nucleotide sequences in genomes of different organisms" // Proceedings of the International Moscow Conference on Computational Molecular Biology (MCCMB'09). - 2009 - P. 240.

10. Митрофанов С.И., Панчин А.Ю., Спирин С.А., Панчин Ю.В., Алексеевский А.А. "Исключительные последовательности в геномах различных организмов". // «Информационные технологии и системы» (ИТиС'09). Сборник тезисов - 2009 - С. 351-353.

11. Панчин А.Ю., Артамонова И.И. "Эволюция моделей альтернативного сплайсинга паралогичных генов человека". // «Информационные технологии и системы» (ИТиС'09). Сборник тезисов. - 2009 - С. 347-350.

12. Панчин А.Ю., Митрофанов С.И., Алексеевский А.В., Спирин С.А., Панчин Ю.В. "Зависимость мутационных процессов в геноме человека от контекста". // «Информационные технологии и системы» (ИТиС"10). Сборник тезисов. - 2010 - С. 358-360.

13. Panchin A.Y., Mitrofanov S.I., Spirin S.A., Alexeevski A.V., Panchin Y.V. "Human mutagenesis in context". // Proceedings of the International Moscow Conference on Computational Molecular Biology (MCCMB'l 1). — 2011 — P. 274-275

14. Panchin A.Y., Makeev V.Y., Medvedeva Y.A. "Decreased mutation rate of 5mCpG within CpG islands in the human genome. // Proceedings of the International Moscow Conference on Computational Molecular Biology (MCCMB'l 1). -2011-P. 228.

15. Панчин А.Ю., Артамонова И.И. "Эволюция сайтов сплайсинга в семействах недавно дуплицированных генов человека". //«Информационные технологии и системы» (ИТиС"11). Сборник тезисов. - 2011 - С. 107111

16. Панчин А.Ю., Макеев В.Ю., Медведева Ю.А. "Снижение частоты мутаций метшщитозинов в CpG островах". // «Информационные технологии и системы» (ИТиС"11). Сборник тезисов. -20U - С. 271-275

17. Panchin A.Y., Shustrova E.N., Gelfand M.S., Artamonova I.I.. "Evolution of recently duplicated human genes." II Abstract of papers presented at the 2010 Cold Spring Harbor Asia Conference "Computational Biology" - P. 12

Заказ № 92-р Подписано в печать 17.11.2011 Тираж 100 экз. Усл. п.л. 1,4

ООО "Цифровичок", тел. (495) 649-83-30 ''Л ) \vww.cfr. ги ; е-таИ: т/о @сfr.ru

Содержание диссертации, кандидата биологических наук, Панчин, Александр Юрьевич

СОДЕРЖАНИЕ.

Введение.

Обзор литературы.

Актуальность исследуемой области.

Основные виды мутаций.

Влияние соматических и наследуемых мутаций.

Методы реконструкции мутационных и эволюционных событий.

Закономерности процессов мутагенеза и эволюции.

Глава 1 - Анализ загрязнений транскрипционных данных человека.

1.1 Введение.

1.2 Методы.

1.2.1 Создание коллекции «мусорных » EST.

1.2.2 Полимеразная цепная реакция (ПЦР).

1.3 Результаты и обсуждение.

1.3.1 Человеческие EST, не имеющие сходства с последовательностями из генома человека.

1.3.2 Загрязнения в базе данных EST человека.

1.3.3 Растительные EST в базе данных EST человека.

1.3.4 Анализ загрязнений рибосомальными мРНК в базе данных EST человека.

1.3.5 Экспериментальный поиск «пропущенных» генов человека.

1.4 Выводы.

Глава 2 - Сравнительных анализ частот нуклеотидных слов в геноме человека, а также в геномах других эукариот.

2.1 Введение.

2.2 Методы.

2.2.1 Выборка анализируемых геномов.

2.2.2 Разорванные слова.

2.2.3 Частотность.

2.2.4 Статистические методы для подсчета ожидаемых частот слов

2.2.5 Минимальная частотность.

2.3 Результаты и обсуждение.

2.3.1 Сравнение методов для подсчета ожидаемых частот слов.

2.3.2 Одно буквенные слова.

2.3.3 Недопредставленные двухбуквенные слова.

2.3.4 Перепредставленные двухбуквенные слова.

2.3.5 Недопредставленные трехбуквенные и четырехбуквенные словабО

2.3.6 Перепредставленные трехбуквенные и четырехбуквенные слова

2.3.7 Пятибуквенные, шестибуквенные и семибуквенные слова.

2.3.8 Сравнение с маскированными геномами.

2.3.9 Сравнение с кодирующими последовательностями.

2.4 Выводы.

Глава 3 - Исследование мутационных контекстов в геноме человека.

3.1 Введение.

3.2 Методы.

3.2.1 Критерии включения полиморфизмов.

3.2.2 Мутационный контекст и подконтекст.

3.2.3 Контраст.

3.2.4 Минимальный контраст.

3.2.5 Мутационное смещение.

3.2.6 Статистическая значимость.

3.3 Результаты.

3.4 Обсуждение.

3.5 Выводы.

Глава 4 - Исследование эволюции недавно дуплицированных генов человека.

4.1 Введение.

4.2 Методы.

4.2.1 Составление выборки семейств паралогичных генов человека.

4.2.2 Подсчет dN и dS.

4.2.3 Исследование асимметрии эволюции паралогов.

4.2.4 Сравнение с ортологами.

4.2.5 Анализ GOstat.^

4.2.6 Транскрипционные данные.

4.2.7 Анализ PolyPhen.

4.3 Результаты.

4.3.1 Оценка индивидуальных значений dN и dS.

4.3.2 Индивидуальные значения dN и dS паралогичных генов.

4.3.3 Асимметрия в несинонимичных сайтах.

4.3.4 Асимметрия в синонимичных сайтах.

4.3.5 Анализ программой PolyPhen.

4.3.6 Анализ с помощью базы данных Pride.

4.4 Обсуждение.

4.5 Выводы.

Глава 5 - Исследование эволюции сайтов сплайсинга в семействах паралогичных генов человека.

5.1 Введение.

5.2 Методы.

5.2.1 Составление выборки семейств паралогичных генов.

5.2.2 Определение сайтов сплайсинга.

5.2.3 Составление выравниваний окрестностей сайтов сплайсинга.

5.2.4 Построение деревьев.

5.2.5 Реконструкция предковых состояний.

5.2.6 Вычисление веса сайта.

5.3 Результаты и обсуждение.

5.4 Выводы.

Глава 6 - Метилированные цитозины реже мутируют в СрО островах.

6.1 Введение.

6.2 Методы.

6.2.1 Метилированные цитозины.

6.2.2 Полиморфизмы.

6.2.3 Направленные замены.

6.2.4 СрО острова.

6.2.5 Составление контрольных выборок Срв динуклеотидов.

6.2.6 Оценка частоты мутаций 5тСрО>ТрО.

6.2.7 Частоты аллелей.

6.2.8 Частота рекомбинаций.

6.2.9 Отрицательный отбор в генах.

6.3 Результаты.

6.3.1 Частота направленных мутаций 5тСрО>ТрО понижена в Срв островах.

6.3.2 Распределение частот аллелей в СрО островах смещено в сторону редких аллелей.

6.3.3 Смещенная генная конверсия не объясняет снижение частоты мутаций 5тСрО>ТрО в СрО островах.

6.3.4 Отрицательный отбор не может объяснить снижение частоты мутаций 5шСрО>ТрО в СрО островах.

6.3.5 Данные по полиморфизмам подтверждают сниженную частоту 5шСрС>ТрО мутаций в СрО островах.

6.4 Обсуждение.

6.5 Выводы.

Выводы.

Благодарности.

Список публикаций по теме диссертации.

Введение Диссертация по биологии, на тему "Исследование общих закономерностей эволюции генома человека при дупликации генов и точечном мутагенезе"

Мутации служат основным источником разнообразия генетического материала живых организмов. При этом существуют определенные закономерности, как процесса мутагенеза, так и эволюции генетических последовательностей. Человек является одним из важнейших объектов исследования с точки зрения биологии и медицины, а его геном - одним из наиболее изученных, что делает его удобной моделью для поиска подобных закономерностей.

Даже самые базовые свойства геномов, такие как частоты нуклеотидных слов, существенно отличаются между геномами различных живых организмов. Например, в геноме человека существенно (примерно в 5 раз) недопредставлены СрС динуклеотиды, что отчасти связано с повышенной вероятностью мутаций С>Т в данном слове. Подобная недопредставленность. СО слов отсутствует, например, в геноме ИгоБоркИа melanogaster и в геномах некоторых других организмов. Сегодня достаточно хорошо изучен1 биологический механизм, за счет которого у человека и ряда других животных наблюдается избыток С>Т мутаций в СрО контексте. Это один из примеров, показывающих, что обнаружение отличий в базовых свойствах геномов среди представителей различных групп организмов может облегчить задачу поиска биологических механизмов, обуславливающих такие закономерности. Кроме того, детальный анализ словарного состава геномов позволяет строить более точные модели эволюции генетических последовательностей.

Со стремительным развитием проектов по широкомасштабному секвенированию нуклеотидных последовательностей открываются огромные возможности для систематического анализа эволюционных событий и сравнительного анализа генов, а также геномов представителей различных таксономических групп. Во второй главе данной работы приведен сравнительный анализ более 130 полностью прочитанных геномов эукариот, 7 целью которого являлся поиск закономерных отклонений наблюдаемых частот нуклеотидных слов от ожидаемых. Анализ такого масштаба ранее не проводился, так как не было доступно такого количества полностью прочитанных геномов, а таксономическое разнообразие организмов, геномы которых были прочитаны, было недостаточным. Здесь особый интерес представляет сравнение человека- и близких видов млекопитающих с представителями других крупных таксономических групп, в том числе с представителями других типов и царств.

Следующим логическим шагом является анализ непосредственно мутационных процессов, а именно, выявление зависимости частот мутаций различного типа от нуклеотидного контекста. Например, как будет видно из главы 3 данной работы, частоты одиночных нуклеотидных мутаций в геноме' человека могут варьировать более чем в 20 раз. Чтобы привнести что-то ¡новое в современные представления о частотах мутаций в каком-либо геноме, необходимо огромное количество данных, чтобы отличить реально существующие закономерности от случайного шума. Такие данные накапливались на протяжении последних лет в крупных базах данных геномных-полиморфизмов, таких как с1Ь8МР. Полиморфизмы в большинстве случаев возникают в результате мутаций, направление которых можно установить, используя методы сравнительной геномики. Такой подход открывает новые возможности для тщательного поиска закономерностей мутагенеза. В частности, он позволил нам выявить несколько ранее неизвестных мутационных контекстов, существенно сказывающихся на частоте определенных мутаций и выделяющихся на фоне всех остальных контекстов.

Подобные массовые данные по вариациям в геноме человека можно использовать не только для поиска ранее неизвестных закономерностей мутагенеза, но и для углубленного изучения уже описанных закономерностей.

Упомянутая выше недопредставленность Срв динуклеотидов в геноме человека, а также повышенная частота мутаций СрО>ТрО менее выражены в особых участках генома человека, называемых Срв островами. Это ассоциировано с пониженным уровнем метилирования цитозинов в СрО контексте в таких участках генома. Можно предположить, что именно разница в степени метилирования между СрО островами и остальным геномом является причиной отличий частот С>Т мутаций в СрО контексте в этих областях. В главе 6 данной работы мы постарались проверить эти гипотезу, привлекая современные данные по метилированию в масштабах всего генома человека. Мы сравнивали частоты мутаций в СрО островах и в остальном геноме, контролируя степень метилирования, а также ряд других известных факторов, сказывающихся на наблюдаемых частотах мутаций.

Выше речь шла о мутациях, ведущих к одиночным нуклеотидным заменам. Кроме таких мутаций, существенный вклад в эволюцию генома человека и геномов других живых организмов вносят дупликации генов. Дупликации представляют собой особый и очень важный тип мутаций, так как они легко приводят к увеличению белкового разнообразия. Существенная часть генов в геноме человека представлена несколькими копиями. Хотя часто после дупликаций одна из копий быстро элиминируется или подвержена псевдогенизации, можно встретить множество случаев закрепления новых копий, в том числе в результате действия естественного отбора. В начале обе копии гена могут быть полезны, увеличивая количество производимой РНК данного гена, а затем, при накоплении критического количества мутаций, могут приобрести разные специализированные функции.

Эволюции недавно дуплицированных генов человека посвящены четвертая и пятая главы данной работы. Во-первых, нас интересовали закономерности изменения силы действующего отбора после дупликации, а также вопрос о симметричном накоплении мутаций между двумя копиями молодых паралогов. Во-вторых, нас интересовал вопрос о закономерностях эволюции сайтов сплайсинга при дупликации генов. Сплайсинг - процесс, при котором из исходной мРНК вырезаются отдельные сегменты, называемые интронами, а остальные, экзоны - сшиваются. В ряде случаев этот процесс может происходить по-разному, с получением варьирующих зрелых мРНК. Наиболее ярким примером альтернативного сплайсинга является ген Dscaml у плодовой мушки Drosophila melanogaster, потенциально имеющий более 30000 альтернативных изоформ [1]. Благодаря наличию такого альтернативного сплайсинга, один ген может "кодировать более одного белка, т.е. это еще один способ создания разнообразия, в данном случае, на уровне протеома. В связи с этим эволюция сайтов сплайсинга после дупликации, рассмотренная в пятой главе диссертации, представляет особый интерес.

Поскольку для определения сайтов сплайсинга, - прежде всего, используются транскрипционные данные, а это в первую очередь последовательности EST (expressed sequenced tags - прочитанные фрагменты кДНК, длиной около несколько сотен нуклеотидов), при подготовке данных особое внимание в данной работе уделено анализу загрязнений базы данных человеческих EST, который проводился путем сравнения генома человека и доступных транскрипционных данных. Этот анализ, описанный в первой главе диссертации, позволил найти ряд интересных типов загрязнений.

Обзор литературы

Актуальность исследуемой области

Активное развитие технологий секвенирования генетических последовательностей сделало возможными широкомасштабные проекты по чтению геномов. В 1995-ом году был опубликован первый полный геном — геном гемофильной палочки Haemophilus influenzae [2], а уже в 2001 году -геном человека [3]. На сегодняшний день прочитаны геномы представителей практически всех известных крупных таксономических групп эукариот [4]. За последние десять лет разработаны такие методы, как SOLiD [5, 6], метод пиросеквенирования [7] (технология 454), SOLEXA [8] и Ion Torrent [9]. Интенсивно разрабатываются методы секвенирования последовательностей ДНК, позволяющие анализировать одиночные молекулы, например, технологии Helicos [10] и SMART [11, 12]. Стали доступны не только последовательности генов и полных геномов огромного количества живых организмов, но и, в ряде случаев, данные по полиморфизмам в этих последовательностях, данные по транскрипции (например, EST - expressed sequence tags), сплайсингу [13], наличию белковых продуктов, функциональной аннотации генов, а также профили метилирования ДНК в различных тканях и типах клеток [14-16].

Геном человека является удобной моделью для анализа закономерностей эволюции и мутагенеза благодаря высокому качеству сборки и постоянному притоку большого количества сопряженных данных. Наряду с полностью прочитанным геномом человека [3], также прочитаны геномы ископаемых представителей рода Homo: неандертальца Homo neanderthalensis [17] и Денисовского человека Denisova hominin [18], а также геномы родственных приматов, таких как шимпанзе Pan troglodytes [19], орангутанов Pongo abelii, Pongo pygmaeus [20] и макаки Macaca mulata [21]. Большой интерес представляют как закономерности точечного мутагенеза (например, зависимость мутационных процессов от нуклеотидного контекста), так и закономерности эволюционных событий большего масштаба, например, дупликаций генов и последующего изменения их моделей сплайсинга.

Целью данного исследования является выявление закономерностей эволюции генетических последовательностей человека. Особенное внимание здесь уделено закономерностям точечного мутагенеза и эволюции генов после дупликаций. При этом были поставлены следующие задачи:

• Создание коллекции "мусорных" фрагментов транскриптов (EST) человека. Анализ источников загрязнений.

• Анализ встречаемости 1-7 нуклеотидных слов в 139 полных геномах эукариот.

• Установление предковых состояний одиночных нуклеотидных полиморфизмов в геноме человека и поиск ранее не описанных мутационных контекстов, в которых наблюдается избыток или недостаток мутаций.

• Анализ эволюции генов человека, возникших в результате недавних дупликаций.

• Анализ закономерностей эволюции сайтов сплайсинга в генах человека после дупликаций.

• Исследование взаимосвязи между степенью метилирования цитозинов и частотой CpG>TpG мутаций в CpG островах и в остальных областях генома человека.

Основные виды мутаций

Мутации — это изменения генетических последовательностей, например, последовательностей ДНК в хромосомах эукариотических и прокариотических клеток, (а также ДНК и РНК в геномах вирусов). Основными источниками мутаций являются излучение, вставки провирусов или мобильных элементов [22, 23], действие мутагенных химических агентов, а также ошибки при репликации ДНК [24]. В некоторых случаях процесс мутагенеза инициируется самой клеткой, например, при рекомбинации в предшественниках лимфоцитов человека [25] - процессе необходимом для нормального развития специфического иммунитета, для создания разнообразия антител. У многоклеточных организмов таких как человек выделяют мутации в соматических клетках и мутации в клетках зародышего пути. Первые могут приводить к неблагоприятным последствиям для конкретного индивида, например, к развитию раковых заболеваний [26, 27], но не наследуются. Наследоваться могут только мутации, происшедшие в клетках зародышего пути (например,- в гаметах или их предшественниках, в том числе в некоторых эмбриональных стволовых клетках и гаметогониях).

Мутации играют огромную роль в эволюции живых организмов, создавая в популяции генетическое разнообразие, необходимое для эволюции под действием естественного отбора. Например, высокая частота мутаций в геномах вирусов делает более вероятным появление штаммов, способных обойти-защитные механизмы хозяина, в том числе иммунную систему человека [28] [2931].

Мутации, в результате которых один нуклеотид меняется на другой, называют точечными. Также бывают вставки (например, в результате встраивания транспозона или провируса в геном клетки) и делеции различных размеров. Встречаются и крупные хромосомные перестройки. К ним иногда относят дупликации генов (амплификация), очень крупные делецииг (ведущие к утрате целых генов), объединение различных последовательностей ДНК, иногда с образованием новых генов на стыке, хромосомные инверсии. Известны примеры полногеномных дупликаций [32, 33]. Считается, что полногеномная дупликация случалась дважды в ходе эволюции позвоночных. Один хорошо изученный пример крупной перестройки генома — появление второй хромосомы человека в результате объединения двух хромосом в процессе эволюции [34]. J

Однако в данной работе нас будут больше интересовать точечные мутации и дупликации. Это связано с тем, что такие события происходят сравнительно часто, что облегчает их систематический анализ и поиск закономерностей.

Влияние соматических и наследуемых мутаций

Мутации в соматических клетках являются одной из* основных причин возникновения раковых заболеваний [35]. Некоторые наследуемые мутации также могут увеличивать риск появления различных заболеваний, в том числе раковых. Например, мутации в гене супрессора опухолей человека АРС приводят к очень высокой вероятности развития рака% прямой кишки [36]. Наследуемые мутации нередко сказываются на приспособленности живых организмов. Создаваемые таким образом отличия в приспособленности необходимые для эволюции под действием естественного отбора. Наследуемые мутации могут уменьшать приспособленность носителя - такие мутации называются вредными и они, как правило, удаляются из популяции под давлением отрицательного отбора. Также мутации могут быть нейтральными или полезными. В качестве примера сравнительно недавних полезных мутаций в геноме человека можно привести появление аллеля rs429358(T) в гене аполипротеина Е (сейчас этот аллель самый распространенный в популяции людей). Предковый аллель rs429358(C) (присутствующий в геномах шимпанзе и макаки) в гомозиготном состоянии ассоциирован более, чем с 10-и кратным увеличением риска болезни Альцгеймера по сравнению с гомозиготным rs429358(T) [37].

Эффект мутации зависит как от характера мутации, так и от геномного локуса, где она произошла. К серьезным заболеваниям приводят мутации в функционально важных участках генома, например, в кодирующих участках, сайтах сплайсинга. Например, делеция трех нуклеотидов в гене регулятора трансмембранной проводимости при муковисцидозе, ведущая к утрате аминокислоты фенилаланина в позиции 508, как и целый ряд других мутаций в том же гене, приводит к патологии, характеризуемой тяжелыми последствиями для работы органов дыхания и желудочно-кишечного тракта [38]. Часто к серьезным генетическим заболеваниям приводит появление преждевременных стоп-кодонов в генах, кодирующих белки. Такие мутации отвечают примерно за 11% всех генетических изменений, ведущих к наследуемым заболеваниям у людей и около 20% от наследуемых заболеваний, вызванных мутациями одиночных нуклеотидов [39]. Большую долю таких мутаций составляют мутации кодона CGA в стоп-кодон TGA, высокая частота которых связана с высокой вероятностью мутации CG>TG в геноме человека предположительно в связи с частым метилированием и последующим дезаминированием цитозина в данном контексте [40, 41]. Упомянутое метилирование CpG динуклеотидов играет важную роль в эпигенетической регуляции [42, 43] и является важной чертой многих живых организмов и объектом активных исследований [44, 45]. Подробнее о метилировании CpG динуклеотидов будет сказано ниже. Таким образом, частоты мутаций, ведущих к серьезным наследуемым патологиям, напрямую связаны с базовыми частотами мутаций в геноме.

Известно, что около 10% всех изученных генетических заболеваний человека вызваны одиночными мутациями в сайтах сплайсинга генов [46], однако, есть основания полагать, что данная оценка занижена [47]. Большинство генов человека подвергается процессу сплайсинга, в ходе которого определенные участки незрелой мРНК вырезаются, такие участки называются интронами, а остальные участки, экзоны, сшиваются между собой, образуя новую укороченную молекулу зрелой мРНК. Примерами заболеваний, вызываемых нарушениями этого процесса являются некоторые формьграка [48, 49], мышечная дистрофия [50], аутоиммунные заболевания [51], семейная дисавтономия [52], синдром Фрейзера [53]. Одиночные мутации в сайтах сплайсинга; например, одиночные замены в ключевых динуклеотидах AG акцепторных сайтов сплайсинга и GT донорных сайтов сплайсинга, а также мутации в. соседних нуклеотидах [54]: иногда могут приводить к тому, что в-зрелой; мРНК будет присутствовать огромная, бессмысленная с. точки зрения функции гена, вставка, с. большой вероятностью содержащая преждевременный стоп-кодон. Такие мРНК с большой • вероятностью не функциональны или даже: вредны для организма.

Для борьбы с появлением молекул мРЫК, возникших в результате неправильного сплайсинга в клетках, существует механизм NMD ("nonsensemediated decay") [55]. К мРНК в местах сплайсинга прикрепляются специальные комплексы белков, которые способствуют трансляции мРНК [56]. Эти комплексы устраняются при первом-раунде трансляции при взаимодействии: мРНК с рибосомой: Если стоп кодон возникает ощутимо раньше, чем последний сайт сплайсинга на молекуле мРНК, часть таких комплексов на молекуле мРНК сохраняется и они служат сигналом к тому, что мРНК неправильно сплайсирована. Такие мРНК направляются в цитозоль для экзосомной деградации [57].

Методы реконструкции мутационных и эволюционных событий

Для исследования закономерностей мутагенеза и эволюции: необходимо уметь находить и правильно интерпретировать, эволюционные события: В рамках сравнительной геномики для этого используется несколько подходов; В самом простом случае можно сравнить гены или геномы двух организмов для обнаружения отличий между ними, например, для поиска нуклеотидных замен. Когда был прочитан геном шимпанзе, его сравнение с геномом человека показало, что эти два генома отличаются одиночными нуклеотидными заменами примерно в 1.23% позиций [19]. Подобные сравнения позволяют устанавливать некоторые закономерности эволюции. Например, еще до появления полностью прочитанных геномов мыши и крысы, сравнение некоторых генов из этих геномов позволило высказать гипотезу, что синонимичные нуклеотидные замены (не меняющие аминокислоту в кодируемом белке) в кодонах белок-кодирующих генов в большинстве случаев нейтральны, т.е. не подвержены отбору [58]. Эта гипотеза считается в значительной степени верной и по сей день, хотя были обнаружены важные исключения. Например, у дрозофилы использование "непредпочтительных" (более редких) синонимичных кодонов гена алкоголь дегидрогеназы приводит к снижению количества синтезируемого белка [59]. Известно, что синонимичные замены в кодонах сплайсируемых генов могут приводить к неправильному-сплайсингу [60]. Таким образом, хотя синонимичные замены в целом меньше подвержены отрицательному отбору, чем несинонимичные, они все-таки могут, влиять на работу генов и иметь адаптивное значение.

Сравнение последовательностей пар генов позволило сделать первые правдоподобные оценки скорости мутационных процессов. В 1969 Джукс и Кантор предложили одну из первых моделей нуклеотидных замен [61, 62], которая учитывала возможность множественных замен в одном и том же сайте. На тот момент из палеонтологических данных было известно, что самые древние акулы существовали примерно 400 миллионов лет назад. У акул, как и у людей, присутствуют гены альфа и бета гемоглобина, в то время как у более далеких человеку организмов таких генов не было найдено. При общей оценке возраста генов альфа и бета гемоглобина в 400 миллионов лет и предположении об их общем происхождении была получена оценка скорости мутагенеза — 1.4 замены на миллиард нуклеотидов в год, то есть, порядка 50-100 замен на гаплоидный геном на поколение (для человека). Это удивительно близко к современным оценкам (около 30 замен на геном на поколение), полученным при чтении полных геномов родителей и их детей [63], несмотря на то, что упомянутые оценки делались 40 лет назад, еще на заре появления технологий для чтения генетических последовательностей.

Теоретически выведенные оценки частоты мутаций, как те, что были получены Джуксом и Кантором, не учитывали нескольких важных факторов. Во-первых, на белок-кодирующие последовательности, в том числе на гены гемоглобина, действует довольно сильное давление естественного отбора. Другой неучтенный фактор - ошибочное допущение применимости матрицы замен Джукса и Кантора, в которой все замены считались равновероятными, что в большинстве случаев не верно. Существующие различия между частотами транзиций и трансверсий в 1980-ом году впервые предложил учитывать Кимура [64]. Другая модификация модели Джукса Кантора была предложена в 1981-ом году Фельзенштейном, она учитывала отличия в частотах нуклеотидов [65]. Однако модель Фельзенштейна не принимала во внимание разницу частот транзиций и трансверсий, как это делалось в матрице замен Кимуры. В 1985-ом появилась модель Хасегавы [66], которая, по сути, объединила модели Кимуры и Фельзенштейна, учитывая оба описанных выше наблюдения. Еще более сложной является модель Тамуры, которая не только учитывает частоты нуклеотидов и частоты транзиций и трансверсий (как это делает модель. Хасегавы), но и учитывает отличия между частотами двух типов транзиций (Аов) и (С<>Т). Программы, в которых используются эти и- другие модели нуклеотидных замен, такие как Рат1 [67], как правило, могут принимать на вход либо заданные параметры, такие как коэффициент каппа - отношение частоты транзиций к частоте трансверсий в матрице замен Кимуры, или вычислять эти параметры, исходя из предоставленных нуклеотидных последовательностей. Последний случай более успешно применяется в том случае, если доступных данных достаточно, чтобы полученные значения параметров отражали объективные закономерности, а не случайный шум.

Имея в наличии две последовательности, мы можем измерить дивергенцию между ними, найти консервативные участки, посчитать число замен различного типа, но, тем не менее, не можем определить направление эволюционных событий. Для того чтобы определить направление мутации, необходимо предсказать какой генетический вариант присутствовал у предка. При этом для реконструкции эволюционных событий строятся филогенетические деревья. Способы реконструкции предковых вариантов генетических последовательностей будут описаны ниже.

Для построения филогенетических деревьев используют несколько разных методов. Такие методы, как метод объединения соседей и метод ЦРвМА, имплементированные в большинство программ для анализа генетических последовательностей (например, в СИ^а^ [68]), используют матрицы расстояний, основанные на множественных нуклеотидных или аминокислотных выравниваниях анализируемых последовательностей. Алгоритм объединения соседей [69] таков:

1. На основании матрицы расстояний построить матрицу <3 по следующей формуле:

Я(ЬЗ) = {г - - к) 1

Здесь г - число последовательностей, а с!(У) - расстояние между последовательностями 1 и].

2. Найти пару последовательностей с наименьшим С) и объединить их в общий узел.

3. Посчитать расстояние от каждой из последовательностей в данной паре до этого узла.

4. Посчитать расстояние от всех остальных последовательностей до узла.

5. Вернуться в пункт один, только вместо пары последовательностей ближайших соседей, которых объединили на предыдущем этапе, использовать узел и расстояния от узла до других последовательностей в матрице весов.

Метод объединения соседей не использует гипотезу «молекулярных часов» (предположение о постоянной частоте изменений ДНК) и строит неукорененное дерево. При использовании метода иРОМА используется гипотеза «молекулярных часов» и строится укорененное дерево [70]. Сегодня для построения деревьев все чаще используют метод максимального правдоподобия, например, имплементированный в программе РЬуМ1 [71]. Подробней о молекулярных часах и методе максимального правдоподобия будет сказано ниже.

Для предсказания предковых последовательностей используются укорененные филогенетические деревья. Из укорененного дерева (все ветви которого имеют направление от предка к потомку) легко получается неукорененное дерево. Для этого достаточно убрать корень. А для получения укорененного дерева из неукорененного необходимо прибегнуть к дополнительным методам и использовать ряд допущений. Чаще всего используют метод внешней группы - когда к анализу добавляются последовательности достаточно близкие к исследуемым, чтобы их можно было сравнить с ними, но достаточно далекие, чтобы они гарантировано были "внешними" по отношению к исследуемым последовательностям на филогенетическом дереве. Типичный критерий для удачного выбора внешней группы - «филогенетическое расстояние от внешней группы до любой из анализируемых последовательностей должно быть больше, чем расстояние между любой парой анализируемых последовательностей». Если в некоторой позиции гена человека стоит нуклеотид А, в той же позиции ортологичного гена-шимпанзе стоит Т и в ортологичных генах внешней группы (например, орангутана, бабуина и макаки) тоже стоит Т, то мы можем установить не только факт произошедшей замены АоТ, но и указать ее направление Т>А. Такие же принципы используются при' сравнении паралогов - генов, возникших от общего предка в результате последовательных дупликаций. Точность реконструкции предковых состояний увеличивается, если использовать несколько последовательностей в качестве внешних групп.

Если внешние группы по каким-либо причинам не доступны, то можно использовать другие методы укоренения деревьев. Один такой метод использовать гипотезу о «молекулярных часах». При этом делается допущение,' что скорости мутационных изменений примерно постоянны во времени и между организмами (или последовательностями). Современной теоретической основой этого метода является нейтральная теория эволюции, предложенная Кимурой [72], которая гласит, что большая часть наблюдаемых нуклеотидных замен нейтральна. Разумеется, хотя эти допущения в значительной степени справедливы для нефункциональных участков генома, например, для псевдогенов, они часто оказываются ошибочными для кодирующих последовательностей, сайтов сплайсинга и других функциональных участков, поэтому такой метод надо использовать с осторожностью. Другой метод укоренения деревьев называется «методом укоренения в средней точке» (midpoint rooting), при котором корень дерева помещается в середину самой длинной ветви на дереве. Эмпирическая проверка показывает, что этот метод укоренения достаточно надежный — топология таких укорененных деревьев в большинстве случаев совпадает с топологией деревьев, для которых корень получен с использованием большого количества последовательностей, использованных в качестве внешней группы [73]. Более того, по всей видимости, этот метод может превосходить метод "внешней группы" в ряде условий (например, если нет нескольких согласованных между собой последовательностей внешних групп). В нашей работе требовались укорененные деревья последовательностей белок-кодирующих генов, для которых гипотеза "молекулярных часов" в большинстве случаев не верна. Поэтому, мы использовали укоренение деревьев в средней точке при построении филогенетических деревьев белков для анализа эволюции сайтов сплайсинга и укоренение с помощью внешней группы при анализе синонимичных и несинонимичных замен в дуплицированных генах человека.

Наличие филогенетического дерева необходимо, но не достаточно для поиска направленных изменений на его ветвях. Для реконструкции предковых состояний в узлах деревьев необходимо использовать какую-нибудь эволюционную модель. В настоящее время успешно используются два основных метода реконструкции. Метод «максимальной экономии», который заключается в том, что узлам деревьев присваиваются состояния таким-образом, чтобы минимизировать количество событий на всем дереве (без учета вероятности этих событий). Этот метод очень эффективен при большом спектре возможных условий [74],' особенно если анализируются редкие события. Но существуют ситуации, когда метод максимальной экономии дает заведомо неправильные результаты [75], например, при реконструкции предковых нуклеотидов, в случаях, когда вероятности мутаций в разных контекстах очень сильно отличаются. Предположим, что у нас есть дерево для трех видов -человека, шимпанзе и бабуина. Пусть у человека в некоторой позиции в геноме стоит дииуклеотид СО, у шимпанзе ТС и у бабуина тоже ТО. Бабуин формирует внешнюю группу для человека и шимпанзе, поэтому метод максимальной экономии укажет нам, что произошла мутация из ТО в СО на ветви дерева, ведущей к человеку от общего предка человека и шимпанзе. Однако, вероятность мутации СО>ТО превышает вероятность мутации ТО>СО в несколько раз. С учетом длин ветвей на указанном дереве, оказывается, что намного более вероятен сценарий, когда произошли две мутации СО>Тв на ветвях, ведущих к шимпанзе и бабуину. В таких ситуациях следует использовать метод максимального правдоподобия, параметрический метод, с помощью которого выбираются такие эволюционные параметры, при которых наблюдаемая картина эволюционных событий наиболее вероятна. Альтернативный способ - прибегнуть к методу максимальной экономии, но1-использовать большее число последовательностей в качестве внешней группы,, чтобы точно установить предковые состояния или использовать более близкие последовательности. Мы использовали метод максимальной экономии с двумя; последовательностями в качестве внешней группы при реконструкции предковых состояний полиморфизмов при анализе мутационных процессов в-геноме человека. Метод максимального правдоподобия был использован при анализе эволюции сайтов сплайсинга в семействах паралогичных генов человека.

Закономерности процессов мутагенеза и эволюции

Частоты мутаций в геноме человека и геномах других живых организмов существенно варьируют, как между хромосомами, так и между участками внутри одной хромосомы. На У хромосоме мутации происходят чаще, а на X хромосоме - реже, чем на аутосомах и, предположительно, это связано с различным количеством делений, через которые проходят клетки зародышего пути мужчин и женщин [76, 77]. В последовательностях ДНК человека транзиции происходят чаще, чем трансверсии, а сами частоты мутаций зависят от количества СрО динуклеотидов в рассматриваемом локусе [78, 79] и вС состава [80, 81]. До сих пор не существует общепринятой математической модели, которая хорошо описывала бы частоты нуклеотидных слов или мутаций в геномах живых организмов. Хотя наблюдаемые частоты очень сильно отличаются от предсказанных при использовании даже лучших моделей, исследования этих частот улучшают наше понимание происходящих процессов, в том числе облегчают поиск биологических и эволюционных механизмов, ответственных за наблюдаемые вариации [82, 83].

Цитозин, за, которым- следует гуанин (СрО или просто СО), является, самым известным и хорошо изученным примером короткого нуклеотидного слова в геноме человека, для которого существенно увеличена частота мутаций [40]. Еще в ранних 1960-ых было известно,,что во множестве геномов животных динуклеотиды СрО существенно недопредставлены [84, 85]. Позже это было объяснено тем, что особый фермент ДНК-метилтрансфераза метилирует, цитозины в таком контексте, превращая их в метил-цитозины, которые склонны-превращаться в тимин в результате процесса дезаминирования [41] (Рисунок 1). Этот механизм.мутагенеза сегодня активно изучается и представляет огромный интерес для биологов [44]. Также выяснилось, что этот механизм играет важную роль в патологическом процессе образования некоторых видов раковых опухолей [86]. Как уже упоминалось, эффект СрО>ТрО мутаций ярко выражен среди вредных мутаций, приводящих к появлению стоп-кодонов в кодирующих областях генов [39]. Существенные вариации существуют и в частотах мутаций в других нуклеотидных контекстах [45, 87], однако в случае человека конкретные мутационные мотивы не выделялись.

Повышенная частота мутаций СрО>ТрО у человека, по-видимому, является одной из причин существенной недопредставленности СрО динуклеотидов в геноме [88]. Для сравнения у плодовой мушки ОгозоркИа melanogaster не наблюдается недопредставленности Срй динуклеотидов, и отсутствует ключевой фактор, сказывающийся на повышенной частоте СрО>Трв мутаций — метилирование Срв динуклеотидов [89]. У дрозофилы отсутствует фермент ДНК-метилтрансфераза 01ЧМТ1, хотя у нее найдены похожие ферменты. Также интересно, что некоторые организмы, например, Ыеигоярога сгахяа и БассИаготусеБ сегеу18'ше по всей видимости не имеют стандартной ДНК метил-трансферазы, но все равно демонстрируют недостаток Св динуклеотидов [88]. а

N42 цитозин N

СНз метилирование

Н2 з 2 N О О б N

СНЗ

Н2

5"-метил цитозин о

5 з'4 5

СНз дезаминирование О

5'-МЄТІ1ЛЦИТ03ИН

5 4 ^Н тамин О

Рисунок 1. Метилирование цитозина (а) и последующее дезаминирование 5-метилцитозина (б).

Другое принципиальное отличие мутагенеза дрозофилы Огояоркйа melanogaster и человека — во многих областях генома дрозофилы одна из трансверсий, а именно (ОА) происходит с большей частотой, чем одна из транзиций [90]. У некоторых организмов вообще нет смещения мутаций в

25 пользу транзиций, например у кузнечика РосНята рес1е8М$ [91]. Наряду со словом СО, в геноме человека существуют другие слова, которые существенно недопредставлены в геноме, например, ТА [88] причины недопредставленности которого до сих пор не ясны.

Среди хорошо изученных механизмов мутагенеза человека следует упомянуть образование пиримидиновых димеров под действием ультрафиолетового света. Ультрафиолетовые лучи могут вызывать образование ковалентных связей между цитозинами или тиминами [92, 93] (Рисунок 2). Существуют специальные клеточные механизмы, направленные на восстановление таких повреждений ДНК, например, фермент ДНК-фотолиаза [94, 95]. Несмотря на это, клетка не успевает исправить часть образующихся под действием ультрафиолетового излучения пиримидиновых димеров. При репликации участка ДНК, содержащего пиримидиновый димер, часто происходят мутации [96]. Такие мутации являются одной из основных причин появления рака кожи — меланомы [97]. После воздействия ультрафиолета наиболее высокий риск появления меланомы наблюдается у людей с генетическими нарушениями системы фоторепарации, например, при рецессивном нарушении - пигментной ксеродерме. Недавно был прочитан полный геном злокачественной меланомы [98]. Анализ происшедших соматических мутаций в такой меланоме также свидетельствует о подавляющем количестве повреждений, вызванных ультрафиолетовыми светом.

В последнее время большое внимание при изучении процессов мутагенеза и эволюции в геноме человека и других эукариот уделяется явлению смещенной генной конверсии [99]. Многоклеточные эукариотические организмы при половом размножении используют мейоз, при котором возможен кроссинговер - сближение гомологичных хромосом с последующим обменом генетического материала между ними (рекомбинация). Если в гомологичных участках хромосом существуют отличия, например, разные нуклеотиды в какой-либо позиции, то может произойти конверсия - нуклеотид на одной из гомологичных хромосом станет таким же, как тот, что расположен на другой. Этот процесс смещен в сторону образования в и С нуклеотидов и, по-видимому, сказывается на увеличении СС состава в геномах различных организмов, начиная от дрожжей и заканчивая позвоночными [100]. Роль генной конверсии в эволюции пока до конца не ясна. В некоторых работах обосновывается, что смещенная генная конверсия может вести к фиксации вредных и слабовредных мутаций из аденина или тимина в цитозин или гуанин [101]. О О ны

О- N мї\1Н

IV 4 И

6' 2' N О

Я'

2'

N ^О

Рисунок 2. Образование пиримидинового димера под действием ультрафиолетового света.

Как уже упоминалось выше, цитозины в Срв динуклеотидах в геноме человека часто находятся в метилированном состоянии [40]. Еще одно важное свойство этих динуклеотидов заключается в том, что существуют участки ДНК, называемые Срв островами, в которых количество СрС динуклеотидов существенно больше, чем в среднем по геному [102]. Известно и то, что в этих участках метилирование цитозинов в составе Срв динуклеотидов менее выражено. Существует представление, что существование СрО островов отчасти вызвано таким неравномерным метилированием генома:: в участках, где метилирования меньше, будет меньше мутаций из цитозина в тимин, и такие участки, впоследствии, становятся СрО островами. Шестая глава данной диссертации посвящена исследованию вопроса: объясняет ли сниженный уровень метилирования упомянутое снижение частоты мутаций в Срв островах полностью.

Большой интерес представляют не только закономерности мутагенеза, но и закономерности действия естественного отбора. Отрицательный отбор, направленный на сохранение полезных генетических последовательностей, обнаружен не только в последовательностях генов [103], но и в некоторых межгенных участках [104, 105], функции которых пока не ясны. В некодирующих областях, более того, в областях далеких от генов, находят и участки, находящиеся под давлением положительного отбора [106]. Давление отрицательного отбора на вредные аллели генов, может приводить к уменьшению разнообразия нейтральных сцепленных аллелей [107]. У людей,, по-видимому, давление отбора различается между половыми хромосомами (например, X хромосомой) и аутосомами [108].

Одним из важнейших источников разнообразия генетического материала живых организмов является процесс дупликации генов [109]. Обычно дупликации происходят либо за счет гомологичной рекомбинации, либо в результате активности ретротранспозонов, либо при дупликации целой хромосомы [110] или всего генома. В теории, появление второй копии гена должно приводить не просто к накоплению дополнительного генетического материала, над которым может действовать отбор (в том числе положительный), но и к ослабленному действию отрицательного отбора на одной из копий гена, а значит, к повышенной вероятности появления гена с новой функцией. Дупликации генов способствуют увеличению генетического (и связанного с ним - фенотипического) разнообразия и имеют непосредственное отношение к целому ряду генетических заболеваний [111]. Эволюционное происхождение многогенных семейств исследовалось у разных организмов как на примере отдельных генных семейств [112-116], так и в масштабах полногеномного анализа [117-121].

Семейства дуплицированных генов человека также представляют хорошую модель для поиска закономерностей эволюции сайтов сплайсинга, особенно в свете все нарастающего интереса к взаимосвязи между эволюцией сплайсинга генов и дупликациями [122-124]. Здесь был выявлен целый ряд закономерностей [124]. Во-первых, у дуплицированных генов в среднем меньше альтернативных изоформ, чем у одиночных генов. Это может быть связано с тем, что и альтернативный сплайсинг и дупликации генов являются взаимозаменяющими методами увеличения разнообразия мРНК продуктов. Это предположение согласуется и с той закономерностью, что более крупные генные семейства имеют меньше альтернативных изоформ. Кроме того, , изменения моделей альтернативного сплайсинга чаще всего происходят в скором времени после дупликации - у молодых паралогов [124].

Сравнительные исследования эволюции сайтов сплайсинга у человека и мышей показали, что альтернативный сплайсинг генов ассоциирован с недавними рождениями и исчезновениями экзонов [125]. При этом интересно, что сами альтернативные сайты не очень консервативны между видами, как у насекомых [126], так и у млекопитающих [127, 128]. Консервативность альтернативных сайтов сплайсинга повышается, если расстояние между существующими альтернативными- сайтами кратно трем или если альтернативные изоформы используются примерно в равной мере [129].

По имеющимся оценкам, в среднем у млекопитающих (на примере грызунов) рождается 2.71 новых экзонов на 1000 генов за миллион лет [130]. При этом у таких новых экзонов преобладает ускоренная эволюция - высокие значения dN/dS с предположительным положительным отбором, высокие частоты инсерций и делеций. Такие экзоны в своем большинстве альтернативны, имеют низкий уровень экспрессии и часто имеют уникальные последовательности, свидетельствующие в пользу их образования из бывших интронов. Роль «экзонизации» интронов при появлении новых функциональных белков подтверждается сходством консервативности аминокислотных последовательностей, кодируемых новыми альтернативными экзонами, а также окружающих белковых последовательностей [131].

Поскольку каждая глава данной диссертации имеет свою специфику, для удобства читателя обзор литературы будет несколько расширен по каждой из тем во введениях к каждой из последующих глав.

Заключение Диссертация по теме "Математическая биология, биоинформатика", Панчин, Александр Юрьевич

7. Выводы

1. Создана коллекция фрагментов транскриптов человека, содержащая 4,260 последовательностей EST, которые, вопреки обозначенному источнику происхождения, не имеют сходства с какими-либо последовательностями в геноме человека. Анализ этой коллекции показал, что транскриптом человека загрязнен нуклеотидными последовательностями прокариот, вирусов и даже последовательностями других млекопитающих и растений.

2. Проведен анализ встречаемости 1-7 нуклеотидных слов в 139 полных ' геномах эукариот. Слово ТА является недопредставленным в наибольшем числе геномов. Описан ряд организмов, в геномах которых обнаружены отклонения от известных закономерностей недопредставленности и перепредставленности нуклеотидных слов, и выявлен ряд новых закономерностей.

3. Установлено предковое состояние для примерно трех миллионов одиночных полиморфизмов человека. Выявлен более чем трехкратный избыток Т>С мутаций во вторых позициях слов ATTG и ATAG, а также А>С мутаций в первой позиции слова АСАА.

4. Проведен анализ эволюции семейств паралогичных генов человека, содержащих более 500 генов. Примерно одна пятая часть пар ближайших паралогов человека накапливают несинонимичные замены с разной скоростью, при этом доля функционально важных несинонимичных замен существенно преобладает в быстро эволюционирующих копиях генов.

5. В 70% рассмотренных семейств многоэкзонных генов обнаружено хотя бы одно событие изменения модели сплайсинга гена после дупликации.

Альтернативные сайты эволюционно подвижнее: они чаще рождаются и умирают, а также чаще переходят в конститутивные, чем наоборот.

161

6. Подтверждено, что частота мутаций метилированных цитозинов в СрО динуклеотидах внутри СрО островов понижена по сравнению с остальным геномом. Показано, что этот эффект не объясняется отличиями в частоте рекомбинаций или локальным нуклеотидным составом.

Благодарности

Автор выражает благодарность своему научному руководителю Ирене Игоревне Артамоновой, а также своим учителям Михаилу Сергеевичу Гельфанду, Андрею Владимировичу Алексеевскому, Сергею Александровичу Спирину, Юрию Борисовичу Лебедеву, Сергею Менделевичу Глаголеву, Владимиру Вениаминовичу Алешину; а также своим соавторам Сергею Игоревичу Митрофанову, Юлии Анатольевне Медведевой, Всеволоду Юрьевичу Макееву, Сергею Анатольевичу Лукьянову, Василию Евгеньевичу Раменскому; а также людям, помогавшим в работе на разных ее этапах Александру Ивановичу Тужикову, Рамилю Наилевичу Нуртдинову, Степану Владимировичу Денисову, Евгению Владимировичу Леушкину, Георгию Александровичу Базыкину и многим другим, а также всем коллегам, с которыми происходил продуктивный обмен идеями на многочисленных семинарах и конференциях, а также уважаемым оппонентам Андрею Александровичу Миронову и Сергею Эдуардовичу Спиридонову, и своим родителям за постоянную поддержку.

Автор также благодарит за поддержку Российский фонд фундаментальных исследований и Министерство образования и науки Российский Федерации (Федеральная целевая программа « Научные и научно-педагогические кадры инновационной России на 2009 — 2013 годы »).

Список публикаций по теме диссертации

1. Panchin A.Y., Spirin S.A., Lukyanov S.A., Lebedev Y.B., Panchin Y.V. "Human trash ESTs - sequences from cDNA collection that are not aligned to genome assembly". // Journal of Bioinformatics and Computational Biology. - 2008 — V. 6 — P. 759-73.

2. Mitrofanov S.I., Panchin A.Y., Spirin S.A., Alexeevski A.V., Panchin Y.V. "Exclusive sequences of different genomes". // Journal of Bioinformatics and Computational Biology. - 2010 - V. 8 - P. 519-34.

3. Panchin A.Y., Gelfand M.S., Ramensky V.E., Artamonova I.I. Asymmetric and non-uniform evolution of recently duplicated human genes. // Biology Direct. - 2010 -V. 5-P. 54.

4. Panchin A.Y., Mitrofanov S.I., Alexeevski A.V., Spirin S.A., Panchin Y.V. "New words in human mutagenesis". // BMC Bioinformatics. - 2011 - V. 12 - P. 268.

5. Panchin A.Y., Shustrova E.N., Artamonova I.I. "Recently duplicated human genes: Basics of evolution". // J Biomol Struct Dyn. - V. 28 - P. 1068

6. Panchin A.Y. et al. "Human trash EST study". // Proceedings of the International Moscow Conference on Computational Molecular Biology (MCCMB'07) - 2007 - P. 124.

7. Паичин А. Ю., Артамонова И. И. "Эволюция недавно дуплицировавшихся паралогов генома человека". «Информационные технологии и системы» (ИТиС'08). Сборник тезисов. - 2008 - С. 308-313

8. Panchin A.Y., Artamonova I.I., Ramensky V.E., Gelfand M.S. "Major trends in the evolution of young human paralogs". // Proceedings of the International Moscow Conference on Computational Molecular Biology (MCCMB*09). - 2009 - P. 281.

9. Mitrofanov S.I., Panchin A.Y., Alexeevski A.V., Spirin S.S., Panchin Y.V. "Exceptional nucleotide sequences in genomes of different organisms" // Proceedings of the International Moscow Conference on Computational Molecular Biology (MCCMB'09). - 2009 - P. 240.

10. Митрофанов С.И., Панчин А.Ю., Спирин C.A., Панчин Ю.В., Алексеевский А.А. "Исключительные последовательности в геномах различных организмов". // «Информационные' технологии и системы» (ИТиС'09). Сборник тезисов -2009-С. 351-353.

11. Панчин А.Ю., Артамонова И.И. "Эволюция моделей альтернативного сплайсинга паралогичных генов человека". // «Информационные технологии и системы» (ИТиС'09). Сборник тезисов. - 2009 - С. 347-350.

12. Панчин А.Ю., Митрофанов С.И., Алексеевский А.В., Спирин С.А., Панчин Ю.В. "Зависимость мутационных процессов в геноме человека от контекста". // «Информационные технологии и системы» (ИТиС"10). Сборник тезисов. - 2010 -С. 358-360.

13. Panchin A.Y., Mitrofanov S.I., Spirin S.A., Alexeevski A.V., Panchin Y.V. "Human mutagenesis in context". // Proceedings of the International Moscow Conference on Computational Molecular Biology (MCCMB'l 1). - 2011 - P. 274-275

14. Panchin A.Y., Makeev V.Y., Medvedeva Y.A. "Decreased mutation rate of 5mCpG within CpG islands in the human genome. // Proceedings of the International Moscow Conference on Computational Molecular Biology (MCCMB'l 1). - 2011 - P. 228.

15. Панчин А.Ю., Артамонова И.И. "Эволюция сайтов сплайсинга в семействах недавно дуплицированных генов человека". // «Информационные технологии и системы» (ИТиС"11). Сборник тезисов. - 2011 - С. 107-111

16. Панчин А.Ю., Макеев В.Ю., Медведева Ю.А. "Снижение частоты мутаций метилцитозинов в CpG островах". // «Информационные технологии и системы» (ИТиС"11). Сборник тезисов. - 2011 - С. 271-275

17. Panchin A.Y., Shustrova E.N., Gelfand M.S., Artamonova I.I. "Evolution of recently duplicated human genes." // Abstract of papers presented at the 2010 Cold Spring Harbor Asia Conference "Computational Biology" — P. 12

Библиография Диссертация по биологии, кандидата биологических наук, Панчин, Александр Юрьевич, Москва

1. Schmucker D, Clemens JC, Shu H, Worby CA, Xiao J, Muda M, Dixon JE, Zipursky SL Drosophila Dscam is an axon guidance receptor exhibiting extraordinary molecular diversity. //Cell.-2000-V. 101-P. 671-684.

2. Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM et al Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. // Science. 1995 - V. 269 - P. 496-512.

3. Lander ES, Linton LM, Birren B, Nusbaum С, Zody MC, Baldwin J, Devon K, Dewar K, Doyle M, FitzHugh W et al Initial sequencing and analysis of the human genome. // Nature. 2001 - V. 409 - P. 860-921.

4. Mitrofanov SI, Panchin AY, Spirin SA, Alexeevski AV, Panchin YV Exclusive sequences of different genomes. // J Bioinform Comput Biol. 2010 - V. 8 - P. 519-534.

5. Shendure J, Porreca GJ, Reppas NB, Lin X, McCutcheon JP, Rosenbaum AM, Wang MD, Zhang K, Mitra RD, Church GM Accurate multiplex polony sequencing of an evolved bacterial genome. // Science. 2005 - V. 309 - P. 1728-1732.

6. King C, Scott-Horton T Pyrosequencing: a simple method for accurate genotyping. // J Vis Exp.-2008-V,-P.

7. Bennett ST, Barnes C, Cox A, Davies L, Brown С Toward the 1,000 dollars human genome. // Pharmacogenomics. 2005 - V. 6 - P. 373-382.

8. Rothberg JM, Ilinz W, Rearick TM, Schultz J, Mileski W, Davey M, Leamon JH, Johnson K, Milgrew MJ, Edwards M et al An integrated semiconductor device enabling non-optical genome sequencing. // Nature. 2011 - V. 475 - P. 348-352.

9. Harris TD, Buzby PR, Babcock H, Beer E, Bowers J, Braslavsky I, Causey M, Colonell J, Dimeo J, Efcavitch JW et al Single-molecule DNA sequencing of a viral genome. // Science. -2008 — V. 320-P. 106-109.

10. Eid J, Fehr A, Gray J, Luong K, Lyle J, Otto G, Peluso P, Rank D, Baybayan P, Bettman B et al Real-time DNA sequencing from single polymerase molecules. // Science. 2009 — V. 323-P. 133-138.

11. Korlach J, Bjornson KP, Chaudhuri BP, Cicero RL, Flusberg BA, Gray JJ, Holden D, Saxena R, Wegener J, Turner SW Real-time DNA sequencing from single polymerase molecules. // Methods Enzymol. 2010 - V. 472 - P. 431-455.

12. Nurtdinov RN, Neverov AD, Mal'ko DB, Kosmodem'ianskii IA, Ermakova EO, Ramenskii VE, Mironov AA, Gel'fand MS EDAS, databases of alternatively spliced human genes. // Biofizika. 2006 - V. 51 - P. 589-592.

13. Lister R, Pelizzola M, Dowen RH, Hawkins RD, Hon G, Tonti-Filippini J, Nery JR, Lee L, Ye Z, Ngo QM et al Human DNA methylomes at base resolution show widespread epigenomic differences. // Nature. 2009 - V. 462 - P. 315-322.

14. Illingworth RS, Gruenewald-Schneider U, Webb S, Kerr AR, James KD, Turner DJ, Smith C, Harrison DJ, Andrews R, Bird AP Orphan CpG islands identify numerous conserved promoters in the mammalian genome. // PLoS Genet. 2010 - V. 6 - P.

15. Smallwood SA, Tomizawa S, Krueger F, Ruf N, Carli N, Segonds-Pichon A, Sato S, Hata K, Andrews SR, Kelsey G Dynamic CpG island methylation landscape in oocytes and preimplantation embryos. // Nat Genet. 2011 - V. 43 - P. 811-814.

16. Green RE, Krause J, Briggs AW, Maricic T, Stenzel U, Kircher M, Patterson N, Li H, Zhai W, Fritz MH et al A draft sequence of the Neandertal genome. // Science. 2010 - V. 328 -P. 710-722.

17. Reich D, Green RE, Kircher M, Krause J, Patterson N, Durand EY, Viola B, Briggs AW, Stenzel U, Johnson PL et al Genetic history of an archaic hominin group from Denisova Cave in Siberia. // Nature. 2010 - V. 468 - P. 1053-1060.

18. Initial sequence of the chimpanzee genome and comparison with the human genome. // Nature. 2005 - V. 437 - P. 69-87.20. //-!!! INVALID CITATION !!! V. - P.

19. Gibbs RA, Rogers J, Katze MG, Bumgarner R, Weinstock GM, Mardis ER, Remington KA, Strausberg RL, Venter JC, Wilson RK et al Evolutionary and biomedical insights from the rhesus macaque genome. // Science. 2007 - V. 316 - P. 222-234.

20. Aminetzach YT, Macpherson JM, Petrov DA Pesticide resistance via transposition-mediated adaptive gene truncation in Drosophila. // Science. 2005 - V. 309 - P. 764-767.

21. Burrus V, Waldor MK Shaping bacterial genomes with integrative and conjugative elements. // Res Microbiol. 2004 - V. 155 - P. 376-386.

22. Bertram JS The molecular biology of cancer. // Mol Aspects Med. 2000 - V. 21 - P. 167223.

23. Hozumi N, Tonegawa S Evidence for somatic rearrangement of immunoglobulin genes coding for variable and constant regions. // Proc Natl Acad Sei USA.- 1976 V. 73 - P. 3628-3632.

24. Burdette WJ The somatic mutation hypothesis of cancer genesis. // Science. 1953 - V. 118 -P. 196-197.

25. Stratton MR Exploring the genomes of cancer cells: progress and promise. // Science. 2011 -V. 331-P. 1553-1558.

26. Holland J, Spindler K, Horodyski F, Grabau E, Nichol S, VandePol S Rapid evolution of RNA genomes. // Science. 1982 - V. 215 - P. 1577-1585.

27. Robertson DL, Hahn BH, Sharp PM Recombination in AIDS viruses. // J Mol Evol. — 1995 — V. 40-P. 249-259.

28. Rambaut A, Posada D, Crandall KA, Holmes EC The causes and consequences of HIV evolution. // Nat Rev Genet. 2004 - V. 5 - P. 52-61.

29. Drake JW Rates of spontaneous mutation among RNA viruses. // Proc Natl Acad Sci USA. 1993-V. 90-P. 4171-4175.

30. Kellis M, Birren BW, Lander ES Proof and evolutionary analysis of ancient genome duplication in the yeast Saccharomyces cerevisiae. // Nature. 2004 — V. 428 — P. 617-624.

31. Dehal P, Boore JL Two rounds of whole genome duplication in the ancestral vertebrate. // PLoS Biol. 2005 - V. 3 - P. e314.

32. JW IJ, Baldini A, Ward DC, Reeders ST, Wells RA Origin of human chromosome 2: an ancestral telomere-telomere fusion. // Proc Natl Acad Sci U S A. 1991 - V. 88 - P. 90519055.

33. Olivier M, Taniere P Somatic mutations in cancer prognosis and prediction: lessons from TP53 and EGFR genes. // Curr Opin Oncol. 2011 - V. 23 - P. 88-92.

34. Markowitz SD, Bertagnolli MM Molecular origins of cancer: Molecular basis of colorectal cancer. // N Engl J Med. 2009 - V. 361 - P. 2449-2460.

35. Rubinsztein DC, Easton DF Apolipoprotein E genetic variation and Alzheimer's disease, a meta-analysis. // Dement Geriatr Cogn Disord. 1999 - V. 10 - P. 199-209.

36. Bobadilla JL, Macek M, Jr., Fine JP, Farrell PM Cystic fibrosis: a worldwide analysis of CFTR mutations—correlation with incidence data and application to screening. // Hum Mutat. 2002 - V. 19 - P. 575-606.

37. Mort M, Ivanov D, Cooper DN, Chuzhanova NA A meta-analysis of nonsense mutations causing human genetic disease. // Hum Mutat. 2008 - V. 29 - P. 1037-1047.

38. Bird AP DNA methylation and the frequency of CpG in animal DNA. // Nucleic Acids Res. 1980-V. 8-P. 1499-1504.

39. Cooper DN, Krawczak M Cytosine methylation and the fate of CpG dinucleotides in vertebrate genomes. // Hum Genet. 1989 -V. 83 - P. 181-188.

40. Gagnon-Kugler T, Langlois F, Stefanovsky V, Lessard F, Moss T Loss of human ribosomal gene CpG methylation enhances cryptic RNA polymerase II transcription and disrupts ribosomal RNA processing. // Mol Cell. 2009 - V. 35 - P. 414-425.

41. Fujishiro H, Okugaki S, Yasumitsu S, Enomoto S, Himeno S Involvement of DNA hypermethylation in down-regulation of the zinc transporter ZIP8 in cadmium-resistant metallothionein-null cells. // Toxicol Appl Pharmacol. 2009 - V. 241 - P. 195-201.

42. Zemach A, McDaniel IE, Silva P, Zilberman D Genome-wide evolutionary analysis of eukaryotic DNA methylation. // Science. -2010 V. 328 - P. 916-919.

43. Arnheim N, Calabrese P Understanding what determines the frequency and pattern of human germline mutations. // Nat Rev Genet. 2009 - V. 10 - P. 478-488.

44. Krawczak M, Thomas NS, Hundrieser B, Mort M, Wittig M, Hampe J, Cooper DN Single base-pair substitutions in exon-intron junctions of human genes: nature, distribution, and consequences for mRNA splicing. // Hum Mutat. 2007 - V. 28 - P. 150-158.

45. Lopez-Bigas N, Audit B, Ouzounis C, Parra G, Guigo R Are splicing mutations the most frequent cause of hereditary disease? // FEBS Lett. 2005 - V. 579 - P. 1900-1903.

46. Dutertre M, Vagner S, Auboeuf D Alternative splicing and breast cancer. I I RNA Biol. -2010-V. 7-P. 403-411.

47. Berasain C, Goni S, Castillo J, Latasa MU, Prieto J, Avila MA Impairment of pre-mRNA splicing in liver disease: mechanisms and consequences. // World J Gastroenterol. — 2010 — V. 16-P. 3091-3102.

48. Pistoni M, Ghigna C, Gabellini D Alternative splicing and muscular dystrophy. // RNA Biol. -2010-V. 7-P. 441-452.

49. Evsyukova I, Somarelli J A, Gregory SG, Garcia-Blanco MA Alternative splicing in multiple sclerosis and other autoimmune diseases. // RNA Biol. — 2010 V. 7 - P. 462-473.

50. Rubin BY, Anderson SL The molecular basis of familial dysautonomia: overview, new discoveries and implications for directed therapies. // Neuromolecular Med. 2008 — V. 10 — P.148-156.

51. Faustino NA, Cooper TA Pre-mRNA splicing and human disease. // Genes Dev. 2003 - V. 17-P. 419-437.

52. Danckwardt S, Neu-Yilik G, Thermann R, Frede U, Hentze MW, Kulozik AE Abnormally spliced beta-globin mRNAs: a single point mutation generates transcripts sensitive and insensitive to nonsense-mediated mRNA decay. // Blood. 2002 - V. 99 - P. 1811-1816.

53. Nott A, Le Hir H, Moore MJ Splicing enhances translation in mammalian cells: an additional function of the exon junction complex. // Genes Dev. — 2004 V. 18 - P. 210-222.

54. Chang YF, Imam JS, Wilkinson MF The nonsense-mediated decay RNA surveillance pathway. // Annu Rev Biochem. 2007 - V. 76 - P. 51-74.

55. Wolfe KH, Sharp PM Mammalian gene evolution: nucleotide sequence divergence between mouse and rat. // J Mol Evol. 1993 - V. 37 - P. 441-456.

56. Carlini DB, Stephan W In vivo introduction of unpreferred synonymous codons into the Drosophila Adh gene results in reduced levels of ADH protein. // Genetics. 2003 - V. 163 -P. 239-243.

57. Pagani F, Raponi M, Baralle FE Synonymous mutations in CFTR exon 12 affect splicing and are not neutral in evolution. // Proc Natl Acad Sci USA.- 2005 V. 102 - P. 63686372.

58. Jukes TH, Cantor CR Evolution of protein molecules. // Mammalian Protein Metabolism. -1969-V.-P. 112.

59. Holmquist R, Cantor C, Jukes T Improved procedures for comparing homologous sequences in molecules of proteins and nucleic acids. // J Mol Biol. 1972 - V. 64 - P. 145-161.

60. Consortium TGP A map of human genome variation from population-scale sequencing. // Nature.-2010-V. 467-P. 1061-1073.

61. Kimura M A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences. // J Mol Evol. 1980 - V. 16 - P. 111-120.

62. Felsenstein J Evolutionary trees from DNA sequences: a maximum likelihood approach. // J Mol Evol. 1981 - V. 17 - P. 368-376.

63. Hasegawa M, Kishino H, Yano T Dating of the human-ape splitting by a molecular clock of mitochondrial DNA. // J Mol Evol. 1985 - V. 22 - P. 160-174.

64. Yang Z PAML 4: phylogenetic analysis by maximum likelihood. // Mol Biol Evol. 2007 -V. 24-P. 1586-1591.

65. Larkin MA, Blackshields G, Brown NP, Chenna R, McGettigan PA, McWilliam H, Valentin F, Wallace 1M, Wilm A, Lopez R et al Clustal W and Clustal X version 2.0. // Bioinformatics. 2007 - V. 23 - P. 2947-2948.

66. Saitou N, Nei M The neighbor-joining method: a new method for reconstructing phylogenetic trees. // Mol Biol Evol. 1987 - V. 4 - P. 406-425.

67. Sokal R, Michener C A statistical method for evaluating systematic relationships. // University of Kansas Science Bulletin. 1958 - V. 38-P.30.

68. Guindon S, Dufayard JF, Lefort V, Anisimova M, Hordijk W, Gascuel O New algorithms and methods to estimate maximum-likelihood phylogenies: assessing the performance of PhyML 3.0. // Syst Biol. 2010 - V. 59 - P. 307-321.

69. Kimura M The neutral theory of molecular evolution and the world view of the neutralists. // Genome. 1989 - V. 31 - P. 24-31.

70. Hess PN, Russo CA An empirical test of the midpoint rooting method. // Biological Journal of the Linnean Society. 2007 - V. 92 - P. 6.

71. Kolaczkowski B, Thornton JW Performance of maximum parsimony and likelihood phylogenetics when evolution is heterogeneous. // Nature. 2004 - V. 431 - P. 980-984.

72. Duret L The GC content of primates and rodents genomes is not at equilibrium: a reply to Antezana. // J Mol Evol. 2006 - V. 62 - P. 803-806.

73. Miyata T, Hayashida H, Kuma K, Mitsuyasu K, Yasunaga T Male-driven molecular evolution: a model and nucleotide sequence analysis. II Cold Spring Harb Symp Quant Biol. 1987-V. 52-P. 863-867.

74. Makova KD, Li WH Strong male-driven evolution of DNA sequences in humans and apes. // Nature. 2002 - V. 416 - P. 624-626.

75. Walser JC, Furano AV The mutational spectrum of non-CpG DNA varies with CpG content. // Genome Res. 2010 - V. 20 - P. 875-882.

76. Hellmann I, Prufer K, Ji H, Zody MC, Paabo S, Ptak SE Why do human diversity levels vary at a megabase scale?//Genome Res. 2005 - V. 15 - P. 1222-1231.

77. Fryxell KJ, Moon WJ CpG mutation rates in the human genome are highly dependent on local GC content. // Мої Biol Evol. 2005 - V. 22 - P. 650-658.

78. Zhao Z, Jiang C Methylation-dependent transition rates are dependent on local sequence lengths and genomic regions. // Мої Biol Evol. 2007 - V. 24 - P. 23-25.

79. Rogozin IB, Pavlov YI Theoretical analysis of mutation hotspots and their DNA sequence context specificity. // Mutat Res. 2003 - V. 544 - P. 65-85.

80. Rogozin IB, Malyarchuk BA, Pavlov YI, Milanesi L From context-dependence of mutations to molecular mechanisms of mutagenesis. // Рас Symp Biocomput. 2005 - V. - P. 409420.

81. Josse J, Kaiser AD, Kornberg A Enzymatic synthesis of deoxyribonucleic acid. VIII. Frequencies of nearest neighbor base sequences in deoxyribonucleic acid. // J Biol Chem. -1961-V. 236-P. 864-875.

82. Swartz MN, Trautner TA, Kornberg A Enzymatic synthesis of deoxyribonucleic acid. XI. Further studies on nearest neighbor base sequences in deoxyribonucleic acids. // J Biol Chem. 1962 - V. 237 - P. 1961 -1967.

83. Kanai Y, Hirohashi S Alterations of DNA methylation associated with abnormalities of DNA methyltransferases in human cancers during transition from a precancerous to a malignant state. // Carcinogenesis. 2007 - V. 28 - P. 2434-2442.

84. Nevarez PA, DeBoever CM, Freeland BJ, Quitt MA, Bush EC Context dependent substitution biases vary within the human genome. // BMC Bioinformatics. 2010 - V. 11 — P. 462.

85. Bürge C, Campbell AM, Karlin S Over- and under-representation of short oligonucleotides in DNA sequences. // Proc Natl Acad Sei U S A. 1992 - V. 89 - P. 1358-1362.

86. Hung MS, Karthikeyan N, Huang B, Koo HC, Kiger J, Shen CJ Drosophila proteins related to vertebrate DNA (5-cytosine) methyltransferases. // Proc Natl Acad Sei USA.- 1999 V. 96-P. 11940-11945.

87. Singh ND, Arndt PF, Clark AG, Aquadro CF Strong evidence for lineage and sequence specificity of substitution rates and patterns in Drosophila. // Mol Biol Evol. 2009 - V. 26 -P. 1591-1605.

88. Keller I, Bensasson D, Nichols RA Transition-transversion bias is not universal: a counter example from grasshopper pseudogenes. // PLoS Genet. 2007 - V. 3 - P. e22.

89. Goodsell DS The molecular perspective: ultraviolet light and pyrimidine dimers. // Oncologist. 2001 - V. 6 - P. 298-299.

90. Whitmore SE, Potten CS, Chadwick CA, Strickland PT, Morison WL Effect of photoreactivating light on UV radiation-induced alterations in human skin. // Photodermatol Photoimmunol Photomed. 2001 - V. 17 - P. 213-217.

91. Essen LO, Klar T Light-driven DNA repair by photolyases. // Cell Mol Life Sei. 2006 - V. 63-P. 1266-1277.

92. Essen LO Photolyases and cryptochromes: common mechanisms of DNA repair and light-driven signaling? // Curr Opin Struct Biol. 2006 - V. 16 - P. 51-59.

93. Choi JH, Besaratinia A, Lee DH, Lee CS, Pfeifer GP The role of DNA polymerase iota in UV mutational spectra. // Mutat Res. 2006 - V. 599 - P. 58-65.

94. Vink AA, Roza L Biological consequences of cyclobutane pyrimidine dimers. // J Photochem Photobiol B. 2001 - V. 65 - P. 101-104.

95. Pleasance ED, Cheetham RK, Stephens PJ, McBride DJ, Humphray SJ, Greenman CD, Varela I, Lin ML, Ordonez GR, Bignell GR et al A comprehensive catalogue of somatic mutations from a human cancer genome. // Nature. — 2010 V. 463 - P. 191-196.

96. Duret L, Galtier N Biased gene conversion and the evolution of mammalian genomic landscapes. // Annu Rev Genomics Hum Genet. 2009 - V. 10 - P. 285-311.

97. Marais G Biased gene conversion: implications for genome and sex evolution. // Trends Genet. 2003 - V. 19 - P. 330-338.

98. Galtier N, Duret L, Glemin S, Ranwez V GC-biased gene conversion promotes the fixation of deleterious amino acid changes in primates. // Trends Genet. — 2009 — V. 25 — P. 1-5.

99. Gardiner-Garden M, Frommer M CpG islands in vertebrate genomes. // J Mol Biol. 1987 -V. 196-P. 261-282.

100. Hellmann I, Zollner S, Enard W, Ebersberger 1, Nickel B, Paabo S Selection on human genes as revealed by comparisons to chimpanzee cDNA. // Genome Res. — 2003 V. 13 — P. 831837.

101. Bush EC, Lahn BT Selective constraint on noncoding regions of hominid genomes. // PLoS Comput Biol. 2005 - V. 1 - P. e73.

102. Shabalina SA, Ogurtsov AY, Kondrashov VA, Kondrashov AS Selective constraint in intergenic regions of human and mouse genomes. // Trends Genet. 2001 - V. 17 - P. 373376.

103. Bush EC, Lahn BT A genome-wide screen for noncoding elements important in primate evolution. // BMC Evol Biol. 2008 - V. 8 - P. 17.

104. Charlesworth B, Morgan MT, Charlesworth D The effect of deleterious mutations on neutral molecular variation. // Genetics. 1993 -V. 134 - P. 1289-1303.

105. Payseur BA, Cutter AD, Nachman MW Searching for evidence of positive selection in the human genome using patterns of microsatellite variability. // Mol Biol Evol. 2002 — V. 19 -P. 1143-1153.

106. Ohta T Role of gene duplication in evolution. // Genome. 1989 - V. 31 - P. 304-310.

107. Zhang J Evolution by gene duplication: an update. // Trends in Ecology & Evolution. 2003 -V. 18-P. 7

108. Conrad B, Antonarakis SE Gene duplication: a drive for phenotypic diversity and cause of human disease. // Annu Rev Genomics Hum Genet. 2007 - V. 8 - P. 17-35.

109. Ye C, Sun H, Guo W, Wei Y, Zhou Q Molecular evolution of PKD2 gene family in mammals. // Genetica. 2009 - V. 137 - P. 77-86.

110. Lane RP, Cutforth T, Young J, Athanasiou M, Friedman C, Rowen L, Evans G, Axel R, Hood L, Trask BJ Genomic analysis of orthologous mouse and human olfactory receptor loci. // Proc Natl Acad Sci U S A. 2001 - V. 98 - P. 7390-7395.

111. Shustrova EN, Artamonova, II Evolutionary history of the SSX family of human C/T-antigens., // Mol Biol (Mosk). 2009 - V. 43 - P. 1025-1031.

112. Artamonova, II, Gelfand MS Evolution of the exon-intron structure and alternative splicing of the MAGE-A family of cancer/testis antigens. // J Mol Evol. 2004 - V. 59 - P. 620-631.

113. Kuepfer L, Sauer U, Blank LM Metabolic functions of duplicate genes in Saccharomyces cerevisiae.//Genome Res. 2005 - V. 15 - P. 1421-1430.

114. Conant GC, Wagner A Duplicate genes and robustness to transient gene knock-downs in Caenorhabditis elegans. // Proc Biol Sci. 2004 - V. 271 - P. 89-96.

115. Davis JC, Petrov DA Preferential duplication of conserved proteins in eukaryotic genomes. // PLoS Biol. 2004 - V. 2 - P. E55.

116. He X, Zhang J Higher duplicability of less important genes in yeast genomes. // Mol Biol Evol. 2006 - V. 23 - P. 144-151.

117. Lynch M, Conery JS The evolutionary fate and consequences of duplicate genes. // Science. 2000 - V. 290 - P. 1151-1155.

118. Zhan Z, Ren J, Zhang Y, Zhao R, Yang S, Wang W Evolution of alternative splicing in newly evolved genes of Drosophila. // Gene. 2011 — V. 470 - P. 1-6.

119. Zhang Z, Zhou L, Wang P, Liu Y, Chen X, Hu L, Kong X Divergence of exonic splicing elements after gene duplication and the impact on gene structures. // Genome Biol. 2009 — V. 10-P. R120.

120. Su Z, Wang J, Yu J, Huang X, Gu X Evolution of alternative splicing after gene duplication. // Genome Res.- 2006 V. 16-P. 182-189.

121. Modrek B, Lee CJ Alternative splicing in the human, mouse and rat genomes is associated with an increased frequency of exon creation and/or loss. // Nat Genet. 2003 - V. 34 - P. 177-180.

122. Malko DB, Makeev VJ, Mironov AA, Gelfand MS Evolution of exon-intron structure and alternative splicing in fruit flies and malarial mosquito genomes. // Genome Res. 2006 - V. 16-P. 505-509.

123. Nurtdinov RN, Artamonova, II, Mironov AA, Gelfand MS Low conservation of alternative splicing patterns in the human and mouse genomes. // Hum Mol Genet. 2003 - V. 12 - P. 1313-1320.

124. Nurtdinov RN, Neverov AD, Favorov AV, Mironov AA, Gelfand MS Conserved and species-specific alternative splicing in mammalian genomes. // BMC Evol Biol. 2007 - V. 7-P. 249.

125. Wang W, Zheng H, Yang S, Yu H, Li J, Jiang H, Su J, Yang L, Zhang J, McDermott J et al Origin and evolution of new exons in rodents. // Genome Res. 2005 - V. 15 - P. 12581264.

126. Kondrashov FA, Koonin EV Evolution of alternative splicing: deletions, insertions and origin of functional parts of proteins from intron sequences. // Trends Genet. 2003 - V. 19 -P. 115-119.

127. Boguski MS, Lowe TM, Tolstoshev CM dbEST—database for "expressed sequence tags". // Nat Genet. 1993 - V. 4 - P. 332-333.

128. Hess JL The Cancer Genome Anatomy Project: power tools for cancer biologists. // Cancer Invest. 2003 - V. 21 - P. 325-326.

129. Bonaldo MF, Lennon G, Soares MB Normalization and subtraction: two approaches to facilitate gene discovery. // Genome Res. 1996 - V. 6 - P. 791-806.

130. Adesnik M, Darnell JE Biogenesis and characterization of histone messenger RNA in HeLa cells. // J Mol Biol. 1972 - V. 67 - P. 397-406.

131. Levenson RG, Marcu KB On the existence of polyadenylated histone mRNA in Xenopus laevis oocytes. // Cell. 1976 - V. 9 - P. 311-322.

132. Dreyfus M, Regnier P The poly(A) tail of mRNAs: bodyguard in eukaryotes, scavenger in bacteria. // Cell. 2002 - V. 111 - P. 611-613.

133. Boguski MS The turning point in genome research. // Trends Biochem Sci. 1995 - V. 20 -P. 295-296.

134. Venter JC, Adams MD, Myers EW, Li PW, Mural RJ, Sutton GG, Smith HO, Yandell M, Evans CA, Holt RA et al The sequence of the human genome. // Science. 2001 — V. 291 — P. 1304-1351.

135. Venter JC, Remington K, Heidelberg JF, Halpern AL, Rusch D, Eisen JA, Wu D, Paulsen I, Nelson KE, Nelson W et al Environmental genome shotgun sequencing of the Sargasso Sea. // Science. 2004 - V. 304 - P. 66-74.

136. Schoenfeld T, Patterson M, Richardson PM, Wommack KE, Young M, Mead D Assembly of viral metagenomes from yellowstone hot springs. // Appl Environ Microbiol. — 2008 — V. 74 p. 4164-4174.

137. Baker BJ, Tyson GW, Webb RI, Flanagan J, Hugenholtz P, Allen EE, Banfield JF Lineages of acidophilic archaea revealed by community genomic analysis. // Science. 2006 — V. 314 -P. 1933-1935.

138. Arumugam M, Raes J, Pelletier E, Le Paslier D, Yamada T, Mende DR, Fernandes GR, Tap J, Bruls T, Batto JM et al Enterotypes of the human gut microbiome. // Nature. 2011 - V. 473-P. 174-180.

139. Kulikova T, Akhtar R, Aldebert P, Althorpe N, Andersson M, Baldwin A, Bates K, Bhattacharyya S, Bower L, Browne P et al EMBL Nucleotide Sequence Database in 2006. // Nucleic Acids Res. 2007 - V. 35 - P. D16-20.

140. Swindell SR, Plasterer TN SEQMAN. Contig assembly. // Methods Mol Biol. 1997 - V. 70-P. 75-89.

141. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ Basic local alignment search tool. // J Mol Biol. 1990- V. 215 -P. 403-410.

142. Levy S, Sutton G, Ng PC, Feuk L, Halpern AL, Walenz BP, Axelrod N, Huang J, Kirkness EF, Denisov G et al The diploid genome sequence of an individual human. // PLoS Biol. — 2007-V. 5-P. e254.

143. White SJ, den Dunnen JT Copy number variation in the genome; the human DMD gene as an example. // Cytogenet Genome Res. 2006 - V. 115 - P. 240-246.

144. Redon R, Ishikawa S, Fitch KR, Feuk L, Perry GH, Andrews TD, Fiegler H, Shapero MH, Carson AR, Chen W et al Global variation in copy number in the human genome. // Nature. 2006 - V. 444 - P. 444-454.

145. Montgomery MK, Xu S, Fire A RNA as a target of double-stranded RNA-mediated genetic interference in Caenorhabditis elegans. // Proc Natl Acad Sci USA.- 1998 V. 95 - P. 15502-15507.

146. Edgar R, Domrachev M, Lash AE Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. // Nucleic Acids Res. 2002 - V. 30 - P. 207-210.

147. Fire A, Xu S, Montgomery MK, Kostas SA, Driver SE, Mello CC Potent and specific genetic interference by double-stranded RNA in Caenorhabditis elegans. // Nature. 1998 -V.391-P. 806-811.

148. Feinberg EH, Hunter CP Transport of dsRNA into cells by the transmembrane protein SID-1. // Science. 2003 - V. 301 - P. 1545-1547.

149. Duxbury MS, Ashley SW, Whang EE RNA interference: a mammalian S1D-1 homologue enhances siRNA uptake and gene silencing efficacy in human cells. // Biochem Biophys Res Commun. 2005 - V. 331 - P. 459-463.

150. Karlin S, Campbell AM, Mrazek J Comparative DNA analysis across diverse genomes. // Annu Rev Genet. 1998 - V. 32 - P. 185-225.

151. Karlin S, Mrazek J, Campbell AM Compositional biases of bacterial genomes and evolutionary implications. // J Bacteriol. 1997 -V. 179 - P. 3899-3913.

152. Schbath S, Prum B, de Turckheim E Exceptional motifs in different Markov chain models for a statistical analysis of DNA sequences. // J Comput Biol. — 1995 V. 2 - P. 417-437.

153. Regnier M, Vandenbogaert M Comparison of statistical significance criteria. // J Bioinform Comput Biol. 2006 - V. 4 - P. 537-551.

154. Karlin S, Cardon LR Computational DNA sequence analysis. // Annu Rev Microbiol. 1994 -V. 48-P. 619-654.

155. Sabater-Munoz B, Legeai F, Rispe C, Bonhomme J, Dearden P, Dossat C, Duclert A, Gauthier JP, Ducray DG, Hunter W et al Large-scale gene discovery in the pea aphid Acyrthosiphon pisum (Hemiptera). // Genome Biol. 2006 - V. 7 - P. R21.

156. Breslauer KJ, Frank R, Blocker H, Marky LA Predicting DNA duplex stability from the base sequence. // Proc Natl Acad Sci USA.- 1986 V. 83 - P. 3746-3750.

157. Delcourt SG, Blake RD Stacking energies in DNA. // J Biol Chem. 1991 - V. 266 - P. 15160-15169.

158. Babinger P, Volkl R, Cakstina I, Maftei A, Schmitt R Maintenance DNA methyltransferase (Metl) and silencing of CpG-methylated foreign DNA in Volvox carteri. // Plant Mol Biol. -2007-V. 63-P. 325-336.

159. Gehring M, Henikoff S DNA methylation dynamics in plant genomes. // Biochim Biophys Acta. 2007 - V. 1769 - P. 276-286.

160. Ashikawa I, Numa H, Sakata K Segmental distribution of genes harboring a CpG island-like region on rice chromosomes. // Mol Genet Genomics. 2006 - V. 275 - P. 18-25.

161. Moroz LL, Edwards JR, Puthanveettil SV, Kohn AB, Ha T, Heyland A, Knudsen B, Sahni A, Yu F, Liu L et al Neuronal transcriptome of aplysia: neuronal compartments and circuitry. // Cell. 2006 - V. 127 - P. 1453-1467.

162. Hodgkinson A, Ladoukakis E, Eyre-Walker A Cryptic variation in the human mutation rate. // PLoS Biol. 2009 - V. 7 - P. el000027.

163. Blake RD, Hess ST, Nicholson-Tuell J The influence of nearest neighbors on the rate and pattern of spontaneous point mutations. // J Mol Evol. 1992 - V. 34 - P. 189-200.

164. Hwang DG, Green P Bayesian Markov chain Monte Carlo sequence analysis reveals varying neutral substitution patterns in mammalian evolution. // Proc Natl Acad Sci USA.- 2004 -V. 101 -P. 13994-14001.

165. Kondrashov AS, Rogozin IB Context of deletions and insertions in human coding sequences. // Hum Mutat. 2004 - V. 23 - P. 177-185.

166. Gaffney DJ, Keightley PD The scale of mutational variation in the murid genome. // Genome Res.-2005-V. 15-P. 1086-1094.

167. Matassi G, Sharp PM, Gautier C Chromosomal location effects on gene sequence evolution in mammals.//Curr Biol. 1999-V. 9-P. 786-791.

168. Jeffreys AJ, Royle NJ, Wilson V, Wong Z Spontaneous mutation rates to new length alleles at tandem-repetitive hypervariable loci in human DNA. // Nature. 1988 - V. 332 - P. 278281.

169. Xu B, Roos JL, Dexheimer P, Boone B, Plummer B, Levy S, Gogos JA, Karayiorgou M Exome sequencing supports a de novo mutational paradigm for schizophrenia. // Nat Genet. -2011 -V.-P.

170. Rhead B, Karolchik D, Kuhn RM, Hinrichs AS, Zweig AS, Fujita PA, Diekhans M, Smith KE, Rosenbloom KR, Raney В J et al The UCSC Genome Browser database: update 2010. // Nucleic Acids Res. 2010 - V. 38 - P. D613-619.

171. Hakes L, Pinney JW, Lovell SC, Oliver SG, Robertson DL All duplicates are not equal: the difference between small-scale and genome duplication. // Genome Biol. — 2007 V. 8 — P. R209.

172. Scannell DR, Wolfe KH A burst of protein sequence evolution and a prolonged period of asymmetric evolution follow gene duplication in yeast. // Genome Res. 2008 - V. 18 - P. 137-147.

173. Wagner A Asymmetric functional divergence of duplicate genes in yeast. // Мої Biol Evol. — 2002-V. 19-P. 1760-1768.

174. Conant GC, Wagner A Asymmetric sequence divergence of duplicate genes. // Genome Res. 2003 - V. 13 - P. 2052-2058.

175. Jordan IK, Wolf YI, Koonin EV Duplicated genes evolve slower than singletons despite the initial rate increase. // BMC Evol Biol. 2004 - V. 4 - P. 22.

176. Kondrashov FA, Rogozin IB, Wolf YI, Koonin EV Selection in the evolution of gene duplications. // Genome Biol. 2002 - V. 3 - P. RESEARCH0008.

177. Hughes T, Liberies DA The pattern of evolution of smaller-scale gene duplicates in mammalian genomes is more consistent with neo- than subfunctionalisation. // J Mol Evol. -2007-V. 65-P. 574-588.

178. Zhang P, Gu Z, Li WH Different evolutionary patterns between young duplicate genes in the human genome. // Genome Biol. 2003 - V. 4 - P. R56.

179. Cusack BP, Wolfe KH Not born equal: increased rate asymmetry in relocated and retrotransposed rodent gene duplicates. // Mol Biol Evol. 2007 - V. 24 - P. 679-686.

180. Chain FJ, Ilieva D, Evans BJ Duplicate gene evolution and expression in the wake of vertebrate allopolyploidization. // BMC Evol Biol. 2008 - V. 8 - P. 43.

181. Pruitt KD, Tatusova T, Maglott DR NCBI reference sequences (RefSeq): a curated nonredundant sequence database of genomes, transcripts and proteins. // Nucleic Acids Res. -2007-V. 35-P. D61-65.

182. Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler D The human genome browser at UCSC. // Genome Res. 2002 - V. 12 - P. 996-1006.

183. Tarailo-Graovac M, Chen N Using RepeatMasker to identify repetitive elements in genomic sequences. // Curr Protoc Bioinformatics. 2009 - V. Chapter 4 - P. Unit 4 10.

184. Zhang Z, Schwartz S, Wagner L, Miller W A greedy algorithm for aligning DNA sequences. // J Comput Biol. 2000 - V. 7 - P. 203-214.

185. Lynch M, Katju V The altered evolutionary trajectories of gene duplicates. // Trends Genet. 2004 - V. 20 - P. 544-549.

186. Feller W: An introduction to probability theory and its applications. 3rd edn. New York ; Chichester: Wiley; 1970. // — V. P.

187. Beissbarth T, Speed TP GOstat: find statistically overrepresented Gene Ontologies within a group of genes. // Bioinformatics. 2004 - V. 20 - P. 1464-1465.

188. Ramensky V, Bork P, Sunyaev S Human non-synonymous SNPs: server and survey. // Nucleic Acids Res. 2002 - V. 30 - P. 3894-3900.

189. Kim SH, Yi SV Correlated asymmetry of sequence and functional divergence between duplicate proteins of Saccharomyces cerevisiae. // Mol Biol Evol. 2006 - V. 23 - P. 10681075.

190. Chung WY, Albert R, Albert I, Nekrutenko A, Makova KD Rapid and asymmetric divergence of duplicate genes in the human gene coexpression network. // BMC Bioinformatics. 2006 - V. 7 - P. 46.

191. Sunyaev S, Kondrashov FA, Bork P, Ramensky V Impact of selection, mutation rate and genetic drift on human genetic variation. // Hum Mol Genet. 2003 — V. 12 - P. 3325-3330.

192. Gorlov IP, Gorlova OY, Sunyaev SR, Spitz MR, Amos CI Shifting paradigm of association studies: value of rare single-nucleotide polymorphisms. // Am J Hum Genet. 2008 - V. 82 -P. 100-112.

193. Vizcaino JA, Cote R, Reisinger F, Foster JM, Mueller M, Rameseder J, Hermjakob H, Martens L A guide to the Proteomics Identifications Database proteomics data repository. // Proteomics. 2009 - V. 9 - P. 4276-4283.

194. Stoletzki N, Eyre-Walker A Synonymous codon usage in Escherichia coli: selection for translational accuracy. // Mol Biol Evol. 2007 - V. 24 - P. 374-381.

195. Pavlov MY, Watts RE, Tan Z, Cornish VW, Ehrenberg M, Forster AC Slow peptide bond formation by proline and other N-alkylamino acids in translation. // Proc Natl Acad Sci U S A. -2009 — V. 106-P. 50-54.

196. Marais G, Duret L Synonymous codon usage, accuracy of translation, and gene length in Caenorhabditis elegans. // J Mol Evol. 2001 - V. 52 - P. 275-280.

197. Crombie T, Swaffield JC, Brown AJ Protein folding within the cell is influenced by controlled rates of polypeptide elongation. // J Mol Biol. 1992 - V. 228 - P. 7-12.

198. Willie E, Majewski J Evidence for codon bias selection at the pre-mRNA level in eukaryotes. // Trends Genet. 2004 - V. 20 - P. 534-538.

199. Urrutia AO, Hurst LD Codon usage bias covaries with expression breadth and the rate of synonymous evolution in humans, but this is not evidence for selection. // Genetics. 2001 — V. 159 -P. 1191-1199.

200. Parmley JL, Hurst LD Exonic splicing regulatory elements skew synonymous codon usage near intron-exon boundaries in mammals. // Mol Biol Evol. 2007 - V. 24 - P. 1600-1603.

201. Dhir A, Buratti E Alternative splicing: role of pseudoexons in human disease and potential therapeutic strategies. // FEBS J. 2010 - V. 277 - P. 841-855.

202. Itoh H, Washio T, Tomita M Computational comparative analyses of alternative splicing regulation using full-length cDNA of various eukaryotes. // RNA. 2004 - V. 10 - P. 10051018.

203. Yang W, Li QZ One parameter to describe the mechanism of splice sites competition. // Biochem Biophys Res Commun. 2008 - V. 368 - P. 379-381.

204. Zhang MQ Statistical features of human exons and their flanking regions. // Hum Mol Genet. 1998-V. 7-P. 919-932.

205. Nurtdinov RN, Mironov AA, Gelfand MS Rodent-specific alternative exons are more frequent in rapidly evolving genes and in paralogs. // BMC Evol Biol. 2009 - V. 9 - P. 142.

206. Kopelman NM, Lancet D, Yanai I Alternative splicing and gene duplication are inversely correlated evolutionary mechanisms. // Nat Genet. 2005 - V. 37 - P. 588-589.

207. Xu EY, Moore FL, Pera RA A gene family required for human germ cell development evolved from an ancient meiotic gene conserved in metazoans. // Proc Natl Acad Sci USA. 2001 - V. 98 - P. 7414-7419.

208. Smith PJ, Zhang C, Wang J, Chew SL, Zhang MQ, Krainer AR An increased specificity score matrix for the prediction of SF2/ASF-specific exonic splicing enhancers. // Hum Mol Genet. 2006 - V. 15 - P. 2490-2508.

209. Cartegni L, Wang J, Zhu Z, Zhang MQ, Krainer AR ESEfinder: A web resource to identify exonic splicing enhancers. //Nucleic Acids Res. -2003 -V. 31 P. 3568-3571.

210. Chalasani N, Wo JM, Hunter JG, Waring JP Significance of intestinal metaplasia in different areas of esophagus including esophagogastric junction. // Dig Dis Sci. — 1997 V. 42 — P. 603-607.

211. O'Sullivan MJ, Kyriakos M, Zhu X, Wick MR, Swanson PE, Dehner LP, Humphrey PA, Pfeifer JD Malignant peripheral nerve sheath tumors with t(X;18). A pathologic and molecular genetic study. // Mod Pathol. 2000 - V. 13 - P. 1253-1263.

212. Qiu WQ, de Bruin D, Brownstein BH, Pearse R, Ravetch JV Organization of the human and mouse low-affinity Fc gamma R genes: duplication and recombination. // Science. 1990 -V. 248-P. 732-735.

213. Sved J, Bird A The expected equilibrium of the CpG dinucleotide in vertebrate genomes under a mutation model. // Proc Natl Acad Sci U S A. 1990 - V. 87 - P. 4692-4696.

214. Tomso DJ, Bell DA Sequence context at human single nucleotide polymorphisms: overrepresentation of CpG dinucleotide at polymorphic sites and suppression of variation in CpG islands. // J Mol Biol. 2003 - V. 327 - P. 303-308.

215. Razin A, Riggs AD DNA methylation and gene function. // Science. 1980 - V. 210 - P. 604-610.

216. Grunau C, Renault E, Rosenthal A, Roizes G MethDB~a public database for DNA methylation data. // Nucleic Acids Res. 2001 - V. 29 - P. 270-274.

217. Bradbury J Human epigenome project—up and running. // PLoS Biol. 2003 - V. 1 - P. E82.

218. Oswald J, Engemann S, Lane N, Mayer W, Olek A, Fundele R, Dean W, Reik W, Walter J Active demethylation of the paternal genome in the mouse zygote. // Curr Biol. — 2000 V. 10-P. 475-478.

219. Najm FJ, Chenoweth JG, Anderson PD, Nadeau JH, Redline RW, McKay RD, Tesar PJ Isolation of epiblast stem cells from preimplantation mouse embryos. // Cell Stem Cell. -2011 -V. 8-P. 318-325.

220. Shamblott MJ, Axelman J, Wang S, Bugg EM, Littlefield JW, Donovan PJ, Blumenthal PD, Huggins GR, Gearhart JD Derivation of pluripotent stem cells from cultured human primordial germ cells. //ProcNatl Acad Sci U S A. 1998 -V. 95 - P. 13726-13731.

221. Guan K, Nayernia K, Maier LS, Wagner S, Dressel R, Lee JH, Nolte J, Wolf F, Li M, Engel W et al Pluripotency of spermatogonial stem cells from adult mouse testis. // Nature. — 2006 V. 440-P. 1199-1203.

222. Graves JA Sex chromosome specialization and degeneration in mammals. // Cell. 2006 -V. 124-P. 901-914.

223. Broman KW, Murray JC, Sheffield VC, White RL, Weber JL Comprehensive human genetic maps: individual and sex-specific variation in recombination. // Am J Hum Genet. — 1998 — V. 63-P. 861-869.

224. Dib C, Faure S, Fizames C, Samson D, Drouot N, Vignal A, Millasseau P, Marc S, Hazan J, Seboun E et al A comprehensive genetic map of the human genome based on 5,264 microsatellites. I I Nature. 1996 - V. 380 - P. 152-154.

225. Kong A, Gudbjartsson DF, Sainz J, Jonsdottir GM, Gudjonsson SA, Richardsson B, Sigurdardottir S, Barnard J, Hallbeck B, Masson G et al A high-resolution recombination map of the human genome. // Nat Genet. 2002 - V. 31 - P. 241-247.

226. Hare JT, Taylor JH Methylation in eucaryotes influences the repair of G/T and A/C DNA basepair mismatches. // Cell Biophys. 1989 - V. 15 - P. 29-40.

227. Stamatoyannopoulos JA, Adzhubei I, Thurman RE, Kryukov GV, Mirkin SM, Sunyaev SR Human mutation rate associated with DNA replication timing. // Nat Genet. 2009 — V. 41 -P. 393-395.

228. Medvedeva YA, Fridman MV, Oparina NJ, Malko DB, Ermakova EO, Kulakovskiy IV, Heinzel A, Makeev VJ Intergenic, gene terminal, and intragenic CpG islands in the human genome. // BMC Genomics. 2010 - V. 11 - P. 48.