Бесплатный автореферат и диссертация по биологии на тему
Исследование функциональных особенностей CpG островов, в частности участвующих в инициации транскрипции во внутригенных и межгенных областях генома человека, методами биоинформатики
ВАК РФ 03.01.03, Молекулярная биология

Автореферат диссертации по теме "Исследование функциональных особенностей CpG островов, в частности участвующих в инициации транскрипции во внутригенных и межгенных областях генома человека, методами биоинформатики"

На правах рукописи

Медведева Юлия Анатольевна

Исследование функциональных особенностей Срв островов, в частности участвующих в инициации транскрипции во внутригенных и межгенных областях генома человека, методами биоинформатики

03.01.03 — Молекулярная биология

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата биологических наук

-2 ДЕК 2010

Москва — 2010

004615413

Работа выполнена в лаборатории биоинформатики ФГУП «Государственный научно-исследовательский институт генетики и селекции промышленных микроорганизмов» (ФГУП «ГосНИИгенетика»).

Научный руководитель:

Доктор физико-математических наук ФГУП «ГосНИИгенетика»

Макеев Всеволод Юрьевич

Официальные оппоненты:

Доктор биологических наук, профессор ФГУП «ГосНИИгенетика»

Носиков Валерий Васильевич

Кандидат физико-математических наук

Алексеевский Андрей Владимирович

Институт физико-химической биологии им. А.Н.Белозерского, МГУ

Ведущая организация: Институт молекулярной биологии им. В.А. Энгельгардта, РАН

Защита состоится «7» декабря 2010 г. в 14 часов на заседании Диссертационного Совета Д 217.013.01 при Государственном научно-исследовательском институте генетики и селекции промышленных микроорганизмов по адресу: 117545, г. Москва, 1-й Дорожный проезд, д. 1.

С диссертацией можно ознакомиться в библиотеке ФГУП «ГосНИИгенетика». Автореферат разослан «_» ноября 2010 г.

Ученый секретарь Диссертационного Совета,

кандидат химических наук Воюшина ТЛ.

Общая характеристика работы Актуальность темы исследования

В настоящее время большое значение придается изучению эпигенетических механизмов, влияющих на реализацию генетической информации. Развитие экспериментальных методов молекулярной биологии позволило получить не только нуклеотидные последовательности геномов различных организмов, но и их эпигенетические профили на различных стадиях развития и в различных тканях организма. Вследствие этого становится особенно важным понять взаимосвязь между генетическими и эпигенетическим механизмами хранения, реализации и передачи наследственной информации. Одним из связующих звеньев между генетическими и эпигенетическими механизмами наследственности, по-видимому, являются особые сегменты ДНК, называемые СрО островами. Эти участки ДНК обладают специфическим составом нуклео-тидов и динуклеотидов, и часто отличаются тем, что присутствующий в них цитозин в положении перед гуанином подвергается метилированию существенно реже, чем в среднем по геному.

Как это ни удивительно, несмотря на многочисленные работы, доказывающие участие Срв островов во множестве процессов в клетке, до сих пор не существует общепризнанного классифицирующего определения этих участков. Чаще всего для определения СрО островов используются алгоритмы т ¿Шсо, которые можно разделить на две категории: алгоритмы «скользящего окна» и алгоритмы кластеризации. В алгоритмах обоих типов используются пороги, не имеющие достаточного биологического обоснования. Верификация результатов работы алгоритмов затруднена в связи с множеством процессов, имеющих отношение к образованию, поддержанию и функционированию СрЭ островов. В частности, все попытки создать алгоритм, который бы определял СрО острова на основании некоторой единственной функции (СрО острова в 5' обла-

сти генов, участки, с неметилированными СрО динуклеотидами и т.д.), приводили к высокому проценту ложно-положительных предсказаний. Вполне вероятно, что каждое из имеющихся на данный момент определений СрО островов выделяет «химерный» класс ДНК сегментов, для которых не существует общей молекулярной структуры или функции.

Выделение функционально однородных СрО островов должно облегчить дальнейшее исследование эпигенетических механизмов. Данная работа направлена на изучение механизмов, ответственных за формирование СрО островов, что в перспективе должно дать возможность построения алгоритма определения функционально однородных Срй островов /л яШсо.

Объект и метод исследования

Объектом исследования являются СрО острова в геноме человека и структурные элементы внутри них, особое внимание уделяется СрО островам, расположенным на относительном удалении от точки инициации транскрипции известных белок-кодирующих генов.

Основным методом, применяемым в диссертационном исследовании, является теоретический анализ публично доступных экспериментальных данных.

Цель и задачи исследования

Основной целью данного исследования является определение молекулярных свойств СрО островов, расположенных вдали от стартов транскрипции известных генов, выявление их внутренней структуры, факторов стабилизирующего отбора, поддерживающего наличие СрО островов, и описание особенностей мутационного процесса внутри СрО островов в геноме человека.

Достижение поставленных целей предполагает решение следующих задач.

• Проверка гипотезы о том, что CpG острова вдали от точек инициации транскрипции известных белок-кодирующих генов не являются артефактом метода теоретического определения CpG островов.

■ Определение величины давления отбора внутри CpG островов разных локализаций.

• Описание особенностей мутационного процесса внутри CpG островов.

• Выявление общих и отличительных структурных свойств CpG островов, расположенных вблизи и вдали от стартов известных генов.

• Определение особенностей первичной структуры ДНК вблизи точек инициации транскрипции.

Научная новизна диссертационного исследования

В данной работе было впервые в масштабе полного генома показано, что CpG острова в значительной степени пересекаются с белок-коди-рующими экзонами, что не удается объяснить аминокислотным составом кодируемого белка. Показано, что в пределах CpG островов, перекрывающиеся с экзонами, и расположенных в любой области гена наблюдается снижение уровня синонимичных замен в CpG-содержащих кодонах, что указывает на наличие давления отбора. Кроме того, CpG острова, расположенные в любой области генома, содержат точки инициации транскрипции, определенные методом анализа экспрессии генов путем захвата за модифицированный 5'-конец РНК (Cap-analysis gene expression, CAGE), а также участки связывания фактора инициации транскрипции Spl.

Показано, что участки ДНК, содержащие большое число точек инициации транскрипции на данной цепи, обладают повышенным содержанием гуанина на кодирующей цепи. При этом цитозин, присутствующий на данной цепи в меньшем количестве, имеет тенденцию кластеризоваться в полинуклеотидные тракты и мотивы, подобные участкам спе-

цифического связывания фактора инициации транскрипции

Также в работе было продемонстрировано, что мутационный процесс в СрО острове имеет существенные характерные особенности. Замены СрО > Трв (СрА) в Срв острове встречаются реже, чем вне СрС острова. Данный эффект не объясняется исключительно меньшим уровнем метилирования цитозина в Срв острове и сохраняется, если исследовать только цитозины, метилированные в клетках, близких к зародышевой линии. Уровень замен СС, СО, ОС, СО в любых направлениях, не снижающих общего ОС содержания, значимо выше в СрО островах в сравнении с остальным геномом.

Практическая значимость исследования

Полученные в работе свидетельства транскрипционной активности СрО остовов, удаленных от точек инициации транскрипции известных белок-кодирующих генов, указывает на необходимость пересмотра концепции полногеномной транскрипции как явления, происходящего крайне редко. Под контролем перекрывающихся СрО островами промоторов мгут синтезироваться неизвестные ранее типы молекул некодирующей РНК. В последнее время идет активное накопление данных о полиморфизмах, ассоциированных с различными наследственными заболеваниями, и не затрагивающих никаких известных белок-кодирующих генов. Можно предположить, что подобные полиморфизмы влияют на промоторы, контролирующие синтез нкРНК. Таким образом, результаты нашей работы позволяют выявить участки ДНК, не участвующие в синтезе мРНК, но важные с точки зрения молекулярной биологии и молекулярной медицины. Кроме того, полученные результаты о взаимодействии метилирования и мутационного процесса внутри СрО островов могут быть использованы при изучении механизмов возникновения болезней, связанных с изменением эпигенома, таких как рак, диабет, болезнь Альцгеймера и др.

Полученные в работе сведения о структурно-функциональных элементах, связанных с точками инициации транскрипции, могут быть использованы для построения алгоритма определения функционально-однородных СрО островов.

Апробация диссертационного исследования

Основные результаты работы были представлены на Московской Конференции по Вычислительной и Молекулярной Биологии в 2005, 2007 и

2009 гг., на Международной школе «Биоинформатика, геномика, протео-мика» в Алматы в 2006 г., на Российско-Германской школе им. Гельм-гольца по Системной Биологии в Москве в 2008 г., на Международной Конференции по Исследованиям в Области Вычислительной Молекулярной Биологии в Сингапуре в 2008 г., на конференции «Биоинформатика, Геномной Регуляции и Структуры» в Новосибирске в 2008 г., на Конференциях Европейского Научного Фонда «Функциональная геномика и заболевания» в Инсбруке, Австрия, в 2008 г. и в Дрездене, Германия, в

2010 г.

По материалам диссертации опубликовано 12 печатных работ, включая 3 статьи в реферируемых научных журналах, а также материалы докладов на научных конференций.

Апробация диссертационного исследования проведена на заседании секции «Молекулярная биология» Ученого Совета ФГУП «ГосНИИгене-тика».

Структура и объем диссертационного исследования

Диссертационное исследование, изложенное на 153 листах машинописного текста, включает в себя введение, обзор литературы, четыре главы, содержащие результаты и обсуждение, заключение, выводы и библиографический список из 255 наименований. Работа содержит 10 рисунков и 13 таблиц.

Основное содержание диссертационного исследования Введение и обзор литературы

Раздел содержит аналитический обзор литературы, посвященный сравнению современных подходов к определению CpG островов в эксперименте и in silico, а также описанию биологических функций, которые ассоциированы с CpG островами. Кроме того, в разделе излагается мотивация постановки задач.

Глава 1. Свидетельства функциональной значимости CpG островов, полученные методами сравнительной геномики

В данной главе проверяются гипотезы о том, что участки ДНК, определяемые как CpG острова классическим алгоритмом их поиска, не могут возникнуть в наблюдаемом в геноме количестве за счет случайных флук-туаций нуклеотидного и динуклеотидного состава в G+C обогащенных областях. Кроме того, приводятся свидетельства того, что CpG динук-леотиды в CpG островах находятся под давлением отбора, что позволяет предположить наличие у них биологических функций.

1.1. CpG острова не являются результатом случайных флуктуации нуклеотидного состава

Геном человека был смоделирован марковской моделью второго порядка с частотами динуклеотидов, соответствующими таковым в реальном геноме. Просканировав реальный геном и модель окном в 1000 п.о., мы обнаружили статистически высоко значительные различия (t-тест, р = 7,8 ■ 10"12) количества CpG динуклеотидов в окне между реальным геномом и моделью, что позволяет сделать вывод о крайне маловероятном появлении CpG островов в геноме человека в наблюдаемом количестве вследствие флуктуаций нуклеотидного состава.

1.2. СрО острова пересекаются с белок-кодирующими экзонами

Тенденция СрО островов пересекаться с экзонами была неоднократно показана на небольшом количестве генов. Мы решили дать оценку этому эффекту в масштабах полного генома, определив суммарную длину пересечения с СрО островами для экзонов и интронов в разных частях гена.

На рис. 1 видно, что для всех категорий экзонов (кроме экзонов в 3' некодирующих областях (НКО)) г-5соге перекрытия с СрО островами больше, чем для соответствующих им интронов. СрО острова чаще всего перекрывают 5' НКО и первые кодирующие экзоны, вследствие того, что обычно имеют длину около 1000 п.о. и, располагаясь вокруг точки инициации транскрипции, перекрывают не только 5' НКО, но и первый кодирующий экзон. Однако длина многоэкзонного гена в геноме человека обычно превышает 1000 п.о., поэтому объяснить таким образом тенденцию внутренних и концевых экзонов к пересечению с Срв островами не удается.

600 500 400 300 200 100 0 -100

Рис. 1. 2-$соте перекрытия Срв островов и различных участков гена

1.3. Пересечение Срв островов и зкзонов не объясняется повышенным С+в составом экзоиов

Алгоритмы поиска СрО островов часто используют содержание цито-зина и гуанина, а также СрС динуклеотидов в качестве параметров. Известно, что экзоны содержат большую процентную долю цитозина и гуанина, чем интроны. Некоторые экзоны содержат большое количество СрО динуклеотидов (например, в составе аргининового кодона). Такие экзоны могут ошибочно определяться как СрО острова, что объясняет тенденцию к пересечению СрО островов и экзонов.

Другое возможно объяснение заключается в том, что и СрО острова, и экзоны представляют собой области, которые выполняют различные функции, но, тем не менее, предпочтительно располагаются в одних и те же сегментах ДНК. В таком случае участки интронов, расположенные вплотную к экзонами должны также пересекаться с островами относительно чаще, внутренних частей протяженных интронов. На рис. 1 можно видеть, что г-ясоге пересечения СрО островов с частями интронов, расположенных рядом с донорным и акцепторным сайтами сплайсинга, ближе к г-ясоге пересечения СрО островов с экзонами, чем с нитронами. Такое поведение лучше согласуется с гипотезой о том, что экзоны и СрО острова предпочитают располагаться в одном и том же месте ДНК, но при этом принадлежат к различным функциональным классам последовательностей.

1.4. Внутри Срв острова снижен уровень синонимичных замен в Срв-содержащих кодонах

Функциональная нагрузка нуклеотидов ДНК в пределах СрО острова может отражаться на частоте синонимичных замен в белок-кодирующих участках генов. Из табл. 1 видно, что уровень несинонимичных замен (с!к) слабо зависит от пересечения с СрО островом. На с!^ в большей

Таблица 1. Уровни синонимичных и несинонимичных замен в различных экзонах

Тип Локализация Первый экзон Внутренний экзон Последний экзон

кодона Чы с1м с1тчГ

СО в СрО острове вне СрО острова 0,13 0,14 0,51 0,99 0,26 0,14 0,10 0,09 0,91 1,51 0,11 0,06 0,10 0,11 0,80 1,27 0,12 0,09

ее в Срв острове вне Срв острова 0,13 0,14 0,38 0,49 0,34 0,30 0,10 0,09 0,53 0,53 0,18 0,18 0,10 0,12 0,50 0,52 0,20 0,24

Все в СрО острове вне Срв острова 0,10 0,10 0,34 0,39 0,28 0,25 0,07 0,06 0,47 0,41 0,16 0,16 0,07 0,08 0,44 0,40 0,17 0,20

степени влияет расположение кодона в конкретной области гена. Ко-доны вне СрО острова демонстрируют большую изменчивость в концевых участках генов, что указывает на вариабельность белков при приближении к N и С концам. Кодоны, пересекающиеся с СрО островами, демонстрируют близкий ём для внутренних и последних экзонов; таким образом, белки, кодируемые генами, которые имеют СрО остров на 3' конце, оказываются более консервативными в области С конца.

Напротив, уровень синонимичных замен (с^) для кодонов, содержащих СрО динуклеотид, сильно различается в зависимости от наличия перекрывающего их СрО острова, причем расположение кодона относительно старта гена не влияет на данный эффект. СрО острова, расположенные в 5' концевом, внутреннем или 3' концевом экзоне, снижают с15 в СрО-содержащих кодонах на 49%, 40% и 37% соответственно. Таким образом, аминокислотный состав не объясняет частое пересечение СрО островов и экзонов, поэтому, более вероятно, что функция СрО островов проявляется на уровне нуклеиновых кислот (ДНК и РНК).

Известно, что СрО острова снижают уровень мутаций СрО > ТрО, защищая СрО динуклеотиды от метилирования, а также содержат участки специфического связывания регуляторных белков, находящиеся под давлением отбора на сохранение специфичности, что увеличивает их консервативность. Как снижение уровня мутаций, так и давление отбора

вносят свой вклад в уменьшение числа замен в CpG динуклеотиде в пределах CpG острова для 5' концевых, внутригенных и 3' концевых эк-зонов, что подтверждает нашу гипотезу о функциональной роли CpG островов, в том числе и расположенных вдали от точки инициации транскрипции (ТИТ).

Глава 2. Транскрипционная активность ДНК в районе CpG островов любой геномной локализации

2.1. Обогащенность CpG островов 5'-фрагментами кДНК

CpG острова, пересекающиеся с ТИТ белок-кодирующих генов, часто включены в регуляцию инициации транскрипции. Возможно, CpG острова, в других участках генома, также вовлечены в данный процесс. Для проверки этого предположения, мы использовали ТИТ, определенные методом анализа экспрессии генов путем захвата за модифицированный 5'-конец РНК (Cap-analysis gene expression, CAGE). Метод позволяет точно локализовать отдельную ТИТ. Транскрипты, выделяемые этим методом, должны быть кэпированы, но не обязательно полиаденилиро-ванны, что позволяет обнаружить не только белок-кодирующие, но и разнообразные некодирующие РНК, а также разного рода «фоновую» транскрипцию.

Короткие 5'-фрагменты кДНК, полученные этим методом, кластеризуются внутри CpG островов всех классов. CpG острова, покрывающие всего около 0,7% генома, содержат более 48% 5'-фрагментов кДНК. Около 70% всех CpG островов содержат хотя бы один 5'-фрагмент кДНК. В среднем 5' концевые, внутригенные, 3' концевые, и межгенные CpG острова содержат соответственно один 5'-фрагмент кДНК на 20, 203, 172, и 86 оснований в сравнении с одним 5'-фрагментом на 1891 оснований в среднем по геному. 5' концевые CpG острова содержат в

7-11 раз больше 5'-фрагментов кДНК, чем СрО острова других классов, при этом некоторые СрЭ острова других классов также содержат крупные кластеры 5'-фрагментов кДНК. З'-концевые СрО острова обычно содержат больше 5'-фрагментов кДНК, чем внутригенные.

2.2. Срб острова во всех областях генома обогащены участками специфического связывания фактора инициации транскрипции Бр1

По разным оценкам участки специфического связывания неспецифического фактора инициации транскрипции Бр1 присутствуют в промоторах более чем 40 % генов, подавляющее большинство которых не содержит ТАТА-бокса. Такие промоторы часто находятся в СрО островках. Белок Эр 1 связывается с последовательностью (0)4С(0)4 и сходными с ней последовательностями, называемыми ОС-боксами.

Для определения участков специфического связывания белка 8р1 мы использовали матрицу позиционных весов (МПВ), созданную на основе экспериментальных данных из базы Т11ЛТЧ8РАС. В качестве меры правдоподобия определения участка связывания белка 5р1 мы вычисляли р-уа1ие для каждого кластера 5'-фрагментов кДНК, т.е. вероятность найти в случайной последовательности такой же длины, по крайней мере, столько же участков связывания белка Бр1, определенных с тем же порогом МПВ.

На рис. 2 можно видеть, что для всех порогов на МПВ, больше всего участков связывания белка 8р1 обнаруживается в 5' СрО островах. Контрольные случайные ОС-богатые последовательности содержат меньше участков связывания белка Бр1 для любого порога на МПВ в сравнении с СрО островами любого типа.

СрО острова, обогащенные 5'-фрагментами кДНК, содержат гораздо больше высоко достоверных участков связывания белка Бр1, наибольшая перепредставленностъ Бр1 мотивов характерна для 3' СрО островов.

0.6

0.9

0.8

0.3

0.7

0.4

0.1

0.5

0.2

0

>9.8 9 8.2 7.4 6.6 5.8 5 4.2 3.4 2.6 1.8 1 0.2

Рис. 2. Зависимость доли последовательностей, содержащих участок связывания, от порога на МПВ

2.3. Данные, полученные методом иммунопреципитации хроматина, подтверждают, что белок Spl часто связывает ДНК внутри CpG островов

Мы также повторно проанализировали сырые экспериментальные данные о связывании белка Spl, полученные экспериментально при помощи технологии ChlP-chip для 21 и 22 хромосом, чтобы иметь возможность сравнить сигнал иммунопреципитации хроматина (ChIP signal) внутри CpG островов в разных участках гена и в других сегментах ДНК.

В пробах, перекрывающихся с CpG островами, независимо от их локализации наблюдался более высокий сигнал иммунопреципитации (осаждений антителами против Spl), по сравнению с соответствующим сигналом в контрольных образцах ДНК. Это различие статистически значимо (тест Уилкоксона—Манна—Уитни, а=5%). При этом различия для участков вне CpG островов являются статистически незначимыми.

2.4. СрО острова, обогащенные 5'-фрагментами кДНК и расположенные далеко от точки инициации транскрипции белок-кодирукицих генов, часто ассоциированы с инициацией транскрипции длинных некодирующих РНК

Около 64% 3' концевых и 6% внутригенных СрО островов, содержащих более 40 5'-фрагментов кДНК, ассоциированы со стартом хотя бы одного потенциально белок-кодирующего гена из базы данных N081 RefSeq. Остальные 36 % 3' концевых и 94% внутригенных СрО островов также содержат точки инициации длинных транскриптов, но без каких-либо свидетельств наличия белкового продукта или длинной открытой рамки считывания. Среди СрО островов, содержащих от 20 до 40 5'-фрагментов кДНК, 61 % 3' концевых СрЭ островов содержит ТИТ известных длинных РНК, не проявивших белок-кодирующей активности, остальные 29 % содержат ТИТ потенциальных белок-кодирующих генов. Из всех внутригенных СрО островов с 20-40 5'-фрагментами кДНК только один содержит ТИТ белок кодирующего гена, а остальные 98 % содержат ТИТ других РНК. Таким образом, значительная часть СрО островов, обогащенных 5'-фрагментами кДНК и расположенных вдали от ТИТ известных белок-кодирующих генов, содержат ТИТ длинных некодирующих РНК.

Глава 3. Характерные свойства последовательностей нуклеотидов ДНК в окрестностях точки инициации транскрипции

Как показано в предыдущих главах, большинство СрО островов являются областями, в которых происходит инициация транскрипции, определенная методом анализа экспрессии генов путем захвата за модифицированный 5'-конец РНК. Наблюдаемое число кластеров 5'-фрагментов кДНК на порядок превышает число генов, что не обязательно является артефактом метода, поскольку не каждая РНК, полученная этим методом, является частью длинного функционального транскрипта. Кластеры

5'-фрагментов представляют собой самостоятельный объект исследования и могут быть надежным источником для статистического анализа закономерностей, характерных для последовательностей, участвующих в инициации транскрипции.

Известно, что в районе точки инициации транскрипции генов часто наблюдается асимметрия ОС состава (ОС-зке\у) на разных цепях ДНК, в частности, у человека кодирующая цепь в районе старта обогащена гуанином. В то же время, в большинстве СО богатых промоторов обычно присутствует несколько участков связывания белка вр1, расположенных как в сторону 5' так и в сторону 3' от ТИТ.

Для определения ТИТ мы использовали кластеры близко расположенных 5'-фрагментов кДНК. В основном, кластеры содержат фрагменты, указывающие на транскрипцию с обеих цепей. Малое количество 5'-фрагментов в большинстве кластеров позволяет выделить только 9541 кластер, имеющий преимущественную цепь транскрипции (р-уа1ие< < Ю-12, точный тест Фишера), среди них в 4774 кластерах, превалировали 5'-фрагменты кДНК, выровненные с цепью, соответствующей аннотированной версии генома (кластеры(+) 5'-фрагментов кДНК), а в 4767 кластерах превалировали 5'-фрагменты кДНК выровненные с комплементарной цепью (кластеры(-) 5'-фрагментов кДНК).

3.1. Кластеры 5'-фрагментов кДНК обогащены гуанином и цитозином, причем наблюдается асимметрия нуклеотидного состава вблизи точки старта транскрипции

Кластеры 5'-фрагментов кДНК обоих типов обогащены цитозином и гуанином: среднее значение содержания С+О в кластерах(+)/кластерах(-) 5'-фрагментов кДНК составило 0,68/0,69. При этом содержание гуанина в кластерах(Ч-) составило 0,37, что значимо выше его содержания в кластерах(-), составившего 0,32 (г-тест, р < Ю-200). Ситуация с цитозином обратная. Обогашенность кластеров 5'-фрагментов кДНК цитози-

ном и гуанином согласуется с полученным выше результатом о том, что около половины всех 5'-фрагментов кДНК находятся в Срв островах.

3.2. В кластерах 5'-фрагментов кДНК, обедненных С или в, тем не менее статистически псрепредставлены тракты соответственно поли-С и поли-С

Тракты поли-С и поли-О представлены неравномерно в кластерах обоих типов (см. табл. 2). Отношение наблюдаемого числа поли-С слов к ожидаемому, исходя из нуклеотидного состава (ОЬэ/Ехр), в кластере(+) 5'-фрагментов кДНК всегда больше аналогичного отношения, вычисленного для поли-О слов, причем это различие увеличивается с длиной по-линуклеотидной цепи. Для кластера(-) наблюдается противоположная картина.

Таблица 2. Степень представленности поли-О/С трактов различной длины

Количество букв в слове

2

3

4

5

кластер(+)

ОЬ5/Ехрпоти.с

1,06 1Д1 1,13 0,95

ОЬз/Ехрпшм-о 1,02 0,97 0,91 0,67

кластер(-)

ОЬ«/Ехрпали.с

1,02 0,98 0,92 0,71

ОЬ5/ЕхрП(ши_0

1,05 1,10 1,10 0,92

Важно отметить, что тип статистически перепредставленных полинук-леотидных трактов не соответствует типу преобладающего нуклеотида. Кластер(+) 5'-фрагментов кДНК содержит повышенное количество гуанина, но при этом ОЬэ/Ехр поли-С слов превосходит подобное отношение для поли-О слов; таким образом, в кластерах(+) встречающийся в меньшем количестве цитозин собран в поли-С слова, чаще, чем гуанин в поли-О слова. Противоположная картина наблюдается для кластсров(-).

Наиболее сильное различие между ОЬэ/Ехр поли-С и поли-О трактов наблюдается для 4-5 буквенных слов, что позволяет предположить

роль участков связывания белков в формировании данной асимметрии, в частности участков связывания белка 5р1, содержащих 2 слова по 4—5 цитозинов (гуанинов) подряд.

3.3. Варианты участков связывания белка в кластерах разных типов

Матрица позиционных весов белка Яр1 выявляет либо в-богатый (врЦО)), либо обратно-комплементарный — С-богатый (Бр1(С)) участок специфического связывания, в зависимости от отнесения мотива к одной из цепей двойной спирали. Из таблицы 3 видно, что в кластерах(-ь) частота варианта (8р1(0)) выше, чем (БрЦС)). Ситуация для кластеров^) обратная.

Таблица 3. Частота и вероятность появляения различных вариантов участков связывания белка в кластрах разных типов

Тип кластера

Кластер(+) Кластер(-)

Доля последовательностей

Эр КС)

0,37 0,47

ЗрЦО)

0,47 0,38

Частота участка связывания, медиана

Бр1(С)

0,0051 0,0062

БрЦО)

0,0060 0,0053

Стат. значимость

9.47Е-03 5.00Е-04

р-уа1ие, медиана

БрНС)

0,1518 0,2182

Яр1(0)

0,2325 0,1445

Стат. значимость

1.42Е—21 7,05Е—23

В качестве меры статистической значимости числа участков связывания белка Бр 1 мы использовали -1о§(р-уа1ие). Меньшая вероятность имеющегося числа мотивов в данной последовательности соответствует большей статистической значимости й означает, что последовательность содержит существенно большее число участков связывания белка, по сравнению с ожидаемым из ее состава. Статистическая значимость варианта БрЦС) существенно выше в О-богатых кластерах(-Ь) 5'-фраг-ментов кДНК, чем в С-богатых кластерах(-), т.е. вариант, содержащий более редкие нуклеотиды, перепредставлен сильнее. Для варианта БрЦО) ситуация обратная.

Несмотря на упомянутый эффект, большинство вариантов 5р1(0) встречаются в в-богатых кластерах(+) (табл. 3) и, по-видимому, нет оснований для заключения, что асимметрия ОС состава вблизи ТИТ объясняется асимметрией во встречаемости вариантов участка связывания белка. Вероятнее всего, в окрестности ТИТ должно находиться некоторое количество участков связывания белка Бр1 в обоих вариантах. Одновременно с этим, по независимым причинам, содержание гуанина в кодирующй цепи повышно, что снижает статистическую значимость варианта БрНО).

Глава 4. Особенности мутационного процесса в Срв островах

В главе 1 мы показали, что уровень синонимичных замен в СрО-кодоне, который находится в СрО острове, ниже, чем в кодонах вне СрО островов. Такой эффект может создаваться двумя различными механизмами: повышением давления отбора и снижением количества мутаций. В данной главе представлены результаты исследования особенностей мутационного процесса внутри Срй островов. Мы использовали известные однонуклеотидные полиморфизмы человека, для которых предковый нуклеотид восстановим из выравнивания человек-шимпанзе и сравнили частоты мутаций разных типов внутри и вне СрО острова в зависимости от локального контекста (предшествующего или последующего нуклео-тида).

4.1. Снижение частоты мутаций Срв > Трв(СрА) внутри Срв острова не объясняется различиями в уровне метилирования Срв острова и остального генома

Мы обнаружили, что частота мутаций Срв > ТрО (СрА) внутри СрО острова в 3 раза ниже, чем аналогичная частота вне СрО острова. Эта частота существенно ниже предполагаемой для мутаций шСрО > ТрО. Известно, что далеко не все цитозины в СрО островах неметилированы,

также как и не все цитозины вне Срв островов метилированы. Для определения влияния метилирования на частоту мутаций тСрО>ТрО мы использовали данные, полученные методом МеШуКГ-Бея, на материале эмбриональных стволовых клеток. Мы взяли только метилированные цитозины внутри Срв островов и подобрали вне СрО островов цитозины, метилированные в такой же степени, т.е. имеющие ту же глубину покрытия секвенирования и количество обнаруженных метилированных ридов. Однако частоты мутаций тСрв > Трв (СрА) внутри СрО острова оказались в 1,53 раз ниже, чем вне острова. Различие является статистически значимым.

4.2. Частота мутаций внутри динуклеотида, содержащего любые сочетания гуанина и цитозина, без снижения вС контента выше в Срв острове

Также частоты замен внутри и вне СрО острова различались для ди-нуклеотидов, состоящих из цитозина и гуанина. Снижение числа замен СО>СО(СС) вне СрО острова может объясняться тем, что большая часть Св вне острова мутирует в ТО, тем самым, снижая вероятность мутации в ОО(СС). Повышение числа замен 00(СС)>С0, в СрО острове могло быть следствием того, что вне острова успели произойти двойные замены и часть СО вне СрО острова уже успели мутировать в ТО. Однако это не согласуется с тем фактом, что мутаций ОО > ТО также больше в СрО острове, а не наоборот, как следовало ожидать из предыдущего предположения. Чем объяснить повышенную частоту мутаций ОС > ОО(СС) внутри СрО острова пока неясно.

Выводы

1. СрО острова имеют тенденцию пересекаться с белок-кодирутощими экзонами, особенно это характерно для СрО островов в 3' области генов, причем эту тенденцию не удается объяснить повышенным С+О составом экзонов.

2. Во всех областях гена в СрС-содержащих кодонах синонимичные замены встречаются реже в тех экзонах, которые пересекаются с СрО островом.

3. СрО острова, расположенные вдали от точек инициации транскрипции известных белок-кодирующих генов, обогащены 5'-фрагментами кДНК, определенными методом анализа экспрессии генов путем захвата за модифицированный 5'-конец РНК.

4. СрО острова во всех областях генома обогащены участками специфического связывания белка 8р1. СрО острова, демонстрирующие активную транскрипцию, содержат особенно сильные участки связывания белка БрЬ Особенно этот эффект выражен у СрО островов в 3' области генов.

5. Внутригенные и межгенные СрО острова, демонстрирующие активную транскрипцию, часто ассоциированы со стартами транскрипции длинных некодирующих РНК

6. Кластеры 5'-фрагметов кДНК обогащены гуанином и цитозином, причем наблюдается асимметрия нуклеотидного состава. В кластерах 5'-фрагметов кДНК, обедненных цитозином (гуанином), тем не менее статистически перепредставлены тракты поли-С/поли-О, а также участки связывания белка Бр1 в вариантах (С)40(С)4 / (0)4С(0)4.

7. Мутационный процесс внутри СрО острова существенно отличается от остального генома, в частности, вероятность мутации метилированного цитозина в СрО парах внутри острова меньше, чем в остальном геноме.

Список принятых сокращений

НКО некодирующия область;

ТИТ точка инициации транскрипции;

Кластер(+) 5'-фрагментов кДНК кластер близко расположенных геном-

ных выравниваний 5'-фрагментов кДНК, статистически значимое большинство которых располагается на цепи, представленной в hgl8;

Кластер(-) 5'-фрагментов кДНК аналогично на комплементарной hgl8 цепи;

МПВ матрица позиционных весов;

Obs/Exp отношение наблюдаемого числа слов к ожидаемому, исходя из локально нуклеотидного состава.

Список работ, опубликованных по теме диссертации

Научные журналы

1. Medvedeva YA, Fridman MV, Oparina NJ, Malko DB, Ermakova EO, Kulakovskiy IV, Heinzel A, Makeev VJ (2010). Intergenic, gene terminal, and intragenic CpG islands in the human genome. BMC Genomics. 11:48.

2. Y. Medvedeva, A. Favorov, N. Oparina, I. Kulakovsky, V. Makeev (2010). Clusters of transcription start sites in human genomes exhibit a biased orientation of Spl binding site towards the template strand. New Biotechnology, 27:S1, 2010, S23.

3. Ю.А. Медведева, И. В. Кулаковский, Н.Ю. Опарина, А.В. Фаворов, В.Ю. Макеев (2010). Асимметрия GC-состава в окрестностях стартов транскрипции (с участием полимеразы РоШ) и ее связь с расположением участков адсорбции белка Spl на ДНК, Биофизика, том 55, вып. 6, 976-985.

Материалы конференций

1. Medvedeva Ju., Rychkov A., Oparina N. (2005). Imprinted genes in human and mouse genomes: detailed analysis of CpG islands. Proceedings of the 2nd Moscow Conference on Computational Molecular Biology, Moscow, 226.

2. Medvedeva Ju., Fridman M., Oparina N., Makeev V. (2006). CpG islands distribution in the human genome. Proceedings of the International school on genomics, proteomics and bioinformatics, Almaty, Khazakhstan, 46.

3. Julia Medvedeva, Irina Abnizova, Fedor Naumenko, Nika Oparina, Vsevo-lod Makeev (2007). Identification of CpG island boundaries. Proceedings of the 3d Moscow Conference on Computational Molecular Biology, Moscow, 205.

4. Ju.A. Medvedeva, M.V. Fridman, N.Ju. Oparina, D.B. Malko, E.O. Er-makova, VJu. Makeev. (2008) Reduced level of synonymous substitution in CpG containing codons suggests functional role of intragenic and 3' CpG islands in human genes. Proceedings of Helmholtz Russian-German Workshop on System Biology, Moscow, 50.

5. Ju.A. Medvedeva, M.V. Fridman, NJu. Oparina, D.B. Malko, E.O. Er-makova, VJu. Makeev (2008). Reduced CpG mutation rate suggests functional role of intragenic and 3' CpG islands in human genes. Proceedings of 12th International Conference on Research in Computational Molecular Biology, Singapore, Singapore, 75—76.

6. Ju.A. Medvedeva, M.V Fridman, N.Ju. Oparina, D.B. Malko, E.O. Er-makova, VJu. Makeev (2008). Reduced level of synonymous substitution in CpG containing codons suggests functional role of intragenic and 3' CpG islands in human genes. Proceedings of the 6th International Conference on Bioinformatics of Genome Regulation and Structure, Novosibirsk, 158.

7. Y. Medvedeva, M. Fridman, N. Oparina, D. Malko, E. Ermakova, I. Ku-lakovskiy, V. Makeev (2008). Non-5'CpG islands in the human genome: probable involvement in transcriptional regulation. Сборник трудов конференции <fИнформационные технологии и системы», Геленджик, 298-299.

8. Y. Medvedeva, М. Fridman, N. Oparina, D. Malko, E. Ermakova, I. Ku-lakovskiy, V. Makeev (2008). Evidence for transcriptional regulation by nans' CpG islands in the human genome. Proceedings of the 3d ESF Conference on Functional Genomics and Diseases, Innsbruck, Austria, 89.

9. Y. Medvedeva, N. Oparina, V. Makeev (2009). Inner structure of CpG islands. Proceedings of the 4th Moscow Conference on Computational Molecular Biology, Moscow, 234.

Подписано в печать:

02.11.2010

Заказ № 4444 Тираж - 100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru

Содержание диссертации, кандидата биологических наук, Медведева, Юлия Анатольевна

Введение

Актуальность темы исследования.

Объект и метод исследования.

Цель и задачи исследования.

Научная новизна диссертационного исследования.

Практическая значимость исследования.

Апробация диссертационного исследования.

Структура и объем диссертационного исследования.

Обзор литературы

Подходы к определению СрО островов.

Функциональный подход.

Структурный подход и алгоритмы поиска СрО островов.

Верификация результатов

Нерешенные вопросы.

Глава 1. Свидетельства функциональной значимости Срв островов, полученные методами сравнительной геномики

1.1. СрО острова не являются результатом случайных флукгуаций нуклеотидного состава.

1.2. СрО острова пересекаются с белок-кодирующими экзонами

1.3. Пересечение СрО островов и экзонов не объясняется повышенным С+О составом экзонов.

1.4. Внутри СрО острова снижен уровень синонимичных замен в СрО-содержащих кодонах

1.5. Резюме.

Глава 2. Транскрипционная активность ДНК в районе Срв островов любой геномной локализации

2.1. Обогащение СрО островов всех локализаций 5'-фрагментами кДНК.

2.2. СрО острова во всех областях генома обогащены участками специфического связывания фактора инициации транскрипции Бр

2.3. Данные, полученные методом иммунопреципитации хроматина, подтверждают, что белок Бр1 часто связывает ДНК внутри СрО островов.

2.4. СрО острова, обогащенные 5'-фрагментами кДНК и расположенные далеко от точки инициации транскрипции белок-коди-рующих генов, часто ассоциированы с инициацией транскрипции длинных некодирующих РНК

2.5. Резюме.

Глава 3. Характерные свойства последовательностей нуклеотидов ДНК в окрестностях точки инициации транскрипции

3.1. Кластеры 5'-фрагментов кДНК обогащены гуанином и цитози-ном, причем наблюдается асимметрия нуклеотидного состава вблизи точки инициации транскрипции.

3.2. В кластерах 5'-фрагментов кДНК, обедненных С или О, тем не менее статистически перепредставлены тракты соответственно поли-С и поли-О

3.3. В кластерах 5'-фрагментов кДНК разных типов перепредставлены варианты участков связывания белка Бр1, состоящие из редких нуклеотидов.

3.4. Резюме.

Глава 4. Особенности мутационного процесса в Срв островах

4.1. Снижение частоты мутаций CpG>TpG(CpA) внутри CpG острова не объясняется различиями в уровне метилирования CpG острова и остального генома.

4.2. Частота мутаций внутри динуклеотида, содержащего любые сочетания гуанина и цитозина, без снижения содержания G+C выше в CpG острове.

4.3. Резюме.

Выводы

Список принятых сокращений

Введение Диссертация по биологии, на тему "Исследование функциональных особенностей CpG островов, в частности участвующих в инициации транскрипции во внутригенных и межгенных областях генома человека, методами биоинформатики"

Актуальность темы исследования

В настоящее время большое значение придается изучению эпигенетических механизмов, влияющих на реализацию генетической информации. Развитие экспериментальных методов молекулярной биологии позволило получить не только нуклеотидные последовательности геномов различных организмов, но и их эпигенетические профили на различных стадиях развития и в различных тканях организма. Вследствие этого становится особенно важным понять взаимосвязь между генетическими и эпигенетическим механизмами хранения, реализации и передачи наследственной информации. Одним из связующих звеньев между генетическими и эпигенетическими механизмами наследственности, по-видимому, являются особые сегменты ДНК, называемые СрО островами. Эти участки ДНК обладают специфическим составом нуклеотидов и динуклеотидов, и часто отличаются тем, что присутствующий в них цитозин в положении перед гуанином подвергается метилированию существенно реже, чем в среднем по геному.

Как это ни удивительно, несмотря на многочисленные работы, доказывающие участие СрО островов во множестве процессов в клетке, до сих пор не существует общепризнанного классифицирующего определения этих участков. Чаще всего для определения СрО островов используются алгоритмы т яШсо, которые можно разделить на две категории: алгоритмы «скользящего окна» и алгоритмы кластеризации. В алгоритмах обоих типов используются пороги, не имеющие достаточного биологического обоснования. Верификация результатов работы алгоритмов затруднена в связи с множеством процессов, имеющих отношение к образованию, поддержанию и функционированию СрО островов. В частности, все попытки создать алгоритм, который бы определял СрО острова на основании некоторой единственной функции (СрО острова в 5' области генов, участки, с неметилированными СрО динуклеотидами и т.д.), приводили к высокому проценту ложно-положительных предсказаний. Вполне вероятно, что каждое из имеющихся на данный момент определений СрО островов выделяет «химерный» класс ДНК сегментов, для которых не существует общей молекулярной структуры или функции.

Выделение функционально однородных СрО островов должно облегчить дальнейшее исследование эпигенетических механизмов. Данная работа направлена на изучение механизмов, ответственных за формирование СрО островов, что в перспективе должно дать возможность построения алгоритма определения функционально однородных СрО островов т зШсо.

Объект и метод исследования

Объектом исследования являются СрО острова в геноме человека и структурные элементы внутри них, особое внимание уделяется СрО островам, расположенным на относительном удалении от точки инициации транскрипции известных белок-кодирующих генов.

Основным методом, применяемым в диссертационном исследовании, является теоретический анализ публично доступных экспериментальных данных.

Цель и задачи исследования

Основной целью данного исследования является определение молекулярных свойств СрО островов, расположенных вдали от стартов транскрипции известных генов, выявление их внутренней структуры, факторов стабилизирующего отбора, поддерживающего наличие СрО островов, и описание особенностей мутационного процесса внутри СрО островов в геноме человека.

Достижение поставленных целей предполагает решение следующих задач.

• Проверка гипотезы о том, что CpG острова вдали от точек инициации транскрипции известных белок-кодирующих генов не являются артефактом метода теоретического определения CpG островов.

• Определение величины давления отбора внутри CpG островов разных локализаций.

• Описание особенностей мутационного процесса внутри CpG островов.

• Выявление общих и отличительных структурных свойств CpG островов, расположенных вблизи и вдали от стартов известных генов.

• Определение особенностей первичной структуры ДНК вблизи точек инициации транскрипции.

Научная новизна диссертационного исследования

В данной работе было впервые в масштабе полного генома показано, что CpG острова в значительной степени пересекаются с белок-кодирующими экзонами, что не удается объяснить аминокислотным составом кодируемого белка. Показано, что в пределах CpG островов, перекрывающиеся с экзонами, и расположенных в любой области гена наблюдается снижение уровня синонимичных замен в CpG-содержащих кодонах, что указывает на наличие давления отбора. Кроме того, CpG острова, расположенные в любой области генома, содержат точки инициации транскрипции, определенные методом анализа экспрессии генов путем захвата за модифицированный 5'-конец РНК (Cap-analysis gene expression, CAGE), а также участки связывания фактора инициации транскрипции Spl.

Показано, что участки ДНК, содержащие большое число точек инициации транскрипции на данной цепи, обладают повышенным содержанием гуанина на кодирующей цепи. При этом цитозин, присутствующий на данной цепи в меньшем количестве, имеет тенденцию кластеризоваться в полинук-леотидные тракты и мотивы, подобные участкам специфического связывания фактора инициации транскрипции 8р1.

Также в работе было продемонстрировано, что мутационный процесс в СрО острове имеет существенные характерные особенности. Замены СрО>ТрО (СрА) в СрО острове встречаются реже, чем вне СрО острова. Данный эффект не объясняется исключительно меньшим уровнем метилирования цитозина в СрО острове и сохраняется, если исследовать только цитозины, метилированные в клетках, близких к зародышевой линии. Уровень замен СС, СО, ОС, ОО в любых направлениях, не снижающих общего ОС содержания, значимо выше в СрО островах в сравнении с остальным геномом.

Практическая значимость исследования

Полученные в работе свидетельства транскрипционной активности СрО остовов, удаленных от точек инициации транскрипции известных белок-кодирующих генов, указывает на необходимость пересмотра концепции полногеномной транскрипции как явления, происходящего крайне редко. Под контролем перекрывающихся СрО островами промоторов могут синтезироваться неизвестные ранее типы молекул некодирующей РНК. В последнее время идет активное накопление данных о полиморфизмах, ассоциированных с различными наследственными заболеваниями, и не затрагивающих никаких известных белок-кодирующих генов. Можно предположить, что подобные полиморфизмы влияют на промоторы, контролирующие синтез нкРНК. Таким образом, результаты нашей работы позволяют выявить участки ДНК, не участвующие в синтезе мРНК, но важныес точки зрения молекулярной биологии и молекулярной медицины. Кроме того, полученные результаты о взаимодействии метилирования и мутационного процесса внутри СрО островов могут быть использованы при изучении механизмов возникновения болезней, связанных с изменением эпигенома, таких как рак, диабет, болезнь Альцгеймера и др.

Полученные в работе сведения о структурно-функциональных элементах, связанных с точками инициации транскрипции, могут быть использованы для построения алгоритма определения функционально-однородных СрО островов.

Апробация диссертационного исследования

Основные результаты работы были представлены на Московской Конференции по Вычислительной и Молекулярной Биологии в 2005, 2007 и 2009 гг., на Международной школе «Биоинформатика, геномика, протеомика» в Алматы в 2006 г., на Российско-Германской школе им. Гельмгольца по Системной Биологии в Москве в 2008 г., на Международной Конференции по Исследованиям в Области Вычислительной Молекулярной Биологии в Сингапуре в 2008 г., на конференции «Биоинформатика, Геномной Регуляции и Структуры» в Новосибирске в 2008 г., на Конференциях Европейского Научного Фонда «Функциональная геномика и заболевания» в Инсбруке, Австрия, в 2008 г. и в Дрездене, Германия, в 2010 г.

По материалам диссертации опубликовано 12 печатных работ, включая 3 статьи в реферируемых научных журналах, а также материалы докладов на научных конференций.

Апробация диссертационного исследования проведена на заседании секции «Молекулярная биология» Ученого Совета ФГУП «ГосНИИгснетика».

Структура и объем диссертационного исследования

Диссертационное исследование, изложенное на 153 листах машинописного текста, включает в себя введение, обзор литературы, четыре главы, содержащие результаты и обсуждение, заключение, выводы и библиографический список из 255 наименований. Работа содержит 10 рисунков и 13 таблиц.

Заключение Диссертация по теме "Молекулярная биология", Медведева, Юлия Анатольевна

Выводы

1. CpG острова имеют тенденцию пересекаться с белок-кодирующими экзонами, особенно это характерно для CpG островов в 3' области генов, причем эту тенденцию не удается объяснить повышенным C+G составом экзонов.

2. Во всех областях гена в CpG-содержащих кодонах синонимичные замены встречаются реже в тех экзонах, которые пересекаются с CpG островом.

3. CpG острова, расположенные вдали от точек инициации транскрипции известных белок-кодирующих генов, обогащены 5'-фрагментами кДНК, определенными методом анализа экспрессии генов путем захвата за модифицированный 5'-конец РНК.

4. CpG острова во всех областях генома обогащены участками специфического связывания белка Spl. CpG острова, демонстрирующие активную транскрипцию, содержат особенно сильные участки связывания белка Spl. Особенно этот эффект выражен у CpG островов в 3' области генов.

5. Внутригенные и межгенные CpG острова, демонстрирующие активную транскрипцию, часто ассоциированы со стартами транскрипции длинных некодирующих РНК.

6. Кластеры 5'-фрагметов кДНК обогащены гуанином и цитозином, причем наблюдается асимметрия нуклеотидного состава. В кластерах 5'-фрагметов кДНК, обедненных цитозином (гуанином), тем не менее статистически перепредставлены тракты поли-С/поли-G, а также участки связывания белка Spl в вариантах CCCCCGCCCCC / GGGGGCGGGGG.

7. Мутационный процесс внутри СрО острова существенно отличается от остального генома, в частности, вероятность мутации метилированного цитозина в СрС парах внутри острова меньше, чем в остальном геноме.

Список принятых сокращений

ObscpG/ExpcpG отношение наблюдаемого числа слов к ожидаемому, исходя из локально нуклеотидного состава;

НКО некодирующия область;

ТИТ точка инициации транскрипции;

ДМР дифференциально-метилированный район;

CAGE cap analysis of gene expression (анализ экспрессии генов методом захвата за модифицированный 5'-конец РНК); кластер(+) кластер близко расположенных геномных выравниваний 5'-фрагментов кДНК, статистически значимое большинство которых выравнивается на цепь, представленную в hgl8; кластер(—) аналогично предыдущему, но на комплементарную hgl8 цепь;

МПВ матрица позиционных весов.

Список работ, опубликованных по теме диссертации

Научные журналы

1. Medvedeva YA, Fridman MV, Oparina NJ, Malko DB, Ermakova EO, Ku-lakovskiy IV, Heinzel A, Makeev YJ (2010). Intergenic, gene terminal, and intragenic CpG islands in the human genome. BMC Genomics. 11:48.

2. Y. Medvedeva, A. Favorov, N. Oparina, I. Kulakovsky, V. Makeev (2010). Clusters of transcription start sites in human genomes exhibit a biased orientation of Spl binding site towards the template strand. New Biotechnology, 27:S1, 2010, S23.

3. Ю.А. Медведева, И. В. Кулаковский, Н.Ю. Опарина, А.В. Фаворов, В.Ю. Макеев (2010). Асимметрия GC-состава в окрестностях стартов транскрипции (с участием полимеразы РоШ) и ее связь с расположением участков адсорбции белка Spl на ДНК, Биофизика, том 55, вып. 6, 976-985.

Материалы конференций

1. Medvedeva Ju., Rychkov A., Oparina N. (2005). Imprinted genes in human and mouse genomes: detailed analysis of CpG islands. Proceedings of the 2nd Moscow Conference on Computational Molecular Biology, Moscow, 226.

2. Medvedeva Ju., Fridman M., Oparina N., Makeev V. (2006). CpG islands distribution in the human genome. Proceedings of the International school on genomics, proteomics and bioinformatics, Almaty, Khazakhstan, 46.

3. Julia Medvedeva, Irina Abnizova, Fedor Naumenko, Nika Oparina, Vsevolod Makeev (2007). Identification of CpG island boundaries. Proceedings of the 3d Moscow Conference on Computational Molecular Biology, Moscow, 205.

4. Ju.A. Medvedeva, M.V. Fridman, N.Ju. Oparina, D.B. Malko, E.O. Ermakova, V.Ju. Makeev. (2008) Reduced level of synonymous substitution in CpG containing codons suggests functional role of intragenic and 3' CpG islands in human genes. Proceedings of Helmholtz Russian-German Workshop on System Biology, Moscow, 50.

5. Ju.A. Medvedeva, M.V. Fridman, N.Ju. Oparina, D.B. Malko, E.O. Er-makova, V.Ju. Makeev (2008). Reduced CpG mutation rate suggests functional role of intragenic and 3' CpG islands in human genes. Proceedings of 12th International Conference on Research in Computational Molecular Biology, Singapore, Singapore, 75—76.

6. Ju.A. Medvedeva, M.V. Fridman, N.Ju. Oparina, D.B. Malko, E.O. Er-makova, V.Ju. Makeev (2008). Reduced level of synonymous substitution in CpG containing codons suggests functional role of intragenic and 3' CpG islands in human genes. Proceedings of the 6th International Conference on Bioinformatics of Genome Regulation and Structure, Novosibirsk, 158.

7. Y. Medvedeva, M. Fridman, N. Oparina, D. Malko, E. Ermakova, I. Ku-lakovskiy, V. Makeev (2008). Non-5'CpG islands in the human genome: probable involvement in transcriptional regulation. Сборник трудов конференции «Информационные технологии и системы», Геленджик, 298—299.

8. Y. Medvedeva, М. Fridman, N. Oparina, D. Malko, E. Ermakova, I. Ku-lakovslciy, V. Makeev (2008). Evidence for transcriptional regulation by nans' CpG islands in the human genome. Proceedings of the 3d ESF Conference on Functional Genomics and Diseases, Innsbruck, Austria, 89.

9. Y. Medvedeva, N. Oparina, V. Makeev (2009). Inner structure of CpG islands. Proceedings of the 4th Moscow Conference on Computational Molecular Biology, Moscow, 234.

Библиография Диссертация по биологии, кандидата биологических наук, Медведева, Юлия Анатольевна, Москва

1. Aerts, S., Thijs, G., Dabrowski, M., Moreau, Y., and De Moor, B. (2004). Comprehensive analysis of the base composition around the transcription start site in Metazoa. BMC Genomics, 5(1):34.

2. Aguirre-Arteta, A. M., Grunewald, I., Cardoso, M. C., and Leonhardt, H. (2000). Expression of an alternative Dnmtl isoform during muscle differentiation. Cell Growth Differ, 11(10>:551—9.

3. Ahuja, N., Li, Q., Mohan, A. L., Baylin, S. B., and Issa, J. P. (1998). Aging and DNA methylation in colorectal mucosa and cancer. Cancer Res, 58(23):5489—94.

4. Aissani, B., D'Onofrio, G., Mouchiroud, D., Gardiner, K., Gautier, C., and Bernardi, G. (1991). The compositional properties of human genes. J Mol Evol, 32(6):493—503.

5. Amir, R. E., Van den Veyver, I. B., Wan, M., Tran, C. Q., Francke, U., and Zoghbi, H. Y. (1999). Rett syndrome is caused by mutations in X-linked MECP2, encoding methyl-CpG-binding protein 2. Nat Genet, 23(2): 185—8.

6. Antequera, F. and Bird, A. (1993a). CpG islands. Exs, 64:169-85.

7. Antequera, F. and Bird, A. (1993b). Number of CpG islands and genes in human and mouse. Proc Natl Acad Sei USA, 90(24): 11995-9.

8. Appanah, R., Dickerson, D. R., Goyal, P., Groudine, M., and Lorincz, M. C. (2007). An unmethylated 3' promoter-proximal region is required for efficient transcription initiation. PLoS Genet, 3(2):e27.

9. Arndt, P. F., Bürge, C. B., and Hwa, T. (2003). DNA sequence evolution with neighbor-dependent mutation. J Comput Biol, 10(3-4):313—22.

10. Azhikina, T. L. and Sverdlov, E. D. (2005). Study of tissue-specific CpG methylation of DNA in extended genomic loci. Biochemistry (Mose), 70(5):596—603.

11. Baylin, S. B., Herman, J. G., Graff, J. R., Vertino, P. M., and Issa, J. P. (1998). Alterations in DNA methylation: a fundamental aspect of neoplasia. Adv Cancer Res, 72:141-96.

12. Behe, M. and Felsenfeld, G. (1981). Effects of methylation on a synthetic polynucleotide: the B—Z transition in poly(dG-m5dC).poly(dG-m5dC). Proc Natl Acad Sci USA, 78(3): 1619-23.

13. Berg, O. G. and von Hippel, P. H. (1987). Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters. J Mol Biol, 193(4):723-50.

14. Berger, J. and Bird, A. (2005). Role of MBD2 in gene regulation and tumorigenesis. Biochem Soc Trans, 33(Pt 6): 1537-40.

15. Bestor, T. H. (1992). Activation of mammalian DNA methyltransferase by cleavage of a Zn binding regulatory domain. EMBO J, 11 (7): 2611—7.

16. Bestor, T. H., Gundersen, G., Kolsto, A. B., and Prydz, H. (1992). CpG islands in mammalian gene promoters are inherently resistant to de novo methylation. Genet Anal Tech Appl, 9(2):48-53.

17. Bhasin, M., Zhang, H., Reinherz, E. L., and Reche, P. A. (2005). Prediction of methylated CpGs in DNA sequences using a support vector machine. FEBS Lett, 579(20):4302—8.

18. Bibikova, M. and Fan, J. B. (2010). Genome-wide DNA methylation profiling. Wiley Interdiscip Rev Syst Biol Med, 2(2):210—23.

19. Bird, A. (2002). DNA methylation patterns and epigenetic memory. Genes Dev, 16(1):6—21.

20. Bird, A. P. (1980). DNA methylation and the frequency of CpG in animal DNA. Nucleic Acids Res, 8(7): 1499-504.

21. Bird, A. P. (1986). CpG-rich islands and the function of DNA methylation. Nature, 321(6067):209—13.

22. Bock, C. and Lengauer, T. (2008). Computational epigenetics. Bioinformatics, 24(1): 1—10.

23. Bock, C., Paulsen, M., Tierling, S., Mikeska, T., Lengauer, T., and Walter, J. (2006). CpG island methylation in human lymphocytes is highly correlated with DNA sequence, repeats, and predicted DNA structure. PLoS Genet, 2(3):e26.

24. Bock, C., Walter, J., Paulsen, M., and Lengauer, T. (2007). CpG island mapping by epigenome prediction. PLoS Comput Biol, 3(6):ell0.

25. Bock, C., Walter, J., Paulsen, M., and Lengauer, T. (2008). Inter-individual variation of DNA methylation and its implications for large-scale epigenome mapping. Nucleic Acids Res, 36(10):e55.

26. Boeva, V., Clement, J., Regnier, M., Roytberg, M. A., and Makeev, V. J. (2007). Exact p-value calculation for heterotypic clusters of regulatory motifs and its application in computational annotation of cis-regulatory modules. Algorithms Mol Biol, 2:13.

27. Bolstad, B. M., Irizarry, R. A., Astrand, M., and Speed, T. P. (2003). A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics, 19(2): 185—93.

28. Bonfils, C., Beaulieu, N., Chan, E., Cotton-Montpetit, J., and MacLeod, A. R.2000). Characterization of the human DNA methyltransferase splice variant Dnmtlb. J Biol Chem, 275(15):10754-60.

29. Bradbury, J. (2003). Human epigenome project—up and running. PLoS Biol, 1(3):E82.

30. Brohede, J. and Rand, K. N. (2006). Evolutionary evidence suggests that CpGisland-associated Alus are frequently unmethylated in human germline. Hum Genet, 119(4):457—8.

31. Brown, S. D. (1991). XIST and the mapping of the X chromosome inactivation centre. Bioessays, 13(11):607—12.

32. Brown, S. E., Suderman, M. J., Hallett, M., and Szyf, M. (2008). DNA demethylation induced by the methyl-CpG-binding domain protein MBD3. Gene, 420(2):99—106.

33. Buiting, K. (2010). Prader-Willi syndrome and Angelman syndrome. Am J Med Genet C Semin Med Genet, 154C(3):365-76.

34. Burge, C., Campbell, A. M., and Karlin, S. (1992). Over- and under-representation of short oligonucleotides in DNA sequences. Proc Natl Acad Sci USA, 89(4):1358—62.

35. Caiafa, P. and Zampieri, M. (2005). DNA methylation and chromatin structure: the puzzling CpG islands. J Cell Biochem, 94(2):257-65.

36. H., Kollias, G., Krishnan, S. P., Kruger, A., Kummerfeld, S. K., Kurochkin,

37. ChargafF, E., Lipshitz, R., Green, C., and Hodes, M. E. (1951). The composition of the deoxyribonucleic acid of salmon sperm. J Biol Chem, 192(1):223—30.

38. Chen, T., Tsujimoto, N., and Li, E. (2004). The PWWP domain of Dnmt3a and Dnmt3b is required for directing DNA methylation to the major satellite repeats at pericentric heterochromatin. Mol Cell Biol, 24(20):9048-58.

39. Choi, J. K. (2010). Contrasting chromatin organization of CpG islands and exons in the human genome. Genome Biol, 11(7):R70.

40. Chung, J. H., Bell, A. C., and Felsenfeld, G. (1997). Characterization of the chicken beta-globin insulator. Proc Natl Acad Sci USA, 94(2):575-80.

41. Cross, S. H., Charlton, J. A., Nan, X., and Bird, A. P. (1994). Purification of CpG islands using a methylated DNA binding column. Nat Genet, 6(3):236—44.

42. Csankovszki, G., Nagy, A., and Jaenisch, R. (2001). Synergism of Xist RNA, DNA methylation, and histone hypoacetylation in maintaining X chromosome inactivation. J Cell Biol, 153(4):773-84.

43. Dai, W., Teodoridis, J. M., Graham, J., Zeller, C., Huang, T. H., Yan, P., Vass, J. K., Brown, R., and Paul, J. (2008). Methylation Linear Discriminant Analysis (MLDA) for identifying differentially methylated CpG islands. BMC Bioinfomatics, 9:337.

44. Das, R., Dimitrova, N., Xuan, Z., Rollins, R. A., Haghighi, F., Edwards, J. R.,

45. Ju, J., Bestor, T. H., and Zhang, M. Q. (2006). Computational prediction of methylation status in human genomic sequences. Proc Natl Acad Sci USA, 103(28):10713—6.

46. Davey, C., Fraser, R., Smolle, M., Simmen, M. W., and Allan, J. (2003). Nucle-osome positioning signals in the DNA sequence of the human and mouse H19 imprinting control regions. J Mol Biol, 325(5):873—87.

47. Davuluri, R. V., Grosse, I., and Zhang, M. Q. (2001). Computational identification of promoters and first exons in the human genome. Nat Genet, 29(4):412—7.

48. Dhasarathy, A. and Wade, P. A. (2008). The MBD protein family-reading an epigenetic mark? Mutat Res, 647(l-2):39-43.

49. Dickson, J., Gowher, H., Strogantsev, R., Gaszner, M., Hair, A., Felsenfeld, G., and West, A. G. (2010). VEZF1 elements mediate protection from DNA methylation. PLoS Genet, 6(l):el000804.

50. Dong, A., Yoder, J. A., Zhang, X., Zhou, L., Bestor, T. H., and Cheng, X. (2001). Structure of human DNMT2, an enigmatic DNA methyltransferase homolog that displays denaturant-resistant binding to DNA. Nucleic Acids Res, 29(2):439—48.

51. Easwaran, H. P., Schermelleh, L., Leonhardt, H., and Cardoso, M. C. (2004). Replication-independent chromatin loading of Dnmtl during G2 and M phases.1. EMBO Rep, 5(12): 1181-6.

52. Efron, B. and Tibshirani, R. (1994). An Introduction to the Bootstrap. Chapman & Hall/CRC, New York.

53. Egger, G., Liang, G., Aparicio, A., and Jones, P. A. (2004). Epigenetics in human disease and prospects for epigenetic therapy. Nature, 429(6990):457—63.

54. Ehrich, M., Turner, J., Gibbs, P., Lipton, L., Giovanneti, M., Cantor, C., and van den Boom, D. (2008). Cytosine methylation profiling of cancer cell lines. Proc Natl Acad Sci USA, 105(12):4844-9.

55. Ehrlich, M. and Wang, R. Y. (1981). 5-Methylcytosine in eukaryotic DNA. Science, 212(4501):1350—7.

56. Emili, A., Greenblatt, J., and Ingles, C. J. (1994). Species-specific interaction of the glutamine-rich activation domains of Spl with the TATA box-binding protein. Mol Cell Biol, 14(3):1582—93.

57. Fan, S., Fang, F., Zhang, X., and Zhang, M. Q. (2007). Putative zinc finger protein binding sites are over-represented in the boundaries of methylation-resistant CpG islands in the human genome. PLoS One, 2(1 l):el 184.

58. Fang, F., Fan, S., Zhang, X., and Zhang, M. Q. (2006). Predicting methylation status of CpG islands in the human brain. Bioinformatics, 22(18):2204—9.

59. Fatemi, M. and Wade, P. A. (2006). MBD family proteins: reading the epigenetic code. J Cell Sci, 119(Pt 15):3033-7.

60. Feltus, F. A., Lee, E. K., Costello, J. F., Plass, C., and Vertino, P. M. (2003). Predicting aberrant CpG island methylation. Proc Natl Acad Sci USA, 100(21):12253—8.

61. Feltus, F. A., Lee, E. K., Costello, J. F., Plass, C., and Vertino, P. M. (2006). DNA motifs associated with aberrant CpG island methylation. Genomics, 87(5):572—9.

62. Frey, F. J. (2005). Methylation of CpG islands: potential relevance for hypertension and kidney diseases. Nephrol Dial Transplant, 20(5):868—9.

63. Fritz, E. L. and Papavasiliou, F. N. (2010). Cytidine deaminases: AIDing DNA demethylation? Genes Dev, 24(19):2107—14.

64. Fryxell, K. J. and Moon, W. J. (2005). CpG mutation rates in the human genome are highly dependent on local GC content. Mol Biol Evol, 22(3):650—8.

65. Fujimori, S., Washio, T., and Tomita, M. (2005). GC-compositional strand bias around transcription start sites in plants and fungi. BMC Genomics, 6(1):26.

66. Fujita, N., Shimotake, N., Ohki, I., Chiba, T., Saya, H., Shirakawa, M., and Nakao, M. (2000). Mechanism of transcriptional regulation by methyl-CpG binding protein MBD1. Mol Cell Biol, 20(14):5107-18.

67. Fuks, F., Burgers, W. A., Brehm, A., Hughes-Davies, L., and Kouzarides, T. (2000). DNA methyltransferase Dnmtl associates with histone deacetylase activity. Nat Genet, 24(1):88—91.

68. Gardiner-Garden, M. and Frommer, M. (1987). CpG islands in vertebrate genomes. J Mol Biol, 196(2):261—82.

69. Gartler, S. M. and Riggs, A. D. (1983). Mammalian X-chromosome inactivation.

70. Golding, M. C. and Westhusin, M. E. (2003). Analysis of DNA (cytosine 5) methyltransferase mRNA sequence and expression in bovine preimplantation embryos, fetal and adult tissues. Gene Expr Patterns, 3(5):551—8.

71. Graves, J. A. (2006). Sex chromosome specialization and degeneration in mammals. Cell, 124(5):901—14.

72. Gribnau, J., Diderich, K., Pruzina, S., Calzolari, R., and Fraser, P. (2000). Intergenic transcription and developmental remodeling of chromatin subdomains in the human beta-globin locus. Mol Cell, 5(2):377—86.

73. Grunau, C., Renault, E., Rosenthal, A., and Roizes, G. (2001). MethDB—a public database for DNA methylation data. Nucleic Acids Res, 29(1):270—4.

74. Hackenberg, M., Barturen, G., Carpena, P., Luque-Escamilla, P. L., Previti, C., and Oliver, J. L. (2010). Prediction of CpG-island function: CpG clustering vs. sliding-window methods. BMC Genomics, 11:327.

75. Hackenberg, M., Previti, C., Luque-Escamilla, P. L., Carpena, P., Martinez-Aroza, J., and Oliver, J. L. (2006). CpGcluster: a distance-based algorithm for CpG-island detection. BMC Bioinformatics, 7:446.

76. Han, L., Su, B., Li, W. H., and Zhao, Z. (2008). CpG island density and its correlations with genomic features in mammalian genomes. Genome Biol, 9(5):R79.

77. Han, L. and Zhao, Z. (2009a). Contrast features of CpG islands in the promoter and other regions in the dog genome. Genomics, 94(2): 117—24.

78. Han, L. and Zhao, Z. (2009b). CpG islands or CpG clusters: how to identify functional GC-rich regions in a genome? BMC Bioinformatics, 10:65.

79. Hashimoto, H., Horton, J. R., Zhang, X., and Cheng, X. (2009). UHRF1, a modular multi-domain protein, regulates replication-coupled crosstalk between DNA methylation and histone modifications. Epigenetics, 4(1):8—14.

80. Hellmann, I., Prufer, K., Ji, H., Zody, M. C., Paabo, S., and Ptak, S. E. (2005). Why do human diversity levels vary at a megabase scale? Genome Res, 15(9):1222—31.

81. Hendrich, B. and Tweedie, S. (2003). The methyl-CpG binding domain and the evolving role of DNA methylation in animals. Trends Genet, 19(5):269—77.

82. Herman, J. G. and Baylin, S. B. (2003). Gene silencing in cancer in association with promoter hypermethylation. N Engl J Med, 349(21):2042-54.

83. Hermann, A., Schmitt, S., and Jeltsch, A. (2003). The human Dnmt2 has residual DNA-(cytosine-C5) methyltransferase activity. J Biol Chem, 278(34):31717—21.

84. Herrera, L. A., Prada, D., Andonegui, M. A., and Duenas-Gonzalez, A. (2008). The epigenetic origin of aneuploidy. Curr Genomics, 9(1):43—50.

85. Hirasawa, R. and Feil, R. (2010). Genomic imprinting and human disease. Essays Biochem, 48(1): 187-200.

86. Hirota, T., Ieiri, I., Takane, H., Maegawa, S., Hosokawa, M., Kobayashi, IC, Chiba, K., Nanba, E., Oshimura, M., Sato, T., Higuchi, S., and Otsubo, K. (2004). Allelic expression imbalance of the human CYP3A4 gene and individual

87. Ho, Y., Elefant, F., Liebhaber, S. A., and Cooke, N. E. (2006). Locus control region transcription plays an active role in long-range gene activation. Mol Cell, 23(3):365—75.

88. Holler, M., Westin, G., Jiricny, J., and Schaffner, W. (1988). Spl transcription factor binds DNA and activates transcription even when the binding site is CpG methylated. Genes Dev, 2(9): 1127-35.

89. Holliday, R. (1991). Mutations and epimutations in mammalian cells. Mutat Res, 250(1-2):351—63.

90. Hotchkiss, R. D. (1948). The quantitative separation of purines, pyrimidines, and nucleosides by paper chromatography. J Biol Chem, 175(1):315—32.

91. Hug, M., Silke, J., Georgiev, O., Rusconi, S., Schaffner, W., and Matsuo, K. (1996). Transcriptional repression by methylation: cooperativity between a CpG cluster in the promoter and remote CpG-rich regions. FEBS Lett, 379(3):251—4.

92. Jacquier, A. (2009). The complex eukaryotic transcriptome: unexpected pervasive transcription and novel small RNAs. Nat Rev Genet, 10(12):833-44.

93. Jia, D., Jurkowska, R. Z., Zhang, X., Jeltsch, A., and Cheng, X. (2007). Structure of Dnmt3a bound to Dnmt3L suggests a model for de novo DNA methylation. Nature, 449(7159):248—51.

94. Jones, P. A. and Baylin, S. B. (2002). The fundamental role of epigenetic events in cancer. Nat Rev Genet, 3(6):415—28.

95. Jurkowski, T. P., Meusburger, M., Phalke, S., Helm, M., Nellen, W., Reuter, G., and Jeltsch, A. (2008). Human DNMT2 methylates tRNA(Asp) molecules using a DNA methyltransferase-like catalytic mechanism. RNA, 14(8): 1663—70.

96. Kaji, K., Nichols, J., and Hendrich, B. (2007). Mbd3, a component of the NuRD co-repressor complex, is required for development of pluripotent cells. Development, 134(6): 1123-32.

97. Kawaji, H., Kasukawa, T., Fukuda, S., Katayama, S., Kai, C., Kawai, J., Carninci, P., and Hayashizaki, Y. (2006). CAGE Basic/Analysis Databases: the CAGE resource for comprehensive promoter analysis. Nucleic Acids Res, 34(Database issue):D632—6.

98. Kim, G. D., Ni, J., Kelesoglu, N., Roberts, R. J., and Pradhan, S. (2002). Cooperation and communication between the human maintenance and de novo DNA (cytosine-5) methyltransferases. EMBO J, 21(15):4183-95.

99. Kim, S., Li, M., Paik, H., Nephew, K., Shi, H., Kramer, R., Xu, D., and Huang, T. H. (2008). Predicting DNA methylation susceptibility using CpG flanking sequences. Pac Symp Biocomput, pages 315—26.

100. Kim, T. M., Chung, Y. J., Rhyu, M. G., and Jung, M. H. (2007). Germline methy-lation patterns inferred from local nucleotide frequency of repetitive sequences in the human genome. Mamm Genome, 18(4):277—85.

101. Kimura, H. and Shiota, K. (2003). Methyi-CpG-binding protein, MeCP2, is a target molecule for maintenance DNA methyltransferase, Dnmtl. J Biol Chem, 278(7):4806—12.

102. Klose, R. J., Sarraf, S. A., Schmiedeberg, L., McDermott, S. M., Stancheva, I., and Bird, A. P. (2005). DNA binding selectivity of MeCP2 due to a requirement for A/T sequences adjacent to methyl-CpG. Mol Cell, 19(5):667—78.

103. Ko, Y. G., Nishino, IC., Hattori, N., Arai, Y., Tanaka, S., and Shiota, K. (2005). Stage-by-stage change in DNA methylation status of Dnmtl locus during mouse early development. J Biol Chem, 280(10):9627-34.

104. Kodzius, R, Kojima, M., Nishiyori, H., Nakamura, M., Fukuda, S., Tagami, M., Sasaki, D., Imamura, K., Kai, C., Harbers, M., Hayashizaki, Y., and Carninci, P. (2006). CAGE: cap analysis of gene expression. Nat Methods, 3(3):211— 22.

105. Koltai, H. and Weingarten-Baror, C. (2008). Specificity of DNA microarray hybridization: characterization, effectors and approaches for data correction. Nucleic Acids Res, 36(7):2395-405.

106. Kondrashov, F. A., Ogurtsov, A. Y., and Kondrashov, A. S. (2006). Selection in favor of nucleotides G and C diversifies evolution rates and levels of polymorphism at mammalian synonymous sites. J Theor Biol, 240(4):616—26.

107. Kumar, S. and Subramanian, S. (2002). Mutation rates in mammalian genomes. Proc Natl Acad Sci USA, 99(2):803-8.

108. Macaya, G., Thiery, J. P., and Bernardi, G. (1976). An approach to the organization of eukaryotic genomes at a macromolecular level. J Mol Biol, 108(1):237—54.

109. Macleod, D., Charlton, J., Mullins, J., and Bird, A. P. (1994). Spl sites in the mouse aprt gene promoter are required to prevent methylation of the CpG island. Genes Dev, 8(19):2282-92.

110. Majewski, J. and Ott, J. (2002). Distribution and characterization of regulatory elements in the human genome. Genome Res, 12(12): 1827—36.

111. Margot, J. B., Ehrenhofer-Murray, A. E., and Leonhardt, H. (2003). Interactions within the mammalian DNA methyltransferase family. BMC Mol Biol, 4:7.

112. Mastrangelo, I. A., Courey, A. J., Wall, J. S., Jackson, S. P., and Hough, P. V. (1991). DNA looping and Spl multimer links: a mechanism for transcriptional synergism and enhancement. Proc Natl Acad Sci USA, 88(13):5670—4.

113. Millar, C. B., Guy, J., Sansom, O. J., Selfridge, J., MacDougall, E., Hendrich, B., Keightley, P. D., Bishop, S. M., Clarke, A. R., and Bird, A. (2002). Enhanced CpG mutability and tumorigenesis in MBD4-deficient mice. Science, 297(5580):403—5.

114. Mitchell, D. and Bridge, R. (2006). A test of ChargafFs second rule. Biochem Biophys Res Commun, 340(l):90-4.

115. Mitrofanov, S. I., Panchin, A. Y., Spirin, S. A., Alexeevski, A. V., and Panchin, Y. V. (2010). Exclusive sequences of different genomes. J Bioinform Comput Biol, 8(3):519—34.

116. Nakken, S., Rognes, T., and Hovig, E. (2009). The disruptive positions in human G-quadruplex motifs are less polymorphic and more conserved than their neutral counterparts. Nucleic Acids Res, 37(17):5749—56.

117. Naumann, A., Hochstein, N., Weber, S., Fanning, E., and Doerfler, W. (2009). A distinct DNA-methylation boundary in the 5'- upstream sequence of the FMR1 promoter binds nuclear proteins and is lost in fragile X syndrome. Am J Hum Genet, 85(5):606—16.

118. Ng, H. H., Zhang, Y., Hendrich, B., Johnson, C. A., Turner, B. M., Erdjument-Bromage, H., Tempst, P., Reinberg, D., and Bird, A. (1999). MBD2 is a transcriptional repressor belonging to the MeCPl histone deacetylase complex. Nat Genet, 23(1):58—61.

119. Nurtdinov, R. N., Neverov, A. D., Mal'ko, D. B., Kosmodem'ianskii, I. A., Ermakova, E. O., Ramenskii, V. E., Mironov, A. A., and Gel'fand, M. S. (2006). EDAS, databases of alternatively spliced human genes. Biofizika, 51(4):589—92.

120. Oakes, C. C., La Salle, S., Smiraglia, D. J., Robaire, B., and Trasler, J. M. (2007). A unique configuration of genome-wide DNA methylation patterns in the testis. Proc Natl Acad Sci USA, 104(l):228-33.

121. Oka, M., Rodic, N., Graddy, J., Chang, L. J., and Terada, N. (2006). CpG sites preferentially methylated by Dnmt3a in vivo. J Biol Chem, 281(15):9901—8.

122. Okada, Y., Yamagata, K., Hong, K., Wakayama, T., and Zhang, Y. (2010). A role for the elongator complex in zygotic paternal genome demethylation. Nature, 463(7280):554—8.

123. Okano, M., Bell, D. W., Haber, D. A., and Li, E. (1999). DNA methyltransferases Dnmt3a and Dnmt3b are essential for de novo methylation and mammalian development. Cell, 99(3):247-57.

124. Peddada, S., Yasui, D. H., and LaSalle, J. M. (2006). Inhibitors of differentiation (ID1, ID2, ID3 and ID4) genes are neuronal targets of MeCP2 that are elevated in Rett syndrome. Hum Mol Genet, 15(12):2003-14.

125. Pfeifer, G. P. (2006). Mutagenesis at methylated CpG sequences. Curr Top Microbiol Immunol, 301:259—81.

126. Phi-van, L. and Stratling, W. H. (1999). An origin of bidirectional DNA replication is located within a CpG island at the 3' end of the chicken lysozyme gene. Nucleic Acids Res, 27(15):3009-17.

127. Polak, P. and Arndt, P. F. (2008). Transcription induces strand-specific mutations at the 5' end of human genes. Genome Res, 18(8):1216—23.

128. Ponger, L., Duret, L., and Mouchiroud, D. (2001). Determinants of CpG islands: expression in early embryo and isochore structure. Genome Res, 11(11): 1854—60.

129. Ponger, L. and Mouchiroud, D. (2002). CpGProD: identifying CpG islands associated with transcription start sites in large genomic mammalian sequences. Bioinformatics, 18 (4): 631—3.

130. Previti, C., Harari, O., Zwir, I., and del Val, C. (2009). Profile analysis and prediction of tissue-specific CpG island methylation classes. BMC Bioinformatics, 10:116.

131. Probst, A. V., Dunleavy, E., and Almouzni, G. (2009). Epigenetic inheritance during the cell cycle. Nat Rev Mol Cell Biol, 10(3): 192-206.

132. Pugh, B. F. and Tjian, R. (1991). Transcription from a TATA-less promoter requires a multisubunit TFIID complex. Genes Dev, 5(11): 1935—45.

133. Rauch, T. and Pfeifer, G. P. (2005). Methylated-CpG island recovery assay: anew technique for the rapid detection of methylated-CpG islands in cancer. Lab Invest, 85(9): 1172-80.

134. Rauch, T. A. and Pfeifer, G. P. (2010). DNA methylation profiling using the methylated-CpG island recovery assay (MIRA). Methods, 52(3):213-7.

135. Razin, A. and Riggs, A. D. (1980). DNA methylation and gene function. Science, 210(4470):604—10.

136. Recillas-Targa, F., De La Rosa-Velazquez, I. A., Soto-Reyes, E., and Benitez-Bribiesca, L. (2006). Epigenetic boundaries of tumour suppressor gene promoters: the CTCF connection and its role in carcinogenesis. J Cell Mol Med, 10(3):554—68.

137. Reese, J. C. (2003). Basal transcription factors. Curr Opin Genet Dev, 13(2): 114—8.

138. Rein, T., Kobayashi, T., Malott, M., Leffak, M., and DePamphilis, M. L. (1999). DNA methylation at mammalian replication origins. J Biol Chem, 274(36):25792—800.

139. Rein, T., Zorbas, H., and DePamphilis, M. L. (1997). Active mammalian replication origins are associated with a high-density cluster of mCpG dinucleotides. Mol Cell Biol, 17(1):416-26.

140. Rice, P., Longden, I., and Bleasby, A. (2000). EMBOSS: the European Molecular

141. Richardson, B. (2007). Primer: epigenetics of autoimmunity. Nat Clin Pract Rheumatol, 3(9):521-7.

142. Robertson, K. D. (2002). DNA methylation and chromatin — unraveling the tangled web. Oncogene, 21(35):5361-79.

143. Robinson, P. N., Bohme, U., Lopez, R., Mundlos, S., and Nurnberg, P. (2004). Gene-Ontology analysis reveals association of tissue-specific 5' CpG-island genes with development and embryogenesis. Hum Mol Genet, 13(17): 1969—78.

144. Rountree, M. R., Bachman, IC. E., and Baylin, S. B. (2000). DNMT1 binds HDAC2 and a new co-repressor, DMAP1, to form a complex at replication foci. Nat Genet, 25(3):269-77.

145. Saito, M. and Ishikawa, F. (2002). The mCpG-binding domain of human MBD3 does not bind to mCpG but interacts with NuRD/Mi2 components HDAC1 and MTA2. J Biol Chem, 277(38):35434-9.

146. Sasai, N., Nakao, M., and Defossez, P. A. (2010). Sequence-specific recognition of methylated DNA by human zinc-finger proteins. Nucleic Acids Res, 38(15):5015—22.

147. Saxena, S., Miyoshi, D., and Sugimoto, N. (2010). Sole and stable RNA duplexes of G-rich sequences located in the 5'-untranslated region of protooncogenes. Biochemistry, 49(33):7190-201.

148. Saxonov, S., Berg, P., and Brutlag, D. L. (2006). A genome-wide analysis of CpG dinucleotides in the human genome distinguishes two distinct classes of promoters. Proc Natl Acad Sci USA, 103(5):1412-7.

149. Scaiewicz, V., Sabbia, V., Piovani, R., and Musto, H. (2006). CpG islands are the second main factor shaping codon usage in human genes. Biochem Biophys Res Commun, 343(4): 1257-61.

150. Segal, M. R. (2006). Validation in genomics: CpG island methylation revisited. Stat Appl Genet Mol Biol, 5:Article29.

151. Serre, D., Lee, B. H., and Ting, A. H. (2009). MBD-isolated Genome Sequencing provides a high-throughput and comprehensive survey of DNA methylation in the human genome. Nucleic Acids Res, 38(2):391—9.

152. Shann, Y. J., Cheng, C., Chiao, C. H., Chen, D. T., Li, P. H., and Hsu, M. T. (2008). Genome-wide mapping and characterization of hypomethylated sites in human tissues and breast cancer cell lines. Genome Res, 18(5):791—801.

153. Shen, L., Kondo, Y., Guo, Y., Zhang, J., Zhang, L., Ahmed, S., Shu, J., Chen, X., Waterland, R. A., and Issa, J. P. (2007). Genome-wide profiling of DNA methylation reveals a class of normally methylated CpG island promoters. PLoS Genet, 3(10):2023—36.

154. Shilatifard, A., Conaway, R. C., and Conaway, J. W. (2003). The RNA polymerase II elongation complex. Annu Rev Biochem, 72:693—715.

155. Song, F., Mahmood, S., Ghosh, S., Liang, P., Smiraglia, D. J., Nagase, H., and Held, W. A. (2009). Tissue specific differentially methylated regions (TDMR): Changes in DNA methylation during development. Genomics, 93(2): 130—9.

156. Stec, I., Nagl, S. B., van Ommen, G. J., and den Dünnen, J. T. (2000). The PWWP domain: a potential protein-protein interaction domain in nuclear proteins influencing differentiation? FEBS Lett, 473(1): 1-5.

157. Stormo, G. D., Schneider, T. D., and Gold, L. (1986). Quantitative analysis of the relationship between nucleotide sequence and functional activity. Nucleic Acids Res, 14(16):6661—79.

158. Stratling, W. H. and Yu, F. (1999). Origin and roles of nuclear matrix proteins. Specific functions of the MAR-binding protein MeCP2/ARBP. Crit Rev Eukaryot Gene Expr, 9(3-4):311-8.

159. Straussman, R., Nejman, D., Roberts, D., Steinfeld, I., Blum, B., Benvenisty, N., Simon, I., Yakhini, Z., and Cedar, H. (2009). Developmental programming of CpG island methylation profiles in the human genome. Nat Struct Mol Biol, 16(5):564—71.

160. Su, J., Zhang, Y., Lv, J., Liu, H., Tang, X., Wang, F., Qi, Y., Feng, Y., and Li, X. (2009). CpGMI: a novel approach for identifying functional CpG islands in mammalian genomes. Nucleic Acids Res, 38(l):e6.

161. Subramanian, S. and Kumar, S. (2003). Neutral substitutions occur at a faster rate in exons than in noncoding DNA in primate genomes. Genome Res, 13(5):838—44.

162. Subramanian, S. and Kumar, S. (2006a). Evolutionary anatomies of positions and types of disease-associated and neutral amino acid mutations in the human genome. BMC Genomics, 7:306.

163. Subramanian, S. and Kumar, S. (2006b). Higher intensity of purifying selection on >90% of the human genes revealed by the intrinsic replacement mutation rates. Mol Biol Evol, 23(12):2283—7.

164. Suetake, I., Shinozaki, F., Miyagawa, J., Takeshima, H., and Tajima, S. (2004). DNMT3L stimulates the DNA methylation activity of Dnmt3a and Dnmt3b through a direct interaction. J Biol Chem, 279(26):27816—23.

165. Sved, J. and Bird, A. (1990). The expected equilibrium of the CpG dinucleotide in vertebrate genomes under a mutation model. Proc Natl Acad Sci USA, 87(12):4692—6.

166. Takai, D. and Jones, P. A. (2002). Comprehensive analysis of CpG islands in human chromosomes 21 and 22. Proc Natl Acad Sci USA, 99(6):3740-5.

167. Takai, D. and Jones, P. A. (2003). The CpG island searcher: a new WWW resource. In Silico Biol, 3(3):235—40.

168. Takeshima, H., Suetake, I., and Tajima, S. (2008). Mouse Dnmt3a preferentially methylates linker DNA and is inhibited by histone HI. J Mol Biol, 383(4):810-21.

169. Tatarinova, T., Brover, V., Troukhan, M., and Alexandrov, N. (2003). Skew in CG content near the transcription start site in Arabidopsis thaliana. Bioinformatics, 19 Suppl 1 :i313—4.

170. Teodoridis, J. M., Strathdee, G., and Brown, R. (2004). Epigenetic silencing mediated by CpG island methylation: potential as a therapeutic target and as a biomarker. Drug Resist Updat, 7(4-5):267-78.

171. Tomso, D. J. and Bell, D. A. (2003). Sequence context at human single nucleotide polymorphisms: overrepresentation of CpG dinucleotide at polymorphic sites and suppression of variation in CpG islands. J Mol Biol, 327(2):303—8.

172. Touchon, M., Nicolay, S., Arneodo, A., d'Aubenton Carafa, Y., and Thermes, C. (2003). Transcription-coupled TA and GC strand asymmetries in the human genome. FEBS Lett, 555(3):579-82.

173. Ullu, E. and Tschudi, C. (1984). Alu sequences are processed 7SL RNA genes. Nature, 312(5990):171-2.

174. Ushijima, T., Watanabe, N., Okochi, E., Kaneda, A., Sugimura, T., and Miyamoto,

175. K. (2003). Fidelity of the methylation pattern and its variation in the genome. Genome Res, 13(5):868-74.

176. Walser, J. C. and Furano, A. V. (2010). The mutational spectrum of non-CpG DNA varies with CpG content. Genome Res, 20(7):875—82.

177. Walsh, C. P., Chaillet, J. R., and Bestor, T. H. (1998). Transcription of IAP endogenous retroviruses is constrained by cytosine methylation. Nat Genet, 20(2): 116-7.

178. Wang, Y. and Leung, F. C. (2004). An evaluation of new criteria for CpG islands in the human genome as gene markers. Bioinformatics, 20(7): 1170—7.

179. Watanabe, D., Suetake, I., Tada, T., and Tajima, S. (2002). Stage- and cell-specific expression of Dnmt3a and Dnmt3b during embryogenesis. Mech Dev, 118(1-2):187—90.

180. Weinmann, A. S., Yan, P. S., Oberley, M. J., Huang, T. H., and Farnham, P. J. (2002). Isolating human transcription factor targets by coupling chromatin im-munoprecipitation and CpG island microarray analysis. Genes Dev, 16(2):235—44.

181. Weis, L. and Reinberg, D. (1992). Transcription by RNA polymerase II: initiator-directed formation of transcription-competent complexes. FASEB J, 6(14):3300—9.

182. Weis, L. and Reinberg, D. (1997). Accurate positioning of RNA polymerase II on a natural TATA-less promoter is independent of TATA-binding-protein-associated factors and initiator-binding proteins. Mol Cell Biol, 17(6):2973—84.

183. Wu, H., Caffo, B., Jaffee, H. A., Irizarry, R. A., and Feinberg, A. P. (2010). Redefining CpG islands using hidden Markov models. Biostatistics, 11(3):499—514.

184. Wu, S. C. and Zhang, Y. (2010). Active DNA demethylation: many roads lead to Rome. Nat Rev Mol Cell Biol, 11(9):607—20.

185. Xie, H., Wang, M., Bonaldo Mde, F., Rajaram, V., Stellpflug, W., Smith, C., Amdt, K., Goldman, S., Tomita, T., and Soares, M. B. (2010). Epigenomic analysis of Alu repeats in human ependymomas. Proc Natl Acad Sci USA, 107(15):6952—7.

186. Xie, S., Wang, Z., Okano, M., Nogami, M., Li, Y., He, W. W., Okumura, K., and Li, E. (1999). Cloning, expression and chromosome locations of the human DNMT3 gene family. Gene, 236(l):87-95.

187. Xing, J., Hedges, D. J., Han, K., Wang, H., Cordaux, R., and Batzer, M. A. (2004). Alu element mutation spectra: molecular clocks and the effect of DNA methylation. J Mol Biol, 344(3):675-82.

188. Xiong, Y., Dowdy, S. C., Xue, A., Shujuan, J., Eberhardt, N. L., Podratz, K. C., and Jiang, S. W. (2005). Opposite alterations of DNA methyltransferase gene expression in endometrioid and serous endometrial cancers. Gynecol Oncol, 96(3):601—9.

189. Yamada, Y., Watanabe, H., Miura, F., Soejima, H., Uchiyama, M., Iwasaka, T., Mukai, T., Sakaki, Y., and Ito, T. (2004). A comprehensive analysis of allelic methylation status of CpG islands on human chromosome 21q. Genome Res, 14(2):247—66.

190. Yates, P. A., Burman, R. W., Mummaneni, P., Krussel, S., and Turker, M. S. (1999). Tandem B1 elements located in a mouse methylation center provide a target for de novo DNA methylation. J Biol Chem, 274(51):36357-61.

191. Zemojtel, Т., Kielbasa, S. M., Arndt, P. F., Chung, H. R., and Vingron, M. (2009). Methylation and deamination of CpGs generate p53-binding sites on a genomic scale. Trends Genet, 25(2):63—6.

192. Zhao, Z. and Han, L. (2009). CpG islands: algorithms and applications in methylation studies. Biochem Biophys Res Commun, 382(4):643—5.

193. Zhao, Z. and Jiang, C. (2007). Methylation-dependent transition rates are dependent on local sequence lengths and genomic regions. Mol Biol Evol, 24(1):23—5.

194. Zhu, J., He, F., Hu, S., and Yu, J. (2008). On the nature of human housekeeping genes. Trends Genet, 24(10):481-4.

195. Zhu, Y., Spitz, M. R., Zhang, H., Grossman, H. В., Frazier, M. L., and Wu, X. (2004). Methyl-CpG-binding domain 2: a protective role in bladder carcinoma. Cancer, 100(9): 1853-8.

196. Кулаковский, И. и Макеев, В. (2009). Интеграция данных, полученных различными экспериментальными методами для определения мотивов в последовательностях ДНК, распознаваемых факторами, регулирующими транскрипцию. Биофизика, 54(6):963—975.

197. Розанов (1985). Теория вероятностей, случайные процессы, математическая статистика. Наука, Москва.г