Бесплатный автореферат и диссертация по биологии на тему
Анализ структуры хроматина и молекулярных комплексов, регулирующих транскрипцию, и распознавание функциональных элементов генома методами системной биологии
ВАК РФ 03.01.03, Молекулярная биология

Автореферат диссертации по теме "Анализ структуры хроматина и молекулярных комплексов, регулирующих транскрипцию, и распознавание функциональных элементов генома методами системной биологии"

005011013

Белостоцкші Александр Александрович

АНАЛИЗ СТРУКТУРЫ ХРОМАТИНА И МОЛЕКУЛЯРНЫХ

КОМПЛЕКСОВ, РЕГУЛИРУЮЩИХ ТРАНСКРИПЦИЮ, И РАСПОЗНАВАІПІЕ ФУНКЦИОНАЛЬНЫХ ЭЛЕМЕНТОВ ГЕНОМА МЕТОДАМИ СИСТЕМНОЙ БИОЛОГИИ

Специальность: 03.01.03 молекулярная биология

Автореферат диссертации на соискание степени кандидата биологических наук

~ 1 и АР Ш

Москва, 2012

005011013

Работа выполнена в лаборатории биоинформатики ФГУП «ГосНИИгенетика»

Научный руководитель:

доктор физико-математических наук,

Зав.. лабораторией биоинформатики ФГУП «ГосНИИгенетика»

В.Ю. Макеев

Официальные оппоненты:

доктор биологических наук, профессор МГУ им. М.В.Ломоносова кандидат биологических наук ИМБРАН

А.А.Миронов Н.Ю.Опарина

Ведущая организация: Учреждение Российской Академии

Наук, Институт Проблем Передачи Информации им. А.А. Харкевича, РАН, г.Москва

Защита состоится 13 марта 2012 г. в 14 часов на заседании диссертационного совета Д 217.013.01 при ФГУП «Государственный научно-исследовательский инстшут генетики и селекции промышленных микроорганизмов» по адресу: 117545, Москва, 1-ый Дорожный проезд, д. 1.

С диссертацией можно ознакомиться в библиотеке ФГУП «ГосНИИгенетика».

Реферат разослан «^»февраля 2012 г.

Ученый секретарь Диссертационного совета,

кандидат химических наук / Т.Л. Воюшина

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ.

Актуальность темы. Анализ и распознавание регуляторных элементов ДНК, как кодирующих, так и некодирующих, представляет собой одну из основных задач вычислительной молекулярной биологии и биоинформатики. Эта область находится на стыке экспериментальной молекулярной биологии, прикладной математики и информатики. Данные о регуляторных элементах генома поставляет эксперимент, а анализ и распознавание не изученных экспериментально регуляторных участков производится с помощью специальных алгоритмов.

В настоящее время имеется крайне обширный срез методов, идентифицирующих определенные участки ДНК как регуляторные. Прежде всего это прямые методы определения участков и сайтов связывания факторов транскрипции, такие как EMSA, in vitro footprinting, in vivo footprinting, SELEX, methylation interference assay, ChIP, CliIP-chip, ChlP-seq seq (Orchard K.May GE, 1993; Galas DJ, Schmitz A; Tsai SF et al, 1991; Iguchi-Ariga SM, Schaffner W„ 1989; Buck MJ, Lieb JD„ 2004; Mardis ER., 2007).

Еще до появления полногеномных методов определения участков связывания белков на ДНК были сформулированы эмпирические правила того, где расположены участки связывания факторов транскрипции, какие последовательности связываются предпочтительно фактором транскрипции и как такие участки позиционированы друг относительно друга. На основании анализа результатов этих методов были построены модели мотивов, объектов, содержащих количественную информацию о наборе сайтов связывания, а именно учитывающих частоту встречаемости каждого нуклеотида в каждом положении сайта. Также выводили консенсус, то есть попросту усредненный сайт связывания для определенного фактора транскрипции или группы таких факторов. На основании такой информации производился поиск сайта связывания в геноме. При этом ставились задачи как найти уже известный сайт так и найти новые, ранее неизвестные сайты.

При проведении такого поиска оказывалось, что предсказанный сайт связывания располагался в любом месте в геноме равновероятно. Однако биологические знания говорят об обратном. Сайты связывания должны находиться в геноме крайне редко и при этом в определенных местах. С биологической точки зрения функциональные сайты связывания регуляторных белков следует искать (1) в районе, локусе, гена, (2) в определенных местах в локусе, доступных для посадки фактора транскрипции. При этом также вполне целесообразно учитывать окружение фактора, так как клеточные процессы регулируются не единичными белками, а их комплексами. Процессы в клетке, в том числе

процесс транскрипции, регулируемы огромным количеством самых разных белков, обладающих разными активностями. В случае с факторами транскрипции, это разные факторы транскрипции. Они кооперативно связывают ДНК, что повышает специфичность связывания комплекса определенных участков на молекуле ДНК.

В настоящее время имеются в распоряжении методы поиска одиночных сайтов связывания фактора транскрипции , а также их плотных групп, то есть прямых повторов, палиндромов и кластеров сайтов связывания. Кластеры сайтов есть фактически комбинация прямых повторов и палиндромов с плавающим по длине спейсером. В подавляющем большинстве случаев их ищут везде в геноме, без учета специфических районов генома, в которых наличие функциональных сайтов связывания наиболее вероятно.

В этой работе установлен метод выявления предпочтительных мест связывания факторов транскрипции исходя из учета структуры хроматина. Также представлен метод, учитывающий белок-белковое взаимодействие между факторами транскрипции. Построены модели транскрипционных комплексов и выявлены динамические аспекты регуляции транскрипции.

Также приведено решение обратной задачи: распознать субъединичный состав комплекса исходя из профиля связывания субъединиц этого комплекса с ДНК.

Цели и задачи. Цель работы: анализ структуры и динамики хроматина и молекулярных комплексов и распознавание регуляторных элементов генома. В соответствии с поставленной целью были поставлены следующие задачи.

1. Разработка метода учета структуры хроматина в задачах анализа и распознавания регуляторных генома.

2. Разработка метода учета белок-белкового взаимодействия в комплексе регуляторов транскрипции в задачах анализа и распознавания регуляторных участков генома и подтверждение его важнейшей роли в организации регулирующего транскрипцию комплекса.

3. Анализ и распознавание структуры и особенностей функционирования транскрипционного комплекса.

4. Динамическая интерпретация структур молекулярных комплексов. Научная новизна.

!. Разработан метод учета структуры хроматина и белок-белкового взаимодействия в анализе и распознавании регуляторных элементов генома. Информация о белок-белковом взаимодействии используется как начальные данные.

2. Разработан подход учета внепиковых частей сигнала ChlP-seq, трактуемый как профиль связывания.

3. Разработана модель структуры элонгационного комплекса РНК полнмеразы II с участием факторов транскрипции. Подтверждена гипотеза о стационарной транскриптосоме и предложена модель стационарной транскриптосомы.

Научно-практическая ценность работы.

Работа вносит существенный вклад в распознавание экспериментально не изученных регуляторных элементов, а также в интегральный анализ изученных. Это важно для определения, уточнения и корректировки профиля экспрессии генов и для частичной реконструкции регуляторных биологических сетей. Практические приложения безусловно могут быть полезны в таких областях, как медицина и биотехгнология. Модель биологических сетей, представленная в работе может быть полезна для понимания режима функционирования биологических сетей, что в свою очередь важно как в медицине, так и в биотехнологии.

Вклад соискателя.

1. Разработка алгоритма поиска регуляторных элементов генома исходя из данных о белок-белковом взаимодействии.

2. Анализ сигналов ChlP-seq в интерпретации профиля связывания н формулировка гипотезы о структурной связи факторов транскрипции в элонгации транскрипции с РНК полимеразой II. Обоснование гипотезы о стационарности трансркиптосомы в ядре с помощью результатов анализа сигналов ChlP-seq.

3. Введение и разработка интегральной модели биологических сетей, основанной на предположении о наличии высокой распространенности связанных колебаний в подсетях.

Апробация

Материалы диссертации были представлены на конференциях: МССМВ'09 (Москва), BGRS'10, FGD'10 (Дрезден), МССМВ'11 (Москва), SystemsX (Базель, 2011) и на совместном межлабораторном семинаре ИОГен РАН и секции молекулярной биолопш ФГУП «ГосНИИгенетика».

Публикации.

По материалам диссертации опубликовано 4 статьи.

Структура н объем диссертации

Диссертация состоит из введения, аналитического обзора литературы, предложенных и разработанных методов исследования, результатов исследования и их обсуждения, выводов и списка литературы. Изложена на 150 страницах и содержит 20 рисунков и 20 таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Обзор литературы изложен на 40 страницах и содержит информацию об изучении регуляции генной экспрессии, о структурах хроматина, об эволюции соответствующих методов исследования и о месте вычислительного эксперимента и моделирования в ряду этих методов.

ОБЪЕКТЫ И МЕТОДЫ ИССЛЕДОВАНИЯ

В качестве данных, с которыми проводилась работа, были использованы координаты участков связывания факторов транскрипции, определенные крайне специфичным методом ChIP-seq и находящиеся в базе данных UCSC Genome Browser. Также были использованы данные о расщеплении ДНК ДНКазой1 и данные о положении гистоновых доменов. Эти данные были также экспортированы из UCSC Genome Browser, причем рассматривались не только процессированные результаты, но и выходные значения экспериментов в виде сигналов. Сигналы обрабатывались с помощью сервиса Galaxy, UCSC Browser Tables, Microsoft Office и программ, написанных на Perl для выявления периодичностей сигнала.

Также широко использовались программы и базы данных Genomatix и TransFac. В пределах программы TransFac наиболее интенсивно использовался инструмент Match, ищущий соответствия мотива и последовательности.

Широко применялись известные базы данных белок-белкового взаимодействия, такие как Rathway Studio, BIND, BOND, BioGrid, IntAct, String, MINT.

Обработка и анализ данных осуществлялся с помощью базы данных, созданной в среде MySQL и управляемая MySQL и специальным интерфейсем, являющимся модулем языка Perl, DBI.

Построение сетей белок-белкового взаимодействия проводилось с помощью программы String и Pathway Studio.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЯ

1. Привлечение структурных данных для анализа и распознавания

регуляторных элементов генома.

Хроматин в клетке находится в двух основных состояниях: активным и неактивном. Активный хроматин участвует в регуляции экспрессии генов, неактивный не участвует. Однако в случае распознавания регуляторных участков ДНК такой простой факт обычно не учитывается и вся ДНК рассматривается как потенциально регуляторная. Такой традиционный подход дает множество потенциально регуляторных элементов, расположенных в том числе в неактивном хроматине. Такие элементы генома могут

6

располагаться в активном хроматине в других условиях, так как неактивный хроматин может быть преобразован в активный в клетке при определенных условиях. Распознавание при высоком пороге на качество сайта, не дает возможности адекватно определить даже небольшое количество известных регуляторных элементов, а в других случаях, при более низком пороге, определяется слишком много фрагментов ДНК как регуляторные элементы. Можно, конечно, предположить, что такая картина и является адекватной, однако адекватное распознавание сигнала включает в себя прежде всего распознавание сигнала в обучающей выборке, то есть в экспериментально изученных случаях как хотя бы не самый слабый сигнал.

Для того чтобы правильно распознавать регуляторные элементы необходимо учитывать структуру хроматина. Хроматин активный (эухроматин) отличается от хроматина неактивного (гетерохроматина) прежде всего тем, что он открытый. Такая открытость хроматина обнаруживается при расщеплении ДНК ферментом ДНКаза1. Этот фермент, являющийся по активности неспецифической эндонуклеазой, режет ДНК неспецифично относительно последовательности. Причем он режет открытые фрагменты ДНК существенно более эффективно, чем закрытые. Более того, в пределах открытого хроматина ДНКаза1 режет ДНК более интенсивно в регуляторных некодирующих областях (D Nelson, 1979). Такие области называются ДНКаза1 гиперчувствительными областями. Скажем такие элементы генома как промотор, энхансер, сайленсер являются ДНКаза1-гиперчувствительными областями.

Также для определения активности хроматина используют хроматиновые метки, такие как модификации гистонов (BD Strahl, CD Allis, 2000). Гистоны представляют собой белки с вполне компактной и плотной коровой частью и протяженными в растворитель "хвостами". Октамер гистонов состоит из плотно уложенных гистонов Н2А, Н2В, НЗ и Н4. Хвосты гистонов обращены при этом в окружающую среду. Именно эти хвосты и используются специальными гистон-модифицирующими ферментами для модификации гистонов. Наиболее модифицируемым является хвост НЗ гистона. С помощью метода чип-чип (ChlP-chip), а далее и чип-сек (ChlP-seq), основанных на иммунопреципитации хроматина иммуноглобулинами против определенных белков с последующим процессированием молекулы ДНК и идентификации полученных фрагментов, были установлены участки ДНК, связанные определенным образом модифицированными ги стонами.

Данные по профилю расщепления ДНКазой1 и данные по гистоновым модификациям находятся в частности в базе данных UCSC Genome Browser, где они представлены в удобном для использования виде и где имеются такие данные,

7

полученные на разных культурах ткани, чем и обусловлен выбор этой базы данных. Эти данные использовались вместе и порознь в специально сконструированной для анализа и распознавания регуляторных областей базе данных под управлением интерфейса Perl DBI. Именно с помощью этой базы данных были установлены корреляции открытости хроматина с наличием определенных гистоновых модификаций. Далее использовались данные по участкам ДНК, определенным методом ChlP-seq как связываемые соотвествующими факторами транскрипции. Оценивалось перекрывание этих участков с гиперчувствительными к ДНКазе1 участками и участками с определенными модификациями гистонов.

Схема общего устройства базы данных приведена на Рис. 1.

ДНКаза! ГЧ области

БД генов

БДББВ

MySQL DB

Рис. 1. Общее устройство БД определения регуляторных элементов. Информация из разных БД интегрируется в БД, в которой и осуществляется поиск участков связывания, определенных методом СЫР-seq, пересекающихся с ДНКаза1 ГЧ (гиперчувствительными) областями, между собой в случае наличия взаимодействия между соответствующими белками и с генами, регуляция которых рассматривается.

В ходе работы подтверждено наблюдение, что большинство участков связывания характеризуются пересечениями с гистоновыми доменами. Это крайне показательно, так как означает, что участки связывания факторов транскрипции находятся в часто меняющий свой статус участках. Так как распределение и профиль модификации гистонов изучаются и обнаруживаются в культуре клеток, а не в одной выделенной клетке в один и тот же момент времени для всех модификаций, то и картина получается суперпозицией профилей, наблюдаемых в данный момент времени для разных клеток, находящихся в разной фазе клеточного цикла и в разные моменты внутри одной фазы. Это

можно считать еще одним подтверждением тезиса об изменчивости статуса хроматина на протяжении жизни клетки.

Также подтверждено, что подавляющее большинство участков СЫР-5ед пересекаются с участками, гиперчувствительными к ДНКазе1. Понятно, что целесообразно искать сайты связывания не в геноме вообще, а в области пересечения участков связывания, определенными методом ChIP-seq, с участками, гиперчувствительными к ДНКазе1 и с гистоновыми доменами. Участки, определенные методом ChIP-seq, являются, как видно, вполне достоверными участками связывания. Поиск сайта лишь осуществляет более точное картирование связывания, если оно вообще

четко локализовано.

Название Нить Координата Координата Координата Координата Фактор

транскрипга Хромосома ДНК 1 2 I ДНКаза! 2 ДНКаза 1 транскрипции

ис002г1г.1 сЬг22 + 15462800 15509720 15461563 15462956 С-.ІШ1

ис002гЬ.1 сЬг22 + 15462800 15559521 15461563 15462956 с-Яіп

uc010gqq.l сЬг22 + 15462800 15476000 15462060 15463192 ТАРІ

ис002г1ц.2 сЬг22 + 15462800 15476000 15462060 15463192 ТАН

ис002г1г. 1 сЬг22 + 15462800 15509720 15462060 15463192 ТАРІ

исСШгк! сЬг22 + 15462800 15559521 15462060 15463192 ТАРІ

uc010gqq. 1 сЬг22 + 15462800 15476000 15461563 15462956 с-.1ип

ис002Л].2 сЬг22 + 15462800 15476000 15461563 15462956 с-іип

ис002г1г. 1 сЬг22 + 15462800 15509720 15461563 15462956 с-.Іип

ис002гЬ.1 сЬг22 + 15462800 15559521 15461563 15462956 с-.1ип

uc010gqq. 1 сЬг22 + 15462800 15476000 15462908 15463188 рил

ис002г^.2 сЫ22 + 15462800 15476000 15462908 15463188 ри.і

ис002г1г.1 сЬг22 + 15462800 15509720 15462908 15463188 рил

ис002г1з.1 сЬг22 + 15462800 15559521 15462908 15463188 рил

исОЮ^чч. 1 сЬг22 + 15462800 15476000 15464118 15465431 ІПІ1

ис002^.2 сЬг22 + 15462800 15476000 15464118 15465431 ІПІ1

ис002г1г. 1 сЬг22 + 15462800 ■ 15509720 15464118 15465431 ІПІ1

ис002гІ8.1 сЬг22 + 15462800 15559521 15464118 15465431 ІПІ1

uc010gqq.l сЬг22 + 15462800 15476000 15464234 15465490 Вг81

ис002г^.2 сЬг22 + 15462800 15476000 15464234 15465490 Вг81

ис002г1г.1 сЬг22 + 15462800 15509720 15464234 15465490 ВгВ1

ис002г1э.1 сЬг22 + 15462800 15559521 15464234 15465490 Вг81

uc010gqq. 1 сЬг22 + 15462800 15476000 15464415 15464983 с-.1ип

ис002г^.2 сЬг22 + 15462800 15476000 15464415 15464983 с-Дип

ис002г1г. 1 сЬг22 + 15462800 15509720 15464415 15464983 с-Зип

ис002гк. 1 сЬг22 + 15462800 15559521 15464415 15464983 с-Дип

ис002г1г. 1 сЬг22 + 15462800 15509720 15478539 15478685 рил

ис002гкІ сЬг22 + 15462800 15559521 15478539 15478685 ри.і

Таблица 1. Пример результата работы алгоритма поиска регуляторных элементов гена. Колонки;

координата транскрипга левая; координата транскригтта правая; координата ДНКаза! сверхчувствительной

области левая; координата ДНКаза1 сверхчувствительной области правая.

Из всего множества участков СЫР-эед были выбраны те, которые пересекались с участками, гиперчувствительными к обработке ДНКазе1, и те, которые пересекались с различными гистоновыми доменами. При этом рассматривались и участки, пересекающиеся как с ДНКаза! гиперчувствительными участками, так и с гистоновыми

доменами. Разработан простой алгоритм, выдающий для любого введенного названия гена или участка ДНК список экспериментально установленных регуляторных участков, пересекающихся с ним. Пример для находящегося в прицентромерной области псевдогена предположительной тирозин-форфатазы ТРТЕ, psiTPTE22, приведен в Таблице 1.

Исследовались также участки SAR/MAR и инсуляторы на предмет пересечения с ДНКаза1 сверхчувствительными участками и гистоновыми доменами и обогащенности пересечениями с участками связывания регуляторов транскрипции, определенных методом ChlP-seq. Также разработаны приложения, позволяющие переходить от участка связывания фактора транскрипции к изучению специфической регуляции процессов и взаимодействию между различными регуляторными каскадами в пределах набора регулируемых генов.

2. Учет белок-белкового взаимодействия в распознавании регуляторных

элементов

Введен метод учета белок-белкового взаимодействия (ББВ) при анализе и распознавании регуляторных элементов ДНК. ББВ учитывалось на начальном этапе анализа или распознавания в соответствии со следующей схемой (Рис. 2).

Для каждого гена из базы данных UCSC Genome Browser экспортируется последовательность ДНК, представляющая локус гена. Для каждого локуса гена из базы данных UCSC Genome Browser экспортируется набор консервативных последовательностей. Эти консервативные последовательности представляют собой участки ДНК, выровненные последовательности которых были оценены программой phastCons как консервативные. Данные по консервативности используются отдельно как подключаемый модуль (подпрограмма). Локус гена исследуется на предмет наличия предполагаемых сайтов связывания факторов транскрипции. При этом используется либо стандартная программа MATCH, либо другая программа, ищущая сайты связывания. В современном варианте используется программа JASPAR. Ищутся все сайты интересующего фактора транскрипции. Для такого фактора выводится таблица взаимодействия с другими белками. Для этого используется, например, программа Pathway Studio или в современном варианте String. На основании работы с обучающей выборкой производится подбор параметров, таких как оценка качества каждого сайта и расстояние между сайтами. Эти параметры используются при анализе и распознавании сайтов. Также разработан алгоритм оптимизации поиска регуляторных элементов на основа максимизации разницы в количестве находящихся сайтов в ДНКаза1 чувствительных участках или участках ChlP-seq или в их пересечении и в контрольной выборке вне этих участков.

Самой интересной модификацией метода является алгоритм поиска белковых комплексов и регуляторных элементов на основе поиска перепредставленных в выборке указанных тестовых участков сайтов связывания факторов транскрипции, взаимодействующих с уже известным, найденным фактором транскрипции, экспериментально определенный участок которого изучается.

Архитектура представлена на Рис. 2.

Рис. 2. Организация программы поиска регуляторных элементов на основе учета ББВ. Из генома выбирается локус ДНК, сканируемый далее набором мотивов с установленными порогами на качество соответствия мотиву каждого сайга и расстояние между ними. Набор мотивов соответствует набору белков, взаимодействующих с белков, связывающимся с локусом ДНК в случае регулируемого гена или просто по результатам метода ChlP-seq. Этап поиска групп сайтов осуществляется с помощью интерфейса Perl DBI.

Фактически в молекуле ДНК выбирались те участки, которые связывались взаимодействующими друг с другом факторами транскрипции. При этом ББВ учитывалось как источник выборки белков, сайты которых искались. Исследования для

некоторых известных случаев показали, что и при этом существенно пересекались с областями, гиперчувствительными к ДНКазе1 и участками с определенными модификациями гистонов. Использовались как интегральные данные о ББВ, определенном в любых экспериментальных условиях, например в различных культурах клеток, так и ББВ с подтвержденной коэкспрессией и, стало быть, колокализующихся в определенной ткани. Видно, что учет коэкспресии имеет существенное значение. Весь алгоритм поиска групп сайтов связывания взаимодействующих белков в последовательности сайтов реализуется с помощью Perl DBI.

fidi""

Рис. 3. Взаимодействие между белками, связывающими специфично ДНК. Рассматривались белки из базы данных Jaspar. Видны взаимодействующие белки, образующие кластеры с сети. Использованы методы поиска «Experiment» и «Database». Использованные вместе они дают такую картину взаимодействия. Confidence score средний 0,4.

Программа DiRE dcode

E2F, Spl E2F1 DP I ( 148) 16294

NF1.AP2 16312

Spl 16313

Hifl HIF1(180) 16323

Smad 16346

COUP-TF1, HNF4, ER-alpha COUP(208) 16352 (PPARA, RXR. RORA, ERR)

RORA1 16392

PPARA, RXR-alpha, ER-alpha 16396

YY1 16410

AP4.NF1 NF1(295) 16439

Таблица 2. Пример распознавания известного регуляторного элемента, являющегося даунстрим-энхансером гена ЕРО. Распознаны известные сайты связывания. Также распознаны и неизвестные сайты известных факторов. В первых двух колонках названия факторов транскрипции. В первой колонке распознанные заявленной здесь программой факторы, во второй факторы, распознанные широко используемой программой DiRE dcode. В третьей колонке указаны позиции относительно начала локуса ЕРО.

В каноническом случае для определения ББВ использовалась база данных String с отключенным Textmining и с включенными источниками данных Database и Experiment. Для поиска потенциальных сайтов связывания использовалась программа Jaspar. В наиболее продвинутом случае использовался модуль Perl. Вид сетей ББВ для всех белков позвоночных из БД Jaspar представлен на Рис. 3.

Результаты распознавания участков связывания факторов транскрипции в локусе ЕРО с помощью метода учета структуры хроматина с интегрированным модулем учета ББВ приведены в Таблице 2.

Из результатов не видно, что учет ББВ играет крайне важную роль в анализе и распознавании функциональных участков связывания факторов транскрипции. Фактически это означает, что специфическое ББВ либо не играет основную в организации функционального транскрипционного комплекса, что абсурдно исходя из всего опыта изучения белковых комплексов, в том числе и транскрипционных, либо базы данных содержат крайне неполную или невыверенную информацию о ББВ. Для локуса ЕРО с помощью программы Pathway Studio построена схема ББВ. Из нее видно насколько комплексы плотны в смысле взаимодействия. Данные представлены на Рис. 4.

Рис 4. Модель белок-белковых взаимодействий в случае энхансера гена ЕРО как модельного объекта. Виден довольно плотный граф взаимодействия.

Видно, что моделируемый комплекс включает как белки, непосредственно связывающие ДНК (факторы транскрипции), как и те, которые связывают белки, связывающие ДНК (кофакторы транскрипции). Среди первых можно выделить и активаторы, и ингибиторы. Среди вторых можно выделить адаптеры и гистон-модифицирующие ферменты. Такая картина встречается повсеместно.

Метод работает с существенно разной эффективностью на разных выборках. Самый оптимальный вариант это использование его на выборках участков связывания факторов транскрипции. Этот метод является скорее дескриптивным методом для определения белковых комплексов по экспериментальным участкам связывания факторов транскрипции с дальнейшим расширением регуляторных элементов.

Пример сравнения результатов по выборкам взаимодействующих и невзаимодействующих белков и попаданию в ДНКаза1 сверхчувствительные области представлен в таблице 3.

Взаимодействующие белки В промоторной зоне Где-либо

Невзаимодействующие белки В промоторной зоне Где-либо

А1*С + + - -

АТР2С2 + + - +

АТР2С2 2па - + - +

СРК6 + + - +

СКАР21. + - -

Е1Р2С2 - -

1№РР4А + + + +

1.ВР + - -

ШРБ18А - - -

ЫЕСАР1 - - -

Р1.УАР + - +

ИЕР1И + - +

БЮбА! - - -

БР1 + + - +

иврг + - -

ССЫВЗ - -

СС1ЧВЗ 2пс1 - - - -

ЕЙЫ2 - - -

НЕТ ДНКАЗА1 СЧ НЕТ ДНКАЗА1 СЧ НЕТ ДНКАЗА1 СЧ

Таблица 3. Встречаемость групп сайтов взаимодействующих и невзаимодействующих белков в ДНКаза] сверхчувствительных областях в промоторной зоне и вне ее. 2ой - условно вторая изоформа.

В диссертации также приведены приложения метода для анализа регуляторных элементов и БАК/МАЯ участков и инсуляторов.

3. Гипотеза об участии факторов инициации транскрипции в элонгацнн транскрипции и о стационарной транскриптосоме.

Метод СМР-вея основан на выделении участков ДНК, коиммунопреципитирующихся с белковыми комплексами. Обычно используются пики (крупные всплески сигнала ChIP-seq, являющегося мерой связанности любого определенного участка ДНК с белком). Такие пики указывают на связывание белка в течение относительно длительного периода времени в культуре клеток именно с рассматриваемым участком ДНК. При этом понятно, что это связывание является временным в клетке, так как оно свойственно для факторов транскрипции. Однако не менее важным является анализ более кратковременного связывания, могущего быть следствием передвижения комплекса по ДНК, фактически «транзитного» связывания белка с ДНК.

Также следует учитывать то, что иммунопреципитация белкового комплекса приводит к тому, что за один белок можно выделить сшитый с ним другой белок и сшитый с другим белком участок ДНК. Этот факт играет ключевую роль в определении структуры и динамики подвижных комплексов на ДНК. При этом все эффекты диссоциации комплекса на субъединицы при проведении эксперимента, залипание на ДНК отдельных субъединиц комплексов считаются незначительными. Также считается,

15

что специфичность антител не зависит от конформации белка и от его экранирования другими субъединицами комплекса или другими комплексами. В диссертации подробно обсуждаются такие особенности метода ChIP-seq.

Использовались сигналы связывания факторов транскрипции и РНК полимеразы П, определенные методом ChIP-seq. Они понимались исключительно как профили связывания белка на ДНК [2]. Для каждого сигнала бьии использованы предварительно определенные пики, определенные из сигнала процессированием. И сигнал, и пики ,были загружены из базы данных UCSC Genome Browser (http://genome.ucsc.edu/V Все параметры вычислялись с помощью сервиса Tables (http://eenome.ucsc.edu/cei-bin/hgTables). Пересечения и дополнения, а также корреляции определялись с помощью коэффициента линейной корреляции в сервисе Tables.

Из-за "бага" в сервисе Tables таблица аннотированных генов UCSC knowngene экспортировалась из базы данных, нужные колонки txStart и txEnd вместе с колонкой chrom вырезались из таблицы и импортировались обратно в базу данных как custom track. Экзоны генов из выборки knowngene обрабатывались таким же способом. В таком виде поиск пересечений осуществлялся адекватно. Пересечения сигнала с выборкой аннотированных генов и означают участки сигнала, попадающие в гены, условно говоря "сигнал в генах".

В действительности, широко использовались все данные, и пиковые, и внепиковые, и их совокупность. Однако, для доказательной части работы пиковые данные не необходимы и поэтому не представлены, некоторые из них лишь упомянуты.

Были выбраны все регуляторы транскрипции, для которых имелись данные ChIP-seq, определенные на культуре HeLa в пределах проекта Encode (http://genome.ucsc.edu/ENCODE/), а именно АР-2а, AP-2g, c-Fos, c-Jun, с-Мус, E2F1, E2F4, E2F6, HA-E2F1, junD, Max, Nrfl, TR4, BAF155, BAF170, Inil, Brgl, BDP1, BRF1, BRF2, RPC155, TFIIIC. Функции этих белков различны. Факторы транскрипции с АР-2а по TR4 включительно, выбранные для метода ChIP-seq субъединицы знаменитого Swi/Snf комплекса ремоделирования хроматина с BAF155 по Brgl и выбранные факторы инициации транскрипции РНК полимеразы III, который использовался как контроль, с BDP1 по RPC155. Также использовались самые разные данные из других культур клеток.

Рассматривалась самая маленькая аутосома человека, 22-ую хромосома. В случае рассмотрения очень больших массивов данных ставился фильтр на количество значений 10 MB. Также рассматривались урезанные выборки по 100 KB для выяснения тенденции в эффекте при увеличении выборки. Сборка генома hgl8.

3.1 Регуляторы транскрипции, осуществляемой РНК полимеразой II, связываются с внутригенными областями, и особенно с этапами, эффективнее, чем с внегеиными областями

Уровень внепикового сигнала СЫР-вея оказывается существенно больше внутри генов и особенно внутри экзонов, нежели вне их. Результаты показаны на Рис. 5. Учитывая более медленное транскрибирование экзонов, это крайне интересное наблюдение, свидетельствующее в пользу участия факторов транскрипции в элонгации. Однако это еще не есть критерий специфического участия факторов транскрипции в элонгации и структурной связи с РНК полимеразой П. Однако в пользу этого говорит корреляция сигналов СЫР-эец.

Средние значения сигналов регуляторов транскрипции в экзонах вне пинов и вне экзонов вне пиков

Регуляторы

О в экзонах вне пиков в вне экзонов вне пиков

Рис. 5 Средние значения сигналов регуляторов транскрипции в экзонах вне пиков и вне экзонов вне пиков для указанных регуляторов.

3.2 РНК полимераза II и факторы транскрипции в генах, и, в частности в экзонах, связывают предпочтительно одни и те же участки ДНК

Сигналы регуляторов транскрипции проявляют существенную положительную коррелированность с сигналом РНК полимеразы II. Регуляторы РНК полимеразы III, транскрибирующей гены некодирующих РНК, адекватно выступают в качестве контроля. Результаты показаны на Рис. б.

Корреляция сигналов факторов транскрипции РНК полимеразы II и сигнала самой РНК полимеразы П примерно такая же. как и корреляция сигналов белков комплекса и

сигнала РНК полимеразы П. Комплекс Элу^^ считается не только ассоциированным с РНК полимеразой II на промоторе (что наблюдается и по геномным данным, данные не представлены), но и мигрирующим вместе с РНК полимеразой II в процессе элонгации. Таким образом, есть основания считать факторы транскрипции как минимум мигрирующими с РНК полимеразой II в процессе элонгации транскрипции (М. А. ЗсЬхуаЫзЬ, К. 51таЫ, 2007), что уже подразумевает по крайней мере опосредованную структурную связь между ними и РНК полимеразой II в процессе элонгации транскрипции.

Корреляция сигналов регуляторов с сигналом РНК полпмсразы II

0,80 г""........

□ РНК полимераза II в экзонах вне пиков и регуляторы а экзонах вне пиков

□ РНК полимераза II а экэона* вне ликов и регуляторе! в экэонах п РНК полимераза II в экзонах и регуляторы в экэонах вне ликоа

Рис. 6 Корреляция сигналов регуляторов с сигналом РНК полимеразы II. Линейный коэффициент корреляции указанных в легенде типов сигналов СЫР^сс] в экзонах.

Корреляция между сигналом регулятора транскрипции и сигналом РНК полимеразы II ткань-специфична. Корреляция между сигналами регулятора РНК полимеразы II из культуры НеЬа и сигналом РНК полимеразы II из культуры СМ 12878 существенно менее выраженная, чем корреляции в каждой из указанных клеточных линий.

РНК полимераза II не только колокализована в существенной степени с факторами транскрипции и хроматин-ремоделирующим комплексом, но и в существенной степени колокализуется с ними на промоторах генов. Для целей проверки пересечения пиков РНК полимеразы II с промоторами была сконструирована база данных с таблицей известных генов и таблицами пиков РНК полимеразы II в разных культурах клеток. Искались пересечения пиков РНК полимеразы II с концами генов с учетом ориентации гена по цепи ДНК. Оказалось, что 64% пиков РНК полимеразы из культуры клеток НеЬа пересекаются с промоторами известных генов. Из этих пиков 87% пересекаются с ВАР 155. Таким

18

образом, РНК полимераза II предпочтительно ¡«¡локализуется с комплексом ремоделирования когда находится на промоторе.

При этом установлено, что площадь под сигналом РНК полимеразы II на промоторе больше, чем площадь этого же сигнала на протяжении всего гена. Сделан вывод о том, что этот эффект связан либо с тем, что РНК полимераза II находится в инициации дольше, чем во всей элонгации, либо РНК полимераза II всегда находится в области промотора, будучи связанной через комплекс с ДНК даже в процессе элонгации.

4. Связь структуры комплексов и дннамнки процессов в них.

Выдвигается гипотеза, что почти все процессы в клетке проявляют осцилляторный режим функционирования. Предполагается, что те процессы, которые протекают иначе, в свою очередь вынуждены подстраиваться под динамику основных, колебательных процессов. Такой вывод можно сделать исходя из самой структуры биологических сетей и из моделирования этих сетей. Биологические сети на молекулярном уровне представимы, формально выражаясь, системами с огромным количеством обратных связей, из которых имеется существенная часть негативных. В таких сетях происходят либо единичные всплески активности, либо периодические изменения активности. Причем чем сильнее негативная обратная связь, тем больше вероятность возникновения осцилляций в активности белков, в экспрессии регулируемых этими белками генов и соотвественно в активности продуктов генов. Минимальный замкнутый контур с негативной обратной связью представляет собой «цикл». В работе было проведено выделение и разграничение отдельных циклов в некоторых модельных системах, указана связь между этими циклами. Была предложена модель, в которой циклы с высокочастотными колебаниями соответствуют непосредственно взаимодействующим в комплексе белкам. Циклы с низкочастотными колебаниями предполагаются соответствующими системам со структурно разделенными компонентами. Учитывая, что все белки в клетке так или иначе находятся в составе каких-либо комплексов, предполагается, что относительно низкочастотные колебания свойственны процессам передачи информации в клетке, будь то экспрессия генетической информации на всех уровнях или будь то каскады клеточной сигнализации. Предполагается, что все высокочастотные циклы могут проявлять связанные колебания и даже участвовать в поддержании низкочастотных колебаний, порождающих, например циркадные ритмы или, возможно, клеточный цикл.в низкочастотные на основании пространственного расположения в клетке.

В подтверждение гипотезы были проанализированы сети ББВ, показывающие взаимодействия между белками, считающимися непосредственными регуляторами

19

циркадных ритмов. Показана некоторая обособленность этой подсети в сети ББВ в клетке. Сделано предположение, что такая изоляция необходима для поддержания условно автономного режима функционирования этой подсети. При этом фактор транскрипции NFkB, активность которого осциллирует в клетке (Nelson DE et al., 2004), взаимодействует с многими другими белками из самых разных систем клетки. Причастность других белков к разным регуляторным сетям и каскадам была установлена. Таким образом, можно считать это пусть не доказательством, но некоторым свидетельством в пользу вовлечения участников самых разных регуляторных подсетей в одну большую сеть с осцилляторным режимом функционирования.

Пример сети ББВ с участием RelA/p65 приведен ниже, на Рис. 7.

Рис. 7. Сеть ББВ с участием осциллирующего Р.е1А р65

Исходя из этого, построена циклическая модель сетей и выведена соответствующая гипотеза относительно цикличной структуры сетей и группового осцилляторного характера их активности. Разработана модель представления метаболических, сигналинговых, генных сетей в виде системы концентрический окружностей, каждая из которых представляет собой цикл. Самая общая модель такой сети представлена на Рис. 8.

RCLA

NFKBIO

Рис. Самая общая модель циклических сетей. Стрелками обозначены прямые позитивные связи (активация), ромбами обозначены обратные негативные связи (ингибирование). Внутренний цикл относится к высокочастотным колебаниям, промежуточный - к среднечастотным, а внешний - к низкочастотным. Есть все основания предположить, что внутренний цикл это метаболические сети, промежуточный это генные сети и сигналииг, а внешний это циркадные ритмы или даже клеточный цикл.

Рассмотрены экспериментальные факты, подтверждающие, что для такого функционирования сети более чем достаточно аргументов. Разобраны примеры колебаний в метаболических, в генных и в сигналинговых сетях.

Колебания в сигналинговых сетях коррелируют по периоду с колебаниями в регулируемых ими генных сетях. Период осцилляции сигналинговых сетей и генных сетей кратен периоду осцилляции в метаболизме. Если учесть эти факты, то понятно, что можно представить все биологические сети на молекулярном уровне как систему циклов, связанных в ключевых узлах, и обеспечивающих согласованные периодические изменения активности ферментов и регуляторов их активности синтеза.

Если учесть, что некоторые белки, отвечающие за самые общие функции в клетке, связаны функционально с белками, регулирующими циркадные ритмы, то можно сделать вывод о том, что такая слаженная система циклов представляет собой «шестеренки» для клеточных «часов».

ЗАКЛЮЧЕНИЕ

Разработан комплексный метод поиска ретуляторных участков генома на основании анализа геномных данных по связыванию белков, данных о структуре хроматина, данных по модификациям гистонов в локусе и на основе данных о ББВ. Привлечение данных о ББВ позволяет подходить вплотную как к моделированию белковых комплексов, так и к моделированию регуляторных элементов генома. Использование этого алгоритма представляет интерес для фундаментальной биологии, а также для биотехнологии, медицины.

Разработан подход к учету внепикового сигнала СЫР-вес! как профиля связывания белков на ДНК и к учету структуры комплексов при анализе сигнала СЫР-вес} Исходя из анализа профиля связывания белков в гене было предположено участие факторов транскрипции в элонгации и построена модель транскриптосомы и предположена ее стационарность в ядре. При этом использовался внепиковый сигнал ChIP-seq и интерпретация его как сигнала «транзитного» связывания.

Введенная гипотеза о цикличности биологических сетей молекулярного уровня позволила дать интерпретацию важности устойчивого функционирования ферментов, в том числе РНК полимеразы П, в составе объемных комплексов, состоящих из десятков субъединиц.

ВЫВОДЫ

1. Сконструирован, программно реализован и верифицирован алгоритм, учитывающий структуру хроматина в задачах анализа и распознавания регуляторных элементов генома.

2. Разработан, программно реализован и верифицирован алгоритм, учитывающий белок-белковое взаимодействие в задачах анализа и распознавания регуляторных элементов генома.

3. Предположена сложная структура молекулярного комплекса, регулирующего элонгацию транскрипции и включающая в себя как комплекс ремоделирования хроматина и гистон-модифицирующие ферменты, так и факторы транскрипции, развивается гипотеза о стационарных транскрипционных комплексах.

4. Дана динамическая интерпретация важности сборки большеразмерных комплексов в клетке исходя из разработанной гипотезы о модулярной цикличности биологических сетей молекулярного уровня и о колебательной динамике таких сетей.

СПИСОК ПУБЛИКЦИН

1. Alexander Belostotsky, Conception of biological networks at the molecular level as orchestrated systems of oscillators representing interconnected modular molecular clocks, Journal of Metabolomics and Systems Biology, Vol. 2(2), pp. 15-19, September 2011

2. Белостоцкий A.A., Анализ профиля связывания белков с ДНК, определенного методом ChlP-seq, выявляет возможное взаимодействие специфичных факторов транскрипции с РНК полимеразой II в процессе элонгации транскрипции, Биофизика, Т.57, N 2, с.359-365

3. Kulakovskiy IV, Belostotsky АА, Kasianov AS, Esipova NG, Medvedeva YA, Eliseeva IA, Makeev VJ. A deeper look into transcription regulatory code by preferred pair distance templates for transcription factor binding sites. Bioinformatics. 2011 Oct l;27(19):2621-4. Epub 2011 Aug 18.

4. Кулаковский И. В., Касьянов А. С., Белостоцкий А. А., Елисеева И. А., Макеев В. Ю., Предпочтительные расстояния между участками ДНК, связывающими белковые факторы, регулирующие инициацию транскрипции, Биофизика. - 2011. -Т. 56, N 1. -C.I36-139.

Подписано в печать:

08.02.2012

Заказ X» 6619 Тираж - 100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru

Текст научной работыДиссертация по биологии, кандидата биологических наук, Белостоцкий, Александр Александрович, Москва

государственный научный центр российской федерации

фгуп государственный научно-исследовательский институт генетики и селекцшпромышжнных микроорганизмов

61 12-3/682

На правах рукописи

Белостоцкий Александр Александрович

АНАЛИЗ СТРУКТУРЫ ХРОМАТИНА И МОЛЕКУЛЯРНЫХ

КОМПЛЕКСОВ, РЕГУЛИРУЮЩИХ ТРАНСКРИПЦИЮ, И РАСПОЗНАВАНИЕ ФУНКЦИОНАЛЬНЫХ ЭЛЕМЕНТОВ ГЕНОМА МЕТОДАМИ СИСТЕМНОЙ БИОЛОГИИ

Диссертация на соискание степени кандидата биологических наук по специальности молекулярная биология

Научный руководитель: Доктор физико-математических наук

В.Ю.Макеев

Москва, 2012

Оглавление

ВВЕДЕНИЕ........................................................................................................................................4

Глава 1. СОСТОЯНИЕ ПРОБЛЕМЫ ИЗУЧЕНИЯ ТРАНСКРИПЦИИ..................................8

1.1. ТРАНСКРИПЦИЯ КАК УРОВЕНЬ РЕГУЛЯЦИИ......................................................................8

1.2 РЕГУЛЯТОРНЫЕ ЭЛЕМЕНТЫ ГЕНОМА И ВЗАИМОСВЯЗЬ МЕЖДУ НИМИ..................11

1.3 РЕГУЛЯТОРЫ ТРАНСКРИПЦИИ..............................................................................................15

1.4 ИЗУЧЕНИЕ РЕГУЛЯТОРОВ ТРАНСКРИПЦИИ И ИХ КОМПЛЕКСОВ...............................18

1.5 ИЗУЧЕНИЕ САЙТОВ СВЯЗЫВАНИЯ ФАКТОРОВ ТРАНСКРИПЦИИ...............................22

1.6 ИЗУЧЕНИЕ БЕЛОК-БЕЛКОВОГО ВЗАИМОДЕЙСТВИЯ В КОМПЛЕКСАХ РЕГУЛЯТОРОВ ТРАНСКРИПЦИИ..................................................................................................34

Глава 2. ОБЪЕКТЫ И ВЫБРАННЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ...................................36

2.1 ИСХОДНЫЕ ДАННЫЕ................................................................................................................. 36

2.2 АЛГОРИТМЫ ПОИСКА РЕГУЛЯТОРНЫХ ЭЛЕМЕНТОВ ГЕНОМА..................................40

2.3 БАЗЫ ДАННЫХ БЕЛОК-БЕЛКОВОГО ВЗАИМОДЕЙСТВИЯ..............................................45

2.4 МЕТОДЫ ОПРЕДЕЛЕНИЯ СТРУКТУРНО-ФУНКЦИОНАЛЬНОГО СТАТУСА ЛОКУСА ГЕНОМА...............................................................................................................................................46

Глава 3. РАЗРАБОТКА ПОДХОДОВ К АНАЛИЗУ СТРУКТУРНО-ФУНКЦИОНАЛЬНЫХ ОТНОШЕНИЙ В ТРАНСКРИПЦИОННЫХ КОМПЛЕКСАХ................................................48

3.1 БАЗОВЫЙ АЛГОРИТМ ДЛЯ ИДЕНТИФИКАЦИИ РЕГУЛЯТОРНЫХ МОДУЛЕЙ ГЕНОМА...............................................................................................................................................48

3.2 МОДИФИКАЦИЯ АЛГОРИТМА ДЛЯ ЗАДАЧ АНАЛИЗА РЕГУЛЯЦИИ ГЕНОВ В КОНТЕКСТЕ РЕГУЛЯТОРНЫХ СЕТЕЙ..........................................................................................54

3.3 МОДИФИКАЦИЯ АЛГОРИТМА ДЛЯ ЗАДАЧ АНАЛИЗА КОРЕГУЛЯЦИИ ГЕНОВ........55

Глава 4. РАЗРАБОТКА МЕТОДА УЧЕТА БЕЛОК-БЕЛКОВОГО ВЗАИМОДЕЙСТВИЯ В ЗАДАЧАХ АНАЛИЗА РЕГУЛЯТОРНЫХ МОДУЛЕЙ ГЕНОМА И СТРУКТУРЫ ХРОМАТИНА..................................................................................................................................57

4.1 УЧЕТ БЕЛОК-БЕЛКОВОГО ВЗАИМОДЕЙСТВИЯ В ОПРЕДЕЛЕНИИ СТРУКТУРЫ ТРАСНСКРИПЦИОННЫХ КОМПЛЕКСОВ....................................................................................57

4.2 ПРИМЕНЕНИЕ ПОДХОДА С УЧЕТОМ БЕЛОК-БЕЛКОВОГО ВЗАИМОДЕЙСТВИЯ К ИНСУЛЯТОРАМ И УЧАСТКАМ СВЯЗЫВАНИЯ С ЯДЕРНЫМ БЕЛКОВЫМ МАТРИКСОМ63

4.3 МЕТОД И АЛГОРИТМ АПРИОРНОГО УЧЕТА БЕЛОК-БЕЛКОВОГО ВЗАИМОДЕЙСТВИЯ В ЗАДАЧАХ РАСПОЗНАВАНИЯ РЕГУЛЯТОРНЫХ ЭЛЕМЕНТОВ ГЕНОМА...................................-............................................................................................................68

Глава 5. ПРИМЕНЕНИЕ И РАЗВИТИЕ МЕТОДА УЧЕТА СВЯЗЫВАНИЯ СУБЪЕДИНИЦ БЕЛКОВЫХ КОМПЛЕКСОВ ДЛЯ ИДЕНТИФИКАЦИИ СТРУКТУРЫ

БЕЛКОВЫХ КОМПЛЕКСОВ И ОСОБЕННОСТЕЙ ИХ ФУНКЦИОНИРОВАНИЯ...........87

5.1 СМЫСЛ И ЗНАЧЕНИЕ МЕТОДА СН1Р-8Е0............................................................................87

5.2 ИСПОЛЬЗОВАННЫЕ ДАННЫЕ И ИНСТРУМЕНТЫ..............................................................89

5.3 КОНКРЕТИЗАЦИЯ НАЧАЛЬНЫХ ДАННЫХ..........................................................................91

5.4 ПРЕДАСТАВЛЕНИЯ О СТРУКТУРЕ И ОСОБЕННОСТЯХ ФУНКЦИОНИРОВАНИЯ ТРАНСКРИПЦИОННОГО КОМПЛЕКСА ИСХОДЯ ИЗ АНАЛИЗА ВНЕПИКОВОГО СИГНАЛА СН1Р-8Е0..........................................................................................................................92

Глава 6. СВЯЗЬ СЕТЕЙ ББВ С РЕГУЛЯТОРНЫМИ СЕТЯМИ...........................................130

6.1 ГИПОТЕЗА О СТРУКТУРЕ РЕГУЛЯТОРНЫХ СЕТЕЙ.........................................................130

6.2 ГИПОТЕЗА О РЕЖИМЕ ФУНКЦИОНИРОВАНИЯ РЕГУЛЯТОРНЫХ СЕТЕЙ.................132

6.3 ЭКСПЕРИМЕНТАЛЬНЫЙ МАТЕРИАЛ, ПОДТВЕРЖДАЮЩИЙ ГИПОТЕЗЫ.................134

6.4 РЕЗУЛЬТАТЫ АНАЛИЗА СЕТЕЙ ББВ, ПОДТВЕРЖДАЮЩИЕ ГИПОТЕЗЫ...................135

ЗАКЛЮЧЕНИЕ.............................................................................................................................137

ВЫВОДЫ.......................................................................................................................................140

СПИСОК ЛИТЕРАТУРЫ:...........................................................................................................141

ВВЕДЕНИЕ

Анализ и распознавание регуляторных элементов ДНК, как кодирующих, так и некодирующих, представляет собой одну из основных задач вычислительной молекулярной биологии и биоинформатики. Эта область находится на стыке экспериментальной молекулярной биологии, прикладной математики и информатики. Данные о регуляторных элементах генома поставляет эксперимент, а анализ и распознавание не изученных экспериментально регуляторных участков производится с помощью специальных алгоритмов.

В настоящее время имеется крайне обширный срез методов, идентифицирующих определенные участки ДНК как регуляторные. Прежде всего это прямые методы определения участков и сайтов связывания факторов транскрипции, такие как EMSA, in vitro footprinting, in vivo footprinting, SELEX, methylation interference assay, ChIP, ChlP-chip, ChlP-seq seq (Orchard K, 1993, Galas DJ, 1978, Tsai SF, 1991, Iguchi-Ariga SM & Schaffner W., 1989; Buck MJ, Lieb JD., 2004; Mardis ER., 2007).

Еще до появления полногеномных методов определения участков связывания белков на ДНК были сформулированы эмпирические правила того, где расположены участки связывания факторов транскрипции, какие последовательности связываются предпочтительно фактором транскрипции и как такие участки позиционированы друг относительно друга. На основании анализа результатов этих методов были построены модели мотивов, объектов, содержащих количественную информацию о наборе сайтов связывания, а именно учитывающих частоту встречаемости каждого нуклеотида в каждом положении сайта. Также выводили консенсус, то есть попросту усредненный сайт связывания для определенного фактора транскрипции или группы таких факторов. На основании такой информации производился поиск сайта связывания в геноме. При этом ставились задачи как найти уже известный сайт так и найти новые, ранее неизвестные сайты.

При проведении такого поиска предполагалось, что предсказанный сайт связывания располагался в любом месте в геноме равновероятно. Однако биологические знания говорят об обратном. Сайты связывания должны находиться в геноме крайне редко и при этом в определенных местах. С биологической точки зрения функциональные сайты связывания регуляторных белков следует искать (1) в районе, локусе, гена, (2) в определенных местах в локусе, доступных для посадки фактора транскрипции. При этом также вполне целесообразно учитывать окружение фактора, так как клеточные процессы регулируются не единичными белками, а их комплексами. Процессы в клетке, в том числе процесс транскрипции, регулируемы огромным количеством самых разных белков, обладающих разными активностями. В случае с регуляцией транскрипции, это разные факторы транскрипции. Они кооперативно связывают ДНК, что повышает специфичность связывания комплекса определенных участков на молекуле ДНК.

В настоящее время имеются в распоряжении методы поиска одиночных сайтов связывания фактора транскрипции, а также их плотных групп, то есть прямых повторов, палиндромов и кластеров сайтов связывания. Кластеры сайтов есть фактически комбинация прямых повторов и палиндромов с плавающим по длине спейсером. В подавляющем большинстве случаев их ищут везде в геноме, без учета специфических районов генома, в которых наличие функциональных сайтов связывания наиболее вероятно.

В этой работе установлен метод выявления предпочтительных мест связывания факторов транскрипции исходя из учета структуры хроматина. Также представлен метод, учитывающий белок-белковое взаимодействие между факторами транскрипции. Построены модели транскрипционных комплексов и выявлены динамические аспекты регуляции транскрипции.

Также приведено решение обратной задачи: распознать субъединичный состав комплекса исходя из профиля связывания субъединиц этого комплекса с ДНК, трактуемого как сигнал ChIP-seq.

Цели и задачи. Цель работы: анализ структуры и динамики хроматина и молекулярных комплексов и распознавание регуляторных элементов генома.

В соответствии с поставленной целью были поставлены следующие задачи.

1. Разработка метода учета структуры хроматина в задачах анализа и распознавания регуляторных генома.

2. Разработка метода учета белок-белкового взаимодействия в комплексе регуляторов транскрипции в задачах анализа и распознавания регуляторных участков генома и подтверждение его важнейшей роли в организации регулирующего транскрипцию комплекса.

3. Анализ и распознавание структуры и особенностей функционирования транскрипционного комплекса.

4. Динамическая интерпретация структур молекулярных комплексов.

Научная новизна.

1. Разработан метод учета структуры хроматина и белок-белкового взаимодействия в анализе и распознавании регуляторных элементов генома. Информация о белок-белковом взаимодействии используется как начальные данные.

2. Разработан подход учета внепиковых частей сигнала СЫР-эед, трактуемый как профиль связывания.

3. Разработана модель структуры элонгационного комплекса РНК полимеразы II с участием факторов транскрипции. Подтверждена гипотеза о стационарной транскриптосоме и предложена, модель стационарной транскриптосомы.

Научно-практическая ценность работы.

Работа вносит существенный вклад в распознавание экспериментально не изученных регуляторных элементов, а также в интегральный анализ

изученных. Это важно для определения, уточнения и корректировки профиля экспрессии генов и для частичной реконструкции регуляторных биологических сетей. Практические приложения безусловно могут быть полезны в таких областях, как медицина и биотехнология. Модель биологических сетей, представленная в работе может быть полезна для понимания режима функционирования биологических сетей, что в свою очередь важно как в медицине, так и в биотехнологии.

Вклад соискателя.

1. Разработка алгоритма поиска регуляторных элементов генома исходя из данных о структуре хроматина и белок-белковом взаимодействии.

2. Анализ сигналов СЫР-Бец в интерпретации профиля связывания и формулировка гипотезы о структурной связи факторов транскрипции в элонгации транскрипции с РНК полимеразой II. Обоснование гипотезы о стационарности транскриптосомы в ядре с помощью результатов анализа сигналов СЫР-Бец.

3. Введение и разработка интегральной модели биологических сетей, основанной на предположении о наличии высокой распространенности связанных колебаний в подсетях.

Апробация

Материалы диссертации были представлены на конференциях: МССМВЛ09 (Москва), ВОЯ^Ю (Новосибирск), РвтО (Дрезден), МССМВ" 11 (Москва), 8уз1етзХ (Базель, 2011) и на совместном межлабораторном семинаре ИОГен РАН и секции молекулярной биологии ФГУП «ГосНИИгенетика».

Публикации.

По материалам диссертации опубликовано 4 статьи.

Глава 1. СОСТОЯНИЕ ПРОБЛЕМЫ ИЗУЧЕНИЯ ТРАНСКРИПЦИИ

1.1. ТРАНСКРИПЦИЯ КАК УРОВЕНЬ РЕГУЛЯЦИИ

Регуляция на уровне транскрипции занимает особое место в регуляторных сетях. Это связано как с простым способом изучения транскрипции, так и с выявленным разнообразием форм регуляции на уровне транскрипции. Самые разные каскады сигнализации нисходят до регуляторов транскрипции. Такими регуляторами являются специфические и общие факторы транскрипции.

В мире широко изучались самые разные случаи регуляции на уровне транскрипции в регуляторных сетях. Ассоциация лигандов со своими рецепторами во всех случаях влечет за собой активацию каскада клеточной сигнализации. Каскад клеточной сигнализации активирует определенные факторы транскрипции, которые регулируют экспрессию определенных генов в сети. Например в случае известнейшего каскада МАРК (МАР-киназного каскада), активируются в разных случаях разные факторы транскрипции.

Ниже представлена иллюстрация многообразия регуляции на уровне транскрипции с помощью МАР-киназного каскада. Это один из самых распространенных каскадов клеточной сигнализации (Eisuke Nishida, 1993, Dumitru CA, 2012, Lamb TM, 2012, Mazzon E, 2012, Atkins CM, 1998, Samuels IS, 2008, Di Benedetto В, 2008, Schafe GE, 2000, Roberts RL, 1997). Указаны разные МАР-киназы и разные пути их активации, от разных рецепторов и разных эффекторов рецепторов в каскаде. Указаны также знаменитые RAS GTP-азы и Raf-1 серин-треониновые киназы. Они традиционно выделяются из МАР-киназного каскада, однако остаются сильно связаны с ним в клетке. Все указанные на рисунке МАР-киназы являются широко изученными белками. Многие эффекторы MAP- киназного каскада это факторы транскрипции (Treisman R, 1996). Транскрипционные факторы, являющиеся мишенями каскадов, также хорошо известны. Это транскрипционные

факторы, являющиеся крайне распространенными регуляторами транскрипции в ответ на широкий спектр внешних воздействий. Среди них факторы из суперсемейства ЕТБ (\Vasylyk В, 1998), одни из самых распространенных факторов ответа на самые разные внешние сигналы (Ое^еп Р, 2006). Регуляция такова, что имеется вполне существенное разветвление каскада па стадии факторов транскрипции. Также свойственно перекрывание мишеней, когда одна и та же кипаза активирует сразу несколько мишеней. Также существенно, что разные мишени существенно перекрываются. Одни и тс же факторы транскрипции являются мишенями разных каскадов. В представленной работе решается задача выявления каскада регуляторов с помощью анализа перекрывания разных каскадов, эффекторами которых являются изучаемые факторы транскрипции. Иллюстрация каскада и пересечений в нем представлена на рис. 1.1.

Г?

ел .'/ль

ОгоиЯ1 Рзсюгя, И¥, ТгорЬк: ИкЛиж. вк.

5Ьмя: й5то)к; Зйоск,

РАВЦ1пТ1аглтмогу СуМапм, иУ.оЬ.

ИАР4К6 МАРЗК9 МАРЗК« М1К.1

ИАР4К2 1МР4КЭ МАР4М

МАР*КЗ мидрщм №44 й1Х нак

МАРЭК2 Т ИАРЭК1

Й»РЗ*2 МЕККтВ--, !

Л МАР4К5 МДР4К1

..... ¡2

Ж

-N

йгшш.

К1ААР4КБ

МАРЭК10 МАРЗК1Э А-ВАР В-ВАР

мдрзкю «дарзкТз ■

4

ма.р1к1 ' мар2к2

I ~~гт,

мек1 ' «и

МАРК4 МАРК6 МАРК1 МДРК9

МАРК4 «•АРКГ

енкз ЕРКЗ ЕЯК

Яв1а1вй Рв7млрк р42п,ор(1 |р44шзрк

гачек м враелАг

п5к2 «ЙРКАРКЧС ■'рвОЯ1

ИАМКЗ пипка

ШРЗЙ I' МАРЯС8

марзк4 мдраюг «■М -МАрайг

марзк5 марзк7 маржи марзкн

азк1 так!' 4ям " мекк5 ртк1

МАР7К«°

МАР2К4 ИЕК+

МКК7 МЕК7 . МКК4 5ЕК1 ЛГЖК2 | I ЛЖК1 5ЕВК1

к МАРК 7 марка - мдрка марк 10

■'/ .ЖК1 1 ? марк9 марки

ВЫК1 инк ^кз

эаркт р54н5арк р54ЬвАРК

МАР^КЗ » МАРЖА ''мекэ '"мекв мккз мккв

Ч ц.

МАР&14

- рэв '

на» нэкэ маркаркi9

Й5К1 _

маркарк1 а

МНЖ! мкмкг ОРгекАб

ммк1 'ммк2 м5к1

НР36КА4 нрзвквг ВР5ВКВ1

М5К2 < р7СГ801ф р7Й56К

\ ч\ ТШ7/г\

маркарк £ МАРКАРК 5 4ЯИ0 ' РПАК

МАРКАРК3 ЯР56КА5 МАРКАРКЗ МЯК!

¿< 1кк

К .'нвв П4ПВ . К 4

Рис. 1.1. Иллюстрация каскада регуляторов и факторов транскрипции, регулируемых каскадом регуляции. Указан один из наиболее изученных МАР-кипазный каскад. Экспортирована из БД ВюсаЛа как иллюстрация.

Часто в культуре клеток, а возможно и в одной клетке выявляются несколько сигналинговых каскадов, активных в один и тот же момент времени. У таких каскадов выявляются разные эффекторы, хотя могут быть и одни и те же.

Различные каскады изучаются с помощью как генетических методов, так и с помощью биохимических методов. Так с помощью получения доминантно-негативных мутантов и конститутивно-активных мутантов, можно выявлять последовательность участников в каскаде.

С помощью получения мутаций в регуляторных областях (Dahdaleh FS, 2011), обычно протяженных делеций, можно изучать влияние определенного фактора транскрипции на транскрипцию определенного гена. Также используются нок-ауты и нок-дауны (Fossati А, 2011) регуляторов транскрипции.

Биохимические методы позволяют устанавливать системы взаимодействий между белками. Выявлено огромное количество взаимодействий между разными белками. Оказалось, что все белки так и ли иначе связаны в комплексах с участием скеффолдных белков (Whitmarsh AJ, 1998, Gotthardt М, 2000, Yasuda J, 1999, Sheng M, 2000, Pawson T, J997). Каскадам свойственны различные скеффолдные белки. Они также координируют активность всего каскада (Levchenko А, 2000). Структурно часто встречаются белки, содержащие большое количество PDZ доменов, координирующих взаимодействия между многими белками (Wu X, 2000) Вообще большую часть сигналинговых каскадов можно очевидным образом описать как комбинацию взаимодействий прежде всего между SH2, SH3, PDZ и РН доменами. Также фактическими скеффолдами выступают рецепторы (рецептосомы), цитоскелет (особенно микрофиламенты и микротрубочки, промежуточные филаменты выступают скорее только структурными компонентами, хотя это также маловероятно учитывая например взаимодействие ядерных белков с ламинами и взаимодействия с клатринами на плазмалемме).

Гены, подвергающиеся такой регуляции, крайне обширны. Это и гены метаболизма, и гены всевозможных регуляторных сетей. Они изучаются или поодиночке (.Гагпаик Э, 1995), или целыми группами с помощью экспрессионных чипов (Магиуата К, 2004). Во втором случае все равно �