Бесплатный автореферат и диссертация по биологии на тему
Регуляторные модули в эукариотах: предсказание, анализ структуры и консервативности
ВАК РФ 03.01.09, Математическая биология, биоинформатика

Автореферат диссертации по теме "Регуляторные модули в эукариотах: предсказание, анализ структуры и консервативности"

На правах рукописи

Никулова Анна Алексеевна

Регуляторные модули в эукариотах: предсказание, анализ структуры и

консервативности

03.01.09 - математическая биология, биоинформатика

Автореферат

диссертации на соискание ученой степени кандидата физико-математических наук

- 8 НОЯ 2012

Москва-2012

005054628

Работа выполнена на факультете биоинженерии и биоинформатики Федерального государственного бюджетного образовательного учреждения высшего профессионального образования Московского государственного университета имени М.В. Ломоносова.

Научный руководитель:

Официальные оппоненты:

Ведущая организация:

Андрей Александрович Миронов кандидат физико-математических наук, доктор биологических наук

Ройтберг Михаил Абрамович доктор физико-математических наук, Федеральное государственное бюджетное учреждение науки Институт математических проблем биологии Российской академии наук, заведующий лабораторией

Спирин Сергей Александрович кандидат физико-математических наук, Научно-исследовательский институт физико-химической биологии им. А.Н. Белозерского Федерального государственного бюджетного образовательного учреждения высшего профессионального образования Московского государственного университета им. М.В. Ломоносова, старший научный сотрудник

Федеральное государственное бюджетное учреждение науки Институт общей генетики им. Н.И. Вавилова Российской академии наук

Защита диссертации состоится «29» октября 2012 года в 14:00 на заседании диссертационного совета Д.002.077.04 на базе Федерального государственного бюджетного учреждения науки Института проблем передачи информации им. A.A. Харкевича РАН по адресу: 127994, Москва, ГСП-4, Большой Каретный переулок, д. 19, стр. 1.

С диссертацией можно ознакомиться в библиотеке Федерального государственного бюджетного учреждения науки Института проблем передачи информации им. A.A. Харкевича РАН

Автореферат разослан «. 21 .» сентября 2012 г.

Ученый секретарь диссертационного совета Д.002.077.04 __

доктор биологических наук, профессор

Рожкова Г.И. '

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Одной из важнейших задач биоинформатики является выявление и изучение участков ДНК, участвующих в регуляции транскрипции генов. Эта задача стала особенно актуальной в последнее время в связи с появлением огромного количества новых геномных последовательностей, нуждающихся в функциональной аннотации.

Регуляторные участки ДНК, участвующие в регуляции транскрипции генов, представляют собой сайты связывания транскрипционных факторов (ТФ), специфически связывающихся с ДНК и влияющих на уровень транскрипции соответствующих генов. Основными трудностями при идентификации сайтов связывания транскрипционных факторов (ССТФ) в геномах эукариот являются сравнительно небольшая длина (5-12 пар нуклеотидов, пн) и значительная вырожденность ССТФ. К тому же сайты связывания могут располагаться довольно далеко (до 60 тыс. пн) от регулируемого гена. Таким образом, даже при наличии известной модели ССТФ (например, позиционно-весовой матрицы, ПВМ) поиск сайтов связывания дает огромное количество ложно-положительных предсказаний.

Однако известно, что в геномах эукариот ССТФ часто организованы в группы (кластеры, цис-регуляторные модули), покрывающие участки ДНК протяженностью несколько сотен пар оснований. По-видимому, эти модули координируют белок-белковые взаимодействия, тем самым регулируя уровень транскрипции генов. До сих пор не до конца понятно, как они устроены. Большинство исследователей обращают внимание именно на тип и близкое расположение ССТФ, однако было показано, что во многих случаях важным фактором является порядок расположения ССТФ и расстояния между ними [Макееу е( а1. 2003, НаШкав ег а1. 2006, \latys ег а1. 2006, Рара15спко й а1. 2009], то есть структура (грамматика) регуляторных модулей. Знание структуры регуляторных модулей могло бы не только значительно повысить качество предсказания программ для поиска регуляторных элементов, но также позволило бы предсказывать совместную работу ТФ.

Свидетельством функциональной важности структуры регуляторных модулей может служить сохранение грамматики модулей в процессе эволюции даже при значительной дивергенции геномных последовательностей. С другой стороны, структура регуляторных модулей сходно регулируемых генов, по-видимому, также должна быть похожа. Таким образом, анализ регуляторных участков ортологичных и/или ко-регулируемых генов позволит определить функционально важные закономерности расположения сайтов связывания.

Актуальным является разработка алгоритмов, позволяющих выявлять закономерности расположения ССТФ, характерные для набора сходно функционирующих регуляторных модулей, и использовать информацию о

выявленной структуре для повышения качества предсказаний регуляторных модулей в геномах эукариот. Предсказание регуляторных модулей, характеризующихся сходной структурой, позволит выявлять ко-регулируемые гены. Кроме того, выявленные закономерности взаимного расположения ССТФ могут быть использованы для описания работы данной регуляторной системы.

Цели и задачи работы. Целью данной работы является разработка эффективных алгоритмов, методов и программных приложений для предсказания и анализа регуляторных транскрипционных модулей и их структуры в геномах эукариот и применение разработанных методов к различным эукариотическим системам. В ходе работы были поставлены следующие задачи:

предложить способ описания структуры регуляторных модулей, включающей частоты встречаемости сайтов связывания разных типов, предпочтение следования сайтов и характерные распределения расстояний между соседними сайтами;

• разработать алгоритм выявления структуры регуляторных модулей, содержащихся в наборе геномных последовательностей;

• разработать метод для поиска регуляторных модулей с учетом их структуры;

• разработать метод полногеномного поиска ко-регулируемых генов на основе наличия и консервативности предсказанных регуляторных модулей;

• применить разработанные алгоритмы для поиска регуляторных модулей и ко-регулируемых генов к ряду биологических систем; провести сравнение результатов, полученных с помощью разработанных алгоритмов, и результатов других программ, применяющихся в данной области;

• провести анализ структуры регуляторных модулей для ряда биологических систем, и сравнить сделанные наблюдения с содержащейся в литературе информацией о совместной работе транскрипционных факторов.

Научная новизна и практическая ценность. Научная новизна работы состоит в разработке новой вероятностной модели регуляторных модулей эукариот, описывающей их структуру, включающую частоты встречаемости сайтов, предпочтение следования сайтов связывания и характерные распределения расстояний между ними, а также применении этой модели для выявления структуры регуляторных модулей ортологичных и/или ко-регулируемых генов. Применение обобщенных скрытых Марковских моделей позволяет эффективно моделировать любые распределения расстояний между сайтами в регуляторных модулях. Обучение параметров модели на наборе ортологичных последовательностей позволяет учитывать эволюционную консервативность регуляторных модулей без использования выравнивания последовательностей, что делает алгоритм не зависимым от степени дивергенции последовательностей.

Разработанный и реализованный метод поиска регуляторных модулей в геномах

эукариот (свидетельство о регистрации в Государственном фонде алгоритмов и программ №2012610082) может быть использован для аннотации геномных последовательностей, изучения механизмов регуляции транскрипции и эволюции регуляторных модулей, поиска ко-регулируемых генов, а также для исследования генетических заболеваний, связанных с регуляцией экспрессии генов.

Апробация работы. Основные положения диссертации были представлены на международных конференциях: 3rd Int. Moscow Conference on Computational Molecular Biology MCCMB'07 (Москва, июль 2007), 4th Int. Moscow Conference on Computational Molecular Biology MCCMB'09 (Москва, июль 2009), 5th Int. Moscow Conference on Computational Molecular Biology MCCMB'll (Москва, июль 2011), 30-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'07 (Звенигород, сентябрь 2007), 31-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'08 (Геленджик, октябрь 2008), 32-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'09 (Бекасово, декабрь 2009), 33-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'10 (Геленджик, сентябрь 2010), 34-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'11 (Геленджик, октябрь 2011), 4th International Conference on Bioinformatics Models, Methods and Algorithms BIOINFORMATICS'2012 (Виламура, Португалия, февраль 2012) и на научных встречах международной учебно-научной группы «Regulation and Evolution of Cellular Systems (RECESS)».

Объем и структура диссертации. Диссертационная работа изложена на 125 страницах и состоит из введения, четырех глав, выводов и списка цитированной литературы. Глава 1 содержит обзор литературы по теме диссертации. Глава 2 содержит описание и тестирование разработанного алгоритма для предсказания регуляторных моделей в геномах эукариот. Глава 3 содержит описание и тестирование алгоритма полногеномного поиска ко-регулируемых генов, разработанного в данной работе. Глава 4 содержит описание применения разработанного алгоритма для выявления структуры регуляторных модулей и обсуждение полученных результатов в контексте литературных данных. Список литературы включает 149 наименований. Работа содержит 23 рисунка, 5 таблиц и 2 приложения.

СОДЕРЖАНИЕ РАБОТЫ

Первая глава посвящена обзору литературы по теме диссертации. В первой части обзора приведены общие сведения о регуляции транскрипции генов, особенности строения цис-регуляторных модулей в геномах эукариот, а также краткая характеристика методов экспериментального изучения регуляции транскрипции. Вторая часть посвящена биоинформатическим методам изучения регуляторных элементов в геномах эукариот. В ней рассмотрены способы описания и поиска сайтов

связывания факторов транскрипции (ССТФ) и приведены основные подходы, используемые для поиска цис-регуляторных модулей в геномах эукариот. Практически все алгоритмы используют предпосылку о кластеризации ССТФ вдоль цепи ДНК. Также многие методы используют межвидовое сравнение, или же сравнение регуляторных модулей ко-регулируемых генов, для повышения качества предсказания. Некоторые методы привлекают дополнительную информацию помимо последовательностей геномов и моделей ССТФ, например, информацию об экспрессии генов. Поскольку в данной работе применяется подход, основанный на скрытых Марковских моделях (СММ), обзор литературы также содержит краткое описание общих идей СММ и основных алгоритмов для обучения параметров СММ и декодирования последовательности состояний.

Во второй главе приведено описание разработанного в данной работе алгоритма поиска регуляторных модулей в геномах эукариот на основе набора известных моделей сайтов (позиционно-весовых матриц, ГТВМ), учитывающего консервативную структуру регуляторных модулей. Здесь же приведены результаты оценки качества предсказания регуляторных модулей для системы генов, специфически экспрессирующихся в мышечной ткани позвоночных, и системы раннего развития ОтхоркИа.

В основе алгоритма лежит модель последовательности, содержащей в себе регуляторные модули. Модель описывает в том числе структуру регуляторных модулей, а именно частоты сайтов разных типов, из которых состоят модули, предпочтения в порядке следования сайтов и в расстоянии между ними. Закономерности взаиморасположения сайтов выявляются в результате обучения модели на регуляторных участках сходно регулируемых, то есть ортологичных и/или ко-регулируемых, генов.

Регуляторный модуль моделируется как кластер непересекающихся ССТФ, причем начало модуля совпадает с началом первого сайта кластера, а конец — с концом последнего сайта. То есть регуляторный модуль состоит из сайтов и разделяющих их последовательностей — спейсеров (рис.1).

_п.. ■...........п..,..........о................■_л_■ □..........по_

I_1л I_I

Кластер ССТФ Кластер ССТФ

Рисунок 1. Схематическое изображение двух кластеров сайтов, окруженных фоновой последовательностью (непрерывные отрезки горизонтальной линии). Каждый кластер состоит из сайтов (показаны квадратами разных типов), разделенных спейсерами (пунктирные отрезки горизонтальной линии).

Для моделирования регуляторных модулей, окруженных фоновой последовательностью, использовалась скрытая Марковская модель (СММ), схема которой изображена на рисунке 2.

Рисунок 2. Схема СММ. Порождающие состояния изображены в виде прямоугольников, молчащие состояния — в виде овалов. Разрешенные переходы между состояниями показаны стрелками. Вероятности переходов, помеченных пунктиром, изменяются в процессе обучения модели по алгоритму Баума-Велча.

Архитектура СММ отражает наше представление о том, как устроены регуляторные модули в геномах эукариот. СММ, используемая в данной работе, содержит три основных типа порождающих состояний, соответствующих трем типам последовательности: фоновая последовательность между кластерами сайтов (состояние ВКО), сайты (состояния 81, Б2 и т.д.) и участки между сайтами в кластере — спейсеры (состояния БРАСЕ^Ш и 5РАСЕЛ:02). Количество состояний, порождающих сайты, равно количеству типов сайтов. Количество типов сайтов, в свою очередь, в два раза больше, чем количество ПВМ, используемых для построения модели, поскольку сайты, расположенные на разных цепях последовательности ДНК считаются сайтами разного типа.

Каждое порождающее состояние генерирует последовательность нуклеотидов, длина которой определяется распределением, характерным для данного состояния. СММ с таким типом архитектуры называют обобщенной СММ [ЯаЫпег е1 а1. 1989, Ки1р е1 а!. 1996, ЬикахЫп а а1. 1998]. Ее преимуществом является возможность использовать любое заданное распределение длин порождаемых последовательностей.

Распределение эмиссионных вероятностей для каждого порождающего состояния может быть описано следующим образом:

РыЛзедченсе^Р^^иепсеЦ) РятЩ ,

где Р^(»'(1испсе\!.} - это вероятность породить определенную нуклеотидную последовательность в данном состоянии при условии, что длина последовательности равна а Р,,<,„(!■) - вероятность породить любую нуклеотидную последовательность

длины L в данном состоянии.

Для порождения последовательности нуклеотидов заданной длины в состоянии BKG используется локальная Марковская цепь первого порядка. Длины последовательностей, порождаемых в этом состоянии, распределены согласно геометрическому распределению со средним ' //>,,„.„ (где Р„рт - это вероятность открытия кластера):

Состояния SI, S2, ..., SN (N — количество типов сайтов) порождают последовательности нуклеотидов (сайты) согласно соответствующим ПВМ. В состояниях типа SPACER нуклеотиды генерируются в соответствии с той же локальной Марковской моделью, которая использовалась для порождения фоновых последовательностей. Однако распределения длин последовательностей, порождаемых в этих состояниях, могут быть любыми наперед заданными. Именно состояния типа SPACER определяют распределения расстояний между соседними сайтами в кластере. В данной работе используются всего два типа состояний SPACER: SPACER:D1 и SPACER:D2, характеризующиеся, соответственно, распределениями D1 и D2 (рис. 3): D1 - геометрическое распределение со средним т, отражающее кластеризацию сайтов без каких-либо предпочтительных расстояний между ними, D2 - синусоидальное затухающее распределение с периодом 10.5 нуклеотидов, которое соответствует ситуации, когда взаимодействующие белки связывают спираль ДНК с одной и той же стороны. Аналогичные распределения расстояний между сайтами, с расстояниями между пиками равными длине спирали ДНК, были ранее описаны в литературе [Makeev et al. 2003, Papatsenko et al. 2009, Fickett etal. 1996].

Каждое из состояний, порождающих сайты, имеет только два возможных перехода: обратно в состояние BKG (с

вероятностью pelóse), что соответствует закрытию кластера, или в молчащее (то есть не порождающее никаких символов) состояние СЕ (от «CLUSTER ELONGATION»), соответствующее продолжению кластера. Таким образом, среднее количество сайтов в кластере контролируется величиной параметра pelóse.

Предлагаемая в данной работе СММ позволяет учитывать предпочтения в расположении сайтов в кластере, если таковые имеются. ССТФ определенных типов могут чаще находиться рядом друг с другом, нежели с сайтами других типов, например, потому что соответствующие им ТФ взаимодействуют друг с другом в момент связывания ДНК. Для того, чтобы учесть такую возможность, в СММ после каждого состояния типа СЕ вводится набор молчащих состояний типа NEXT (NEXT:S1, NEXT:S2, ..., NEXT:SN), определяющих тип сайта, следующего за только что порожденным сайтом в кластере. Количество состояний в каждом из таких

наборов равно количеству типов сайтов, поскольку модель учитывает все возможные пары типов сайтов. Распределение переходных вероятностей из состояния СЕ в состояния типа NEXT может варьировать в зависимости от типа только что порожденного сайта в кластере, таким образом определяя предпочтения в порядке

Расстояние между соседними сайтами в кластере

Рисунок 3. Распределения расстояния между соседними сайтами в кластере, использовавшиеся в данной работе.

СММ также позволяет учитывать предпочтения в выборе распределения расстояний между соседними сайтами. Из каждого состояния типа NEXT возможен переход в одно из состояний типа SPACER (SPACER:D1 или SPACER:D2), отличающихся между собой распределениями длин порождаемых последовательностей. Таким образом, распределение вероятностей переходов в состояния типа SPACER для каждого состояния типа NEXT определяет предпочтения в выборе распределения расстояния между сайтами для каждой пары типов сайтов.

Выявление структуры регуляторных модулей происходит в результате обучения параметров модели на наборе последовательностей, которые предположительно содержат регуляторные модули с похожей организацией. Для обучения параметров использовался алгоритм Баума-Велча [Baum et al. 1972, Durbin et al. 1998]. Поскольку целью обучения параметров является выявление структуры регуляторных областей, при обучении изменяются только параметры, определяющие структуру регуляторных модулей (переходы, выделенные пунктиром на рисунке 2).

Каждый путь в графе СММ, построенном для данной нуклеотидной последовательности, соответствует разметке этой последовательности на кластеры сайтов и фоновую последовательность. Поиск оптимальной разметки последовательности, соответствующей модели наилучшим образом, осуществляется по алгоритму, описанному в работе [Fariselli et al. 2005]. Этот алгоритм представляет собой комбинацию алгоритма «forward-backward» и алгоритма Витерби и демонстрирует более высокое качество предсказания, чем каждый из этих алгоритмов по отдельности.

Результатом работы этого алгоритма является набор кластеров сайтов,

найденных в последовательности. Для оценки значимости (веса) каждого найденного кластера используется логарифм отношения правдоподобия, который вычислялся как логарифм отношения апостериорной вероятности того, что данный участок последовательности был порожден моделью регуляторного участка, к апостериорной вероятности того, что данный участок последовательности был порожден фоновой моделью последовательности. Эти две вероятности вычисляются как вероятности отрезков путей в графе СММ, порождающих данный кластер и фоновую последовательность соответственно.

В случае поиска регуляторных модулей в группах последовательностей, относящихся к ортологичным (или ко-регулируемым) генам, алгоритм вычисляет значение консервативности, отражающее качество и консервативность состава предсказанных модулей для каждой группы последовательностей. Значение консервативности затем может использоваться в качестве дополнительного аргумента в пользу верности найденных регуляторных модулей, если мы уверены, что последовательности в группе действительно родственны друг другу или действительно содержат регуляторные модули ко-регулируемых генов. Или же для оценки того, насколько вероятно, что последовательности в группе действительно относятся к ко-регулируемым генам.

Для оценки консервативности регуляторных модулей для данной группы ортологичных генов рассчитывается величина (значение консервативности), которая отражает наличие предсказанных регуляторных областей в окрестностях значительного числа ортологичных генов и степень сходства регуляторных модулей, найденных в областях этих генов. Мера учитывает только наборы сайтов (количество сайтов каждого типа) в предсказанных регуляторных модулях, но не порядок следования сайтов. В процессе вычисления значения консервативности учитываются только предсказанные регуляторные модули с весом больше заданного порога.

В целях ясности изложения способа расчета значения консервативности, введем понятие ряда соответствующих регуляторных модулей. Предположим, что дана группа из N ортологичных генов. Для т из них были предсказаны регуляторные модули (причем для каждого гена может быть найдено один и более модулей). Предположим, что известно, какие из этих модулей соответствуют друг другу (в том смысле, что они состоят из похожих наборов сайтов), и что каждому модулю соответствует не более одного модуля в другом организме. Тогда можно говорить о ряде соответствующих регуляторных модулей, представленном в подмножестве данных ортологичных генов (рис. 4).

Сила (консервативность) ряда соответствующих регуляторных модулей вычисляется следующим образом. Для каждой пары регуляторных модулей (/ и у) в ряду рассчитывается величина сходства между ними q¡j (пары сочетаний показаны пунктиром на рис. 4). Мера сходства между парой кластеров учитывает только состав

модуля (то есть количество сайтов каждого типа):

п.+п. п..

-J—^

4V 2 U.. ' V

где л, и nj — количества сайтов в модулях i и у, П;у - размер пересечение наборов сайтов в модулях i и j, Uij — размер объединение наборов сайтов в модулях i и j (набор сайтов понимается как мультимножество). Сила ряда соответствующих регуляторных модулей рассчитывается как сумма q„ по всем парам в ряду (¡' < у), нормированная на размер ряда (количество модулей, входящих в данный ряд). Тогда значение консервативности для данной группы генов равно суммарной силе всех рядов соответствующих модулей, найденных для этой группы генов:

' -? Z £ .

к ¡<j<Nt "к

где к — индекс ряда соответствующих модулей, Л'* — размер к-го ряда.

Рисунок 4. Пояснение к описанию вычисления значения консервативности предсказанных модулей для группы ортологичных генов. Горизонтальные линии соответствуют разным г N геномам. Стрелками показаны старты ортологичных генов. Прямоугольники обозначают регуляторные модули, при этом модули, формирующие один ряд, обозначены заливкой одного типа (см. объяснение в тексте).

Но поскольку в реальности неизвестно, какие модули соответствуют друг другу, для каждого предсказанного регуляторного модуля в каждом организме формируется свой ряд, путем выбора в остальных организмах наиболее похожих на него модулей (используя ту же меру сходства, что описана выше). Таким образом, количество рядов соответствующих модулей равно количеству модулей, найденных для данного набора генов. Итоговое значение консервативности регуляторных областей генов рассчитывается как суммарная сила всех рядов соответствующих модулей, нормированная на количество геномов, в которых были найдены модули (т).

В качестве дополнительного фильтра из рассмотрения были исключены группы ортологичных генов, для которых количество генов, для которых были найдены регуляторные модули с весом выше порога, было меньше 3 (т < 3) или меньше половины количества генов в данной ортологичной группе (то есть m/N < 0.5).

Описанная модель регуляторных последовательностей эукариот, а также алгоритмы обучения параметров модели и поиска регуляторных модулей, были реализованы на языке программирования Java в виде программы CORECLUST.

Тестирование разработанного подхода поиска регуляторных модулей осуществлялось на системе генов позвоночных, специфически экспрессирующихся в

мышечной ткани, и системе раннего развития Drosophila. Также было проведено сравнение результатов работы CORECLUST с результатами предсказания других известных программ. На обеих системах CORECLUST продемонстрировал способность предсказывать регуляторные модули с достаточно высокими показателями качества.

Для тестирования программы на системе генов позвоночных, специфически экспрессирукнцихся в мышечной ткани, использовалась выборка генов и регулирующих их ТФ, изначально составленная Wasserman и Fickett [Wasserman et al. 1998]. Эта выборка часто используется для оценки качества предсказания регуляторных областей. Выборка содержит 24 последовательности (со средней длиной 850 пн) из геномов человека, мыши, крысы, быка и цыпленка, содержащие в себе известные регуляторные модули, участвующие в регуляции экспрессии генов в мышечной ткани. Набор ПВМ содержит матрицы для 5 ТФ, участвующих в регуляции мышечных генов: Meß, Myf, Spl, Srf и Tef. Выборка была взята из материалов к статье [Klepper et al. 2008], авторы которой также использовали данную выборку для оценки качества ряда программ.

Качество предсказания регуляторных модулей программой CORECLUST оценивалось с помощью инструмента, разработанного Klepper и коллегами [Klepper et al. 2008]. Авторы этой статьи создали удобный инструмент для разносторонней оценки аккуратности предсказания регуляторных модулей, который позволил нам оценить и сравнить с другими программами предсказания, сделанные CORECLUST. Этот инструмент оценивает не только точность предсказания локализации модулей в последовательности, но также и способность программы правильно определять набор типов ССТФ, входящих в предсказанные модули.

Для всесторонней оценки качества предсказания авторы предлагают использовать сразу несколько мер соответствия предсказанных и известных регуляторных модулей: коэффициент корреляции (СС), чувствительность (5л), специфичность (Sp), предсказательную ценность положительного результата (PPV), коэффициент эффективности (PC) и среднюю эффективность (ASP):

сс_ TPTN-FN-FP S/i= TP TN

\I(TP + FN)(TN + FP)(TP+FP)(TN + FN) ' " TP+FN ' P TN + FP '

rrv= TP _TP__Sn+PPV

TP+FP TP+FP+FN 2

где TP — это количество нуклеотидов, правильно предсказанных как входящие в регуляторный модуль, TN — количество нуклеотидов, правильно отнесенных к фоновой последовательности. FN — количество нуклеотидов, ошибочно отнесенных к фоновой последовательности, и FP — количество нуклеотидов ошибочно предсказанных, как принадлежащие регуляторному участку. Аналогичные величины использовались для оценки качества на уровне типов ССТФ (мотивов).

регуляторных модулей, найденных в последовательностях из этого генома. Координаты известных модулей были взяты из базы данных REDFly [Gallo .et al. 2011]. В качестве меры качества предсказания был выбран коэффициент корреляции между предсказанными и известными регуляториыми модулями (СС, см. выше), поскольку эта мера учитывает ошибки обоих родов. При этом качество предсказания оценивалось только на нуклеотидном уровне в виду отсутствия достаточного количества данных о ССТФ, входящих в состав известных регуляторных модулей. Результаты предсказания CORECLUST сравнивались с результатами предсказания трех программ: Stubb [Sinha et al. 2003], MOPAT [Hu et al. 2008] и Cluster-Buster [Frith etal. 2003].

Сравнение качества предсказания программ (табл. 1) показало, что согласно Т-критерию Уилкоксона, предсказания CORECLUST имеют более высокое значение СС, чем программы Stubb [Sinha et al. 2003] (p-value < 0.05), MOPAT [Hu et al. 2008] (p-value < 0.0007) и Cluster-Buster [Frith et al. 2003] (p-value < 0.02).

Таким образом, тестирование CORECLUST на системе мышечных генов позвоночных и системе раннего развития плодовой мушки показало, что программа применима к различным системам и организмам и может быть успешно использована для решения стандартной задачи поиска регуляторных модулей для набора системо-специфичных ТФ.

Преимущество учета корреляций между ССТФ для предсказания регуляторных областей в эукариотах было продемонстрировано в значительном количестве публикаций [Sinha et al. 2003, Erives et al. 2004, Hu et al. 2008]. Включение же в модель различных распределений расстояний между соседними сайтами в регуляторном модуле — новая черта нашего алгоритма. Для оценки преимущества, которое дает CORECLUST учет структурных особенностей регуляторных модулей, было проведено тестирование модифицированных версий программы CORECLUST с рабочими названиями CORECLUST-F и CORECLUST-FC. Отличия этих версий программы заключаются в том, что при обучении модели учитываются не все аспекты структуры регуляторных модулей. В CORECLUST-F учитываются только частоты сайтов разных типов, но не корреляции между типами сайтов и не предпочтения в расстояниях между сайтами, а в CORECLUST-FC учитываются частоты сайтов и корреляции между ними, но не предпочтения в расстояниях. Оценка качества предсказания CORECLUST-F и CORECLUST-FC осуществлялась аналогично тому, как это было описано выше. Сравнение трех версий программы, CORECLUST, CORECLUST-FC и CORECLUST-F показало, что в целом учет структурных особенностей регуляторных модулей (то есть корреляций между типами сайтов связывания и предпочтительных распределений расстояний между соседними сайтами в модуле) повышает чувствительность и немного снижает точность предсказания (рис. 6).

на уровне нуклеотидов

на уровне мотивов

PPV PC ASP сс Sn SP PPV PC ASP

■ CORECLUST □ CORECLUST-FC □ CORECLUST-F

Рисунок 6. Сравнение качества предсказания CORECLUST ддя системы мышечных генов позвоночных с учетом разных аспектов структуры регуляторных модулей.

По-видимому, этот феномен можно объяснить тем, что при учете предпочтений следования сайтов и расстояний между ними, ССТФ со сравнительно небольшим весом, но при этом располагающиеся в "правильном" порядке и на "правильном" расстоянии друг от друга, получают возможность бьггь включенными в регуляторный модуль, тем самым повышая чувствительность предсказания. Такое объяснение хорошо соотносится с моделью кооперативной работы факторов транскрипции, позволяющей добиваться тонкой регуляции транскрипции в эукариотах.

о о

X

m

а.

ф

о

Ф S I 0)

М CORECLUST □ CORECLUST-FC К CORECLUST-F

t lit LL Ыъ

i i ■.

JC CM ->

* -I 1

8 I

Группы ортологичных генов

Рисунок 7. Сравнение консервативности регуляторных модулей, предсказанных СОЯЕСШвТ, ССЖЕСЬиЗТ-РС и СОКЕСШЗТ-Р, для генов из системы раннего развития ОгояоркИа. Расчет значения консервативности был выполнен для каждой группы ортологичных генов по отдельности. Группы ортологичных генов названы в соответствии с именами генов из генома А melanogaster.

Если смотреть на консервативность состава регуляторных модулей, найденных для генов из одной ортологичной группы, оказывается, что модули, предсказанные

Результаты оценки предсказаний, сделанных CORECLUST, и сравнение с качеством предсказания 8 других известных программ (СМА [Kel et al. 2006], CisModule [Zhou et al. 2004], ModuleSearcher [Aerts et al. 2003], Stubb [Sinha et al. 2003], MSCAN [Johansson et al. 2003], MCAST [Bailey et al. 2003], Cister [Frith et al. 2001] и Cluster-Buster [Frith et al. 2003]) представлены на рисунке 5.

Сравнение на нукпеотидном уровне показало, что CORECLUST опережает другие программы почти по всем мерам. Особенно примечательно, что CORECLUST показывает себя наилучшим образом по мерам СС, PC и ASP, которые учитывают ошибки как первого, так и второго рода. Не очень высокая чувствительность предсказания CORECLUST может объясняться тем, что, несмотря на принадлежность к одной системе, некоторые гены, представленные в выборке, возможно, отличаются по структуре своих регуляторных модулей от большинства. Поскольку обучение программы осуществляется на всех последовательностях выборки, то модель регуляторных модулей отражает структуру, наиболее представленную во всей выборке.

На уровне нуклеотидов На уровне мотивов

сс

Sn

Sp

А

PPV

ASP

СС

Sn

9 СМА ■ Cluster-Busier ¡Stubb

■ СОЯЕСШвТ ЯМвСАК! □ МойЫеБеагсИег □ ^ег ■ МСАЭТ □ СкМск1и1е

Рисунок 5. Сравнение качества предсказания программ на нуклеотидном уровне и уровне мотивов для системы генов, специфически экспрессирующихся в мышечной ткани.

Предсказания CORECLUST на уровне мотивов, напротив, имеют довольно высокую чувствительность, однако по значениям специфичности, РРУ и других характеристик ССЖЕСЬШТ показывает средние результаты. Однако, стоит помнить, что специфичность, как и РРУ, в данной области предсказаний всегда недооценивается, поскольку экспериментальные данные по участию ТФ в регуляции могут быть не полными.

Тестирование СОИЕСЬивТ на системе развития ВгозорИМа осуществлялось на 17 генах из генома О. melanogaster, имеющих экспериментально показанные регуляторные модули. Гены развития плодовой мушки имеют довольно обширные

регуляторные области, часто располагающиеся на расстоянии до 15-20 тысяч пар нуклеотидов от начала гена. Кроме того, в публичных базах данных доступно 12 аннотированных геномов рода Drosophila. Эти обстоятельства дают возможность обучать модель регуляторных модулей на последовательностях из каждого ортологичного ряда по отдельности.

Таблица 1. Сравнение качества (СС) предсказания программ для генов системы раннего развития Drosophila. Каждый ряд соответствует предсказаниям для одного гена D. melanogaster. Ряд TOTAL содержит значения СС, вычисленные для всех генов из набора. Жирным выделено максимальное значение СС в каждой строке. *р-значение, вычисленное с помощью одностороннего Т-критерия Уилкоксона, отражающее значимость утверждения, что предсказания CORECLUST имеют более высокое значение СС, чем предсказания соответствующей программы.

Ген CORECLUST Stubb MOPAT Cluster-Buster

eve 0,73 0,56 0,54 0,58

h 0,69 0,17 0,26 0,49

btd 0,45 0,27 0,31 0,47

Кг 0,45 0,24 0,29 0,64

kni 0,43 0,22 0,27 0,45

gt 0,41 0,48 0,27 0,40

slpl 0,35 0,34 0,44 0,35

hb 0,32 0,33 0,17 0,22

fiz 0,31 0,36 0,32 0,27

fkh 0,31 0,28 0,27 -0,02

tll 0,26 0,15 0,09 0,17

prd 0,26 0,14 0,13 0,17

salm 0,23 0,07 -0,01 0,17

bowl 0,20 0,10 -0,01 0,17

run 0,08 0,17 0,07 0,11

ems -0,02 0,15 -0,01 -0,02

cad -0,03 0,17 -0,02 -0,04

TOTAL 0,32 0,20 0,20 0,29

медиана 0,31 0,22 0,26 0,22

стд.откл. 0,21 0,13 0,17 0,21

P-value* <0,05 < 0,0007 <0,02

Поэтому обучение модели и поиск регуляторных модулей осуществлялся для каждого из генов отдельно, с использованием всех доступных ортологичных последовательностей. Для каждого гена рассматривался участок последовательности [-20000 пн,+20000 пн] относительно начала гена. Набор ПВМ [Kulakovskiy et al. 2010] содержал матрицы для 7 ТФ, участвующих в регуляции формирования передне-задней оси у плодовой мушки: Bed, Hb, Cad, Кг, Kni, Til и Gt.

Поскольку экспериментально подтвержденные модули известны только для генома D. melanogaster, качество предсказания оценивалось только на основе

ССЖЕСШЗТ, то есть с учетом всех аспектов регуляторной структуры, намного консервативнее модулей, предсказанных СОКЕСЬиЗТ-РС и ССЖЕСЬивТ-Р (рис. 7). Это наблюдение может служить аргументом в пользу того, что предсказания полной версии программы ССЖЕСШ8Т надежнее, чем предсказания двух других версий.

Третья глава посвящена описанию применения разработанного алгоритма для полногеномного поиска регуляторных модулей с заданной структурой и выявления ко-регулируемых генов.

ССЖЕСШЗТ может быть применен для полногеномного поиска регуляторных модулей, характеризующихся структурой, похожей на структуру обучающих регуляторных модулей, и таким образом для идентификации генов, ко-регулируемых с данным геном или набором генов. Другими словами, если исследователь знает набор транскрипционных факторов, регулирующих экспрессию генов интересующей системы, и хотя бы один или несколько генов, которые с большой вероятностью регулируются этими факторами, то предлагаемый подход может быть использован для поиска других генов, регулируемых похожим на исходные гены образом.

Полногеномный поиск ко-регулируемых генов с использованием программы (ХЖЕСШБТ состоит из трех основных этапов (рис. 8):

1. Обучение параметров модели. Для обучения модели необходимо выбрать стартовый (обучающий) ген (или набор генов) в главном (референсном) геноме, регулируемый данным набором ТФ, и определить интервал относительно старта выбранного гена, в котором предположительно содержатся регуляторные модули, например, участок [-20000 пн, +20000 пн] относительно старта гена. Набор обучающих последовательностей формируется из соответствующих участков последовательностей ([-20000 пн, +20000 пн] относительно старта гена) для всех доступных ортологичных генов из интересующих геномов.

2. Полногеномный поиск регуляторных модулей во всех исследуемых геномах. Обученная на предыдущем этапе модель используется для поиска регуляторных модулей в окрестностях всех генов референсного генома и их ортологов из интересующих геномов.

3. Выбор наиболее достоверных предсказаний, используя предположение о консервативности функциональных регуляторных модулей. Поскольку функциональные регуляторные модули должны быть достаточно консервативными, на данном этапе отбираются такие группы ортологичных генов, для которых алгоритм нашел достаточно сильные регуляторные модули для значительной части генов из группы (в данной работе, хотя бы для половины генов) и при этом модули, найденные для ортологичных генов, похожи по составу сайтов. Для этого для каждой группы ортологичных генов вычисляется значение консервативности найденных регуляторных модулей, которое отражает силу (вес) и консервативность состава

предсказанных модулей. Затем группы ортологнчных генов сортируются по значению консервативности. Гены референсного генома, принадлежащие к первым ортологичным группам из полученного списка, могут рассматриваться как наиболее вероятные кандидаты на роль генов, ко-регулируемых со стартовым геном.

Группа ортологичных генов Мотивы для ТФ

Геном 1 -ТТ ]т т тСо

Геном 2 -(2. " 'г-ГГ

Геном 3 -

Тт

Геном N

ТТт.т „ лТЛ\

Обучение параметров модели

в.

Полногеномный поиск регуляторных модулей по всех исследуемых геномах

Выбор групп ортологичных генов, характеризующихся наиболее сильными и консервативными предсказанными регуляторными модулями

геном 1 XL_OED_Ш_£

Геном 2 _I_czlD_П I?

Геном 3 -fa-0_J£

Д

Список генов, упорядоченных по значению консервативности найденных регуляторных модулей

Рисунок 8. Общая схема поиска ко-регулируемых генов. Горизонтальными линиями показаны участки перед ортологичными генам, старты генов обозначены стрелками. Внизу схемы изображен пример выдачи программы — регуляторные модули (прямоугольники), найденные в участках перед ортологичными генами. Высота прямоугольника отражает вес данного регуляторного модуля.

Таким образом, после полногеномного поиска регуляторных модулей применяется оценка эволюционной консервативности предсказанных модулей, что позволяет отобрать наиболее достоверные предсказания.

Для тестирования возможности применения описанного подхода для поиска ко-регулируемых генов, стартуя всего с одной группы ортологичных генов (то есть обучая параметры СММ на последовательностях, относящихся к этим генам), был осуществлен ряд полногеномных поисков генов, ко-регулируемых с генами из системы развития Drosophila.

Для построения модели использовался тот же набор ПВМ, что и для тестирования CORECLUST на данной системе. Поиск регуляторных модулей осуществлялся в 12 геномах рода Drosophila [Tweedie et al. 2009]. Область поиска для каждого гена определялась как участок последовательности [-20000 пн, +20000 пн] относительно старта гена (старт гена определялся как координата начала гена в базе

данных FlyBase [Tvveedie et al. 2009]). При попадании соседних генов в этот интервал область поиска обрезалась по ближайшим границам соседних генов. Таким образом, поиск осуществлялся только в области, не выходящей за рамки межгенных областей, окружающих данный ген. При этом поиск происходил в последовательностях, ориентированных согласно направлениям соответствующих генов. Участки, содержащие повторы, выявленные программой RepeatMasker

[http://www.repeatmasker.org], были исключены из рассмотрения.

Поиск ко-регулируемых генов был осуществлен для каждого из 22 генов системы раннего развития Drosophila (A, eve, hb, kni, Kr,ftz, gt, run, prd, cad, slpl, slp2, til, bid, salm, bowl, knrl,fkh, ems, Dfd, pdm2 и en). В каждом случае обучение модели происходило на областях [-20000 пн, +20000 пн] (относительно старта гена) всех доступных ортологичных генов. После этого обученная модель использовалась для поиска регуляторных модулей для всех генов во всех двенадцати геномах Drosophila. Результат каждого поиска представлял из себя список генов, для которых были найдены сильные и консервативные регуляторные модули, похожие на регуляторные модули обучающего гена, то есть генов, предположительно ко-регулируемых с обучающим геном. Во всех 22 случаях в результирующем списке генов были перепредставлены гены, участвующие в раннем развитии Drosophila. Например, для обучающего гена hairy (h), который является первичным pair-rule геном, вовлеченным в установление сегментов зародыша на 4-6 стадиях развития плодовой мушки, было найдено 45 предположительно ко-регулируемых генов. Шесть из них попали в результирующий список только потому, что их области поиска пересекались с областями поиска хорошо известных генов раннего развития плодовой мушки. Для ясности изложения эти гены были убраны из рассмотрения. Оставшиеся 39 генов характеризуются сильными консервативными предсказанными регуляторными модулями и могут рассматриваться как вероятные кандидаты на роль генов, ко-регулируемых с геном h. Анализ полученного списка генов с помощью программы GOStat [Beissbarth et al. 2004], показал, что в этом списке значительно перепредставлены GO-категории [Ashburner et al. 2000], связанные с ранним развитием плодовой мушки и в частности с сегментацией бластодермы (табл. 2). При этом список содержал все шесть pair-rule генов.

Более того, большинство генов из начала списка (табл. 3) являются известными участниками формирования передне-задней оси у плодовой мушки и действительно имеют экспериментально подтвержденные регуляторные модули, регулирующие транскрипцию этих генов на 4-6 стадиях развития Drosophila. Среди них всего три гена ею являются известными участниками процесса раннего развития плодовой мушки {CG13713, CG5103 и Cyp6vl). Тем не менее, они все равно являются хорошими кандидатами на роль генов, участвующих в раннем развитии Drosophila, поскольку, в соответствии с данными по иммуно-преципитации хроматина [Li et al.

2008], ТФ, регулирующие экспрессию генов развития, связываются с участками ДНК вблизи этих генов на 4-6 стадии развития.

Таблица 2. СЮ-категории, наиболее представленные в списке генов, предположительно ко-регулируемых с геном /г. Значимость перепредставленности СО категорий оценена с помощью программы 0081а1 [Е^звЬагШ е1 а1. 2004].

Категория GO # предсказанных генов, принадлежащих к категории # генов в категории P-Value

Blastoderm segmentation 14 137 2.98Е-17

Embrionic pattern specification 14 176 5.51 Е-16

Segmentation 14 181 5.51Е-16

Periodic partitioning by pair rule gene 6 6 2.18Е-14

Posterior head segmentation 7 15 2.31Е-13

Embrionic development 16 532 1.78Е-12

Таблица 3 Первые 15 генов из списка генов, предположительно ко-регулируемых с геном А. Значение консервативности показывает степень консервативности регуляторных модулей, предсказанных для данного гена.

Ген Значение консервативности Функция гена

h 194.8 pair-rule gene, TF; open tracheal system development, nervous system development

ftz 45,4 pair rule gene, TF; gonadal mesoderm development

еда 42,7 pair-rule gene, TF; regulation of axonogenesis and cardioblast cell fate specification

kni 32,1 gap gene, TF; dendrite morphogenesis, muscle organ and epidermis development

hb 28,3 gap gene, TF; torso signaling pathway, terminal region and neuroblast fate determination

slp1 27,0 pair-rule and segment polarity gene, TF; specification of segmental identity, head

run 20,0 pair-rule gene, TF; axon guidance, dendrite morphogenesis, eye morphogenesis

CG13713 17,4 regulation of localization (predicted)

slp2 16,5 pair-rule and segment polarity gene, TF

Kr 12,6 gap gene, TF; neuroblast fate determination, axon guidance

CG5103 11,5 transketolase (predicted)

Cyp6v1 10,1 cytochrome P450

pdm2 9,5 gap gene, TF; neuroblast development

gt 9,3 gap gene, TF; torso signaling pathway; terminal region determination

Для систематической оценки качества поиска ко-регулируемых генов было проведено сравнение списков ко-регулируемых генов, найденных нашей программой, со списком генов, полученным с помощью базовой программы для предсказания регуляторных модулей, Cluster-Buster [Frith et al. 2003]. Программа Cluster-Buster была выбрана для сравнения потому, что кроме набора ПВМ, она не использует информацию ни о структуре регуляторных областей, ни о их консервативности, но

при этом показывает очень хорошие результаты предсказания.

Сначала была сформирована положительная выборка генов, которые, с большой вероятностью участвуют в раннем развитии плодовой мушки. Для этого к списку хорошо известных из литературы генов раннего развития были добавлены гены, которые аннотированы термином «embryonic pattern specification» (G0:0009880) в базе данных GO [Ashburner el al. 2000] и экспрессируются на 2-4 стадии развития D.melanogaster [Tomancak et al. 2002]. В результате в «положительную» выборку вошли 115 генов.

Поскольку программа Cluster-Buster не выдает итоговый список генов, были применены 2 простые меры для отбора генов, с наиболее сильными и многочисленными регуляторными участками, предсказанными этой программой. После пол по геномного поиска кластеров сайтов программой Cluster-Buster гены были отсортированы по:

1) максимальному весу предсказанных для них регуляторных модулей;

2) суммарному весу предсказанных регуляторных модулей.

Затем для каждого из 22 стартовых (обучающих) генов было проведено по три гипергеометрических теста для оценки статистической значимости перепредставленности генов положительной выборки в каждом из трех списков генов:

1) в итоговом списке ко-регулируемых генов, предсказанных программой CORECLUST, содержащем т генов;

2) в первых т генах, из списка предсказаний Cluster-Buster, отсортированного по максимальному весу модулей;

2) в первых т генах, из списка предсказаний Cluster-Buster, отсортированного по суммарному весу модулей.

Результаты сравнения, представленные на рисунке 9, демонстрируют, что список генов, найденных с применением предлагаемого подхода, учитывающего структуру регуляторных модулей и их консервативность, значительно лучшее совпадает с положительной выборкой, чем предсказания, сделанные программой Cluster-Buster. С другой стороны, сравнение качества предсказаний, выполненных с использованием модели, обученной на разных генах, показывает, что не все гены одинаково хорошо подходят для обучения модели. Возможно, это можно объяснить тем, что регуляторные участки некоторых из них содержат недостаточное количество сайтов связывания для того, чтобы хорошо обучить параметры модели.

Четвертая глава посвящена описанию выявленной структуры регуляторных модулей для системы генов позвоночных, специфически экспрессирующихся в мышечной ткани, и системы раннего развития Drosophila.

25 20 15 10 5 0

■ CORECLUST El Cbust(max) □ Cbust(sum)

OJ <N

ё E

CM = CL. ^ Ф

£ CD

E Q Ш

Обучающий ген

Рисунок 9. Оценка качества поиска генов, относящихся к системе раннего развития Drosophila. Гистограмма представляет сравнение значимости представленности генов из положительной выборки в наборах генов, найденных программами CORECLUST (предсказания представлены для разных обучающих генов) и Cluster-Buster (гены отсортированы по максимальному (Cbust (max)) и суммарному (Cbust (sum)) весу модулей).

В процессе обучения модели СОЯЕСЕиБТ выявляет структурные особенности, а именно предпочтение следования сайтов и предпочтительное распределение расстояний между ними, которые разделяют сходно функционирующие регуляторные модули. Можно предположить, что выявленные закономерности расположения сайтов несут функциональную нагрузку, важную для корректной работы регуляторной системы, и поэтому сохраняются в процессе эволюции, а также наблюдаются у ко-регулируемых генов. Таким образом, СОЯЕСШЗТ может применяться не только для поиска регуляторных модулей, но также и для выявления и анализа предпочтительного взаимного расположения сайтов связывания, свойственного данной регуляторной системе.

Структура регуляторных модулей, содержащихся в обучающих последовательностях, описывается параметрами обученной модели. Для каждой пары типов сайтов г и/ в модели содержится условная вероятность Р0\0 наблюдать сайт типа у следом за сайтом типа ¡. Эта вероятность отражает частоту наблюдений пары сайтов соответствующих типов, располагающихся рядом в регуляторных модулях в обучающих последовательностях. Достаточно высокое значение вероятности Р(/\¡) может говорить о том, что сайты данных типов часто располагаются рядом друг с другом, что в свою очередь может означать, что ТФ, связывающие эти сайты, взаимодействуют друг с другом во время регуляции транскрипции генов.

Анализ параметров модели, обученной на регуляторных участках генов, специфически экспрессирующихся в мышечной ткани, показал, что наиболее

вероятными парами ТФ, чьи сайты связывания часто располагаются рядом, являются Mef2-Myf, Spl-Srf и Spl-Spl. Для всех трех пар в литературе описаны наблюдения, говорящие в пользу того, что эти белки действительно взаимодействуют друг с другом в процессе регуляции транскрипции соответствующих генов. Так, расположение сайтов связывания Mef2 и Myf рядом друг с другом, причем на расстоянии, кратном шагу спирали ДНК, было замечено J.W. Fickett [Fickett 1996] еще в 1996 году в процессе анализа известных регуляторных модулей мышечных генов. Интересно, что в соответствии с параметрами нашей модели, сайты связывания этих факторов также предпочтительно располагаются на расстоянии кратном шагу спирали ДНК, то есть расстояние между ними описывается синусоидальным распределением расстояний, использующимся в модели. Синергия между сайтами связывания Mef2 и Myf также зафиксирована в базе данных TransComplel (С00120) [Kcl-Margoulis et al. 2002]. Взаимодействие факторов SRF и Spl косвенно подтверждается экспериментальными работами [Biesiada et al. 1999] и [Madsen et al. 1997]. Синергическая активация транскрипции фактором Spl была показана in vivo в статье [Anderson et al. 1991].

Другие, чуть менее предпочтительные, пары типов сайтов, выявленные в результате анализа модели, также имеют подтверждения в литературе и базе данных TransCompel: Tef-Mef2 [Maeda et al. 2002]; Mefi-Spl [Grayson et al. 1998]; Myf-Spl (TransComplel: C00027, C00028).

В соответствии с параметрами модели, обученной на регуляторных участках генов раннего развития плодовой мушки, регуляторная система раннего развития Drosophila характеризуется гомотипичесткими взаимодействиями между ТФ, что согласуется с наблюдениями, описанными в литературе [Lebrecht et al. 2005, Lifanov et al. 2003, Makeev et al. 2003]. Интересно, что в некоторых случаях сайты в таких гомотипических парах (например, Кг-Кг и Hb-Hb) имеют тенденцию быть сонаправленными. Более того, некоторые из гомотипических пар (например, Hb-Hb и Bcd-Bcd) характеризуются выбором синусоидального распределения в качестве предпочтительного распределения расстояний между сайтами. Похожий характер расстояний между сайтами связывания этих факторов наблюдался также в работе [Papatsenko et al. 2009]. Такое распределение расстояний между сайтами связывания одного ТФ хорошо согласуется с моделью кооперативного связывания молекул одного и того же фактора с одной стороны спирали ДНК, которое как раз должно приводить к формированию гомотипических кластеров сайтов связывания, преимущественно располагающихся на расстоянии, кратном длине спирали ДНК.

Анализ расположения ССТФ в регуляторных модулях, предсказанных около генов раннего развития Drosophila, выявил несколько интересных распределений расстояний между сайтами, не соответствующих распределениям расстояний, включенным в модель. Например, почти во всех наблюденных (15 из 18) парах сайтов Gt>Gt> (два сайта связывания фактора Gt, расположенные на прямой цепи ДНК)

расстояние между сайтами равно 51-58 нуклеотидов. Распределение расстояний между сайтами пары Kni>Kni< (сайты связывания фактора Kni, расположенные на разных цепях ДНК) отличается пиком на расстоянии 135-138 нуклеотидов (рис. 10), что довольно необычно и, возможно, говорит о связывании фактора Kni с

Рисунок 10. Распределение расстояний между сайтами пары Kni>Kni< в регуляторных модулях, найденных около генов раннего развития Drosophila. Расстояние измеряется между стартами ССТФ. Коэффициент корреляции между сайтами в паре равен 0.51, всего было наблюдено 109 пар. Фоновое

_________i распределение расстояний между

0 100 200 300 400 сайтами показано пунктирной линией.

Таким образом, предложенный алгоритм выявления регуляторной структуры интересующей системы генов позволят делать биологически обоснованные предположения о совместной работе и характере взаимодействия ТФ.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. Разработана вероятностная модель регуляторных модулей эукариот, описывающая их структуру, а именно частоты встречаемости сайтов связывания факторов транскрипции, предпочтение следования сайтов и характерные распределения расстояний между соседними сайтами.

2. Разработан и реализован метод определения параметров модели, описывающих структуру регуляторных модулей (закономерностей взаиморасположения сайтов связывания).

3. Разработан и реализован метод поиска регуляторных модулей в геномах эукариот для набора системо-специфичных ТФ, в основе которой лежит вероятностная модель регуляторных модулей. Показано, что разработанный метод позволяет эффективно искать рехуляторные модули для набора системо-специфичных ТФ для генов из различных регуляторных систем и организмов.

4. Разработан метод полногеномного поиска ко-регулируемых генов на основе анализа предсказанных регуляторных модулей и оценки консервативности их структуры. Эффективность разработанного подхода продемонстрирована на примере системы раннего развития Drosophila.

5. Проведен анализ структуры регуляторных модулей для генов позвоночных, специфически экспрессирующихся в мышечной ткани, и генов раннего развития

компактизованной ДНК. 0.12

0.06

Л ЛЛ

lllll-llllll Ililil J и

Drosophila. Продемонстрирована возможность применения разработанного подхода к изучению совместной работы ТФ, а также выявлен ряд ранее неизвестных особенностей распределений расстояний между сайтами, позволяющих предполагать различные механизмы взаимодействия комплекса ТФ с ДНК, в том числе связывание комплекса с компактизованной ДНК.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ Статьи в научных журналах

1. Anna A. Nikulova, Alexander V. Favorov, Roman A. Sutormin, Vsevolod J. Makeev, Andrey A. Mironov. CORECLUST: identification of the conserved CRM grammar together with prediction of gene regulation. Nucleic Acids Research (2012); doi: 10.1093/nar/gks23 5.

2. А. А. Никулова, M. С. Полищук, В. Г. Туманян, В. Ю. Макеев, А. А. Миронов, А. В. Фаворов. Корреляции кластеров сайтов связывания и экспериментальных данных по связыванию белков с ДНК позволяют предполагать структуру регуляторных модулей. Биофизика (2012) 57(2): 212-214.

Тезисы конференций

1. Nikulova A.A., Mironov A.A. Computational prediction and analysis of transcriptional regulatory modules in mammals. Proceedings of the 3rd International Moscow Conference on Computational Molecular Biology (MCCMB'07), 2007, pp. 228-229.

2. Никулова A.A., Миронов A.A. Поиск и анализ кластеров сайтов связывания транскрипционных факторов в геномах млекопитающих. Труды 30-й конференции молодых ученых и специалистов ИППИ РАН НТиС'07, 2007, с. 284-285.

3. Никулова А.А., Сутормин Р.А., Фаворов А.В., Миронов А.А. Построение НММ, основанной на правилах взаиморасположения сайтов связывания транскрипционных факторов, и ее применение для поиска корегулируемых генов в геномах рода Drosophila. Труды 31-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'08, 2008, с. 352-353.

4. Nikulova A., Mironov A. Prediction of regulatory elements in Drosophila genomes using hidden Markov model based on the arrangement of transcription factor binding sites. Proc. 4th International Moscow Conference on Computational Molecular Biology (MCCMB'09), 2009, pp. 261-262.

5. Nikulova A.A., Favorov A.V., Sutormin R.A., Mironov A.A. Prediction and Comparative Analysis of Transcriptional Regulatory Regions in Drosophila Genomes. Труды 32-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'09, 2009, с. 290-291.

6. Никулова А.А., Фаворов А.В., Миронов А.А. Предсказание и анализ

консервативных транскрипционных регуляторных областей в геномах рода Drosophila. Труды 33-й конференции молодых ученых и специалистов ИППИ РАН ИТиС' 10, 2010, с. 422-426.

7. А.А. Nikulova, A.V. Favorov, А.А. Mironov. An approach to predict cis-regulatory modules and identify conserved regulatory grammar in eukaryotic genomes. Proceedings of International Moscow Conference on Computational Molecular Biology (MCCMB'll), 2011, p. 253.

8. A.A. Nikulova, A.V. Favorov, A. A. Mironov. CORECLUST: prediction of cis-regulatory modules and revealing their internal structure. Труды 34-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'11, 2011, с. 64-69.

9. А.А. Nikulova, A.V. Favorov, V.Yu. Makeev and A.A. Mironov. A generalized hidden Markov model for prediction of cis-regulatory modules in eukaiyote genomes and description of their internal structure. Proceedings of 3rd International Conference on Bioinformatics Models, Methods and Algorithms (BIOINFORMATICS'2012), pp. 34-41.

Государственная регистрация программы

1. Никулова А.А., Сутормин Р.А., Фаворов А.В., Макеев В.Ю., Миронов А.А. Программа для поиска кластеров регуляторных сигналов в геномах эукариот. Свидетельство №2012610082.

Автор выражает глубокую благодарность своему научному руководителю Андрею Александровичу Миронову за руководство и помощь при выполнении диссертации, а также искреннюю признательность Александру Фаворову, Роману Сутормину и Михаилу Сергеевичу Гельфанду.

Подписано в печать 27.09.2012 Формат 60x88 1/16. Объем 1.0 п.л. Тираж 100 экз. Заказ № 1244 Отпечатано в ООО «Соцветие красок» 119991 г.Москва, Ленинские горы, д. 1 Главное здание МГУ, к. А-102

Содержание диссертации, кандидата физико-математических наук, Никулова, Анна Алексеевна

Введение.

Актуальность темы.

Цели и задачи работы.

Научная новизна и практическое значение.

Апробация работы.

Список публикаций по теме диссертации.

Список используемых сокращений и обозначений.

Объем и структура диссертации.

1. Обзор литературы.

1.1. Регуляция экспрессии генов.

1.2. Регуляция транскрипции генов.

1.2.1. Цис-регуляторные модули и их структура.

1.2.2. Экспериментальные методы исследования транскрипции генов.

Методы нахождения сайтов связывания ТФ.

Методы определения уровня экспрессии генов.

1.2.3. Базы данных по транскрипционной регуляции.

1.3. Биоинформатические подходы к поиску транскрипционных регуляторных элементов в геномах эукариот.

1.3.1. Сайты связывания факторов транскрипции.

Способы представления сайтов связывания ТФ в биоинформатике.

Методы нахождения мотивов.

Базы данных мотивов ССТФ.

1.3.2. Скрытые Марковские модели.

Декодирование последовательности состояний.

Обучение параметров СММ.

Обобщенные СММ.

1.3.3. Поиск регуляторных участков в геномах эукариот.

Методы, основанные на предпосылке о кластеризации ССТФ.

Использование межвидового сравнения.

Привлечение дополнительной информации.

2. Поиск регуляторных модулей в геномах эукариот.

2.1. Алгоритм поиска регуляторных модулей в геномах эукариот.

2.1.1. Модель регуляторных модулей эукариот.

Подготовка ПВМ и поиск потенциальных ССТФ в последовательности 60 Фиксированные параметры модели.

2.1.2. Обучение параметров модели.

2.1.3. Применение модели для поиска регуляторных модулей.

2.1.4. Оценка консервативности регуляторных модулей.

2.1.5. Реализация алгоритма.

2.2. Тестирование разработанного подхода поиска регуляторных модулей на известных биологических системах.

2.2.1. Тестирование на системе мышечных генов позвоночных.

2.2.2. Тестирование на системе раннего развития Drosophila.

2.3. Преимущество учета структурных особенностей для предсказания регуляторных модулей в геномах эукариот.

3. Применение разработанного алгоритма для полногеномного поиска регуляторных модулей с заданной структурой и выявления ко-регулируемых генов.

3.1. Общая схема поиска ко-регулируемых генов.

3.2. Полногеномный поиск генов, ко-регулируемых с генами из системы раннего развития Drosophila.

4. Выявление структуры регуляторных модулей.

4.1. Анализ структуры регуляторных модулей мышечных генов позвоночных.

4.2. Анализ структуры регуляторных модулей генов развития Drosophila.

4.2.1. Анализ параметров обученной модели.

4.2.2. Анализ структурных особенностей потенциальных регуляторных модулей.

Введение Диссертация по биологии, на тему "Регуляторные модули в эукариотах: предсказание, анализ структуры и консервативности"

Актуальность темы

Одной из важнейших задач биоинформатики является выявление и изучение участков ДНК, участвующих в регуляции транскрипции генов. Эта задача стала особенно актуальной в последнее время в связи с появлением огромного количества новых геномных последовательностей, нуждающихся в функциональной аннотации.

Регуляторные участки ДНК, участвующие в регуляции транскрипции генов, представляют собой сайты связывания транскрипционных факторов (ТФ), специфически связывающихся с ДНК и влияющих на уровень транскрипции соответствующих генов. Основными трудностями при идентификации сайтов связывания транскрипционных факторов (ССТФ) в геномах эукариот являются сравнительно небольшая длина (5-12 пар нуклеотидов, пн) и значительная вырожденность ССТФ. К тому же сайты связывания могут располагаться довольно далеко (до 60 тыс. пн) от регулируемого гена. Таким образом, даже при наличии известной модели ССТФ (например, позиционно-весовой матрицы, ПВМ) поиск сайтов связывания дает огромное количество ложно-положительных предсказаний.

Однако известно, что в геномах эукариот ССТФ часто организованы в группы (кластеры, цис-регуляторные модули), покрывающие участки ДНК протяженностью несколько сотен пар оснований. По-видимому, эти модули координируют белок-белковые взаимодействия, тем самым регулируя уровень транскрипции генов. До сих пор не до конца понятно, как они устроены. Большинство исследователей обращают внимание именно на тип и близкое расположение ССТФ, однако было показано, что во многих случаях важным фактором является порядок расположения ССТФ и расстояния между ними [Макееу е( а1. 2003, НаШкав е/ а/. 2006, Ма1уз е/ а1. 2006, Рара15епко а\. 2009], то есть структура (грамматика) регуляторных модулей. Знание структуры регуляторных модулей могло бы не только значительно повысить качество предсказания программ для поиска регуляторных элементов, но также позволило бы предсказывать совместную работу ТФ.

Свидетельством функциональной важности структуры регуляторных модулей может служить сохранение грамматики модулей в процессе эволюции даже при значительной дивергенции геномных последовательностей. С другой стороны, структура регуляторных модулей сходно регулируемых генов, по-видимому, также должна быть похожей. Таким образом, анализ регуляторных участков ортологичных и/или ко-регулируемых генов позволит определить функционально важные закономерности расположения сайтов связывания.

Актуальным является разработка алгоритмов, позволяющих выявлять закономерности расположения ССТФ, характерные для набора сходно функционирующих регуляторных модулей, и использовать информацию о выявленной структуре для повышения качества предсказаний регуляторных модулей в геномах эукариот. Предсказание регуляторных модуней, характеризующихся сходной структурой, позволит выявлять ко-регулируемые гены. Кроме того, выявленные закономерности взаимного расположения ССТФ могут быть использованы для описания работы данной регуляторной системы.

Цели и задачи работы

Целью данной работы является разработка эффективных алгоритмов, методов и программных приложений для предсказания и анализа регуляторных транскрипционных модулей и их структуры в геномах эукариот и применение разработанных методов к различным эукариотическим системам. В ходе работы были поставлены следующие задачи:

• предложить способ описания структуры регуляторных модулей, включающей частоты сайтов связывания разных типов, предпочтение следования сайтов и характерные распределения расстояний между соседними сайтами;

• разработать алгоритм выявления структуры регуляторных модулей, содержащихся в наборе геномных последовательностей;

• разработать метод для поиска регуляторных модулей с учетом их структуры;

• разработать метод полногеномного поиска ко-регулируемых генов на основе наличия и консервативности предсказанных регуляторных модулей;

• применить разработанные алгоритмы для поиска регуляторных модулей и ко-регулируемых генов к ряду биологических систем; провести сравнение результатов, полученных с помощью разработанных алгоритмов, и результатов других программ, применяющихся в данной области;

• провести анализ структуры регуляторных модулей для ряда биологических систем, и сравнить сделанные наблюдения с содержащейся в литературе информацией о совместной работе транскрипционных факторов.

Научная новизна и практическое значение

Научная новизна работы состоит в разработке новой вероятностной модели регуляторных модулей эукариот, описывающей их структуру, включающую частоты сайтов, предпочтение следования сайтов связывания и предпочтительные распределения расстояний между ними, а также применении этой модели для выявления структуры регуляторных модулей ортологичных и/или ко-регулируемых генов. Применение обобщенных скрытых Марковских моделей позволяет эффективно моделировать любые распределения расстояний между сайтами в регуляторных модулях. Обучение параметров модели на наборе ортологичных последовательностей позволяет учитывать эволюционную консервативность регуляторных модулей без использования выравнивания последовательностей, что делает алгоритм независимым от степени дивергенции последовательностей.

Разработанный и реализованный метод поиска регуляторных модулей в геномах эукариот (свидетельство о регистрации в Государственном фонде алгоритмов и программ №2012610082) может быть использован для аннотации геномных последовательностей, изучения механизмов регуляции транскрипции и эволюции регуляторных модулей, поиска ко-регулируемых генов, а также для исследования генетических заболеваний, связанных с регуляцией экспрессии генов.

Апробация работы

Основные положения диссертации были представлены на международных конференциях: 3rd International Moscow Conference on Computational Molecular Biology MCCMB'07 (Москва, июль 2007), 4th International Moscow Conference on Computational Molecular Biology MCCMB'09 (Москва, июль 2009), 5th International Moscow Conference on Computational Molecular Biology MCCMB'll (Москва, июль 2011), 30-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'07 (Звенигород, сентябрь 2007), 31-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'08 (Геленджик, октябрь 2008), 32-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'09 (Бекасово, декабрь 2009), 33-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'10 (Геленджик, сентябрь 2010), 34-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'11 (Геленджик, октябрь 2011), 4th International Conference on Bioinformatics Models, Methods and Algorithms BIOINFORMATICS'2012 (Виламура, Португалия, февраль 2012) и на научных встречах международной учебно-научной группы «Regulation and Evolution of Cellular Systems (RECESS)».

Список публикаций по теме диссертации

Статьи в научных журналах

1. Anna A. Nikulova, Alexander V. Favorov, Roman A. Sutormin, Vsevolod J. Makeev, Andrey A. Mironov. CORECLUST: identification of the conserved CRM grammar together with prediction of gene regulation. Nucleic Acids Research (2012); doi: 10.1093/nar/gks235.

2. А. А. Никулова, M. С. Полищук, В. Г. Туманян, В. Ю. Макеев, А. А. Миронов, А. В. Фаворов. Корреляции кластеров сайтов связывания и экспериментальных данных по связыванию белков с ДНК позволяют предполагать структуру регуляторных модулей. Биофизика (2012) 57(2): 212-214.

Тезисы конференций

1. Nikulova A.A., Mironov А.А. Computational prediction and analysis of transcriptional regulatory modules in mammals. Proceedings of the 3rd International Moscow Conference on Computational Molecular Biology (MCCMB'07), 2007, p. 228-229.

2. Никулова A.A., Миронов А.А. Поиск и анализ кластеров сайтов связывания транскрипционных факторов в геномах млекопитающих. Труды 30-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'07, 2007, с. 284-285.

3. Никулова А.А., Сутормин Р.А., Фаворов А.В., Миронов А.А. Построение НММ, основанной на правилах взаиморасположения сайтов связывания транскрипционных факторов, и ее применение для поиска корегулируемых генов в геномах рода Drosophila. Труды 31-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'08, 2008, с. 352-353.

4. Nikulova A., Mironov A. Prediction of regulatory elements in Drosophila genomes using hidden Markov model based on the arrangement of transcription factor binding sites. Proc. 4th International Moscow Conference on Computational Molecular Biology (MCCMB'09), 2009, pp. 261-262.

5.Nikulova A.A., Favorov A.V., Sutormin R.A., Mironov A.A. Prediction and Comparative Analysis of Transcriptional Regulatory Regions in Drosophila Genomes. Труды 32-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'09, 2009, с. 290-291.

6. Никулова А.А., Фаворов А.В., Миронов А.А. Предсказание и анализ консервативных транскрипционных регуляторных областей в геномах рода Drosophila. Труды 33-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'10, 2010, с. 422-426.

7. А.А. Nikulova, A.V. Favorov, А.А. Mironov. An approach to predict cis-regulatory modules and identify conserved regulatory grammar in eukaryotic genomes. Proceedings of International Moscow Conference on Computational Molecular Biology (MCCMB'll), 2011, p. 253.

8. A.A. Nikulova, A.V. Favorov, A.A. Mironov. CORECLUST: prediction of cis-regulatory modules and revealing their internal structure. Труды 34-й конференции молодых ученых и специалистов ИППИ РАН ИТиС'11, 2011, с. 64-69.

9. А.А. Nikulova, A.V. Favorov, V.Yu. Makeev and A.A. Mironov. A generalized hidden Markov model for prediction of cis-regulatory modules in eukaryote genomes and description of their internal structure. Proceedings of 3rd International Conference on Bioinformatics Models, Methods and Algorithms (BIOINFORMATICS'2012), pp. 34-41.

Государственная регистрация программы

1. Никулова А.А., Сутормин Р.А., Фаворов А.В., Макеев В.Ю., Миронов А.А. Программа для поиска кластеров регуляторных сигналов в геномах эукариот. Свидетельство №2012610082.

Список используемых сокращений и обозначений

ТФ — фактор транскрипции;

ССТФ — сайт связывания фактора транскрипции; пн — пары нуклеотндов (единица измерения длины участка ДНК);

ПВМ — позиционная весовая матрица;

ЦРМ — цис-регуляторный модуль;

СММ — скрытая Марковская модель.

Объем и структура диссертации

Диссертационная работа изложена на 125 страницах и состоит из введения, четырех глав, выводов и списка цитированной литературы. Глава 1 содержит обзор литературы по теме диссертации. Глава 2 содержит описание и тестирование разработанного алгоритма для предсказания регуляторных моделей в геномах эукариот. Глава 3 содержит описание и тестирование алгоритма полногеномного поиска ко-регулируемых генов, разработанного в данной работе. Глава 4 содержит описание применения разработанного алгоритма для выявления структуры регуляторных модулей и обсуждение полученных результатов в контексте литературных данных. Список литературы включает 149 наименований. Работа содержит 23 рисунка, 5 таблиц и 2 приложения.

Заключение Диссертация по теме "Математическая биология, биоинформатика", Никулова, Анна Алексеевна

Основные результаты и выводы

1. Разработана вероятностная модель регуляторных модулей эукариот, описывающая их структуру, а именно частоты встречаемости сайтов связывания факторов транскрипции, предпочтение следования сайтов и характерные распределения расстояний между соседними сайтами.

2. Разработан и реализован метод определения параметров модели, описывающих структуру регуляторных модулей (закономерностей взаиморасположения сайтов связывания).

3. Разработан и реализован метод поиска регуляторных модулей в геномах эукариот для набора системо-специфичных ТФ, в основе которой лежит вероятностная модель регуляторных модулей. Показано, что разработанный метод позволяет эффективно искать регуляторные модули для набора системо-специфичных ТФ для генов из различных регуляторных систем и организмов.

4. Разработан метод полногеномного поиска ко-регулируемых генов на основе анализа предсказанных регуляторных модулей и оценки консервативности их структуры. Эффективность разработанного подхода продемонстрирована на примере системы раннего развития ИгозорИИа.

5. Проведен анализ структуры регуляторных модулей для генов позвоночных, специфически экспрессирующихся в мышечной ткани, и генов раннего развития Вго8орЫ\а. Продемонстрирована возможность применения разработанного подхода к изучению совместной работы ТФ, а также выявлен ряд ранее неизвестных особенностей распределений расстояний между сайтами, позволяющих предполагать различные механизмы взаимодействия комплекса ТФ с ДНК, в том числе связывание комплекса с компактизованной ДНК.

Благодарности

Хочу выразить искреннюю благодарность своему научному руководителю Андрею Александровичу Миронову за руководство и помощь при выполнении диссертации, а также коллегам из лаборатории биоинформатики ФББ МГУ и УНЦ «Биоинформатика» ИППИ РАН за ценные советы и помощь в выполнении работы. Хочу также поблагодарить свою семью и друзей за терпение и поддержку при подготовке диссертации.

Библиография Диссертация по биологии, кандидата физико-математических наук, Никулова, Анна Алексеевна, Москва

1. Aerts, S., Van Loo, P., Thijs, G., Moreau, Y., De Moor, В., 2003. Computational detection of cis-regulatory modules. Bioinformatics, 19(Suppl. 2), ii5-iil4.

2. Anderson,G.M., Freytag, S.O., 1991. Synergistic activation of a human promoter in vivo by transcription factor Spl. Mol. Cell. Biol., 11, 1935-1943.

3. Asai, K., Hayamizu, S., Handa, K., 1993. Prediction of Protein Secondary Structure by the Hidden Markov Model. Comput Appl Biosci 9, 141-146.

4. Ashburner, M., Ball, C.A., Blake, J.A., Botstein, D., Butler, H., Cherry, J.M., Davis, A.P., Dolinski, K., Dwight, S.S., Eppig, J.T. et al., 2000. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat. Genet., 25, 25-29.

5. Ashraf, S.I., Ip, Y.T., 1998. Transcriptional control: repression by local chromatin modification. Curr. Biol. 8, R683-686.

6. Bailey, T.L., Boden, M., Buske, F.A., Frith, M., Grant, C.E., Clementi, L., Ren, J., Li, W.W., Noble, W.S., 2009. MEME SUITE: tools for motif discovery and searching. Nucleic Acids Res. 37, W202-208.

7. Bailey, T.L., Noble, W.S., 2003. Searching for statistically significant regulatory modules. Bioinformatics 19 Suppl 2, Ü16-25.

8. Barski, A., Zhao, K., 2009. Genomic location analysis by ChlP-Seq. J. Cell. Biochem. 107, 11-18.

9. Baum, L.E., Petrie, Т., Soules, G., Weiss, N., 1970. A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains. Ann. Math. Statist. 41(1), 164-171.

10. Beissbarth, Т., Speed, T.P., 2004. GOstat: find statistically overrepresented Gene Ontologies within a group of genes. Bioinformatics, 20, 1464-1465.

11. Berezikov, E., Guryev, V., Plasterk, R.H.A., Cuppen, E., 2004. CONREAL: conserved regulatory elements anchored alignment algorithm for identification of transcription factor binding sites by phylogenetic footprinting. Genome Res. 14, 170-178.

12. Berg, O.G., von Hippel, P.H., 1985. Diffusion-controlled macromolecular interactions. Annu Rev Biophys Biophys Chem 14, 131-160.

13. Berman, B.P., Nibu, Y., Pfeiffer, B.D., Tomancak, P., Celniker, S.E., Levine, M., Rubin,

14. G.M., Eisen, M.B., 2002. Exploiting transcription factor binding site clustering to identify cis-regulatory modules involved in pattern formation in the Drosophila genome. Proc. Natl. Acad. Sci. U.S.A 99, 757-762.

15. Birney, E., 2007. Evolutionary genomics: come fly with us. Nature 450, 184-185.

16. Brent, M.R., 2005. Genome annotation past, present, and future: how to define an ORF at each locus. Genome Res. 15, 1777-1786.

17. Brower, V., 2011. Epigenetics: Unravelling the cancer code. Nature 471, S12-13.

18. Brunak, S., Engelbrecht, J., Knudsen, S., 1991. Prediction of human mRNA donor and acceptor sites from the DNA sequence. J. Mol. Biol. 220, 49-65.

19. Bulyk, M.L., Johnson, P.L.F., Church, G.M., 2002. Nucleotides of transcription factor binding sites exert interdependent effects on the binding affinities of transcription factors. Nucleic Acids Res. 30, 1255-1261.

20. Chan, B.Y., Kibler, D., 2005. Using hexamers to predict cis-regulatory motifs in Drosophila. BMC Bioinformatics 6, 262.

21. Chaya, D., Zaret, K.S., 2004. Sequential chromatin immunoprecipitation from animal tissues. Meth. Enzymol. 376, 361-372.

22. Chen, J., 2009. Serial analysis of binding elements for transcription factors. Methods Mol. Biol. 567, 113-132.

23. Chytil, M., Peterson, B.R., Erlanson, D.A., Verdine, G.L., 1998. The orientation of the AP-1 heterodimer on DNA strongly affects transcriptional potency. Proc. Natl. Acad. Sci. U.S.A. 95,14076-14081.

24. Cook, PR., 2003. Nongenic transcription, gene regulation and action at a distance. J. Cell. Sci. 116, 4483-4491.

25. Dermitzakis, E.T., Clark, A.G., 2002. Evolution of transcription factor binding sites in Mammalian gene regulatory regions: conservation and turnover. Mol. Biol. Evol. 19, 1114-1121.

26. Devonshire, A.S., Elaswarapu, R., Foy, C.A., 2010. Evaluation of external RNA controls for the standardisation of gene expression biomarker measurements. BMC Genomics 11, 662.

27. Deyell, R.J., Attiyeh, E.F., 2011. Advances in the understanding of constitutional and somatic genomic alterations in neuroblastoma. Cancer Genet 204, 113-121.

28. Diamond, M.I., Miner, J.N., Yoshinaga, S.K., Yamamoto, K.R., 1990. Transcription factor interactions: selectors of positive or negative regulation from a single DNA element. Science 249, 1266-1272.

29. Djuranovic, S., Nahvi, A., Green, R., 2011. A parsimonious model for gene regulation by miRNAs. Science 331, 550-553.

30. Durbin, R., 1998. Biological sequence analysis: probabilistic models of proteins and nucleic acids. Cambridge University Press.

31. Ellington, A.D., Szostak, J.W., 1990. In vitro selection of RNA molecules that bind specific ligands. Nature 346, 818-822.

32. Erives, A., Levine, M., 2004. Coordinate enhancers share common organizational features in the Drosophila genome. Proc. Natl. Acad. Sci. U.S.A 101, 3851-3856.

33. Fariselli, P., Martelli, P.L., Casadio, R., 2005. A new decoding algorithm for hidden Markov models improves the prediction of the topology of all-beta membrane proteins. BMC Bioinformatics 6 Suppl 4, S12.

34. Farkas, G., Leibovitch, B.A., Elgin, S.C., 2000. Chromatin organization and transcriptional control of gene expression in Drosophila. Gene 253, 117-136.

35. Fickett, J.W., 1996. Coordinate positioning of MEF2 and myogenin binding sites. Gene 172, GC19-32.

36. Frazer, K.A., Sheehan, J.B., Stokowski, R.P., Chen, X., Hosseini, R., Cheng, J.F., Fodor, S.P., Cox, D.R., Patil, N., 2001. Evolutionarily conserved sequences on human chromosome 21.

37. Genome Res. 11, 1651-1659.

38. Fried, M., Crothers, D.M., 1981. Equilibria and kinetics of lac repressor-operator interactions by polyacrylamide gel electrophoresis. Nucleic Acids Res. 9, 6505-6525.

39. Frith, M.C., Hansen, U., Weng, Z., 2001. Detection of cis-element clusters in higher eukaryotic DNA. Bioinformatics 17, 878-889.

40. Frith, M.C., Li, M.C., Weng, Z., 2003. Cluster-Buster: finding dense clusters of motifs in DNA sequences. Nucleic Acids Res 31, 3666-3668.

41. Frith, M.C., Spouge, J.L., Hansen, U., Weng, Z., 2002. Statistical significance of clusters of motifs represented by position specific scoring matrices in nucleotide sequences. Nucleic Acids Res. 30,3214-3224.

42. Fu, W., Ray, P., Xing, E.P., 2009. DISCOVER: a feature-based discriminative method for motif search in complex genomes. Bioinformatics, 25(12), i321-i329.

43. Gallo, S.M., Gerrard, D.T., Miner, D., Simich, M., Des Soye, B., Bergman, C.M., Halfon, M.S., 2011. REDfly v3.0: toward a comprehensive database of transcriptional regulatory elements in Drosophila. Nucleic Acids Res. 39, D118-123.

44. Gershenzon, N.I., Stormo, G.D., Ioshikhes, I.P., 2005. Computational technique for improvement of the position-weight matrices for the DNA/protein binding sites. Nucleic Acids Res. 33,2290-2301.

45. Gerstein, M., Sonnhammer, E.L., Chothia, C., 1994. Volume changes in protein evolution. J. Mol. Biol 236, 1067-1078.

46. Gondor, A., Ohlsson, R., 2009. Chromosome crosstalk in three dimensions. Nature 461, 212-217.

47. Gorodkin, J., Staerfeldt, H.H., Lund, O., Brunak, S., 1999. MatrixPlot: visualizing sequence constraints. Bioinformatics 15, 769-770.

48. Grayson, J., Bassel-Duby, R., Williams, R.S., 1998. Collaborative interactions between MEF-2 and Spl in muscle-specifc gene regulation. J. Cell. Biochem., 70, 366-375.

49. Gross, D.S., Garrard, W.T., 1988. Nuclease hypersensitive sites in chromatin. Annu. Rev. Biochem. 57, 159-197.

50. Griinwald, D., Singer, R.H., Rout, M., 2011. Nuclear export dynamics of RNA-protein complexes. Nature 475, 333-341.

51. Hager, G.L., McNally, J.G., Misteli, T., 2009. Transcription dynamics. Mol. Cell 35, 741753.

52. Halfon, M.S., Grad, Y., Church, G.M., Michelson, A.M., 2002. Computation-Based Discovery of Related Transcriptional Regulatory Modules and Motifs Using an Experimentally Validated Combinatorial Model. Genome Res 12, 1019-1028.

53. Hallikas, O., Palin, K., Sinjushina, N., Rautiainen, R., Partanen, J., Ukkonen, E., Taipale, J., 2006. Genome-wide prediction of mammalian enhancers based on analysis of transcription-factor binding affinity. Cell 124, 47-59.

54. Hartzog, G.A., 2003. Transcription elongation by RNA polymerase II. Curr. Opin. Genet. Dev. 13, 119-126.

55. Hartzog, G.A., Kaplan, C.D., 2011. Competing for the clamp: promoting RNA polymerase processivity and managing the transition from initiation to elongation. Mol. Cell 43, 161-163.

56. He, X., Ling, X., Sinha, S., 2009. Alignment and prediction of cis-regulatory modules based on a probabilistic model of evolution. PLoS Comput. Biol. 5, el 000299.

57. Higo, K., Ugawa, Y., Iwamoto, M., Korenaga, T., 1999. Plant cis-acting regulatory DNA elements (PLACE) database: 1999. Nucleic Acids Res. 27, 297-300.

58. Hu, J., Hu, H., Li, X., 2008. MOPAT: a graph-based method to predict recurrent cis-regulatory modules from known motifs. Nucleic Acids Res 36, 4488-4497.

59. Johansson, O., Alkema, W., Wasserman, W.W., Lagergren, J., 2003. Identification of functional clusters of transcription factor binding motifs in genome sequences: the MSCAN algorithm. Bioinformatics, 19(Suppl. 1), i 169—i 176.

60. Keich, U., Pevzner, P.A., 2002. Finding motifs in the twilight zone. Bioinformatics. 18(10), 1374-1381.

61. Kel-Margoulis, O.V., Ivanova, T.G., Wingender, E., Kel, A.E., 2002. Automatic annotation of genomic regulatory sequences by searching for composite clusters. Pac Symp1. Biocomput 187-198.

62. Kel, A., Konovalova, T., Waleev, T., Cheremushkin, E., Kel-Margoulis, O., Wingender, E., 2006. Composite Module Analyst: a fitness-based tool for identification of transcription factor binding site combinations. Bioinformatics, 22, 1190-1197.

63. King, O.D., Roth, F.R, 2003. A non-parametric model for transcription factor binding sites. Nucleic Acids Res. 31, el 16.

64. Klepper, K., Sandve, G.K., Abul, O., Johansen, J., Drablos, F., 2008. Assessment of composite motif discovery methods. BMC Bioinformatics, 9, 123-123.

65. Kolbe, D., Taylor, J., Elnitski, L., Eswara, P., Li, J., Miller, W., Hardison, R., Chiaromonte, F., 2004. Regulatory potential scores from genome-wide three-way alignments of human, mouse, and rat. Genome Res. 14, 700-707.

66. Krivan, W., Wasserman, W.W., 2001. A predictive model for regulatory sequences directing liver-specific transcription. Genome Res. 11, 1559-1566.

67. Krogh, A., Larsson, B., von Heijne, G., Sonnhammer, E.L., 2001. Predicting transmembrane protein topology with a hidden markov model: application to complete genomes. Journal of Molecular Biology 305, 567-580.

68. Krogh, A., Mian, I.S., Haussler, D., 1994. A Hidden Markov Model That Finds Genes in E.coli DNA. Nucl. Acids Res. 22, 4768-4778.

69. Kulakovskiy, I.V., Makeev, V.J., 2010. Discovery of DNA motifs recognized by transcription factors through integration of different experimental sources. BIOPHYSICS 54, 667-674.

70. Maas, S., 2010. Gene regulation through RNA editing. Discov Med 10, 379-386.

71. Madsen, C.S., Regan, C.P., Owens, G.K., 1997. Interaction of CArG Elements and a GC-rich Repressor Element in Transcriptional Regulation of the Smooth Muscle Myosin Heavy Chain Gene in Vascular Smooth Muscle Cells. J. Biol. Chem., 272, 29842-f 29851.

72. Maeda, T., Gupta, M.P., Stewart, A.F.R., 2002. TEF-1 and MEF2 transcription factors interact to regulate muscle-specifc promoters. Biochem. Biophys. Res. Commun, 294, 791-797.

73. Makeev, V.J., Lifanov, A.P., Nazina, A.G., Papatsenko, D.A., 2003. Distance preferences in the arrangement of binding motifs and hierarchical levels in organization of transcriptionregulatory information. Nucleic Acids Res 31, 6016-6026.

74. Man, T.K., Stormo, G.D., 2001. Non-independence of Mnt repressor-operator interaction determined by a new quantitative multiple fluorescence relative affinity (QuMFRA) assay. Nucleic Acids Res. 29, 2471-2478.

75. Mattick, J.S., Taft, R.J., Faulkner, G.J., 2010. A global view of genomic information-moving beyond the gene and the master regulator. Trends Genet. 26, 21-28.

76. May, C., Brosseron, F., Chartowski, P., Schumbrutzki, C., Schoenebeck, B., Marcus, K., 2011. Instruments and methods in proteomics. Methods Mol. Biol. 696, 3-26.

77. Moses, A.M., Chiang, D.Y., Kellis, M., Lander, E.S., Eisen, M.B., 2003. Position specific variation in the rate of evolution in transcription factor binding sites. BMC Evol. Biol. 3, 19.

78. Moses, A.M., Chiang, D.Y., Pollard, D.A., Iyer, V.N., Eisen, M.B., 2004. MONKEY: identifying conserved transcription-factor binding sites in multiple alignments using a binding site-specific evolutionary model. Genome Biol. 5, R98.

79. Moses, A.M., Pollard, D.A., Nix, D.A., Iyer, V.N., Li, X.-Y., Biggin, M.D., Eisen, M.B., 2006. Large-scale turnover of functional transcription factor binding sites in Drosophila. PLoS Comput. Biol 2, el30.

80. Miihlemann, O., Eberle, A.B., Stalder, L., Zamudio Orozco, R., 2008. Recognition and elimination of nonsense mRNA. Biochim. Biophys. Acta 1779, 538-549.

81. Navarro, P., Oldfield, A., Legoupi, J., Festuccia, N., Dubois, A., Attia, M., Schoorlemmer, J., Rougeulle, C., Chambers, I., Avner, P., 2010. Molecular coupling of Tsix regulation and pluripotency. Nature 468, 457-460.

82. Nielsen, H., Brunak, S., Von Heijne, G., 1999. Machine Learning Approaches for the Prediction of Signal Peptides and Other Protein Sorting Signals. Protein Eng. 12, 3-9.

83. Nishida, K., Frith, M.C., Nakai, K., 2009. Pseudocounts for transcription factor binding sites. Nucleic Acids Res. 37, 939-944.

84. Noto, K., Craven, M., 2007. Learning probabilistic models of cis-regulatory modules that represent logical and spatial aspects. Bioinformatics 23, el56 -el62.

85. O'Flanagan, R.A., Paillard, G., Lavery, R., Sengupta, A.M., 2005. Non-additivity in protein-DNA binding. Bioinformatics 21, 2254-2263.

86. Papatsenko, D., Goltsev, Y., Levine, M., 2009. Organization of developmental enhancers in the Drosophila embryo. Nucleic Acids Res., 37, 5665-5677.

87. Papatsenko, D.A., Makeev, V.J., Lifanov, A.P., Regnier, M., Nazina, A.G., Desplan, C., 2002. Extraction of functional binding sites from unique regulatory regions: the Drosophila early developmental enhancers. Genome Res. 12, 470-481.

88. Paquet, E.R., Rey, G., Naef, F., 2008. Modeling an evolutionary conserved circadian cis-element. PLoS Comput. Biol. 4, e38.

89. Parkinson, J., Blaxter, M., 2009. Expressed sequence tags: an overview. Methods Mol. Biol. 533, 1-12.

90. Pierstorff, N., Bergman, C.M., Wiehe, T., 2006. Identifying cis-regulatory modules by combining comparative and compositional analysis of DNA. Bioinformatics 22, 2858-2864.

91. Rabiner, L.R., 1989. A tutorial on hidden markov models and selected applications in speech recognition. Proc. IEEE, 77, 257-286.

92. Rajewsky, N., Vergassola, M., Gaul, U., Siggia, E.D., 2002. Computational detection of genomic cis-regulatory modules applied to body patterning in the early Drosophila embryo. BMC Bioinformatics 3, 30-30.

93. Razin, A., 1998. CpG methylation, chromatin structure and gene silencing-a three-way connection. EMBO J. 17, 4905-4908.

94. Reményi, A., Scholer, H.R., Wilmanns, M., 2004. Combinatorial control of gene expression. Nat. Struct. Mol. Biol. 11, 812-15

95. Reményi, A., Tomilin, A., Schóler, H.R., Wilmanns, M., 2002. Differential activity by DNA-induced quarternary structures of POU transcription factors. Biochem. Pharmacol. 64, 979-984.

96. Rivera-Pomar, R., Jackie, H., 1996. From gradients to stripes in 105 Drosophila embryogenesis: filling in the gaps. Trends Genet. TIG, 12, 478-483.

97. Sandelin, A., Wasserman, W.W., 2004. Constrained binding site diversity within families of transcription factors enhances pattern discovery bioinformatics. J. Mol. Biol. 338, 207-215.

98. Sandelin, A., Wasserman, W.W., 2005. Prediction of nuclear hormone receptor response elements. Mol. Endocrinol. 19, 595-606.

99. Sarafova, S., Siu, G., 2000. Precise arrangement of factor-binding sites is required for murine CD4 promoter function. Nucleic Acids Res. 28, 2664-2671.

100. Schroeder, M.D., Pearce, M., Fak, J., Fan, H., Unnerstall, U., Emberly, E., Rajewsky, N., Siggia, E.D., Gaul, U., 2004. Transcriptional control in the segmentation gene network of Drosophila. PLoS Biol. 2, E271.

101. Simpson, P., 2002. Evolution of development in closely related species of flies and worms. Nat. Rev. Genet. 3, 907-917.

102. Sinha, S., He, X., 2007. MORPH: Probabilistic Alignment Combined with Hidden Markov Models of cis-Regulatory Modules. PLoS Comput Biol 3, e216.

103. Sinha, S., van Nimwegen, E., Siggia, E.D., 2003. A probabilistic method to detect regulatory modules. Bioinformatics 19 Suppl 1, Í292-301.

104. Small, S., Blair, A., Levine, M., 1992. Regulation of even-skipped stripe 2 in the Drosophila embryo. EMBO J. 11, 4047-4057.

105. Stanke, M., Schóffmann, O., Morgenstern, B., Waack, S., 2006. Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external sources. BMC Bioinformatics 7, 62.

106. Stark, A., Lin, M.F., Kheradpour, P., Pedersen, J.S., Parts, L., Carlson, J.W., et al., 2007.Discovery of functional elements in 12 Drosophila genomes using evolutionary signatures. Nature, 450,219-232.

107. Stormo, G.D., Schneider, T.D., Gold, L., Ehrenfeucht, A., 1982. Use of the "Perceptron" algorithm to distinguish translational initiation sites in E. coli. Nucleic Acids Res. 10, 29973011.

108. Tomancak, P., Berman, B.P, Beaton, A., Weiszmann, R., Kwan, E., Hartenstein, V., Celniker, S.E., Rubin, G.M., 2007. Global analysis of patterns of gene expression during Drosophila embryogenesis. Genome Biol., 8, R145.

109. Tranche, E, Ringeisen, F., Blumenfeld, M., Yaniv, M., Pontoglio, M., 1997. Analysis of the distribution of binding sites for a tissue-specific transcription factor in the vertebrate genome. J. Mol. Biol. 266, 231-245.

110. Tweedie, S., Ashburner, M., Falls, K., Leyland, P., McQuilton, P., Marygold, S., Millburn, G., Osumi-Sutherland, D., Schroeder, A., Seal, R., Zhang, H., 2009. FlyBase: enhancing Drosophila Gene Ontology annotations. Nucleic Acids Res., 37, D555-ID559.

111. Wasserman, W.W., Fickett, J.W., 1998. Identification of regulatory regions which confer muscle-specific gene expression. J. Mol. Biol. 278, 167-181.

112. Wasserman, W.W., Palumbo, M., Thompson, W., Fickett, J.W., Lawrence, C.E., 2000. Human-mouse genome comparisons to locate regulatory sites. Nat. Genet. 26, 225-228.

113. Wheeler, D., 2007. Using GenBank. Methods Mol. Biol. 406, 23-59.

114. Whiteld, T.W., Wang, J., Collins, P.J., Partridge, E.C., Aldred, S.F., Trinklein, N.D., Myers, R.M., Weng, Z., 2012. Functional analysis of transcription factor binding sites in human promoters. Genome Biol. 13, R50.

115. Wilczynski, B., Dojer, N., Patelak, M., Tiuryn, J., 2009. Finding evolutionarily conserved cis-regulatory modules with a universal set of motifs. BMC Bioinformatics 10, 82.

116. Won, K.J., Agarwal, S., Shen, L., Shoemaker, R., Ren, B., Wang, W., 2009. An integrated approach to identifying cis-regulatory modules in the human genome. PLoS One. 4(5), e5501.

117. Wong, W.S.W., Nielsen, R., 2007. Finding cis-regulatory modules in Drosophila using phylogenetic hidden Markov models. Bioinformatics 23, 2031-2037.

118. Wray, G.A., 2007. The evolutionary significance of cis-regulatory mutations. Nat. Rev. Genet. 8, 206-216.

119. Yuh, C.H., Bolouri, H., Davidson, E.H., 1998. Genomic cis-regulatory logic: experimental and computational analysis of a sea urchin gene. Science 279, 1896-1902.

120. Zhou, Q., Liu, J.S., 2004. Modeling within-motif dependence for transcription factor binding site predictions. Bioinformatics 20, 909-916.

121. Zhou, Q., Wong, W.H., 2004. CisModule: de novo discovery of cis-regulatory modules by hierarchical mixture modeling. Proc. Natl. Acad. Sci. USA, 101(33), 12114-9.

122. Zhu, J., Zhang, M.Q., 1999. SCPD: a promoter database of the yeast Saccharomyces cerevisiae. Bioinformatics 15, 607-611.

123. Патрушев Л.И. Экспрессия генов. M.: «Наука», 2000. с. 829.

124. Сингер М., Берг П. Гены и геномы. «Мир» т.2, 1998 г.