Бесплатный автореферат и диссертация по биологии на тему
Анализ регуляторных последовательностей и динамики молекулярно-генетической системы, контролирующей G1/S-переход клеточного цикла эукариот
ВАК РФ 03.00.15, Генетика

Автореферат диссертации по теме "Анализ регуляторных последовательностей и динамики молекулярно-генетической системы, контролирующей G1/S-переход клеточного цикла эукариот"

На правах рукописи

ДЕИНЕКО Игорь Владимирович

АНАЛИЗ РЕГУЛЯТОРНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ И ДИНАМИКИ МОЛЕКУЛЯРНО-ГЕНЕТИЧЕСКОЙ СИСТЕМЫ, КОНТРОЛИРУЮЩЕЙ в 1/8-ПЕРЕХОД КЛЕТОЧНОГО ЦИКЛА ЭУКАРИОТ

Генетика - 03.00.15

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата биологических наук

Новосибирск, 2005

Работа выполнена в лаборатории молекулярно-генетических систем Института цитологии и генетики Сибирского отделения РАН, Новосибирск.

Научные руководители: доктор биологических наук, профессор

|Вадим Александрович Ратнер| Институт цитологии и генетики СО РАН, Новосибирск

доктор биологических наук, профессор

Любовь Антоновна Васильева

Институт цитологии и генетики СО РАН, Новосибирск

Официальные оппоненты: доктор биологических наук

Леонид Владимирович Омельянчук

Институт цитологии и генетики СО РАН, Новосибирск

доктор технических наук Ефим Яковлевич Фрисман Институт комплексного анализа региональных проблем ДВО РАН, Биробиджан

Ведущая организация: Государственный научный центр вирусологии и

биотехнологии «Вектор», Новосибирская обл., Кольцове

Защита диссертации состоится r^'Q ^i&ty 2005 года в ^ часов на утреннем заседании Диссертационного совета Д-00Х011.01 при Институте цитологии и генетики СО РАН в конференц-зале по адресу: 630090, Новосибирск, пр. академика Лаврентьева, 10. Факс: (3832) 33-12-78, e-mail: dissov@bionet.nsc.ru

С диссертацией можно ознакомиться в библиотеке Института цитологии и генетики Сибирского отделения РАН.

Автореферат разослан ^S fr^^^L 2005 года.

Ученый секретарь

Диссертационного совета , /

доктор биологических наук -—А.Д. Груздев

Актуальность проблемы. Последнее десятилетие характеризуется массовым секвенированием последовательностей ДНК, что дает широкие возможности для исследования функций, особенностей структуры и эволюции генетического материала. Эти задачи обуславливают широкое применение компьютерной техники, как для хранения получаемых данных, так и для их анализа, причем сложность методов и моделей увеличивается не только с ростом объемов знаний, но и с усовершенствованием современных компьютеров. Теоретические методы анализа генетических макромолекул (ДНК, РНК, белков) создали возможность предварительного выявления заведомо ложных вариантов опытов, формирования круга потенциальных мишеней и оптимального планирования экспериментов, что обеспечило широкую популярность этих методов.

Одной из важных задач исследования геномов является выявление регу-ляторных сигналов в ДНК, отвечающих за контроль транскрипции генов. Накопление новых экспериментальных данных о структурах регуляторных районов позволяет развивать новые методы поиска, основанные на композиционной и кластерной моделях регуляторных модулей. Однако, несмотря на имеющиеся подходы, эта задача остается до конца не решенной, в том числе из-за значительных ошибок недо- и перепредсказания.

Другой важной задачей является построение молекулярно-генетических регуляторных систем и изучение их динамических характеристик. Дополнение известных регуляторных систем потенциальными связями, выявленными на основе анализа регуляторных районов генов, и изучение их влияния на динамику системы может дать дополнительные доказательства наличия в реальной системе той или иной регуляторной связи. Такой всесторонний анализ генной регуляции, как на уровне транскрипции отдельных генов, так и на уровне регуляторных систем, представляется нам новым и актуальным направлением исследований.

Цели исследования. Целью данной диссертационной работы является комплексное исследование регуляторных последовательностей генов, кодирующих факторы группы АР-1, и генов машины клеточного цикла эу-кариот. Поскольку факторы транскрипции Е2Р и кодирующие их гены являются одними из ключевых звеньев в регуляции клеточного цикла, представляется необходимым, с одной стороны, исследовать регулятор-ные области ряда генов как возможных мишеней факторов группы Е2¥, с другой - влияние этих дополнительных генов и их продуктов на динамику поведения молекулярно-генетической системы, контролирующей прохождение в 1-фазы и С1/8-перехода клеточного цикла эукариот.

Задачи исследования. Для достижения поставленной цели необходимо было решить следующие задачи:

РОС. НМ'Я"<< ЧТ-.НАЯ 1 ->г ' • < л А I Исг;,.гург 200 _

1 Разработать новый метод выявления композиционных элементов (КЭ), основанный на комбинаторных матричных моделях известных композиционных элементов.

2 Разработать метод поиска кластеров регуляторных сайтов связывания транскрипционных факторов, основываясь на вероятностной модели распределения одиночных сайтов.

3 Исследовать регуляторные районы генов, кодирующих компоненты факторов группы АР-1, на наличие потенциальных одиночных сайтов связывания, композиционных элементов и кластеров сайтов связывания транскрипционных факторов.

4 Построить молекулярно-генетическую систему, контролирующую в1-фазу и С1/5-переход клеточного цикла эукариот, исследовать динамику поведения этой системы и влияние на нее предсказанных обратных связей к генам группы АР-1.

Научная новизна работы. Впервые в данной работе комплексно исследована регуляция транскрипции генов, участвующих в контроле 01-фазы клеточного цикла. С одной стороны, был проведен анализ регуляторных районов генов, кодирующих факторы АР-1, с другой - их влияние на динамику функционирования регуляторной системы управления клеточным циклом эукариот. В задаче по изучению регуляции генов эукариот оригинальными методами поиска потенциальных композиционных элементов и кластеров сайтов было показано: а) статистически значимое превышение частоты композиционных элементов 8р1/Е2Р-1 в промоторах генов факторов АР-1 и генов машины клеточного цикла; б) наличие кластеров сайтов связывания факторов группы Е2Р в промоторных районах большинства генов факторов АР-1. При анализе динамики регуляторной системы, контролирующей С1-фазу клеточного цикла эукариот, показано, что предполагаемая регуляция генов группы АР-1 транскрипционными факторами группы Е2Р качественно влияет на динамические режимы функционирования системы. Так, при учёте предсказанной регуляторной связи, молекулярно-генетическая система переходит в режим соответствующий пролиферации клетки, при значительно меньшем необходимом времени внешнего митогенного воздействия, а при некоторых параметрах вообще не нуждается во внешнем стимулировании для такого перехода.

Практическая ценность. Разработан метод распознавания композиционных элементов, использующий матричные комбинаторные модели экспериментально установленных композиционных элементов. Для этого было создано 265 таких моделей. Данный метод отличается не только лучшими характеристиками распознавания. В сравнении с существующими методами, он охватывает намного большее число различных типов КЭ, среди которых: АР1/Шз, АРШ&арраВ, АР1/8р1, АРУБтас!, СЕВР/Ей, СЕВР/МРкарраВ, СКЕВЛлАТА, БЕ^р!, ЕЬох/Егв, ЕЫАМЬ, Е1з/№карраВ,

IRF/NFkappaB, Myb/AML, NFkappaB/HMGIY, Spl/NfkappaB, а также, подробно рассмотренные в данной работе, КЭ NFAT/AP-1 и Spl/E2F-1. Метод распознавания реализован в виде пакета программ MatrixCatch, доступный по сети Internet (http://compelbionet.mc.ru/cgi-bin/MatrixCatch/MatrixCatch.pl). Разработан метод выявления кластеров регуляторных сайтов связывания транскрипционных факторов с помощью оценки вероятностных характеристик их совместного расположения на нуклеотидной последовательности. Отличительной особенностью предложенного подхода является широкий спектр рассматриваемых типов сайтов связывания, при этом, учитывается возможная корреляция расположения между отдельными сайтами, как одинаковых, так и различных типов. Показано, что расположение в геноме кластеров сайтов, найденных этим методом, коррелирует с позицией стартов транскрипции известных генов.

Апробация работы. Результаты данной работы были представлены на Второй международной конференции «Bioinformatics of Genome Regulation and Structure» Новосибирск, 2000 г., Германской конференции по биоинформатике «German Conference on Bioinformatics», Берлин, 2000 г., Международной конференции «Intelligent Systems for Molecular Biology» Эдмонтон, Канада, 2002 г. и Московской международной конференции «Moskow conference on computational molecular biology», Москва, 2003.

Публикации по теме работы. Всего по теме диссертации опубликовано одиннадцать научных работ, из них четыре - в рецензируемой литературе.

Структура работы. Диссертационная работа состоит из введения, обзора литературы (первая глава), двух глав, содержащих основные результаты, заключения, выводов и списка литературы. Работа изложена на 150 страницах, содержит 37 рисунков, 15 таблиц и 31 формулу, имеющих сквозную нумерацию.

Материалы и методы. Выявление одиночных сайтов связывания регуляторных факторов производилось с помощью разработанной нами программы FASTMATCH (http://compel.bionet.nsc.ru/cgi-bin/MoMatch/fm.pl) и весовых матриц, взятых из базы данных TRANSFAC (Wingender et al., 2001). При обучении моделей композиционных элементов была использована база данных COMPEL (Kel-Margoulis et al., 2000), при этом нуклео-тидные последовательности композиционных элементов были получены из базы данных EMBL (Kulikova et al, 2004). Для анализа промоторных районов генов машины клеточного цикла и генов группы АР-1 на содержание потенциальных композиционных элементов, была также использована разработанная ранее программа Catch и MatrixCatch (Kel-Margoulis et al., 2002, http://compel.bionet.nsc.ru/FunSite/CompelPatternSearch.html, http://compel.bionet.nsc.ru/cgi-bin/MatrixCatch/MatrixCatch.pl). Поиск кластеров сайтов связывания транскрипционных факторов производился раз-

работанным нами методом (Deineko, Kel, 2002). Численный расчет динамики регуляторной системы управления клеточным циклом эукариот производился с помощью системы Mathcad 7.

Глава 1. Обзор литературы

В первой главе содержится обзор литературы по особенностям организации регуляторных районов генов эукариот. Описаны современные методы распознавания одиночных сайтов связывания транскрипционных факторов, КЭ и кластеров сайтов, а также методы, используемые для изучения динамики регуляторных систем. Рассмотрены математические модели клеточного цикла эукариот.

Глава 2. Поиск и анализ регуляторных районов Распознавание композиционных элементов

Несмотря на значительное развитие экспериментальных методов выявления регуляторных единиц, данных о КЭ накоплено значительно меньше, по сравнению с данными об одиночных сайтах связывания транскрипционных факторов, и поэтому представления о вариабельности позиций и структуре КЭ являются весьма отрывочными. В данной работе, исходя из функционального строения КЭ, было предложено привнести дополнительную информацию о вариабельности сайтов, составляющих КЭ, на основе аппроксимации по наборам известных одиночных сайтов, связывающих те же транскрипционные факторы (по которым строятся весовые матрицы).

В нашем методе каждый экспериментально установленный композиционный элемент будет определять в своей комбинаторной модели только ее структуру, то есть тип связывающихся факторов и относительное расположение пары сайтов. Оба сайта связывания будут определяться с помощью весовых матриц для соответствующих транскрипционных факторов.

Таким образом, наша комбинаторная модель композиционного элемента состоит из:

• весовой матрицы, порога и ориентации для первого сайта связывания;

• расстояния между матрицами;

• весовой матрицы, порога и ориентации для второго сайта связывания.

Для обучения данной модели на распознавание определенного КЭ были использованы базы данных COMPEL, TRANSFAC и EMBL. Каждый композиционный элемент в базе данных COMPEL описывается своей нуклео-тидной последовательностью, расположением относительно старта транскрипции и позициями обоих сайтов связывания транскрипционных факторов. В базе данных TRANSFAC нас будут интересовать весовые матрицы для определения потенциальных сайтов связывания транскрипционных факторов.

В целом, алгоритм построения модели конкретного КЭ следующий:

• Для фактора, связывающегося с первым сайтом, определяем набор весовых матриц;

• Используя нуклеотидную последовательность КЭ, выбираем ту весовую матрицу из набора, которая имеет наибольший вес на данной последовательности, запоминаем ее положение, ориентацию и значение веса;

• То же для второго сайта, составляющего КЭ;

• Вычисляем расстояние между матрицами.

Всего, описанным выше способом, было построено 265 моделей КЭ, охватывающих более 130 различных типов КЭ, наиболее представленные среди которых: APl/Ets, APl/NfkappaB, APl/Spl, APl/Smad, CEBP/Ets, CEBP/NFkappaB, CREB/GATA, ER/Spl, Ebox/Ets, Ets/AML, Ets/NFkappaB, Ets/SRF, IRF/NFkappaB, Myb/AML, NFkappaB/HMGIY, Spl/NFkappaB и, подробно рассмотренные в данной работе, NFAT/AP-1 и Spl/E2F-1. На рисунке 1 показан один из 15 КЭ NFAT/AP-! и построенная по нему модель. Для поиска потенциальных КЭ был разработан пакет программ MatrixCatch, доступный по сети Internet (http://compel.bionet.nsc.ru/cgi-bin/MatrixCatch/MatrixCatch.pl).

tgccacacaggtagactcttTTGAAAATAtgTGTAATAigtaaaacatcgtgacacccccatatt 5' -96 -79 3'

рмодель j V$NFAT_Q4_01 j + | 0.686 j -3 j V$AP1_01 f+ | 0.989~j

Рис. 1. Пример композиционного элемента NF-AT/AP-1 в промоторном районе гена итерлейкина-2 мыши и построенная по нему модель.

Очевидно, что каждая построенная модель КЭ будет распознавать и сам КЭ, по которому она строилась. Для расширения круга распознаваемых потенциальных КЭ задаются параметры расслабления, такие как понижение порогов для обеих матриц и величина варьирования промежутка между сайтами. При этом естественно ожидать, что будут распознаваться последовательности, не являющиеся функциональными КЭ, то есть будет возникать ошибка перепредсказания.

Для оценки уровня ошибок при различных наборах параметров расслабления мы выбрали наиболее широко изученную группу композиционных элементов NFAT/AP-1. В базе данных COMPEL имеется 15 экспериментально выявленных КЭ этого типа. В качестве контрольных выборок мы взяли выборку вторых экзонов из генома человека Q-, а выборку

Q+ составили из последовательностей самих композиционных элементов из базы данных COMPEL. Подсчет ошибок первого и второго рода проводился с помощью метода «Jack knife». Таким образом, мы можем предполагать, что все найденные предложенным методом КЭ в Q- являются нефункциональными и составляют ошибку перепредсказания. При этом количество перепредсказанных КЭ нормировано на длину последовательности выборки вторых экзонов в тпн.

Из рисунка 2 видно, что предложенный метод, основанный на матричном представлении КЭ, значительно превосходит по точности распознавания раннее предложенный нами метод Catch (Kel-Margoulis et al, 2002). Несмотря на то, что в области высокоспецифичного поиска (при малых параметрах расслабления для MatrixCatch и жестких ограничениях на несовпадения для Catch) методы показывают сопоставимую точность, в области низкоспецифичного поиска (высокая чувствительность метода), начиная с ошибки недопредсказания около 50 %, частота обнаруженных ложных сайтов отличается на порядок и более. Некоторые характерные значения ошибок и их соотношения приведены в таблице под рисунком 2.

1 ♦ ♦

• А

• А® ♦

4 •# -in- —.—

10

15

20

25

FP частота пармимдсказания на 1000 пн

• MatrtxCatcty основам на матричной модели КЭ

♦ Catch, использует только последовательность самого КЭ

▲ NFAT/AP-1 (Kel et al 1999) экстраполировано на 15 последовательностей

Ошибка недопредсказания, FN 75% 60% 50% 40% 20% 0%

MatrixCatch 0,0408 0,3025 0,310 0,787 1,880 11,53

Catch 0,0657 0,3204 1,068 8,036 19,89 27,31

Отношение 1,607 1,059 3,437 10,201 10,577 2,367

Рис. 2. Зависимость ошибок распознавания КЭ NFAT/AP-1 программой MatrixCatch в сравнении с ранними результатами: разработанной нами программой Catch (Kel-Margoulis et al., 2002) и методом, предложенным в (Kel et al., 1999).

Дополнительно мы провели сравнение представленного метода с опубликованным ранее методом по определению потенциальных КЭ ОТ АТ/АР-1 (Ке1 е? а1, 1999). Точность распознавания показана на рисунке 2 (треугольники), при этом, значения П^Г и БР увеличены в 15/11 раза из-за различного количества последовательностей, участвующих в обучении методов и распознавании последовательностей. В целом, по графику видно, что предложенный нами метод и подход, рассмотренный в работе (Ке1 е1 а!., 1999), имеют сопоставимую точность. Однако, при низкоспецифичном поиске (Рп = 1 и 0), предложенный нами метод показывает несколько меньшую ошибку перепредсказания. Это можно объяснить тем, что наш метод, аналогично методу реализаций, использует для распознавания набор моделей (в данном примере 15), тогда как метод, предложенный в (Ке1 е? а!,, 1999), использует одно универсальное решающее правило. Стоит также отметить, что в нашей выборке имеется КЭ С00354 (АССАААсМААСТАСА), который значительно отличается от остальных. Так, например, «ближайшие» по последовательности к этому КЭ являются КЭ С00161 и С00149, которые отличаются по 4 позициям (по 2 для каждого сайта связывания).

Анализ промоторов генов клеточного цикла и генов факторов АР-1

Для проведения данного анализа в качестве теста мы составили выборку промоторов генов клеточного цикла (43 последовательности) и генов факторов АР-1 (30, взяты районы выше старта транскрипции длиной 1 тпн и 5 тпн). В качестве контрольных выборок мы взяли промоторы генов, характерно экспрессирующихся в Т-клетках (26), в нервных клетках (44) и промоторы мускульно-специфичных генов (24). Также составили выборку промоторов всех аннотированных генов человека (12931). Для полноты исследования мы также сравним частоты отдельных потенциальных сайтов и КЭ со среднегеномным уровнем (используя последовательность хромосомы 21 человека) и с уровнем на случайной последовательности (табл.).

Из рисунка 3 видно, что промоторы генов клеточного цикла обогащены потенциальными сайтами связывания Е2Р и Бр1. Так, например, частота встречаемости сайтов Е2Р в промоторах генов клеточного цикла в 14 раз превышает частоту их встречаемости в промоторах генов, специфично экспрессирующихся в Т-клетках.

Относительно всех промоторов генов человека, частота сайтов Е2Т в промоторах генов клеточного цикла превосходит почти в 5 раз. Это хорошо согласуется с ранее полученными данными о частотах этих сайтов (Ке1 ef а/., 2001; Вта еГ а1, 2004).

Таблица. Модели, использованные для поиска композиционных элементов 8р1/Е2Р-1 с учетом параметров расслабления, дающих ошибку перепредсказания 1 КЭ на 10 тпн.

Модель 1 Модель 2

Матрица У$8Р1 С}6 У$БР1 01

Вес 0.879 0.818

Ориентация 3'-5' 5'-3'

Минимальное расстояние 1пн 32пн

Максимальное расстояние бпн 45пн

Матрица У$Е2Р1 04 У$Е2Р 03

Вес 0.901 0.915

Ориентация 5'-3' 3'-5'

КЭ СЕ00132 СЕ00226

40-1

I , ,-1—_—. |--,-,-1-г

СаПсуоа АР-1 (1тлн) АР.|(5тпи) Т-еаИ» В<Ыпс») Мшс1« ВС* Хроы«йм« 21 случайная

промоторы послодматальность

■ сайты связывания Е2Р сайты «тоывания 5р1

Рис. 3. Распределение частоты встречаемости одиночных сайтов связывания факторов Е2Р и вр1 в различных последовательностях.

Распределение частот одиночных сайтов связывания в промоторах генов АР-1, хотя и превышает частоты на некоторых выборках (например, Т-клеток - в 3,8 раза для Е2Р и в 2,5 раза для 8р1), в целом, слабо отличается от большинства других выборок, в том числе и от выборки всех промоторов генов человека. Более того, частота этих сайтов сильно зависит от длины рассматриваемой промоторной области. Так, более протяженные регуляторные области генов АР-1 (5тпн) содержат заметно меньше сайтов Е2Р: 2,7 против 1,7 сайтов/тпн.

Частота КЭ 8р1/Е2Р-1 в промоторах генов клеточного цикла значительно превосходит частоты КЭ в других промоторах (рис. 4). При этом КЭ специфичны к этим промоторам именно как единая регуляторная единица, поскольку, как показывают расчеты, частота пар сайтов Е2Б и 8р1, ко-локализация которых обусловлена чисто случайными причинами, более чем в четыре раза меньше частоты найденных нами КЭ 8р1/Е2Р-1.

Cedcyd« API (mi) AP1ISTW) T-cMs awiceta MJSCto 8c« Хромосома Случей«м

промоторы 21 лосмдомтегыюсть

аб Частота распознанных КЭ ■ Озтдаемая частота КЭ

Рис. 4. Распределение частоты встречаемости КЭ 8р1/Е2Р-1 и частоты пар сайтов и Е2Р-1, ожидаемые по случайным причинам.

Промоторы генов группы АР-1, также насыщены КЭ Spl/E2F-1. При этом, несмотря на почти одинаковый уровень присутствия отдельных сайтов E2F и Spl, промоторные районы этой группы генов значительно отличаются от других групп по содержанию композиционных элементов Spl/E2F-1: в 20 раз превосходят промоторы генов экспрессирующихся в ,i Т-клетках, в 15 раз промоторы мускульно-специфичных генов, более чем

в три раза промоторы генов нервных клеток. Данные промоторные районы содержат в 2,5 раза больше потенциальных КЭ Spl/E2F-1, чем, в (j среднем, по всем промоторам генов человека. Очевидно, что в промото-

, pax генов, кодирующих факторы АР-1, одиночные сайты связывания фак-

торов E2F и Spl располагаются неслучайным образом: они образуют пары, структурно схожие с экспериментально установленными КЭ типа Spl/E2F-1. В случае независимого расположения рассматриваемых сайтов на последовательностях, ожидаемая частота этих «случайных» пар была бы почти в 3 раза меньше фактически наблюдаемой частоты (1300 против 451). При этом отличие распределения КЭ в выборке АР-1 (1тпн) от других выборок статистически значимо (р < 0,01).

Таким образом, можно предположить, что гены клеточного цикла в наибольшей степени подвержены регуляции композиционным элементом Spl/E2F-1 (в соответствии с наибольшей частотой его встречаемости). Гены факторов АР-1, хотя и в меньшей степени, также предрасположены к подобной регуляции, тогда как мускульно-специфичные гены, наоборот, невосприимчивы к регуляции этой комбинацией факторов. Так как данный КЭ служит связующим звеном в управлении регуляцией прохождения стадий клеточного цикла эукариот и его активность максимальна в середине и конце G1-фазы (Lin et al., 1996), то можно предположить, что гены факторов группы АР-1 регулируются факторами Spl и E2F и принимают участие в регуляции клеточного цикла.

Изучение промоторных районов генов c-fos

Для подробного анализа промоторных районов (-450...+50 пн), относительно содержания, расположения и консервативности КЭ Spl/E2F-1, мы выбрали ген c-fos четырех организмов человека (Homo sapiens), мыши (Mus musculus), крысы (Rattus norvégiens) и хомячка (Mesocricetus auratus). Используя модели из таблицы, мы выявили потенциальные КЭ, которые нанесены на выравнивание этих промоторов (рис. 5).

Mm ATGTTCGCTCGCCTTCTCTGCC

Rn ATGTTCGCTCGCCTTCTCTGCC:

Ma ATGTTCSCTCGCCTTCTCTACC

Hs ATGTTCTCTCrCATTCTGCGCCl

[CCCTCCCCCGGCCGCClGCCCCGGTl ICCCTCCCCCGGCCGCtlGCCCC

ccctcccccggccgcJgccccagct|

|ccct cccccagccgcq ******* * * * * *

-340ПН

;gctgcaccctcagagttggctgcagccggcgagctgtt<J

'gctgcaccctcagagttggctgcagccggcgagctgtto :gctgcaccct cagagt t ggct gcagccggcaagcagt т с :actgcaccctcggt gt t ggct gcagcccgcgagcagt t с

T T ACACAGGAT GT ССАТ AT T AGGACATCT GCGTCAGCAGGT T T CCACCtGC

TTACACAGGATGTCCATATTAGGACATCTGCGTCA---GGT T T CCACGGC

---CACAGGATGTCCATATTAGGACATCTGCGTCAGCAGGTTTCCACGGC

T - ACACAGGAT GTCCAT AT T AGGACATCT GCGTCAGCAGGT T T CCACGGC ******************************** ************

Рис. 5. Выравнивание четырех промоторов гена с-/оу человека (Я?), мыши (Мт), крысы (Ли) и хомячка (Л/а). Темным квадратом отмечены сайты связывания фактора Е2Р, серым вР 1. Сайты связывания, образующие КЭ, заключены в рамку.

На этом рисунке видно, что все промоторы, кроме одного, которые образованы сайтом Е2Р и двумя альтернативными сайтами связывания фактора 8р1, имеют в своем составе два консервативных композиционных элемента в районе - 340 пн и -390 пн выше старта транскрипции (обведены рамкой). Однако у хомячка формируется только один композицион-

ный элемент - за счет более далекого сайта Spl. В этом районе произошли две замены С на Т и одна Т на С (ТСССТСССТС на ТСССТТТССС), что привело к понижению веса матрицы с 0,87 до 0,56 и возможной утрате сродства фактора к данной последовательности. Мы предполагаем, что именно за счет удаленного сайта достигается кооперативное действие факторов E2F и Spl, тем самым компенсируется утраченная функция нижележащего сайта и сохраняется правильная транскрипционная регуляция гена c-fos у Mesocricetus auratus.

Распознавание кластеров сайтов связывания транскрипционных

факторов в промоторах генов, кодирующих факторы группы АР-1

Исходя из того, что в промоторах генов машины клеточного цикла сайты связывания E2F с большой частотой образуют группы из двух, трех и более сайтов (Brooks et al., 1996; Sears et al., 1997), в этом разделе нашей задачей является проверка как близлежащих, так и удаленных от стартов транскрипции районов генов, входящих в группу АР-1, на наличие кластеров («плотных» групп) сайтов связывания E2F. В нашем подходе, аналогично (Wagner, 1999), в качестве меры значимости кластера была использована вероятность, вычисляемая из предположений о Пуассонов-ском законе распределения сайтов на последовательности, по формулам:

где А, есть среднее количество сайтов связывания типа г на единицу длины, п - общее количество сайтов в кластере, количество сайтов типа г, Ь - протяженность кластера, сумма производится по всевозможным комбинациям (к1, ..., кт) в сумме больших п. При этом в нашем подходе учитывается возможная корреляция между разными сайтами, проверяемая на протяженных случайных последовательностях.

Нами было показано, что расположение кластеров сайтов, найденных этим методом, коррелирует с позицией стартов транскрипции известных генов на 21 хромосоме человека (рис. 6); проанализированы районы у стартов транскрипции известных генов различной протяженности: -10 тпн, -2 тпн, -I тпн, -300 пн, +2 тпн, выборка вторых экзонов).

В результате проведенного анализа на наличие кластеров регуляторных сайтов (протяженность кластера варьировалась от 20 пн до 500 пн), нами было установлено, что большинство генов, кодирующих факторы группы АР-1 (гены семейств ]ип, /¿м и та/, Ще2, пг/1), содержат в своих регуляторных районах как удаленные, так и близкие к старту транскрипции кластеры сайтов связывания факторов Е2Р. Статистическая значимость

каждого из найденных кластеров оценивается величиной вероятности 10"6. Нами было показано, что промоторы генов факторов 1ип и Роб обогащены кластерами сайтов в сравнении с другими генами АР-1 (около двух третей всех выявленных кластеров приходится на промоторы гены этих семейств (8 из 26)).

6.1

1.2 1-4

■10 тли -2тпн -1 тпн -300 пн +2тпнВторые В

экзоньсреденем по

хромосоме

Рис. 6. Частотное распределение найденных кластеров на хромосоме 21 человека.

Таким образом, показанное нами наличие потенциальных композиционных элементов и кластеров регуляторных сайтов в промоторных районах генов, кодирующих факторы группы АР-1, может служить подтверждением выдвинутой нами ранее гипотезы о регуляторном воздействии факторов группы E2F на транскрипцию генов группы АР-1.

Построение и моделирование динамики МГСУ Gl-фазой и G1/S- переходом клеточного цикла эукариот

Для выяснения возможного влияния предсказанной регуляторной связи на регуляцию клеточного цикла эукариот, нами была построена модель молекулярно-генетической системы управления (МГСУ) Gl-фазой и Gl/S-переходом клеточного цикла эукариот (рис. 7).

Анализ динамических свойств модели выявил два качественно различных устойчивых режима функционирования системы в зависимости от продолжительности действия митогенной стимуляции tm (рис. 8). Если время воздействия tm = 60 больше некоторого критического порога tu/mm = 55, то наблюдается резкое увеличение концентраций основных

компонент: E2F и CycE/Cdc2. При этом дальнейший рост не зависит от наличия этого воздействия, что хорошо согласуется с данными, полученными с помощью микрочиповых технологий в экспериментах с фиброб-ластами человека (Iyer et al., 1999). Напротив, при меньшем времени внешнего стимулирования, компоненты имеют малые концентрации, которые стабилизируются на константном значении. Это состояние чувствительно к внешнему воздействию и может быть переведено в режим 1. Данное состояние системы можно интерпретировать как остановку деления и выход клетки в фазу GO (рис. 86).

Рис. 7. Модель МГСУ ОШ-переходом клеточного цикла эукариот. Предсказанная теоретически активация генов семейства АР-1 фактором Е2Р показана стрелкой со знаком вопроса.

Интересным свойством модели является наличие точки бифуркации, при прохождении которой возможны два режима поведения. Мы изучили зависимость поведения системы от силы (Р„) и продолжительности (/„) функции, моделирующей внешнее воздействие. Было выяснено, что модель переходит в один из режимов в зависимости от суммы накопленного сигнала. То есть, при более сильном воздействии (Рт =0,1) необходимое время воздействия 1крит уменьшается с 55 до 20 временных единиц, а при более слабом воздействии увеличивается. Однако временное положение самой точки бифуркации остается неизменным и равно приблизительно 105 единицам. Таким образом, рассматриваемая модель показывает наличие контрольной точки, в которой, в зависимости от накопленного внешнего воздействия, определяется дальнейшая динамика модели.

a) tm = 60 (12 с АР-1)

б) = 50 (8 с АР-1)

OS

100

200 300 400

500

E2F(yl) т™« pRb (у2*0 05) (a)CycE/Cdk2 (у5«0 2)

E2F (yl) т»» pRb (у2*0 05) (a)CycE/Cdk2 (у5'0 2)

eee АР-1 (уб)

еее АР-1(У6)

Рис. 8. Два режима поведения модели. Режим, соответствующий входу в S-фазу (а) и выходу клетки в фазу покоя GO (б). В скобках показана продолжительность мито-генной стимуляции при учитывании дополнительной регуляторной связи к генам факторов АР-1.

Изучение влияния предсказанной регуляторной связи на динамические свойства модели показало, что для перехода в режим дальнейшей пролиферации достаточно значительно меньшего времени воздействия внешних сигналов (рис. 8, tm = 12 и 8), а пороговое значение времени воздействия tKpum сократилось до -10 единиц времени. Более того, в новой модели происходит постоянный рост концентрации АР-1 даже после прекращения действия внешних сигналов. Этот факт может коренным образом повлиять на следующую итерацию клеточного цикла. Поскольку транскрипция АР-1 не только зависит от внешних сигналов, но и положительно регулируется факторами E2F, то клетка может вступить в быстрое неконтролируемое деление. Можно предположить, что активация генов семейства АР-1 факторами E2F используется при необходимости быстрой клеточной пролиферации (раннее эмбриональное развитие, тканевая регенерация и т.п.), а также в случаях опухолей. Мы полагаем, что в норме этот механизм находится под контролем других регуляторов клеточного цикла, таких как белок р53, который, как известно, стоит на страже нормального прохождения клеточного цикла.

До настоящего времени регуляторная взаимосвязь между факторами E2F и всей группой генов АР-1 высших эукариот экспериментально не установлена. Активирование факторов АР-1 приводит к пролиферации клеток (Sylvester et al., 1998; Iyer et al., 1999), а блокирование этих факторов в активно пролиферирующих раковых клетках останавливает клеточный цикл

(Liu et al., 2004). Можно предположить, что в последнем случае, в отсутствии внешнего сигнала, имеет место активация генов АР-1 факторами E2F, рассмотренная в модели с дополнительной регуляторной связью.

Рассматривая данную работу в рамках концепции молекулярно-генетических систем, можно заключить, что проведенный анализ регуля-торных районов генов является топологическим анализом МГС эукарио-тического организма, на основании которого, мы можем предполагать дополнительные регуляторные связи между компонентами этой системы. Рассмотренная подсистема всего организма - МГС управления G1 -фазой клеточного цикла, и проведенный анализ ее поведения есть динамический анализ МГС, на основании которого мы выяснили влияние дополнительных регуляторных связей на динамику поведения системы. В современной литературе данное направление исследований получило название системной биологии.

Выводы

1. Разработан метод распознавания композиционных элементов, использующий матричные комбинаторные модели экспериментально выявленных композиционных элементов. Создано 265 таких комбинаторных моделей, охватывающих более 130 различных типов КЭ. Показана более высокая точность распознавания КЭ в сравнении с ранее предложенными методами. Метод распознавания реализован в виде пакета программ MatrixCatch, который свободно доступен по сети Internet (http://compel.bionet.nsc.ru/cgi-bin/MatrixCatch/MatrixCatch.pl)

2. Проведен сравнительный анализ частот одиночных сайтов связывания транскрипционных факторов E2F и Spl и частот КЭ E2F/Spl в 6 выборках промоторов, включающих промоторы генов клеточного цикла, и генов, кодирующих факторы группы АР-1. Впервые показано статистически значимое превышение частоты композиционных элементов E2F/Spl в промоторах генов группы АР-1.

3. Проанализированы промоторы генов c-fos четырех организмов: человека, мыши, крысы и хомячка. Показано наличие потенциального композиционного элемента E2F/Spl, консервативного среди всех рассматриваемых последовательностей.

4. Разработан пакет программ для выявления кластеров регуляторных сайтов. В качестве кластеров рассматривались группы сайтов связывания различных транскрипционных факторов, расположенных на близком расстоянии друг к другу. Построены статистические оценки достоверности кластеров сайтов. Показано наличие в большинстве (~90 %) промоторов генов факторов АР-1 статистически значимых (10"6) кластеров сайтов связывания факторов E2F, установлено их преимущественное расположение в областях близких к стартам транскрипции.

5. Предложена модель молекулярно-генетической системы управления фазой Gl и Gl/S-переходом клеточного цикла эукариот. Проанализирована динамика поведения этой системы и выявлены два устойчивых состояния, соответствующие дальнейшей пролиферации и выходу клетки из клеточного цикла, при этом установлено наличие в системе контрольной точки. Показана параметрическая устойчивость системы.

6. Показано качественное влияние на динамические режимы поведения МГС дополнительной регуляторной связи от факторов группы E2F к генам, кодирующим факторы АР-1, которое было предсказано на основе анализа частот одиночных сайтов связывания, композиционных элементов и кластеров.

Основные результаты диссертации опубликованы в работах

Kel-Margoulis O.V., Kel А.Е., Reuter I., Deineko I.V., Wingender E. TRANSCompel: a database on composite regulatory elements in eukaryotic genes // Nucleic Acids Res. 2002. V. 30, N1. P. 332-334.

Дейнеко И.В., Кель А.Э., Кель-Маргулис O.B., Вингендер Э., Ратнер В.А. Моделирование динамики генных сетей, регулирующих клеточный цикл в клетках млекопитающих // Генетика. 2003. Т. 39, № 9. С. 1285-1292.

Deineko I.V, Kel-Margoulis О V., Ratner V.A., Kel А.Е. Modeling of cell cycle gene regulatory network. A role of positive feedback loop implying potential E2F target sites in the regulatory regions of AP-1 // Proc. of the second Intern. Conf. on Bioinformatics of genome regulation and structure. Novosibirsk: IC&G SB RAS, 2000. V. 1. P. 226-229.

Kel-Margoulis O.V., Romaschenko A.G., Deineko I.V., Kolchanov N.A., Wingender E., Kel A.E. Database on composite regulatory elements in eukaryotic genes (compel) // Proc. of the second Intern. Conf. on bioinformatics of genome regulation and structure. Novosibirsk: IC&G SB RAS, 2000. V. 1. P. 45^t8.

Kel A., Deineko I., Kel-Margoulis O., Wingender E., Ratner V. Modeling of gene regulatory network of cell cycle control. Role of E2F feedback loops. GCB 2000: Proceedings of the German Conference on Bioinformatics. E. Bornberg-Bauer, Berlin: Logos-Verl., 2000. P. 107-114.

Kel-Margoulis О V., Deineko I.V., Reuter I., Wingender E., Kel A.E. TRANSCompel - a professional database on composite regulatory elements in eukaryotic genes // Proc. of the German Conf. on Bioinfoimatics (GCB 2001).

Deineko I., Kel A. Genome-wide search for composite clusteres of transcription factor binding sites // ISMB 2002. Abstract/ Edmonton, Canada 2002. P. 124.

Deineko I., Kel A. Probabilistic approach for revealing composite clusters of transcription factor binding sites in genomic scale. MCCMB 2003: Proc. of the Intern. Moscow Conf. on computational molecular biology. Moscow, Russia, 2003. P. 54-55.

Deineko I.V., Kel-Margoulis O.V., Kel A.E. Mathematical model of the mitogen-dependent Gl/S transition in mammalian cell cycle // Proc. of the fifth Intern. Conf. on Systems Biology (1СSB 2004). Heidelberg, Germany, 2004. P. 385.

Kolpakov F., Deineko I., Kel A. Cyclonet a database on cell cycle regulation // Proc. of the fifth Intern. Conf. on Systems Biology (ICSB 2004). Heidelberg, Germany, 2004. P. 385.

Swat M., Kel A., Kel-Margoulis O., Deineko I., Herzel H. Modeling the influence of feedback loops on the Gl/S transition // Proc. of the European Conf. on Computational Biology, 2002 (ECCB 2002).

Подписано к печати 01 04 2005

Формат бумаги 60 х 90 Печ л 1 Уч изд л 0,7

Тираж 100 экз. Заказ 50

Ротапринт Института цитологии и генетики СО РАН 630090, Новосибирск, пр ак Лаврентьева, 10

РНБ Русский фонд

2005-4 45252

22 ДПР2005 2486

Содержание диссертации, кандидата биологических наук, Дейнеко, Игорь Владимирович

Введение

Глава 1. Обзор литературы.

1.1 Структурно-функциональная организация геномов эукариот

1.1.1 Структура ДНК, общие сведения.

1.1.2 Особенности организации геномов эукариот

1.2 Модульная структура регуляторных районов генов эукариот транскрибируемых РНК полимеразой II.

1.2.1 Одиночные сайты связывания транскрипционных факторов

1.2.2 Композиционные элементы

1.2.3 Промоторы и энхансеры

1.2.4 Полифункциональность ДНК регуляторных областей генов эукариот.

1.3 Ядро молекулярно-генетической системы управления клеточным циклом эукариот

1.3.1 Клеточный цикл. Основные регуляторы клеточного цикла высших эукариот.

Семейство факторов Е2Р

Факторы рШэ, р107, р130 и р

Циклины СусА, СусЭ, СусЕ и их партнеры Сс1к2,4,6.

Факторы группы АР

Механизмы взаимодействий Е2Р, рЮэ и циклинов

1.3.2 Молекулярно-генетические системы управления (МГСУ)

Понятие МГСУ, первая работа по моделированию морфогенеза фага лямбда

Некоторые свойства МГСУ, положительные и отрицательные обратные связи.

Модели клеточного цикла и его фаз

1.4 Методы распознавания регуляторных геномных последовательностей

1.4.1 Методы распознавания одиночных регуляторных элементов

Методы поиска сайтов связывания

• Метод консенсусов

• Метод реализаций

• Метод весовых матриц

• Динуклеотидные весовые матрицы

• Эксперементально полученные весовые матрицы

• Характеристики, используемые для оценки качества методов распознавания

Методы поиска мотивов

• Статистические методы

• Поиск мотивов алгоритмами выравнивания.

1.4.2 Методы распознавания блочных (композиционных) регуляторных элементов.

1.4.3 Методы распознавания кластеров/групп регуляторных элементов

• Методы, основанные на эмпирических оценках

• Аналитические подходы в оценке статистической значимости кластеров сайтов

1.5 Математические модели для описания динамики регуляторных систем

• Качественные/булевы модели

• Стохастические модели

• Модели основанные на дифференциальных уравнениях

• Модели с запаздывающим аргументом

• Пороговые и комбинированные модели.

• Современные программные средства для построения и анализа регуляторных систем.

Введение Диссертация по биологии, на тему "Анализ регуляторных последовательностей и динамики молекулярно-генетической системы, контролирующей G1/S-переход клеточного цикла эукариот"

Актуальность проблемы

Последнее десятилетие характеризуется массовым секвенированием последовательностей ДНК, что дает широкие возможности для исследования функций, особенностей структуры и эволюции генетического материала. Эти задачи обуславливают широкое применение компьютерной техники, как для хранения получаемых данных, так и для их анализа, причем сложность методов и моделей увеличивается не только с ростом объемов знаний, но и с возможностями современных компьютеров. Теоретические методы анализа генетических макромолекул (ДНК, РНК, белков) создали возможность предварительного выявления заведомо ложные вариантов опытов, формирование круга потенциальных мишеней и оптимальное планирование экспериментов, что обеспечило широкую популярность этих методов.

Одной из важных задач исследования геномов является выявление регуляторных сигналов в ДНК, отвечающих за контроль транскрипции генов. Накопление новых экспериментальных данных о структурах регуляторных районов позволяет развивать новые методы поиска, основанные на композиционной и кластерной моделях регуляторных модулей. Однако, не смотря на имеющиеся подходы, эта задача остается до конца не решенной, в том числе из-за значительных ошибок недо- и перепредсказания.

Другой важной задачей является построение молекулярно-генетических регуляторных систем и изучение их динамических характеристик. Дополнение известных регуляторных систем потенциальными связями, выявленными на основе анализа регуляторных районов генов, и изучение их влияния на динамику системы может дать дополнительные доказательства наличия в реальной системе той или иной регуляторной связи. Такой всесторонний анализ генной регуляции, как на уровне транскрипции отдельных генов, так и на уровне регуляторных систем, представляется нам новым и актуальным направлением исследований.

Цепи и задачи исследования

Целью данной диссертационной работы является комплексное исследование регуляторных последовательностей генов, кодирующих факторы группы АР-1, и генов машины клеточного цикла эукариот. Поскольку факторы транскрипции Е2Р и кодирующие их гены, являются одними из ключевых звеньев в регуляции клеточного цикла, представляется необходимым, с одной стороны, исследовать регуляторные области ряда генов как возможных мишеней факторов группы Е2Б, с другой — влияние этих дополнительных генов и их продуктов на динамику поведения молекулярно-генетической системы, контролирующей прохождение 01-фазы и С1/8-перехода клеточного цикла эукариот.

Для достижения поставленной цели необходимо было решить следующие задачи:

1 Разработать новый метод выявления композиционных элементов, основанный на комбинаторных матричных моделях известных композиционных элементов.

2 Разработать метод поиска кластеров регуляторных сайтов связывания транскрипционных факторов, основываясь на вероятностной модели распределения одиночных сайтов.

3 Исследовать регуляторные районы генов, кодирующих компоненты факторов группы АР-1, на наличие потенциальных одиночных сайтов связывания,

Гф композиционных элементов и кластеров сайтов связывания транскрипционных факторов.

4 Построить молекулярно-генетическую систему, контролирующую С1-фазу и С1/8-переход клеточного цикла эукариот, исследовать динамику поведения этой системы и влияние на нее предсказанных обратных связей к генам группы АР-1.

Научная новизна работы Впервые в данной работе комплексно исследована регуляция транскрипции генов, участвующих в контроле 01-фазы клеточного цикла. С одной стороны, был проведен анализ регуляторных районов генов, кодирующих факторы АР-1, с другой — их влияние на динамику функционирования регуляторной системы управления клеточным циклом эукариот. В задаче по изучению регуляции генов эукариот, оригинальными методами поиска потенциальных композиционных элементов и кластеров сайтов, было показано: а) статистически значимое превышение частоты композиционных элементов 8р1/Е2Р-1 в промоторах генов факторов АР-1 и генов машины клеточного цикла; б) наличие кластеров сайтов связывания факторов группы Е2¥ в промоторных районах большинства генов факторов АР-1. При анализе динамики регуляторной системы, контролирующей в 1-фазу клеточного цикла эукариот, показано, что предполагаемая регуляция генов группы АР-1 транскрипционными факторами группы Е2Р, качественно влияет на динамические режимы функционирования системы. Так при учёте предсказанной регуляторной связи, молекулярно-генетической система переходит в режим соответсвующий пролиферации клетки при значительно меньшем необходимом времени внешнего митогенного воздействия, а при некоторых параметрах вообще не нуждается во внешнем стимулировании для такого перехода.

Практическая и научная значимость Разработан метод рапознавания композиционных элементов, использующий матричные комбинаторные модели экспериментально установленных композиционных элементов. Для этого было создано 265 таких моделей. Данный метод, отличается не только лучшими характеристиками распознавания в сравнении с существующими методами, он охватывает намного большее число различных типов КЭ, среди которых: APl/Ets, APl/NfkappaB, APl/Spl, APl/Smad, CEBP/Ets, CEBP/NFkappaB, CREB/GATA, ER/Spl, Ebox/Ets, Ets/AML, Ets/NFkappaB, Ets/SRF, IRF/NFkappaB, Myb/AML, NFkappaB/HMGIY, Spl/NfkappaB, а также, подробно рассмотренные в данной работе КЭ NFAT/AP-1 и Spl/E2F-1. Метод распознавания реализован в виде пакета программ MatrixCatch, доступного по сети Internet (http://compel.bionet.nsc.ru/cgi-щ bin/MatrixCatch/MatrixCatch.pn. Разработан метод выявления кластеров регуляторных сайтов связывания транскрипционных факторов с помощью оценки вероятностных характеристик их совместного расположения на нуклеотидной последовательности. Отличительной особенностью предложенного подхода является широкий спектр рассматриваемых типов сайтов связывания, при этом учитывается возможная корреляция расположения между отдельными сайтами, как одинаковых, так и различных типов. Показано, что расположение в геноме кластеров сайтов, найденных этим методом коррелирует с позицией стартов транскрипции известных генов.

Аппобаиия работы Результаты данной работы были представлены на Второй международной конференции "Bioinformatics of Genome Regulation and Structure" Новосибирск, 2000r, Германской конференции по биоинформатике "German Conference on Bioinformatics", Берлин, 2000г, Международной конференции " Intelligent Systems for Molecular Biology" Эдмонтон, Канада, 2002 г. и Московской международной конференции "Moskow conference on computational molecular biology" Москва, 2003.

Публикаиии no теме работы Всего по теме диссертации опубликовано одиннадцать научных работ.

1. Olga V.Kel-Margoulis, Alexander E.Kel, Ingmar Reuter, Igor V. Deineko and Edgar Wingender, TRANSCompel: a database on composite regulatory elements in eukaryotic genes. Nucleic Acids Research, 2002, vol. 30, no.l, p 332-334.

2. И.В Дейнеко, А.Э. Кель, O.B. Кель-Маргулис, Э. Вингендер, В.А. Ратнер, Моделирование динамики генных сетей, регулирующих клеточный цикл в клетках млекопитающих. Генетика, 2003, т 39, №9, с 1285-1292.

3. Deineko I.V., Kel-Margoulis O.V., Ratner V.A., Kel A.E., Modeling of cell cycle gene regulatory network. A role of positive feedback loop implying potential E2F target sites in the regulatory regions of AP-1. Proceedings of the second international conference on bioinformatics of genome regulation and structure, Novosibirsk, IC&G SB RAS, 2000, v.l. p 226-229.

4. Kel-Margoulis O.V., Romaschenko A.G., Deineko I.V., Kolchanov N.A., Wingender E., Kel A.E., Database on composite regulatory elements in eukaryotic genes (compel). Proceedings of the second international conference on bioinformatics of genome regulation and structure, Novosibirsk, IC&G SB RAS, 2000, v.l. p 45-48.

5. Alexander Kel, Igor Deineko, Olga Kel-Margoulis, Edgar Wingender, Vadim Ratner, Modeling of gene regulatory network of cell cycle control. Role of E2F feedback loops. GCB 2000: Proceedings of the German Conference on Bioinformatics / E. BörnbergBauer, Berlin: Logos-Verl., 2000, p 107-114.

6. Olga V. Kel-Margoulis, Igor V. Deineko, Ingmar Reuter, Edgar Wingender, Alexander E. Kel. TRANSCompel - a professional database on composite regulatory elements in eukaryotic genes. Proceedings of the German Conference on Bioinformatics (GCB 2001).

7. Deineko I., Kel A., Genome-wide search for composite clusteres of transcription factor binding sites. ISMB 2002. Abstract/ Edmonton, Canada 2002. p. 124.

8. Igor Deineko, A.Kel., Probabilistic approach for revealing composite clusters of transcription factor binding sites in genomic scale. MCCMB 2003: Proceedings of the international Moscow conference on computational molecular biology/ Moscow, Russia, 2003,p54-55.

9. Deineko I.V., Kel-Margoulis O.V., Kel A.E. Mathematical Model Of The Mitogen-Dependent Gl/S Transition In Mammalian Cell Cycle. Proceedings of the fifth international conference on Systems Biology (ICSB 2004), Heidelberg, Germany, 2004, p 385.

10. Kolpakov F., Deineko I., Kel A., Cyclonet a database on cell cycle regulation. Proceedings of the fifth international conference on Systems Biology (ICSB 2004), Heidelberg, Germany, 2004, p 385.

11. Swat M., Kel A., Kel-Margoulis O., Deineko I., Herzel H. Modeling the influence of feedback loops on the Gl/S transition. Proceedings of the European Conference on Computational Biology, 2002 (ECCB 2002).

Заключение Диссертация по теме "Генетика", Дейнеко, Игорь Владимирович

Выводы r 1. Разработан метод распознавания композиционных элементов, использующий матричные комбинаторные модели экспериментально выявленных композиционных элементов. Создано 265 таких комбинаторных моделей, охватывающих более 130 различных типов КЭ. Показана более высокая точность распознавания КЭ в сравнении с ранее предложенными методами. Метод распознавания реализован в виде пакета программ MatrixCatch, который свободно доступен по сети Internet (http://compel.bionet.nsc.ru/cgi-bin/MatrixCatch/MatrixCatch.pl)

2. Проведен сравнительный анализ частот одиночных сайтов связывания транскрипционных факторов E2F и Spl, и частот КЭ E2F/Spl в 6 выборках промоторов, включающих промоторы генов клеточного цикла и генов, кодирующих факторы группы АР-1. Впервые показано, статистически значимое превышение частоты композиционных элементов E2F/Spl в промоторах генов группы АР-1.

3. Проанализированы промоторы генов c-fos четырех организмов: человека, мыши, крысы и хомячка. Показано наличие потенциального композиционного элемента E2F/Spl, консервативного среди всех рассматриваемых последовательностей.

4. Разработан пакет программ для выявления кластеров регуляторных сайтов. В качестве кластеров рассматривались группы сайтов связывания различных транскрипционных факторов, расположенных на близком расстоянии к друг другу. Построены статистические оценки достоверности кластеров сайтов. Показано наличие в большинстве (-90%) промоторов генов факторов АР-1 статистически значимых (10~6) кластеров сайтов связывания факторов E2F, установлено их преимущественное расположение в областях близких к стартам транскрипции.

Предложена модель молекулярно-генетической системы управления фазой 01 и 01/8-переходом клеточного цикла эукариот. Проанализирована динамика поведения этой системы и выявлены два устойчивых состояния, соответствующие дальнейшей пролиферации и выходу клетки из клеточного цикла, при этом установлено наличие в системе контрольной точки. Показана параметрическая устойчивость системы.

Показано качественное влияние на динамические режимы поведения МГС дополнительной регуляторной связи от факторов группы Е2Р к генам кодирующим факторы АР-1, которая была предсказана на основе анализа частот одиночных сайтов связывания, композиционных элементов и кластеров.

Заключение

Последнее десятилетие характеризуется массовым ссквенированием последовательностей ДНК, что дает широкие возможности для исследования функций, особенностей структуры и эволюции генетического материала. Эги задачи обуславливают широкое применение компьютерной техники, как для храпения получаемых данных, так и для их анализа, причем; сложность методов и моделей увеличивается не только с ростом объемов знаний, но и с возможностями современных компьютеров. Теоретические методы анализа генетических макромолекул (ДНК, РНК, белков) создали возможность предварительного выявления заведомо ложных вариантов опытов, формирование круга потенциальных мишепей и оптимальное планирование экспериментов, что обеспечило широкую популярность этих методов.

Одной из важных задач исследования геномов является выявление регуляторных сигналов в ДНК, отвечающих за контроль транскрипции генов. Накопление новых экспериментальных данных о структурах регуляторных районов позволяет развивать новые методы поиска, основанные на композиционной и кластерной моделях регуляторных модулей. Однако, не смотря на имеющиеся подходы, эта задача остается до конца не решенной, в том числе из-за значительных ошибок недо- и перепредсказания.

Другой важной задачей является построение молекулярпо-генетических регуляторных систем и изучение их динамических характеристик. Дополнение известных регуляторных систем потенциальными связями, выявленными на основе анализа регуляторных районов генов, и изучение их влияния на динамику системы может дать дополнительные доказательства наличия в реальной системе той или иной регуляторной связи. Такой всесторонний анализ генной регуляции, как на уровне транскрипции отдельных генов, так и на уровне регуляторных систем, представляется нам новым и актуальным направлением исследований.

Целью данной диссертационной работы является комплексное исследование регуляторных последовательностей генов машины клеточного цикла эукариот. Поскольку факторы транскрипции Е2? и кодирующие их гены являются одними из ключевых звеньев в регуляции клеточного цикла, представляется необходимым исследовать регуляторные области ряда генов, как возможных мишеней факторов группы Е2И и влияние продуктов этих генов на динамику поведения молекулярно-генетической системы.

Для исследования регуляторных областей генов в первой главе результатов диссертационной работы предложены методы поиска регуляторных композиционных элементов и кластеров регуляторных сайтов. Метод выявления КЭ использует матричную модель КЭ, которая состоит из:

• весовой матрицы, порога и ориентации для первого сайта связывания;

• расстояния между матрицами;

• весовой матрицы, порога и ориентации для второго сайта связывания.

Для обучения модели на распознавание определенного КЭ используются экспериментально установленные КЭ, собираемые в базе данных COMPEL.

Для определения одиночных сайтов связывания мы выбрали метод весовых матриц по нескольким причинам. Во-первых, из биологического смысла КЭ следует, что специфическими можно считать только те части всей последовательноети КЭ, с которыми непосредственно связываются белковые факторы, а состав последовательности между этими частями не играет существенной роли. Поэтому, логично основывать их поиск на известных методах распознавания одиночных сайтов связывания транскрипционных факторов, как, например, мотивы или весовые матрицы, и далее применять их для распознавания связывающих последовательностей, составляющих КЭ. Во-вторых, при использовании только нуклеотидной последовательности самого КЭ очевидно ожидать слабой специфичности метода и значительной ошибки недопрсдсказания, потому как одна последовательность пе описывает вариабельности позиций в КЭ (данный подход был реализован нами в программе Catch (Kel-Margoulis el al„ 2002)). Однако, одиночные сайты связывания изучены более подробно. Так, например, экспериментально выявлено 235 сайтов связывания фактора Spl, на основании которых создана весовая матрица для их распознавания (матрица V$SP1Q6, которая использовалась в модели КЭ Spl/E2F-1). В целом, статистика по известным КЭ и одиночным сайтам связывания такова: 415 КЭ и 14 782 сайтов (в базах данных COMPEL и TRANSFAC, соответственно).

Таким образом, недостаток информации о такой клеточной структуре как композиционный элемент компенсируется за счет дополнительных сведений о более простых регуляторных структурах - одиночных сайтах связывания. Однако, здесь стоит отметить, что эксперименты по изучению аффинности некоторого фактора к последовательности, изолированного от других влияний, не учитывают возникающие в КЭ белок-белковые взаимодействия между связывающимися факторами, что вообще говоря, может повлиять на нуклеотидную последовательность самого сайта связывания. Очевидным примером может служить КЭ NF-AT/AP-1, рассмотренный в • обзоре литературы (рис. 13). Данный КЭ является полностью функциональным, однако, сайт связывания АР-1 в составе этого КЭ, значительно отличается от копеемсуспой последовательности, построенной по одиночным сайтам связывания. Таким образом, в данной работе мы делаем предположение о сходстве пуклеотидпых последовательностей, которые могут функционировать (специфично связывать факторы) как отдельно, так и в составе более сложных регуляторных структур, как, например, композиционные элементы.

В данной работе мы предложили метод поиска потенциальных КЭ, основанный на комбинаторной матричной модели КЭ. Всего было построено 265 таких моделей, ^ охватывающих более 130 различных типов КЭ, в том числе подробно рассмотренные и данной работе NFAT/AP-1 и Spl/E2F-1. Нами было показано, что данный метод, основанный на матричном представлении КЭ, значительно превосходит но точности распознавания раннее предложенный нами метод Caleb (Kel-Margoulis el al., 2002), и метод рассмотренный в работе (Kel el al., 1999) (рис. 18). Несмотря на то, что к области высокоспецифичного поиска (при малых параметрах расслабления для MalrixCalch и жестких ограничениях на несовпадения для Calch) методы показывают сопоставимую точность, в области низкоспецифичного поиска (высокая чувствительность метода), начиная с ошибки недопредсказания около 50%, частота обнаруженных ложных сайтов отличается па порядок и более. В сравнении с опубликованным ранее методом но определению потенциальных КЭ NFAT/AP-1 (Kel et al., 1999), предложенный памп метод имеет сопоставимую точность, однако, в области высокочуствителыюго поиска превосходит его. Это можно объяснить тем, что наш метод, аналогично методу реализаций, использует для распознавания набор моделей (в данном примере 15), тогда как метод, предложенный в (Kel et al., 1999), использует одно универсальное решающее правило. Стоит так же отметить, что в нашей выборке имеется КЭ С00354 (AGGAAActctAACTACA), который значительно отличается от остальных. Так, например, «ближайшие» по последовательности к этому КЭ являются КЭ С00161 и С00149, которые отличаются по 4 позициям (по 2 для каждого сайта связывания). К преимуществам подхода предложенного в (Kel et al., 1999), можно отнести использование «композитного скора», улучшающего распознавание в области выеокоснсцифичпого поиска. Однако, реализация этой идеи в нашем подходе не совсем очевидна.

Во второй части главы 2 введено понятие кластера сайтов па основе современных представлений о строении регуляторных областей, таких как промоторы и энхансеры, и предложена вероятностная мера значимости кластера. При этом эта вероятностная мера учитывает эффект скоррелированного расположения похожих сайтов связывания. Как было показано в главе Материалы и методы, такая скоррелированность не учитывалась в предыдущих работах, и в подобных ситуациях предлагалось исключать из рассмотрения факторы, сайты связывания которых имеют тенденцию к пересечению друг с другом. Таким образом, в нашей работе кластер сайтов связывания транскрипционных факторов характеризуется:

• количеством сайтов и их составом;

• протяженностью;

• вероятностью выпадения данного набора по случайным причинам.

Оба предложенных метода распознавания были применены для анализа нромоторных последовательностей генов, входящих в машину клеточного цикла, и генов, кодирующих компоненты фактора АР-1.

Установлено, что промоторы генов группы АР-1 насыщены КЭ Spl/E2F-1. При этом, не смотря на приблизительно равную частоту отдельных сайтов связывания E2F и Spl, промоторные районы этой группы генов значительно отличаются от других групп по содержанию композиционных элементов Spl/E2F-1: в 20 раз превосходят промоторы генов, экспрессирующихся в Т-клетках, в 15 раз промоторы мускульно-специфичиых генов, более чем в три раза промоторы генов нервных клеток. Данные промоторные районы генов АР-1 содержат в 2,5 раза больше потенциальных КЭ Spl/E2F-1, чем в среднем по всем промоторам генов человека.

При детальном рассмотрении нромоторных районов четырех генов c-fos человека {Homo sapiens), мыши {Mus musculus), крысы {Rattus norvégiens) и хомячка {Mcsocricetus auratus) было установлено, что все промоторы имеют в своем составе композиционные элементы Sp-1/E2F в районе -340 пн, образованные высоко консервативным сайтом связывания фактора E2F и двумя альтернативными сайгами Sp-1 в позициях -331 и -391 выше старта транскрипции.

Кластерный анализ промоторов 26 генов, кодирующих входящие в группу АР-1 факторы, показал, что большинство генов этой группы имеют в своих регуляторных областях кластеры сайтов E2F с вероятностной значимостью выше 10". Было установлено, что распределение кластеров вдоль промоторной последовательности также не однородно — большинство кластеров расположено вблизи старта транскрипции, что естественным образом отражает регуляторную значимость этого района. Нами было также отмечено, что дистально расположенные кластеры имеют некоторую консервативность в позиционировании. Так, например, лромогоры генов v-Jun, JunB и Maf крысы, JurtB мыши и v-Fos человека имеют кластер сайтов E2F в районе (-1550.-1370) относительно старта транскрипции.

Таким образом, на основе проведенного анализа регуляторпых районов, можно предположить, что гены клеточного цикла в наибольшей степени подвержены регуляции композиционным элементом Spl/E2F-1 и одиночными сайтами связывания E2F и Spl (в соответствии с наибольшей частотой их встречаемости), гены факторов АР-1 также предрасположены к регуляции, однако в меньшей степени, а, например, мускульно-специфичные гены, наоборот, невосприимчивы к регуляции этим КЭ Spl/E2F-1. Учитывая, что данный КЭ служит связующим звеном в управлении регуляцией прохождения стадий клеточного цикла эукариот, и регуляторпая активность которого специфична в середине и конце Gl-фазы (Lin et al., 1996), можно предположить, что гены факторов группы АР-1 регулируются факторами Spl и E2F в составе КЭ и принимают участие в регуляции клеточного цикла.

Разработанные нами методы и программные продукты были использованы в работах других авторов: в исследовании КЭ, образованного сайтами связывания Ets-1 и Pit-1 (Duval el al., 2003), при исследовании перепредставленных пар мотивов в геноме Exoli (Bulyk 2004), изучении внутриклеточных путей передачи сигналов (Krull et al., 2003), при изучении относительного расположения сайтов в цис-регуляторпых модулях в геноме Drosophila melanogaster (Makcev el al., 2003). Также паши исследования применялись при разработке новых баз данных последовательностей промоторов генов растений (Shahmuradov et al., 2003) и были интегрированы в систему визуализации результатов анализа последовательностей Theatre (Edwards et al., 2003).

Вторая глава результатов диссертационной работы посвящена анализу динамических характеристик компонент молекулярно-геиетической системы управления Gl-фазой и Gl/S-нереходом клеточного цикла эукариот. Рассмотренная МГСУ была построена на основе собранных литературных данных и дополнена предсказанной в главе 2 регуляторной связью между факторами E2F и генами АР-1.

Было показано, что молекулярно-генетическая система имеет два режима поведения, один из которых соответствует пролиферации клеток (входу в фазу S из фазы Gl), другой - остановке клеточного цикла и выходу клетки в фазу G0. При этом переключение из одного режима в другой происходит в зависимости от продолжительности сигналов внешней стимуляции. Установлено, что рассмотренная регуляторная система обладает свойством контрольной точки G1/S клеточного цикла, после прохождения которой система либо переходит в состояние с высокими концентрациями её компонент, обеспечивающих пролиферацию, либо в состояние с низкими концентрациями этих компонент. Временное положение этой контрольной точки не меняется при изменении продолжительности внешнего воздействия. Было изучено поведение системы при изменении параметров синтеза и распада основных компонент - факторов E2F, pRb, циклинов. Так, например, при более стабильном E2F система входит в состояние с высокими концентрациями даже при отсутствии внешнего митогенного воздействия, что соответствует раннее установленным экспериментальным фактам (Jones et ah, 1997; Saunders et al., 1998).

При исследовании влияния предсказанной регуляторной связи между E2F и генами АР-1 установлено, что активация генов АР-1 факторами группы E2F приводит к значительному уменьшению необходимого времени внешнего воздействия для перехода системы в режим дальнейшей пролиферации. Причем, концентрация факторов АР-1 также находится на высоком уровне, что, возможно, освобождает клетку от необходимости во внешней стимуляции при прохождении следующего цикла. Таким образом, установлено, что предсказания регуляторная связь, образующая положительный цикл активации, приводит к качественному изменению картины динамического поведения молекулярно-генетической системы, регулирующей клеточный цикл.

Данная работа по моделированию легла в основу работы других авторов по детальному структурному анализу, изучению устойчивых и неустойчивых состояний и точек бифуркации блоков, входящих в регуляторную систему, контролирующую Gl/S-переход клеточного цикла эукариот (Swat el al., 2004).

Рассматривая данную работу в рамках концепции молекулярпо-генетических систем, можно заключить, что проведенный анализ регуляторных районов генов является топологическим анализом МГС эукариотического организма на основании которого мы можем предполагать дополнительные регуляторные связи между компонентами этой системы. Рассмотренная подсистема всего организма - МГС управления Gl-фазой клеточного цикла и проведенный анализ ее поведения — есть динамический анализ МГС, на основании которого мы выяснили влияние дополнительных регуляторных связей на динамику поведения системы. В современной литературе данное направление исследований получило название системной биологии.

Библиография Диссертация по биологии, кандидата биологических наук, Дейнеко, Игорь Владимирович, Новосибирск

1. Дейнеко И.В, Кель А.Э., Кель-Маргулис О.В., Вингендер Э., Ратнер В.А., Моделирование динамики генных сетей, регулирующих клеточный цикл в клетках млекопитающих. Генетика, 2003, т 39, №9, с 1285-1292.

2. Жимулев И.Ф. Гетерохроматин и эффект положения гена. Новосибирск, Наука, 1490,1993.

3. Лихошвай В.А., Матушкин Ю.Г., Фадеев С.И. Задачи теории функционирования генных сетей. Сибирский журнал индустриальной математики. Апрель-июнь, 2003, Том YI, №2(14),стр.64-80.

4. Лихошвай В.А., Фадеев С.И., Демиденко Г.В., Матушкин Ю.Г. Моделирование уравнением с запаздывающим аргументом многостадийного синтеза без ветвления. Сибирский журнал индустриальной математики. 2004, Том 7, №1(17),стр. 73-94.

5. Омельянчук Л.В., Тпугова С.А., Лебедева Л.И., Федорова С.А. Основные события клеточного цикла и их регуляция и организация. Генетика, т. 40, №3, 2004, с 293.

6. Подколодная O.A. и Степаненко И.Л. Механизмы транскрипционной регуляции эритроид-специфичных генов. Мол. Биология. 1997. Т. 31, Стр. 671-683.

7. Ратнер В.А. Сайзеры: моделирование фундаментальных особенностей молекулярно-биологической организации Математические модели эволюционной генетики (тематический сборник). 1980. С. 66.

8. Ратнер В.А., Шамин В.В. (а) Сайзеры. Мини сайзер со сцепленными матрицами. Математические модели эволюционной генетики (сборник). 1980, 91-110.

9. Ратнер В.А., Шамин В.В. (б) Сайзеры. Некоторые общие свойства сайзеров и замечания о возможных путях их возникновения. Математические модели эволюционной генетики (сборник). 1980, 111-126.

10. Ратнер В.А., Шамин В.В. (в) Сайзеры: моделирование фундаментальных особенностей молекулярно-биологической организации. 1. Сайзеры с несцепленными матрицами. Математические модели эволюционной генетики (сборник). 1980,66-90.

11. Садовский М. Г. Модель «хищник — жертва», в которой особи совершают целенаправленные перемещения по пространству. Журн. общ. биологии. 2001 . Т. 62, N3.-С. 239-245.

12. Чураев Р.Н., Галимзянов А.В. Моделирование реальных эукариотических управляющих генных подсетей на основе метода обобщенных пороговых моделей. Молекулярная биология, 2001 г., т. 35, № 6 , с. 1088-1094.

13. Чураев Р.Н., Ратнер В.А., Моделирование динамики системы управление развитием X фага, Сборник "Исследование по математической генетике", Новосибирск 75

14. Agarwal M.L., Agarwal A., Taylor W.R., Chernova О., Sharma Y., and Stark G.R. 1998 Proc. Natl. Acad. Sci. USA, 95, 14775-14780.

15. Aguda В., Tang Y. The kinetic origins of the restriction point in the mammalian cell cycle. Cell Prolif. 1999. №32. C. 321-335.

16. Aguda B.D, Algar C.K. A structural analysis of the qualitative networks regulating the cell cycle and apoptosis. Cell Cycle. 2003 Nov-Dec;2(6):538-44.

17. Alarcon Т., Byrne H.M., Maini P.K. A mathematical model of the effects of hypoxia on the cell-cycle of normal and cancer cells. J Theor Biol. 2004 Aug 7;229(3):395-411.

18. Alberts В., Bray D., Lewis J. et al.; Molecular biology of the cell. (Third edition) Garland Publishing Inc. New York, London,346,1994.

19. Altschul S.F., Erickson B.W. Optimal sequence alignment using affine gap costs.Bull Math Biol. 1986;48(5-6):603-16.

20. Amon A. Controlling cell cycle and cell fate: common strategies in prokaryotes and eukaryotes. Proc Natl Acad Sci USA. 1998 Jan 6;95(l):85-6.

21. Anderson J.D., Widom J. Sequence and position-dependence of the equilibrium accessibility of nucleosomal DNA target sites. J Mol Biol. 2000 Mar 3;296(4):979-87

22. Angel P. and Karin M.1991, Biochimica et Biophysica Acta , 1072, 129-157.

23. Arai K.I., Lee F., Miyajima A., Miyatake S., Arai N. and Yokota T. Cytokines: coordinators of immune and inflammatory responses. Annu. Rev. Biochem 1990, v 59, pp. 783-836.

24. Argenton F., Vianello S., Bernardini S. et al.; Trout GH promoter analysis reveals a modular pattern of regulation consistent with the diversification of GH gene control and function in vertebrates. Mol Cell Endocrinol. 2002 Mar 28;189(1-2): 11-23.

25. Arkin A., Ross J., McAdams H.H. Stochastic kinetic analysis of developmental pathway bifurcation in phage lambda-infected Escherichia coli cells. Genetics. 1998 Aug; 149(4): 1633-48.

26. Bai S., Goodrich D., Thron C.D., Tecarro E., Obeyesekere M. Theoretical and experimental evidence for hysteresis in cell proliferation. Cell Cycle. 2003 Jan-Feb;2(l):46-52.

27. Bailey T.L., Elkan C. The value of prior knowledge in discovering motifs with MEME. Proc Int Conf Intell Syst Mol Biol. 1995;3:21-9.

28. Bailey T.L., Elkan C. Fitting a mixture model by expectation maximization to discover motifs in biopolymers. Proc Int Conf Intell Syst Mol Biol. 1994;2:28-36.

29. Baneiji J., Olson L., and Schaffner W. A lymphocyte-specific cellular enhancer is located downstream of the joining region in immunoglobulin heavy chain genes. Cell. 1983. V.33.P. 729-740.

30. Baneiji J., Rusconi S., and Schaffner W. Expression of a beta-globin gene is enhanced by remote SV40 DNA sequences. Cell. 1981. V.27. P. 299-308.

31. Bartek J. and Lukas J. Pathways governing Gl/S transition and their response to DNA damage. FEBS Lett 490: 117-122,2001.

32. Beijersbergen R.L., Kerkhoven R.M., Zhu L et. al. E2F-4, a new member of the E2F gene family, has oncogenic activity and associates with pi07 in vivo. Genes Dev. 1994 Nov 15;8(22):2680-90.

33. Berg O.G, von Hippel P.H. Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters. J Mol Biol1987 Feb 20;193(4):723-750

34. Berg O.G, von Hippel P.H. Selection of DNA binding sites by regulatory proteins. II. The binding specificity of cyclic AMP receptor protein to recognition sites. J Mol Biol.1988 Apr 20;200(4):709-23.

35. Berman B.P., Nibu Y., Pfeiffer B.D. et al. Exploiting transcription factor binding site clustering to identify cis-regulatory modules involved in pattern formation in the Drosophila genome.Proc Natl Acad Sci USA. 2002 Jan 22;99(2):757-6

36. Bernardini S., Argenton F., Vianello S., Colombo L., Bortolussi M. Regulatory regions in the promoter and third intron of the growth hormone gene in rainbow trout, Oncorhynchus mykiss walbaum. Gen Comp Endocrinol. 1999 Nov;116(2):261-71.

37. Bienz M. and Pelham H.R. Heat shock regulatory elements function as an inducible enhancer in the Xenopus hsp70 gene and when linked to a heterologous promoter. Cell. 1986. V.45.P. 753-760.

38. Bishop J.M. Molecular themes in oncogenesis .Cell ,1991 , 64, 235-248.3940,41,42,43,44.47.48,49.