Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК

Макеев, Всеволод Юрьевич

Бесплатный автореферат и диссертация по биологии на тему
Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК
ВАК РФ 03.00.02, Биофизика

Автореферат диссертации по теме "Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК"

?Г£>

На правах рукописи

Макеев Всеволод Юрьевич

Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов

ДНК

03.00.02 Биофизика

АВТОРЕФЕРАТ 'Ы244

диссертации на соискание ученой степени доктора физико-математических наук

Москва-2009

003479244

Работа выполнена в лаборатории биоинформатики ФГУП «Государственный научно-исследовательский институт генетики и селекции промышленных микроорганизмов ГосШШгенетика».

Научный консультант: профессор

Доктор физико-математических наук,

Туманян Владимир Гаевич

Официальные оппоненты:

Доктор физико-математических наук,

профессор, член-корреспондент РАН Гурский Георгий Валерьянович Доктор физико-математических наук Намиот Владимир Абрамович Доктор биологических наук, профессор Озолинь Ольга Николаевна

Ведущая организация: Институт теоретической и экспериментальной биофизики РАН

Защита состоится «22» октября 2009 г. в 15 ч. 30 мин на заседании диссертационного совета Д 501.002.11 при Московском Государственном Университете им. М.В.Ломоносова по адресу 119991, ГСП-1, Москва, Ленинские горы, МГУ им. М.В.Ломоносова, физический факультет, аудитория 5-19.

С диссертацией можно ознакомиться в библиотеке физического факультета МГУ

Автореферат разослан 21 сентября 2009г.

Ученый секретарь диссертациошюга.-отдета Д 501.002.11

доктор физико-математических jJ Г'.Б. Хомутов

Общая характеристика работы

Актуальность проблемы

В результате быстрого прогресса экспериментальной техники современная биология подошла вплотную к решению одной из своих фундаментальных проблем, а именно - проблемы понимания того, как происходит реализация наследственной информации в живом организме. Решение этой важнейшей проблемы современных генетики и биофизики должно повлечь за собой успехи в ряде практических задач в областях биотехнологии и медицины. К ним, в частности, относится управление дифференцировкой тканей, выращенных в культуре; понимание роли конкретных аллелей в возникновении заболеваний, имеющих наследственный компонент, а также производство лекарств белковой природы в культурах клеток млекопитающих, модифицированных методами генной инженерии.

Деление и дифферецировка клеток контролируются тысячами актов взаимодействий между макромолекулами белков и нуклеиновых кислот. Современные экспериментальные технологии позволяют получить огромные объемы экспериментальных данных, характеризующих взаимодействие биологических макромолекул в различных условиях. Одной из непосредственных задач современной биофизики является использование вычислительных физических методов для систематизации и сопоставления данных, полученных различными экспериментальными методами. За всю свою историю научные исследования никогда не располагали средствами такой мощи для переработки информации и никогда не сталкивались с необходимостью переработки информации такого объема, приходящией из различных источников и открытых для общего доступа.

Компьютерная биофизика, по существу, становится полигоном для применения сложных статистических методов анализа данных и оценки гипотез. Основой работы является использование вычислительн адов

для анализа тех закономерностей в строении последовательностей нуклеотидов в ДНК, которые связанны со структурно-физическими основами регуляции инициации транскрипции. Объекты исследования - участки геномов эукариот. Выбор такого объекта имеет ряд технических преимуществ. Во-первых, тексты ДНК дискретны и при современном уровне технологии секвенирования число ошибок в последовательностях не превышает, как минимум, одной ошибки на пять тысяч оснований (Robertson.G., et al. (2007)). Поскольку специфичность ДНК-белкового распознавания значительно ниже, при решении задач, описанных в настоящей работе, этим уровнем ошибок можно пренебречь. Во-вторых, секвенирование сейчас относительно дешево, а поэтому в открытом доступе имеются последовательности геномов тысяч видов прокариот и сотен видов эукариот. В третьих, геном является одномерной струтурой, поэтому молекула гетерополимера ДНК может анализироваться как текст, составленный из символов - мономеров разных типов нуклеотидов. Анализ на уровне текста ДНК позволяет понять большое количество биофизических по существу эффектов, связанных с инициацией транскрипции на молекулярном уровне.

Важной задачей настоящей работы является нахождение участков ДНК, участвующих в работе механизмов, управляющих переключением генов, так как для решения вопросов, связанных с пространственной структурой и физикой взаимодействия элементов регуляторных комплексов прежде всего надо знать какие именно сегменты ДНК несут регуляторную нагрузку и какие факторы белковой природы действуют на эти регулятороные сегменты, вызывая переключение экспрессии конкретных генов.

В работе используется широкий арсенал математических методов анализа последовательностей. В частности, это методы сравнительного анализа последовательностей, грамматический анализ, т.е. анализ структруктурных закономерностей в последовательностях, распознавание

характерных образов в последовательностях, а также оценка надежности найденных закономерностей путем построения статистических критериев.

Цель и задачи исследования

Целью работы является установление физических основ реализации генетической информации на этапах образования регуляторных комплексов ДНК-белок и функционирования компонентов генома. Это включает в себя: установление физических характеристик участков последовательности ДНК, несущих регуляторную функцию, и получение распределения участков специфического связывания регуляторных белков в пределах этих регуляторных участках ДНК; также предполагается установление связи характеристик распределения участков связывания регуляторных белков с физическими свойствами формирующихся иерархически организованных структур ДНК-белковых комплексов.

В работе решались следующие частные задачи:

1. Установление участков ДНК, вступающих в специфическое взаимодействие с белковыми факторами, регулирующими транскрипцию, с помощью специально разработанных методов.

2. Построение формального критерия наличия заданных структур в последовательности нуклеотидов ДНК, на основые вычисления статистической значимости.

3. Построение метода крупномасштабной сегментации последовательности на участки, однородные по своему нуклеотидному составу, с помощью вычисления статистической суммы всевозможных разбиений последовательности на сегменты.

4. Построение метода, позволяющего определять участки ДНК, вступающие в специфическое взаимодействие с белками, путем установления последовательностей нуклеотидов со значительной позиционно-

специфической энергией взаимодействия с учетом симметрии структуры ДНК.

5. Установление связи между характером распределения ДНК-связывающих областей в регуляторных зонах, типами пространственных структур, диктуемых такими распределениями, и функционированием определенных сегментов генома.

6. Разработка способа, позволяющего выделять регуляторные сегменты ДНК (промоторов и энхансеров) как участки ДНК, имеющие высокую аффинность взаимодействия с белками, в том числе и кооперативно связающимися белковыми факторами.

7. Определение регуляторных сегментов ДНК для системы генов, участвующих в раннем развитии Ог(кор!и1а melanogasíer.

Научная новизна и практическая ценность работы

В работе впервые получены следующие результаты:

На основе разработаных методов, позволяющих выделять в нуклеотидной последовательности геномной ДНК участки, специфически взаимодействующие с белками-регуляторами транскрипции, установлено характерное взаимное расположение таких участков ДНК, позволяющее обеспечить самоорганизацию нативного инициаторного комплекса при превышении пороговой концентрации регуляторных факторов.

Для тех случаев, когда задача вычисления вероятности появления наблюдаемой конфигурации мотивов в случайной последовательности ДНК не имеет аналитического решения (наблюдаются группы перекрывающихся мотивов, распознаваемых разными факторами) построен алгоритмический метод, позволяющий быстро и точно вычислять статистическую значимость появления наблюдаемой конфигурации мотивов.

Разработан метод сегментации генома на участки со стабильным нуклеотидным составом, в пределах которых допустимо использование одной и той же статистической модели. Метод основан на вычислении

статистической суммы по всевозможным разбиениям последовательности на формально-однородные сегменты.

Для определения конкретных участков ДНК, специфически распознаваемых регуляторными белками, создан метод построения множественного локального выравнивания фрагментов ДНК, позволяющий учитывать предполагаемую структуру регуляторного участка.

Создан банк данных мотивов в ДНК, распознаваемых различными регуляторными белками, участвующими в регуляции генов, управляющих ранним развитием Ою.чорИНа melanogaster.

Показано, что регуляторные модули, в частности энхансеры, имеют структуру, способствующую кооперативному связыванию регуляторных белков с этими модулями. Этот феномен позволяет идентифицировать регуляторные модули в геноме. Найден ряд новых регуляторных модулей в В. melanogaster.

Основные положения, выносимые на защиту

1. Расположение дистальных регуляторных элементов, в частности энхансеров в геноме может быть определено исходя из наличия в них участков, специфически взаимодействующих с регуляторными белками.

2. Периодические закономерности в расположении участков связывания регуляторных белков в пределах регуляторных модулей могут быть эффективно использованы для предсказания стабильной конформации ДНК-белкового инициаторного комплекса.

3. Для регуляторных белков, связывающихся с ДНК в форме димера, удается существенно улучшить распознавание участков ДНК, взаимодействующих с регуляторным белком, путем учета симметрии их структуры.

4. Статистическая значимость наблюдения мотива связывания белков или конфигурации мотивов может быть вычислена точно, путем комбинаторного анализа с помощью модификации алгоритма Ахо-Корасик.

5. Распределение мотивов в последовательности ДНК позволяет судить об уровнях организации генома, которые ответственны за конкретные структурные и регуляторные функции.

Прастическое значение работы

Практическая значимость работы выражается в том, что разработанные в данном исследовании методы применяются в области биотехнологии: это -разработка эффективных конструктов из культур клеток тканей эукариот, включая млекопитающих; и в биомедицине: это - связь аллельных вариантов, локализованных в регуляторных областях, с возможными патологиями. Кроме того, в качестве практических достижений можно назвать создание конкретных программных инструментов, используемых научным сообществом. Такими инструментами являются:

Программа BASIO, позволяющая осуществлять сегментацию хромосомы на участки с определенным характерным составом.

Программа SeSiMCMC построения множественного локального выравнивания последовательностей при условии заданной симметрии выровненной последовательности и определения характерного мотива в выровненном участке [http://bioinform.genetika.ru/SeSiMCMC/].

Программа поиска сегментов ДНК, содержащих кластеры участков связывания одного и того же регуляторного белка (го м от ипич е с кие кластеры сайтов связывания).

Программа AhoPro, позволяющая оценивать статистическую значимость кластеров мотивов в ДНК. [http://bioinform.genetika.ru/AhoPro].

База данных DMMPMM, содержащая мотивы, распознаваемые белками, регулирующими транскрипцию в ходе раннего развития Drosophia melanogaster [http ://li ne. imb. ac. ru/DMMPMM/].

О результативности практических приложений свидетельствует использование наших результатов в нижеперечисленных исследованиях.

Программа SeSiMCMC успешно принимала участие в международном конкурсе аналогичных программ, проводимом Вашингтонским Университетом (США) [Тошра et. al. //Nat.Biotech (2005), 123, p. 137.], и применялась в ряде исследований совместно с широко используемым комплексом программ GenomeExplorer [Миронов A.A. и др.// Молекул, биология, 34, 253]. Приоритет работ, с участием автора, в которых была предложена идея кластеризации сайтов связывания в регуляторных элементах [Papatsenko D.A. et al. И Genome Research 2002, 12:470; Lifanov A.P. et al // Genome Research, 2003,13:579; Makeev V.J. et al // Nucleic Acids Res. 2003 31:6016] как основного фактора, обеспечивающего сложную регуляцию тканеспецифической экспрессии генов высших эукариот, признан международным научным сообществом. Следует отметить, что упомянутые практические успехи стали возможны потому, что удалось решить ряд теоретических проблем, в частности переформулировать задачу распознавания функциональных участков как задачу распознавания одномерных текстовых образов.

Апробация работы

Материалы диссертации докладывались на международных и всероссийских конференциях и семинарах, в том числе: Московском семинаре по компьютерной генетике (Москва, 1997); Отчетной конференции по программе «Геном человека», (Черноголовка, 1997); международном семинаре «Mathematical applications in biological sciences» (Tronheim, Norway, 1997, Rouen, France, 1998); международной конференции по алгоритмам в вычислительной биологии RECOMB 1998 (Lyon, France); Международной конференции JOBIM 1997 (Montpellier, France); II, III Съездах биофизиков России (Москва, 1999, Воронеж, 2004), III, IV,V, Международных конференциях по биоинформатике регуляции структуры генов (Новосибирск, 2002, 2006, 2008), I и II Московских международных конференциях по вычислительной биологии (2003, 2005), Международном семинаре ASSCG

(Evry, France, 2003), Энгельгардтовской конференции по молекулярной биологии (Суздаль, 2004); Gordon Research Conference in Human Genetics and Genomics (Newport, USA, 2005), III и IV Съездах биохимиков и молекулярных биологов (Санкт-Петербург, 2005, Новосибирск 2008); международном семинаре Statistical semantics of genomes (Evry, France, 2008); Международной выставке Biotechnica 2008 (Hannover, Germany); Конференции общества Гельмгольца (Москва, 2008); Российско-Индийских школах-конференциях по биоинформатике и геномике (Хайдарабад, 2006, Новосибирск, 2008) и др.

С использованием материалов диссертации автором сделаны: доклад в Rockefeller University, New York, USA (1999); два доклада в Georgia Tech, Atlanta, USA (2003, 2004); доклад в РАН (Москва, 2004); доклад в Каролинском университете (Стокгольм, 2005) и ряд других выступлений.

Публикации

По материалам диссертации опубликовано 36 статей в реферируемых научных журналах (из них 35 в соавторстве), а также более 50 тезисов докладов (см. пред. раздел).

Структура работы

Диссертация состоит из семи глав, выводов и библиографии (243 наименования). Ее полный объем составляет 184 страницы, количество рисунков 17, количество таблиц 6.

Гпава 1. Введение.

Во Введении обосновывается актуальность работы, ее научная новизна, практическая значимость. Описаны цели и задачи исследования, а также практические результаты. Сформулированы положения, выносимые на защиту. Приведена информация об апробации работы, количество публикаций автора, дана структура дисертации.

Гпава 2. Анализ нуклеотидых последовательностей регуляторных сегментов ДНК и задача об управлении экспрессией генов в эмбриональном развитии О. те1аподаз(ег.

Данная глава является обзором литературы. В этой главе также формулируются конкретные задачи, решение которых описывается в последующих главах диссертации.

В результате успехов геномных проектов стало понятно, что виды, сильно отличающеся по морфологии, могут иметь весьма сходных набор структурных генов. Эти морфологические различия по-видимому связаны с различиями в регуляции экспрессии генов. В наибольшей степени на морфологии должны сказываться различия в экспрессии генов, управляющих течением эмбрионального развития. Механизмы, контролирующие экспрессию генов, пока изучены недостаточно. Известно, однако, что для инициации транскрипции неоходимо формирование масштабных надмолекулярных структур, включающих в себя многочисленные молекулы белков, в частности, факторов инициации транскрипции, и различные участки молекул ДНК. Возникает вопрос, какие биофизические механизмы отвечают за формирование и стабилизацию этих структур. Очевидно, что эти механизмы должны действовать на нескольких уровнях иерархии макромолекулярных взаимодействий: участки непосредственного контакта, характерные структурные домены макромолекул (спирали и тяжи), а также формирование собственно надмолекулярных структур.

Поскольку информация о структуре очень мала, то единственная возможность получить информацию о физических взаимодействиях, лежащих в основе инициаторного комплекса, заключается в изучение закономерностей в последовательности нуклеотидов ДНК. Одномерная текстовая закономерность в расположении нуклеотидов должна являться проекцией трехмерной структуры макромолекулярной укладки. Реальная природа физических взаимодействий трехмерна, поэтому объяснение текстовых

закономерностей в строении последовательностей возможно только на уровне трехмерных явлений. Поскольку макромолекулярный комплекс образует иерархическую структуру, в проекции на одномерную последовательность нуклеотидов ДНК эта структура проявляется как иерархия закономерностей в последовательности, существующих на разных масштабах. Очень часто единственным экспериментальным источником информации является последовательность ДНК. Поэтому встает вопрос: «До какой степени иерархия физических явлений на разных масштабах длин, лежащая в основе формирующегося ДНК-белкового комплекса, может быть оценена исходя только из последовательности ДНК». Решению этого вопроса посвящена настоящая работа.

Рядом исследователей, включая автора, в конце 90х годов было сделано наблюдение, что сегменты ДНК, контролирующие транскрипцию генов (цис-регуляторные модули или ЦРМ), часто содержат большое число сходных подпоследовательностей длиной от единиц до нескольких десятков нуклеотидов. В некоторых случаях было показано, что эти «перепредставленные слова» в нуклеотидном тексте взаимодействуют с белками, регулирующими транскрипцию этих генов (транскрипционными факторами, ТФ). Таким образом определяя местоположение сайтов связывания ТФ (ССТФ), а также анализируя распределение ТФ в пределах регуляторных модулей, в особенности распределение расстояний между разными ССТФ, можно получить информацию, о том, какие физические свойства ДНК-белкового комплекса важны для его фукнционирования. Используя полученную информацию сделать выводы о строении трехмерных макромолекулярных комплексов на разных масштабах длин. Полученная информация позволит предсказать ССТФ и ЦРМ, неизвестные из прямых экспериментальных данных.

В обзоре литературы также приведены основные открытые ресурсы, содержащие экспериментальные данные по развитию Т)гохорЫ1а, регуляции

экспрессии различных генов Drosophila, а также белок-белковому и ДНК-белковому взаимодействию у Drosophila и других видов.

Глава 3. Использование метода регулярных языков для вычисления математического ожидании и дисперсии числа мотивов, встреченных в случайной последовательности данной длины, моделирующей ДНК.

Существенным элементом структуры ДНК, определяющим регуляторные свойства данного района генома, являются участки специфического связывания регуляторных белков. Математически эти участки несут сигналы, формализованные как «мотивы».

Предметом этой главы является теоретическое вычисление математического ожидания и дисперсии количества случайных появлений одного и того же мотива в случайном тексте. Основной целью данного раздела является оценка применимости приближения Пуассона путем вычисления точного значения дисперсии для числа встреченных мотивов в случайной последовательности.

Все последовательности длины и, содержащие N вхождений мотива Н представляют собой регулярный язык (Guibas, Odlyzko, 1981; Regnier, Szpankowski, 1998; Regnier, 2000). Для вычисления матожидания и дисперсии лгэтот язык представляется как комбинация сумм и произведений более простых языков, каждый из которых содержит не более одного вхождения мотива Н. Наиболее удобным оказывается выбор языков-компонент, при котором все вхождения слов Я, возникают при конкатенациях языков-компонент, и добавление каждого компонента приносит единственное вхождение Я,. Каждый такой язык называется минимальным, он содержит все такие слова, что каждое слово, принадлежащее языку-произведению я.м. содержит единственное «хождение ну в качестве суффикса и не содержит других вхождений Н, кроме префикса Я, и

суффикса Ну Набор минимальных языков М^, дополненный языками первого появления Д (оканчивающимися на Я,) и терминальными языками Г/, (не порождающими вхождений Н ни с какими префиксами Я.) достаточен для того, чтобы записать все последовательности произвольной длины, содержащие фиксированное число г вхождений мотива Н . В матричном виде это записывается как = ГШ'1 II', где л- вектор-строка начальных языков, компоненты которого заканчиваются на различных вхождениях мотива Я,, М - матрица минимальных языков а и*- вектор-столбец терминальных языков и,.

Для определения статистических характеристик числа мотивов, встреченных в случайной последовательности длины п, используется аппарат производящих функций. (вшЬаз, ОсИугко, 1981; Ке§шег, 57рапко\укк1, 1998; Лезшег, 2000). Производящая функция - это формально сопоставленный регулярному языку ряд по д+1 переменным, где с[ - количество слов в мотиве Н :

......^ ) = 1г" I Р{*(Ъ) = г1,...^{н,) = г1)и\.м'< ,

в котором степень г" стоит при каждом элементе-последовательности длины п, а степень и- стоит при каждом элементе, содержащем /-вхождений слова Я,. Коэффициенты ряда - вероятности элементов-последовательностей, вычисленные в рамках принятой случайной модели. Обозначая символом ¡V] член при степени г", можно записать связь между значением производящей функции и математическим ожиданием и дисперсией числа встреченных в случайной последовательности вхождений мотива Я(. При этом математическое ожидание и дисперсия количества наблюдающихся вхождений мотива Н вычисляется следующим образом:

£(ЛГ(Н)) = £Е(ВД));

¿=1

Ы itj

v ■ i ' i / U=1

Таким образом, для вычисления дисперсии количества мотивов, встреченных в случайной последовательности длины п необходимо вычислить п -й член ряда для первой и второй производных производящей функции по разным ее компонентам при значении всех переменных-компонент вектора и : w.=1.

Производящая функция может быть записана для каждого из элементов матриц-языков R,M5 U. Существует теорема декомпозиции (Regnier, Szpankowski, 1998; Regnier, 2000), позволяющая представить производящую функцию F(z,u) в виде комбинации производящих функций, построенных

для элементарных языков R,M, U. Элементарным языкам-матрицам R и M сопоставляются матричные производящие функции R(z,u) (вектор, с компонентами, содержащими вероятности слов, заканчивающихся на разные H t, и не содержащих других вхождений слов и из Н) и M(z,u) (квадратная матрица с ячейками, содержащими все вероятности слов, дополняющих вхождение Я, до Я,). Полимодальную производящую функцию

/у^ N¡¡ (z, «„..., и,) можно представить в виде разложения производящих функций элементарных языков R(z), M(z), U(z):

.....ч('.«..-.»,)=Z I

'.Л.-.Л-i

где ra + т.е. количество слов типа a в наборе [Hl,...,Ha,...,Hq).

Или в компактной матричной форме: F(z,u) = £п(г,и)Мк1 (z,u)u' (г). В

главе 4 настоящей диссертации приводятся результаты дифференцирования этой формулы и получены замкнутые аналитические формулы для

математического ожидания и дисперсии числа мотивов, встреченных в случайной последовательности, заданной как последовательность независимых случайных испытаний или как марковская цепь первого порядка. В этой главе показано, что в случае независимых случайных испытаний вторая производная для последовательности независимых испытаний имеет вид:

Эм, ди,

Т.е. в структуре производящей функции выделяются слагаемые соответствующие неперекрывающимся (первое и третье слагаемые) и перекрывающимся (второе слагаемое) словам. Дифференцирование этих слагаемых достаточно прямолинейно.

Для первого слагаемого верно:

что соответствует суммарной вероятности замостить отрезок длины п неперекрывающимися словами с длинами т, и т1, выраженной через количество таких покрытий. Второе слагаемое более громоздко и имеет вид, включающий все возможные перекрытия слов:

^ = я{р(Я,)£р(я, [/,т,]|я,)/^ +Р(Я,)|Р(Я, [Кт^Н^ |

I /=1 '=1 Л

Суммируя различные вклады, из этих формул молено получить выражения для полной дисперсии числа появившихся в последовательности мотивов. Вклад в дисперсию неперекрывающихся появлений мотива равен:

где • полная вероятность появления мотива, а 8: = т. -1.

В частном случае однобуквенных слов 3: = О эта формула переходит в бернуллиевскую дисперсию К(Н) = «/'(Н)(]-У,(Н)]. В случае, если все слова

мотива имеют одну и ту же длину формула упрощается:

Гтт1ар=пР(н)(1-Р(н)(1+28)) + 8{з8+2)Р2{Н)-8Р{Н). К сожалению, для члена с перекрытиями мотивов не удается получить такой же компактной формулы. Однако, в случае, если мотив состоит из единственного слова, формула для дисперсии сводится к уже известной формуле (1^шег, $2рапко\¥51а, 1998):

У(Н) = пР{Н){2А{\)-{28Щр(Н) + Р2{Н)8{Ъ8+2)-Р(Н){{2А(\)-\)8-2А\\)].

Эти формулы дают точное значение дисперсии числа вхождений мотива в текст, порожденный последовательностью независимых случайных испытаний. На практике часто используется приближение Пуассона, V~Е. Для определения применимости этой формулы рассмотрим разность У-Е, равную:

(мы считаем, что мотив содержит слова равной длины). Факторы с перекрывающимися вхождениями типа Р(Н^)^р{н¿[ЬтЛн^!^ дают при

ы '

суммировании вклад порядка пР(Н). Вклад перекрывающихся мотивов в

свободный член, не зависящий от п, также меньше или порядка аналогичного вклада в матожидание, причем величина этого вклада приближается к величине этого слагаемого в матожидание снизу для сильно самоперекрывающихся мотивов (с консенсусами типа АААААА).

В случае длинных последовательностей п»1основную роль играет слагаемое, пропорциональное п. Если вероятность мотива Р(Н)п 1, то всеми членами, пропорциональными У'2 (II), можно пренебречь, и основной

непуассоновский вклад дают перекрывающиеся вхождения мотивов. На практике это означает, что дисперсия меняется только для однородных (типа ро1уА) или периодических (типа ро1у-АТ) мотивов. Для таких мотивов Пуассоновское приближение неприемлемо. Для остальных мотивов Пуассоновское приближение работает с большой точностью.

В случае, если мотивы не являются маловероятными (при /'(Н )€ 1), становятся важными поправки, пропорциональные Р2(II). В этом случае пуассоновское приближение очевидно неприменимо, однако /.-значение (см. ниже) остается хорошим критерием представленности мотива в тексте, в частности, и в случае самопересекающихся мотивов, число появлений которых в последовательности не распределено согласно нормальному закону. При этом, в случае длинных последовательностей достаточно использовать поправки, пропорциональные п. На практике, для конкретного мотива обычно легко оценить вероятность того, что его вхождения будут самоперекрываться. Если число перекрывающихся вхождений невелико, можно ограничиться поправками, для которых не требуется сколько-нибудь сложных вычислений, кроме вычисления вероятности вхождения мотива Р( Н).

В случае коротких последовательностей п&т следует учитывать члены, не зависящие от л. В случае Р(Н)п* 1 работает приближение Пуассона, при тех же условиях, что и в случае длинных последовательностей. Следует отметить, что вычисление дисперсии числа вхождений мотива в последовательность редко является самоценной задачей и обычно используется для построения статистических оценок на

перепредставленность или избегание мотива в каких-то выборках последовательностей.

В диссертации также приведено точное вычисление дисперсии для случая, когда случайная последовательность представляет собой цепь Маркова первого порядка. В этом случае появляется дополнительное слагаемое, отражающее корреляцию отдельных слов на близком расстоянии. Относительный вклад этого слагаемого падает при 1.

Вычисленные матожидание Я(Н) и дисперсия У(Н) позволяют вычислить Р-значение того, что мотив Н перепредставлен в данной последовательности, при условии, что £(Н)<"°1 и верно нормальное приближение. В этом случае Р-значепие вычисляется как вероятность «хвоста» нормального распределения, и величиной от которой однозначно

зависит Р-значение является 2-значение 2 = где О(Н) - это

У(н) 4 '

количество реально наблюдаемых вхождений мотива.

Глава 4. АЛГОРИТМИЧЕСКОЕ ВЫЧИСЛЕНИЕ Р-ЗНАЧЕНИЯ ДЛЯ ВЕРОЯТНОСТИ ПОСЛЕДОВАТЕЛЬНОСТИ, СОДЕРЖАЩЕЙ МИНИМАЛЬНЫЕ КОЛИЧЕСТВА ВСТРЕЧ КАЖДОГО МОТИВА ИЗ ЗАДАННОГО НАБОРА МОТИВОВ

В тех случаях, когда распределение Пуассона неприменимо, для вычисления Р-зпачения приходится использовать алгоритмический подход. В основе подхода лежит модификация алгоритма Ахо-Корасик (АЬо, Согаэкк, 1975). Основная структура данных представляет собой дерево Г(Н), являющееся вариантом бора Тпе(\\) (КпиШ, 1975). Дерево строится следующим образом. Пусть 2(Н)- множество префиксов слов множества Н . Каждый префикс с/е <2(Н ) отождествляется с узлом ЛЫс(д). В частности, корень бора отождествляется с пустой строкой е. Длина префикса является глубиной узла Node(q).

Текст читается слева направо и прочтение каждой буквы сопровождается с передвижением по дереву, задаваемому функцией перехода. Эта функция для каждого узла и для каждой буквы имеет своими значениями узлы дерева, между которыми осуществляется переход. Значением функции перехода £:2(Н)х£->2(Н) для данной пары {узел, буква} \/(р,а)е 0(Н)хХ,

является д(р,а) - наибольший суффикс конкатенации ра, принадлежащий к

6(Н). Заметим, чю8{р,а)~ ра ¡А" рае£)(Н).

Пусть Г [г] - буква текста Т на позиции г. Обозначим как </, самый большой суффикс текста 7'[1]...7,[г], принадлежащий £?(Н). Последовательность узлов, определенная словами строится по индукции V/>0, дм = <У(?„Г[/ + 1]), с начальным условиям д0=е. Такая последовательность называется Ахо-Корасик-ойходод/ бора 7>/е(Н) , ассоциированного с текстом Тк: {<70,...,^} = ЛС(Гп'е(Н),7^).

Конкретный регуляторный сегмент эукариотической ДНК может содержать достаточно большое число сайтов связывания для различных факторов, причем эти сайты могут перекрываться друг с другом. В результате естественно возникает проблема изучения мотивов, совместно встречающихся в одном и том же сегменте ДНК. Для оценки статистической значимости совместного наблюдения ряда мотивов необходимо вычислить Р-значения Р(1Я(Н„...,Н1;^,...Д1)) того, что мотивы (Н,,...,^) имеют

соответственно как минимум (ки...,кг), возможно перекрывающихся, вхождений в текст Т„ длины п, записанный в алфавите 2.

root

/с

Рисунок 1. Обход дерева 7>;е(Н). Мотив задан как множество Н = {AAA, ААС,

АСА, АСС, ССТ). Стрелками показаны переходы, выходящие из вершины ААС, соответствующие каждой возможной следующей букве текста и переходы, выходящие из вершины СС, соответствующие каждой возможной следующей букве текста.

Пусть дано s различных мотивов(Н,,...,Н^). Упомянутое Р-значепие будет также обозначаться как Рассмотрим мотив

Н =Н, U...UH, являющийся объединением искомых мотивов, т.е. включающий в себя все слова, принадлежащие хотя бы одному из мотивов Н,. Построим бор 7пе(Н) для полного множества слов Н. Узел де О(Н ) может принадлежать как какому-то одному конкретному мотиву Ht либо одновременно некоторому подмножеству мотивов {н,}^ • Функция перехода 8. g(H )xZ g(H) определяется также, как она была определена для случая единственного мотива Н .

Все тексты т, длины i подразделяются на классы, в зависимости от наличия в них вхождения различных мотивов Ну. Вводится индекс вхождений I(t *)(/,,..-J,), вычисляемый для набора мотивов (Н,,...,Нг) и показывающий, что текст Тп содержит /,, возможно перекрывающихся вхождений мотива Н . Индекс представляет собой s -вектор, /'-я координата которого может быть вычислена следующим образом:

k¡ iflt > к,'

Далее определяются классы сД/^.-Д;?), О< Д <к:, содержащие тексты 1\ длины г, для которых индекс вхождений мотивов (Н,,...,!^) в текст Т, равен (Д,...Д), а обход бора АС(Тпе(Н),?;) заканчивается в узле д. Кроме того определяются дополняющие классы .

Для вычисления искомой вероятности производится суммирование по всем узлам дерева д и по всем символам алфавита а. Пусть д- это значение функции перехода ¿>(//,«) для такой пары (узел, буква). Такое значение может принадлежать сразу нескольким мотивам {нД^ ■ Тогда, вероятность (Л,--Д,?')) того, что текст 7] принадлежит классу См (/3,,...Д;д) может быть вычислена как:

Искомая вероятность получается тогда, когда достигается необходимое число вхождений всех мотивов.

Техника, основанная на обходе бора, может быть естественным образом распространена на вычисления Р-значения числа вхождений мотива в случайном тексте, порожденном цепью Маркова порядка К (Roytberg, 2007). Трудоемкость определяется временами порядка

где |х| - это размер алфавита, |н|- это полное

количество слов в объединенных мотивах, m - это максимальная длина слова, К- порядок цепи Маркова, а кх - минимально допустимое количество вхождений мотива /.

В диссертации рассматриваются также эффективные способы построения дерева-бора в случае, если мотив задан не в виде перечисления слов, а в виде матрицы позиционных весов, с конкретным порогом. В этом случае бор можно построить без явного выписывания всех слов.

Глава 5. РАЗБИЕНИЕ ПОСЛЕДОВАТЕЛЬНОСТИ НА УЧАСТКИ ОДНОРОДНЫЕ ПО НУКЛЕОТИДНОМУ СОСТАВУ, МЕТОДОМ МАКСИМИЗАЦИИ БАЙЕСОВСКОГО ПРАВДОПОДОБИЯ

Иерархическая структура генома, отражающается в иерархии доменов ДНК, имеющих сходный нуклеотидный состав (Frank, Lobry, 1999). Можно предположить, что это связано с различными условиями к термодинамике формирования структур ДНК соответствующих уровней.

В этой главе описывается алгоритм разбиения последовательности нуклеотидов на сегменты, которые могут приближенно считаться статистически однородными. Алгоритм состоит из двух стадий. На первой стадии с помощью динамического программирования находится оптимальная конфигурация границ, разбивающих последовательность на сегменты таким образом, что некоторая функция правдоподобия достигает на этом разбиении своего максимума. На второй стадии алгоритма вычисляется вес каждой найденной границы. Удаление границ с небольшими весами позволяет получить субоптимальную сегментацию, устойчивую к малым вариациям исходной последовательности.

Пусть задан текст Т, длины п, записанный в алфавите Z, состоящем из ¿ = |х| символов. Целью алгоритма является построение оптимального разбиения Т на некоторое множество сегментов {7;,...,^}. Текст Т моделируется как реализация некоторой вероятностной модели. В отличие от предыдущих разделов предполагается, что исходный текст представляет собой серию сегментов в каждом сегменте текст порожден как

последовательность независимых случайных испытаний и параметры модели

в пределах одного сегмента не меняются, причем сегменты предполагаются вероятностно независимыми друг от друга. Сегментаг^ией конкретной последовательности будем называть набор границ {Ьи...,Ьк} разбивающий текст Г на сегменты. Каждому сегменту T¡ сопоставляется вектор отсчетов -число встреченных букв каждого типа n = (n, ,..,nL).

При поиске оптимальной сегментации каждому сегменту соответствует зависящая от отсчетов весовая функция - мера однородности сегмента. Полная весовая функция текста, состоящего из ряда сегментов равна сумме весовых функций каждого из сегментов. Для построения меры однородности сегмента используются методы байесовской статистики. Для каждого составаа= {&i,61,...,eL} задается функция плотности вероятности составовр(О),

которая определена на симплексе *¥ = {(г.вк >ùj^0k =1}и удовлетворяет

к=1

условию нормировки Jdap(a■) = 1 . Теорема Байеса позволяет вычислить

постериорную плотность распределения вероятностей л'cri^<,") на сегменте

= где F(.S') = J daP{s'a)p(a) это нормировка, называемая

P(S)

маргинальным правдоподобием, зависящая только от вектора отчетов n и не меняющаяся при перестановках букв в последовательности S. Здесь

Р(,'И = П> _ вероятность реализации данной последовательности при

известном составе, а р(а) - некоторое априорное распределение на

пространстве составов. В задаче сегментации выбор априорного распределения неявно означает определенное предположение о составе полимера, в наших расчетах используется однородное (неинформативное) распределение.

В качестве меры однородости сегмента используется значения его маргинального правдоподобия. Для однородного априорного распределения

маргинальное правдоподобие может быть получено аналитически (Liu, Lawrence, 1999):

P(S) = P(n)=. w w (N+L-l). 1 L

Вычисление оптимальной сегментации проводится согласно алгоритму,

близкому к алгоритму Витерби (Forney, 1973). Пусть дана

последовательность S = s\S2St,... л>{ длины N, где Sj е I. Пусть для каждого

сегмента S(a,b) = s„... ,vb, а < b может быть вычислен вес W(a,b). В нашем

случае примем этот вес за равный .

Каждая конкретная сегментация R, имеющая т сегментов, определяется набором границ R = {k0 = 0,k1,...,kri_l,ka = N], где граница к, стоит между символами .s,. и _. Определим вес всей сегментации R

= +1, к, ). Для вычисления оптимальной сегментации R*, которая

J-1

максимизирует функционал F(R), используется рекуррентный алгоритм, описанный в (Roytberg, Finkelstein, 1993). Обозначим R (к) оптимальную сегментацию фрагмента последовательности 5(1,к), 1 <k<N. Сегментация R" (1) - тривиальна. В случае, если известны оптимальные сегментации всех участков можно найти оптимальную сегментацию участка

R~(k) используя рекуррентное выражение: F{R'(k)) = max [f'(/?'(i)) + №'((+ l,ir)j,

с начальным условием F(R (0)) = 0.

Более стабильной характеристикой является статсумма на множестве сегментаций последовательности. Статсумма вычисляется как сумма весов

всевозможных сегментаций Z(Лг) = где индикатор нравен

?i я« -1

единице, при границе после позиции к и нулю в других случаях, а сегментация, заданная вектором границ q = (gl,...gN), имеет вес (вероятность)

П(Ч).

Статистическая сумма может использоваться для оценки вклада наличия границы на позиции к в разнообразные сегментации. Для этого необходимо вычислить статистические суммы сегментаций фрагментов последовательности, ZL(k) и ZR(k) находящихся справа и слева от данной границы. Для вычисления этих значений могут использоваться следующие

к-\ N

реккуренгные формулы: ZL(k) = J^euij*,^]]ZL[j), ZR[k) = ^e"'[kj]Z/((j) с

j-о j'-t

соответствующими граничными условиям.

Статистический вес границы, расположенной после позиции к, может

быть вычислен как П(qk = 1) = ^—~ ' Границы с более высоким

статистическим весом разделяют сегменты, которые сильнее различаются по своему составу.

Глава 6. ВЫДЕЛЕНИЕ ХАРАКТЕРНЫХ МОТИВОВ ИЗ ВЫБОРОК НУКЛЕОТИДНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ С ПОМОЩЬЮ АЛГОРИТМА ГИББСОВЫХ ВЫБОРОК

В главах 3 и 4 было рассмотрено вычисление статистической значимости встречаемости мотивов в ДНК. Экспериментальные данные, такие как SELEX и футпринтинг с ДНКазой I, позволяют получить мотивы для каждого регуляторного белка; для этого используются методы определения мотивов (motif discovery). В данной главе предлагается новый метод определения мотивов, учитывающий симметрию участков ДНК, непосредственно взаимодействующих с регуляторным белком. Исходной точкой послужил алгоритм Gibbs sampling (Lawrence, 1993).

В алгоритме SeSiMCMC (сокращенно от «Sequence Similarity Markov Chain Monte Carlo) сохранено представление мотива в виде МПВ. Каждая исходная последовательность сегментируется на «мотив» и «фон», порожденные разными вероятностными моделями. Фон моделируется как однородная последовательность независимых случайных испытаний.

Критерием оптимальности сегментации считается ее максимальная вероятность, вычисленная в рамках Байесовского подхода, при условии известной последовательности (ДНК данных) и отсутствия априорной информации о составе ДНК и предпочтения определенных нуклеотидов в каждой позиции мотива. Выровненная часть набора последовательностей определяет мотив. Оставшиеся невыровненными части всех последовательностей считаются фоном.

Для выровненной части, для каждой позиции выравнивания можно вычислить позиционные числа встречаемости нуклеотидов п.а , из которых можно оценить позиционные вероятности qia появления нуклеотида а в

позиции /, i = \..m, где m - это длина выравнивания, как q(i,a) = д" ■ При

этом для фонового распределения принимается оценка /(ог) = 8a+bcr. Здесь M

К + В

- это число выровненных последовательностей, К - это число всех невыровненных (фоновых) позиций во всех входных данных, a ga- полное число нуклеотидов типа а в невыровненных позициях. Псевдокаунты Ъа выбираются пропорциональными частотам нуклеотидов во входных данных, в то время как их сумма В = ~ s[n , где N - это число входных

последовательностей.

Если принимается, что мотив имеет структуру прямого повтора, то

n'-a+n,«J^)a+2'ba

МПВ оценивается по формуле q(i,a) =-2 [M В)-' В Т° вРемя как дая

палиндромов (обратно-комплементарных повторов) формула принимает

вид: v ' , где m - длина мотива и « — это нуклеотид,

комплементарный а.

Алгоритм действует следующим образом. Вначале формируется выравнивание, состоящее из случайно выбранных участков некоторой длины,

по одному на последовательность. Исходная длина либо выбирается случайно в некоторых пределах, либо задается как параметр программы. Затем заданные последовательности по очереди просматриваются (в цикле). На каждом шаге выбирается «текущая» последовательность. Далее, по выравниванию, включающему в себя все последовательности, кроме «текущей», строится МПВ. Сегменты последовательностей, не вошедшие в выравнивание, считаются порожденными из фонового распределения. После того, как оценены МПВ и фоновое распределение, вычисляется вероятность получить текущую последовательность, при условии, что мотив расположен в позиции к, и для каждой его позиции принята модель, взятая из соответствующей колоноки МПВ:

¿-1 к+т-1 Ь -т Л

р(т-|[*г],9,/)=П/(1)П 90-*+1.1)- П Л'-,).^''«;

1=1 !=к г=к *т

здесь — это ;'-ый нуклеотид в последовательности Т, а \к\,к = \..(Ь-т + \) обозначают событие: «сайт начинается с позиции к», [о] соответствует случаю отсутствия сайта (нулевая позиция). Априорная вероятность Р([о]) определяется пользователем и обозначает вероятность того, что последовательность из входных данных является шумом и не несет никакой биологической информации. Все ненулевые позиции имеют равные априорные вероятности.

Апостериорная вероятность того, что сайт начинается в позиции к

равна = = Из этого

р ил -Ы) Р(Т\9,/) Р(т\д,/)

апостериорного распределения разыгрывается новая (возможно нулевая) позиция сайта. После этого полученная позиция сайта считается заданной для текущей последовательности во всех последующих шагах цикла. Далее выбирается следующая текущая последовательность, и цикл повторяется. Процесс последовательных итераций продолжается до тех пор, пока цепь

Рисунок 2. Блок-схема работы алгоритма 8е81МСМС.

полученных МЛАБП не сойдется (то есть, изменения от шага к шагу не станут малыми). Мотив определяется из полного набора текущих положений сайтов, который на рис.2 называется «паттерном».

Кроме местоположения мотива определяется оптимальная длина мотива и длины промежутка, если разрешены мотивы, состоящие из двух частей. Для каждой длины мотива длина спейсера принимается как минимальное значение, для которого достигается локальный максимум ИСП. Поскольку длина спейсера может оказаться нулевой, эта же процедура определяет, разделен мотив или нет. Блок-схема программы приведена на рис. 2. Для оптимизации длины мотива и спейсера может использоваться один из двух протоколов. Используемый по умолчанию быстрый режим выполняет оптимизацию на каждом уточнении локального выравнивания, как описано выше. В медленном режиме длина мотива ступенчато изменяется от наименьших значений к наибольшим и полная процедура поиска мотива без оптимизации длины выполняется для каждой ступени.

Глава 7. ВЫЯВЛЕНИЕ ЦИС-РЕГУЛЯТОРНЫХ МОДУЛЕЙ КАК СЕГМЕНТОВ ДНК СОДЕРЖАЩИХ КЛАСТЕРЫ СХОДНЫХ ПОСЛЕДОВА ТЕЛЬНОСТЕЙ, ОБЕСПЕЧИВАЮЩИХ КООПЕРАТИВНЫЕ ДНК БЕЛКОВЫЕ ВЗАИМОДЕЙСТВИЯ

В этой главе диссертации приведены полученные с помощью всего арсенала разработанных методов результаты идентификации в цис-регуляторных модулях кластеров сайтов связывания ССТФ белков, регулирующих систему генов, ответственных за раннее развитие Т)го$орЫ1а melanogaster. В результаты включены данные ручной переаннотации большого количества экспериметальных данных, относящихся к ЦРМ (энхансерам), которые управляют ранним эмбриональным развитием ОгозорИИа. Все данные, полученные в ходе выполнения этой работы, включены в межународную базу данных Лес1Иу (НаНЬп, 2008) известных генетических элементов ВгаюрИИа me^anogaster . В результате работы получена информация трех типов: (1) сайты связывания транскрипционных факторов (ССТФ) для известных регуляторных белков; (2) известные ЦРМ в ДНК и (3) информация о

зависимости конкретных генов, входящих в систему, от конкретных факторов (регуляторные взаимодействия).

Факторы, регулирующие развитие Drosophila, и распознаваемые ими мотивы ДНК. Для анализа мотивов использованы 28 регуляторных белков, участвующих в регуляции ранних стадий развития Drosophila, включая материнские гены, гап-гены, гены pair rule, и ряд генов, управляющих полярностью сегментов. Мы использовали экспериментальные данные о связывании этих белков с ДНК полученные in vitro, преимующественно футпринтами с ДНКазой I и SELEX. Использованы также данные о специфических мутациях и эволюционной сохранности соответствующих участков ДНК.

Матрицы позиционных весов (МПВ) были построены с помощью программы SeSiMCMC (см. гл. 6). Подробное описание данных находится на сайте http://line.imb.ac.ru/DMMPMM/ . Наилучшие мотивы для нескольких факторов приведены в табл. 1, относительная высота букв отражает вклады соответствующих букв в информационное содержание данной позиции.

Bed Cad Gt

'Ос - & « ' ^

Hb Kni Kr

" \ >G G - " GGG -

Таблица 1. Некоторые мотивы, распознаваемые регуляторными белками, рассматривавшимися в исследовании. Дополнительная информация содержится на сайте http://line.imb.ac.rii/DMMPMM/

Исследованы гены: bid, gt, hb, kni, kr, old, sal, til, eve, ftz, gsb, h, run, en, dll, ems, ubx и sip, управляющие ранним развитием Drosophila, в первую очередь, управляющие осевой дифферецировкой яйца мухи. Длины их локусов варьируют между 16 и 120 тыс. п.о. В локусах картированы цис-регуляторные модули, известные из литературы, всего около 60 ЦРМ.

О 2000 4000 6000 8000 10000 12000 14000 16000

Рисунок 3. Локус пал even-skipped с картированными модулями: (CDS) кодирующая область; (Р) проксимальный промотор; (kitel) поздний энхансер latel; (3+7) энхансер eve stripe 3+7; (2) энхансер eve stripe 2; (lcite2) поздний энхансер Iate2; (1) энхансер eve stripe 1; (5) энхансер eve stripe 5.

Анализ распределения мотивов связывания регуляторных факторов в ДНК проводился путем сканирования последовательности ДНК с помощью МПВ, построенных для различных факторов, и подсчета количества найденных сайтов в скользящем окне фиксированной длины. Важными параметрами служили пороги для МПВ для каждого из белков.

Гомотипические кластеры мотивов связывания белка Bicoid в покосе гена even-skipped. Простейшим вариантом конфигурации сайтов являются гомотипические кластеры, т.е. участки повышенной плотности ССТФ для одного и того же белка. Для определения кластеров подсчитывается число ССТФ, найденных в скользящем окне. На рис. 6 показаны кластеры участков связывания белка Bicoid в локусе гена even-skipped, полученные для разных значений длины окна и порога МПВ. На панели (А) рисунка приведена зависимость статистической значимости полученых кластеров от порога МПВ. На панели (В) показана зависимость статистической значимости как функция размера сканирующего окна. Во всех случаях порог МПВ выбран равным 5,5, что показано красной стрелкой на оси Y на панели (А). При этом кластер содержит пять сайтов, причем вероятность появления каждого из сайтов приблизительно оценивается в 1 на 1000 п.о.

Видно ступенчатое поведение зависимости статистической значимости кластера от размера окна. При больших размерах окна, в него может попасть большее число сайтов связывания, однако, статистическая значимость кластеров, содержащих одинаковое число сайтов связывания, уменьшается с ростом размера окна. На рис. 4В видно также сложное строение кластеров связывания белка Bicoid. В частности, видно, что при малых размерах окна

кластер, соответствующий энхансеру eve stripe 1 распадается на два подкластера из которых правый подкластер, возможно, относится уже к энхансеру eve stripe 5. Замечательно, что из семи энхансеров гена eve только три (stripe 2, stripe 1, и сливающийся с последним stripe 5) участвуют в регуляции с помощью белка Bicoid. Именно эти энхансеры и содержат кластеры сайтов связывания белка Bicoid, как это видно из рис. 4.

При этом кластер в энхансере stripe J смещен влево и сливается с кластером в энхансере eve stripe 1. Таким образом, анализ гомотипических кластеров регуляторных факторов в последовательности ДНК может предсказать как местоположение энхансеров в пределах локуса, так и зависимость этих энхансеров от определенных регуляторных факторов.

Однако при таких предсказаниях возможны артефакты. На рис. 4 присутствует также кластер сайтов связывания, расположенный в пределах энхансера Ше2, по-видимому, имеющий отношение ССТФ белка Paired (Prd), мотив которого достаточно похож на мотив связывания Bed.

Оптимизация параметров поиска гомотипических кластеров мотивов связывания факторов регуляции транскрипции в локусах генов раннего развития Drosophila. Как видно из рис. 4 гомотопические кластеры мотивов, распознаваемых белком Bicoid хорошо коррелируют с энахансерами гена even-skipped, зависимыми от этого транскрипционного фактора.

Степень скореллированности различна при разных порогах МПВ и разных размерах сканирующего окна. Для предсказания местоположения новых энхансеров имеет смысл определить оптимальное значение порога МПВ и оптимальную длин}' окна, при которых наибольшее количество известных энхансеров определяется достаточно точно, и в то же время ошибка перепредсказания достаточно мала. В общей сложности белок Bicoid регулирует восемь генов: til, otd, bid, sal, hb, kr, kni, eve. Нуклеотидные последовательности локусов всех этих генов были просканированы МПВ

Вкхж1, после чего на разных уровнях порога МПВ были получены кластеры сайтов путем сканирования окнами различной длины.

.11 «И -ill I II К 1' I

SIOT eii*MF== ЕЗ

2G0C 4JJL 111 all. l.;T: 13ЯВ

Рисунок 4. Распределение кластеров мотивов распознаваемых фактором Bicoid в локусе гена even-skipped. Справо вверху: тоновый код статистической значимости (отрицательный логарифм вероятности возникновения кластера). Ось X - позиция в локусе. Внизу: карта локуса even-skipped (см. Рис. 3). Ось У: (А). Переменный порог МПВ при фиксированном скользящем окне 500 и.о. (В). Переменный размер скользящего окна, при фиксированном пороге МПВ 5.50.

Для каждого положения окна, каждой длины окна, и каждого порога МПВ вычислялась вероятность найти наблюдаемое количество сайтов связывания в случайной последовательности по формуле Пуассона с

поправками, полученными в глааве 3. Вероятность р появления индивидуального сайта с весом, большим избранного порога, определялась эмпирически, путем оценки частоты сайтов в полном геноме Drosophila , при условии удаления из генома мобильных элементов и микро- и минисателлитов большой длины. Был введен порог на вероятности получения гомотипических кластеров взаимодействующих мотивов/'(¿"(H^r./j). Все

кластеры, имеющие веса, превышающие этот порог, считались «предсказанием» для данной длины окна и данного порога МПВ. Эти предсказанные кластеры сравнивались с экспериментально определенными энхансерами в восьми генах, зависящих от Bed. Для оценки качества сходства (степени перекрывания вычисленных гомотипических кластеров мотивов и экспериментально определенных ЦРМ) использовался коэффициент ассоциации Пирсона СС (Mathews, 1998). Выбирались такие размеры окна, порог веса, вычисленного с помощью МПВ и порог на вероятность кластера P{s(нг,/-,/,)), для которых значение СС было максимальным. Оказалось, что

максимум достигается при пороге МПВ, равном 4,2, длине окна 550, и пороге на вероятность кластера, равном 4*10"4. При этих соотношениях глобальное значение коэффициэнта ассоциации СС оказывается равным 0,62, что является очень хорошим результатом, поскольку границы многих энхансеров определены достаточно неточно, методом грубого делеционного анализа, с рассмотрением небольшого числа делетированных участков разной длины, содержащих энхансер.

Гомотипические кластеры мотивов связывания различных регуляторных факторов в локусах, управляющих ранним развитием Drosophila. Для того, чтобы выяснить насколько отмеченный эффект характерен для генов, регулирующих раннее развитие Drosophila, был предпринят поиск гомотипических кластеров мотивов, распознаваемых более чем 16 факторами, в локусах 20 генов Drosophila, содержащих более 60 энхансеров. Мотивы для 12 факторов оказались недостаточно надежно

установленными и полученными по малому количеству данных, а число ЦРМ, зависящих от этих факторов, оказалось недостаточно велико, чтобы надежно определить параметры поиска. Значения длины сканирующего окна, порога МПВ и порога кластера подбирались подобно тому, как это было описано в предыдущей секции для кластеров Bicoid. Для кажой пары (мотив, локус) длина сканирующего окна и порог МПВ были фиксированы, однако порог на статистическую значимость кластера в некоторых случаях зависел от конкретного локуса и мотива. После оптимизации по 60 регуляторным областям были получены оптимальные значения, приведенные в Таблице 2. Видно, что окно длиной 575 приводит к удовлетворительным результатом для девяти мотивов. Кроме того, положительным результатом является то, что оптимальный порог на МПВ для всех факторов соответствует вероятности появления приблизительно одного вхождения мотива на тысячу пар оснований. При использовании этих оценок длины окна и порога по МПВ оказалось возможным просканировать все имеющиеся локусы МПВ для всех имеющихся факторов и построить приблизительную сеть генетической регуляции. Результаты сканирования всех имеющихся локусов приведены в таблице 2. Как видно из таблицы 2 гомотопические кластеры мотивов связывания позволяют предсказать регуляторные модули далеко не для всех факторов. Если для материнских градиентов и для gap-генов получается достаточно хорошее предскание, то предсказание для генов paired-rule уже значительно уступает по качеству.

Любопытно, что даже в случае факторов Bed и Cad, для которых получаются весьма удовлетворительные предсказания, существуют локусы, в которых ЦРМ предсказываются весьма плохо. Так, из таблицы 2 видно, что для большинства локусов, зависимых от Bed, для которых средние характерные значения корреляций имеют порядок 0,6-0,7, получаются очень плохие предсказания в генах otd и til. Аналогично, для Cad наблюдается блестящая корреляция в локусах gt и til, но отсутствует корреляция в локусах

sal, en и ftz. Следует отметить, что регуляция otd посредством Bed была показано экспериментально (Ochoa-Espinosa, 2005), так что в этом случае приходится говорить о истинном недопредсказании метода.

Использование программы кластеризации для предсказания регуляторпых элементов в геномах и анализа их структуры

Набор програмных скриптов CLUSTER (Lifanov, 2003), в котором реализован алгоритм, описанный выше, использовался рядом исследователей для предсказания положения регуляторных модулей в геномах и анализа их структуры. В частности, с помощью описываемой программы был предсказан ряд регуляторных модулей, в частности модуль, регулируемый Bed в гене gt, что в дальнейшем подтвердилось в экспериментальном исследовании. Полное сканирование генома показало, что в полном геноме существует 14 сильных кластеров Bed из которых для 11 была показала Bed-зависимая регуляторная активность (Ochoa-Espinosa, 2006).

Таким образом использование кластеризации мотивов связывания регуляторных белков позволило удвоить число известных ЦРМ, зависящих от Bed. В таблице 3, взятой из этой работы приводятся точные координаты новых энхансеров, зависящих от Bed, найденных с помощью нашей программы кластеризации мотивов.

Другое возможное приложение описанного алгоритма - анализ структуры кластеров мотивов, присутствующих в различных регуляторных модулях. Очевидно, что одно и то же значение статистической значимости кластера можно обеспечить различными способами. Во-первых, кластер может включать в себя небольшое количество сильных сайтов связывания регуляторного белка, во-вторых, кластер может содержать большое число сайтов, с небольшими значениями веса, расчитанного с помощью МПВ.

PWM score cutoff

Рисунок 5. Поиск максимума корреляции между положением кластеров мотивов связывания Bicoid и положеним зависимых от Bicoid ЦРМ в последовательностях восьми генов. Тоном показано значение коэффициента ассоциации Пирсона (СС). Ось X: значения порога по МПВ. Ось Y: размер сканирующего окна. Панели - порог по статистической значимости кластеров: (А) Р=О.ОО05; (В) Р=0.001; (С) Р=0.005. Максимальное значение достигается при пороге МПВ 4.2, длине окна 550 и.о., и пороге статистической значимости кластера 0.0005.

В работе (Berg, von Hippel, 1982) было показано, что вес сайта по МПВ коррелирует с аффинностью этого участка ДНК к соответствующему регуляторному белку, а кластер ССТФ выполняет свою функцию при условии посадки молекул регуляторного белка на достаточно большое количество связывающих ССТФ. Таким образом наличие гомотопического кластера сайтов обеспечивает большую суммарную аффинность к кооперативно взаимодействующим регуляторным белкам.

В этом случае энхансер, содержащий небольшое число сильных сайтов, будет работать как при высоких, так и при низких концентрациях

регуляторного белка. В то же время, энханеер, содержащий большое число слабых сайтов будет работать только при высоких концентрация регуляторного белка и не будет работать при его низких концентрациях. Таким образом структура кластера ССТФ может быть использована для анализа фунций конкретного регуляторного элемента.

Такой анализ был проведен, и, действительно, подтвердился экспериментально (Clyde et al. 2005). В этой работе, в частности было показано, что четыре полосы экспрессии гена even-skipped управляются всего двумя энхансерами, реагирующими на встречные градиенты двух регуляторных белков НЬ, и Kni (белок Kni экспрессируется в средней части эмбриона, а белок НЬ на полюсах). Энханеер eve3-7 содержит слабые сайты связывания НЬ и сильные сайты связывания Kni. Поскольку оба белка являются репрессорами, под управлением этого энхансера ген even-skipped экспрессируется ближе к полюсам, в области, где концентрация НЬ заметна, но не достаточно велика, чтобы вызвать ответ кластера слабых сайтов. В то же время сильные сайты в кластере мотивов связывания Kni не позволяют энхансеру eve3+7 запускать экспрессию even-skipped в области хоть сколько-нибудь заметных концентраций Kni в районе центральной области эмбриона. Обратная картина наблюдается в случае запуска гена even-skipped в экспрессию благодаря взаимодействию с энхансером eve4+6. Этот энханеер содержит сильные сайты связывания НЬ и слабые сайты связывания Kni. Поэтому, под управлением этого энхансера ген even-skipped запускается в экспрессию в области приближающейся к средней области эмбриона.

Поскольку таким образом образуется по две полосы с переднего и с заднего конца эмбриона, оказывается, что градиентов концентрации всего двух белков достаточно для того, чтобы определить восемь границ четырех полос экспрессии even-skipped\ В работе (Clyde 2005) приведены экспериментальные данные по генной инженерии сайтов в энхансерах eve4+6

и eve3+7. Изменение силы сайтов этих энхансерах приводило к смещению положения полос экспрессии гена even-skipped.

Ген и ЦРМ Длина Местоположение

hb Р2 243 Okb 5'

Кг CD1 730 3 kb 5'

kni 1,019 1,2 kb 5'

til 1,036 1.5 kb 3'

gti 787 6 kb 5' '

gt23 1,213 10 kb 5'

btd 1,080 3 kb 5'

otd early 925 3.3 kb 5'

salBE 421 10 kb 5'

bowl 388 2nd intron

hairyO 470 8 kb 3'

hairy2 1,080 8.5 kb 5'

hairy7 932 9.5 kb 5'

evel 788 5.5 kb 5'

eve2 488 1 kb 5'

slpA 372 1 kb5' of slp1

sIpB 793 2 kb 3' of slp1

7 kb 3' of slp2

prd 1,400 1 kb 3'

D/fsh 748 2 kb 3'

Таблица 3. Предсказание местоположения энахансеров (ЦРМ), зависимых от Bed в окресностях различных генов с помощью метода, разработанного в диссертации.

Приведенены экспериментальные данные , полученные в работе [Ochoa-Espinosa et al. PNAS, 102,4960], совпадающие с предсказаниями

eve 3+7 eve 4+6

Рисунок 6 Регуляция экспрессии гена eve с помощью градиентов НЬ и Kni. Внизу: карта локуса гена eve. (А). Распределение г радиентов НЬ и Kni и паттерн экспрессии eve. Экспрессия eve в пределах полос, соединненных скобкой eve3+7n eve4+6 управляется соответствующими энхансерами. (В). Кластеры мотивов, распознающих НЬ. Виден сильный кластер в районе энхансера, управляющего «внутренними» полосами 4 и 6, и более слабый кластер более слабых сайтов в энхансере, управляющем внешними полосами 3 и 7. (С) Тоже для Kni. Сильный кластер присутствует только в эихансере, отвечающем за экспрессию в полосах 3 и 7.

Фактор ВСО CAD KR HG ABDB KNI GT PRD EN TLL TTK FTZ

Порог МПВ 4.2 4.8 4 6.5 5.4 3.6 7 7.5 4 4.3 3.6 4.3

Порог Ркп 4 * 104 1.2 *103 2.3 *103 4.4 *103 2.3 *103 1.1 *102 1.1 '102 4.1 *102 3*10' 1.4 *102 4.4 * 10A3 6*10"

Локус

abda 0.05 0.275

bid 0.918 0.07 0.09

dll

ems 0.771 0

en 0 0.623

eve 0.547 0.459 0.246 0.413 0.544 0.656.

ftz 0 0.493 0.406

gsb 0.665

gt 0.93 0.754 0.438

hairy 0.779 0.376 0.476 0.1

hb 0.417 0.758 0.684

kni 0.62 0.404 0.933 0.4

kr 0.702 0.06 0.615 0.325 .

otd 0.06

Таблица ^Сравнение положения гомотипических кластеров мотивов связывания регуляторных белков и экспериментально определенных ЦРМ для различных энхансеров. Пустые клетки соответствуют генам, для которых не показана зависимость от конкретного (Ьактооа.

Выводы

1. Установлены специфические особенности последовательностей ДНК, определяющие архитектуру взаимодействия ДНК с белковым фактором и обеспечивающие иерархическую организацию компонент генома.

2. Оценена вероятность разномасштабных флуктуации первичной структуры в модельной случайной последовательности ДНК, в результате которых самопроизвольно возникают участки специфического связывания регулятор ных белков.

3. Проведена сегментация последовательности генома на разных масштабах на участки, однородные по своему нуклеотидному составу. Сегментация осуществлялась с помощью вычисления статсуммы всевозможных разбиений последовательности на сегменты, что позволило выявить участки ДНК, которые могут быть описаны статистическими моделями.

4. Локализованы участки ДНК, соответствующие специфическому взаимодействию с регуляторными белками-факторами. Большая точность локализации достигнута за счет учета симметрии структуры ДНК-белок, при взаимодействии с регуляторным фактором в форме димера.

5. Проведена идентификация регуляторных сегментов ДНК (промоторы и энхансеры) как участков ДНК, имеющих высокую афинность к кооперативно связывающимся белковым факторам.

6. Показано, что кооперативность взаимодействия регуляторных факторов с ДНК позволяет сформировать сложную картину экспрессии генов в пространстве развивающейся личинки ПгоноркПа, под управлением трехмерных градиентов небольшого числа регуляторных белков.

Публикации по теме работы

1. Полишук М.С., Хайнцель, А., Фаворов А.В., Макеев В.Ю. Сравнительный анализ участков связывания белков-регуляторов транскрипции в раннем развитии Drosophila Melanogaster, определенных методом ChIP-chip, и вычислительно предсказанных кластеров сайтов связывания этих белков. Биофизика. 2008, 53(5):754-7

2. Bogush YG, Sokolova OS, Davydova LI, Klinov DV, Sidoruk KV, Esipova NG, Neretina TV, Orchanskyi IA, Makeev VY, Tumanyan VG, Shaitan KV, Debabov VG, Kirpichnikov MP. A novel model system for design of biomaterials based on recombinant analogs of spider silk proteins. J Neuroimmune Pharmacol. 2009 Mar;4(l): 17-27.

3. Лифанов А.П., Власов П.К., Макеев В.Ю., Есипова Н.Г. Нуклеосомный повтор и расположение экзонов и интронов в генах коллагенов типов I и VII Биофизика. 2008, 53(3):524-8.

4. Рахманов C.B., Макеев В.Ю. Использование невзаимодействующих проб в пространстве белковой структуры для построения статистических потенциалов межатомного взаимодействия Биофизика, 2008; 53(3):389-96.

5. Britanova LV, Makeev VJ, Kuprash DV. In vitro selection of optimal RelB/p52 DNA-binding motifs. Biochem Biophys Res Commun. 2008 Jan 18;365(3):583-8.

6. Boeva V, Clément J, Régnier M, Roytberg MA, Makeev VJ. Exact p-value calculation for heterotypic clusters of regulatory motifs and its application in computational annotation of cis-regulatory modules. Algorithms Mol Biol. 2007 Oct 10;2:13.

7. Enikeeva FN, Kotelnikova EA, Gelfand MS, Makeev VJ. A model of evolution with constant selective pressure for regulatory DNA sites. BMC Evol Biol. 2007 Jul27;7:125.

8. Rakhmanov SV, Makeev VJ. Atomic hydration potentials using a Monte Carlo Reference State (MCRS) for protein solvation modeling. BMC Struct Biol. 2007 Mar 30;7:19.

9. В.А. Боева, М.В. Фридман, В.Ю. Макеев Эволюция микро- и мнинисателлитов в геноме человека. Биофизика. 2006, 51:650-655.

10. Е.Д.Ставровская, В.Ю.Макеев, А.А.Миронов CLUSTERTREE-RS: алгоритм кластеризации регуляторных сигналов с помощью бинарного дерева. Молекулярная биология. 2006, 40: 524-532.

11.Malko DB, Makeev VJ, Mironov AA, Gelfand MS. Evolution of exon-intron structure and alternative splicing in fruit flies and malarial mosquito genomes. Genome Res. 2006 Apr;16(4):505-9. Epub 2006.

12. Boeva V, Regnier M, Papatsenko D, Makeev V. Short fuzzy tandem repeats in genomic sequences, identification, and possible role in regulation of gene expression. Bioinformatics. 2006 Mar 15;22(6):676-84.

13.Favorov AV, Gelfand MS, Gerasimova AV, Ravcheev DA, Mironov AA, Makeev VJ. A Gibbs sampler for identification of symmetrically structured, spaced DNA motifs with improved estimation of the signal length. Bioinformatics. 2005 May 15;21(10):2240-5..

14. Kotelnikova EA, Makeev VJ, Gelfand MS. Evolution of transcription factor DNA binding sites. Gene. 2005 Mar 14;347(2):255-63.

15. Tompa M, Li N, Bailey TL, Church GM, De Moor B, Eskin E, Favorov AV, Frith M С, Fu Y, Kent WJ, Makeev VJ, Mironov AA, Noble WS, Pavesi G, Pesole G, Régnier M, Simonis N, Sinlia S, Thijs G, van Helden J, Vandenbogaert M, Weng Z, Workman C, Ye C, Zhu Z. Assessing computational tools for the discovery of transcription factor binding sites. Nat Biotechnol. 2005,(1): 137-44.

16.Рагулина, Л.Е., Макеев, В.Ю., Есипова, Н.Г., Туманян, В.Г., Богуш, В.Г., Дебабов В.Г. Анализ вторичных структур спидроинов первого и второго типов из пауков, принадлежащих различным видам. Биофизика, 2004;49(6): 1147-9.

17. Рагулина, Л.Е., Макеев, В.Ю., Есипова, Н.Г., Туманян, В.Г., Никитин, A.M., Богуш, В.Г., Дебабов В.Г.Исследование периодичностей в

последовательностях аминокислот спидроинов первого и второго типов из пауков различных видов. Биофизика, 2004, 49(6) 1053-60

18. Kattenhorn LM, Mills R, Wagner M, Lomsadze A, Makeev V, Borodovsky M, Ploegh HL, Kessler BM. Identification of proteins associated with murine cytomegalovirus virions. J Virol. 2004 0ct;78(20): 11187-97.

19. Makeev VJ, Lifanov AP, Nazina AG, Papatsenko DA. Distance preferences in the arrangement of binding motifs and hierarchical levels in organization of transcription regulatory information. Nucleic Acids Res. 2003 Oct 15;31(20):6016-26.

20. Kalinina OV, Makeev VJ, Sutormin RA, Gelfand MS, Rakhmaninova AB. The channel in transporters is formed by residues that are rare in transmembrane helices. In Silico Biol. 2003;3(l-2):197-204.

21. Vandenbogaert M, Makeev V. Analysis of bacterial RM-systems through genome-scale analysis and related taxonomy issues. In Silico Biol. 2003;3(1-2): 127-43. Epub2003.

22. Lifanov AP, Makeev VJ, Nazina AG, Papatsenko DA. Homotypic regulatory clusters in Drosophila. Genome Res. 2003 Apr;13(4):579-88.

23. Кравацкая, Г.И., Франк, Г.К., Макеев, В.Ю., Есипова Н.Г. Сходство периодических структур в расположении нуклеотидов на участках начала репликации бактериальных геномов. Биофизика. 2002. 47(4):595-9.

24. Papatsenko DA, Makeev VJ, Lifanov AP, Régnier M, Nazina AG, Desplan С.Extraction of functional binding sites from unique regulatory regions: the Drosophila early developmental enhancers. Genome Res. 2002 Mar;12(3):470-81.

25.Ramensky VE, Makeev VJ, Roytberg MA, Tumanyan VG. Segmentation of long genomic sequences into domains with homogeneous composition with BASIO software. Bioinformatics. 2001 Nov; 17(11): 1065-6..

26. Ramensky VE, Makeev VJu, Roytberg MA, Tumanyan VG. DNA segmentation through the Bayesian approach. JComputBiol. 2000 Feb-Apr;7(l-2):215-31.

27. Есипова Н.Г., Кутузова Г.И., Макеев В.Ю., Франк Г.К., Баландина А.В., Камашев Д.Э., Карпов B.JI. Анализ особенностей распределения нуклеотидов на участке начала репликации хромосомы oriC из Е. coli. Биофизика, 2000, т. 45, № 3, с. 432-438.

28. Кривенцева Е.В., Макеев В.Ю., Гельфанд М.С. Статистический анализ экзон-интронной структуры генов высших эукариог. Биофизика, т. 44, № 4, 1999, с. 595-600.

29. Кутузова, Г.И., Франк, Г.К., Есипова, Н.Г., Макеев, В.Ю., Полозов Р.В. Периодичности в контактах РНК-полимеразы с промоторам. Биофизика, 1999 Маг-Арг;44(2):216-23.

30. Frank GK, Makeev VJ. G and T nucleotide contents show specie-invariant negative correlation for all three codon positions. J Biomol Struct Dyn. 1997 Apr;14(5):629-39.

31. Кутузова Г.И., Франк Г.К., Макеев В.Ю., Есипова Н.Г., Полозов Р.В. Фурье-анализ нукле-отидных последовательностей. Периодичности в промоторных последовательностях Ecoli. Биофизика, 1997, 42(2):354-62..

32. Makeev V.Ju, Tumanyan VG. Search of periodicities in primary structure of biopolymers: a general Fourier approach. Comput Appl Biosci. 1996, 12:49-54.

33. Макеев В.Ю., Франк Г.К., Туманян В.Г. Статистика периодических закономерностей в последовательностях интронов человека М., Наука. Биофизика, том 41, вып. 1., 1996.

34. Makeev V.Ju, Tumanyan VG, Esipova NG. The third nucleotide of the Gly coding triplet remembers the periodicity of the collagen chain. FEBS Lett. 1995; 366(l):33-6.

35. Макеев В.Ю., Туманян В.Г. О связи методов автокорреляционной функции и дискретного анализа Фурье при анализе биологических последовательностей. Биофизика, 1994,

36. Макеев В.Ю. Стохастический резонанс и его возможная роль в живой природе. Биофизика, 1993,38, 1, ст. 194.

Подписано в печать 15 июля 2009 г.

Формат 60x90/16

Объём 2 п.л.

Тираж 100 экз.

Заказ № 180909243

Оттиражировано на ризографе в ООО «УниверПринт» ИНН/КПП 7728572912У772801001

Адрес: 119333, г. Москва, Университетский проспект, д. 6, кор.

Тел. 740-76-47, 989-15-83.

http://wvw.univerprint.ru

Содержание диссертации, доктора физико-математических наук, Макеев, Всеволод Юрьевич

Содержание.

1. Введение.

1.1. Предмет, объект и метод исследования. Актуальность проблемы.

1.1.1. Цель и задачи исследования.

1.1.2. Научная новизна и практическая ценность работы.

1.1.3. Основные положения, выносимые на защиту.

1.1.4. Практическое значение работы.

1.1.5. Апробация работы.

1.1.6. Публикации.

2. Обзор литературы. Задача об управлении экспрессией генов в эмбриональном развитии £). melanogaster. Анализ нуклеотидых последовательностей регуляторных сегментов ДНК.

2.1. Экспериментальные данные, содержащиеся в открытом доступе, и их использование для анализа регуляторных областей.

2.1.1. Данные, полученные методами высокотехнологичной молекулярной биологии.

2.1.2. Базы данных, аккумулирующие сведения о мухах Бго8орЫ1ае.

2.1.3. Определяющая роль регуляции генов в формировании морфологических различий.

2.1.4. Физико-химические предпосылки методов анализа генетических текстов, и роль этих методов для решения проблем молекулярной биологии

2.2. Строение сегментов'молекулы ДНК, выполняющих регуляторную функцию.

2.3. Система энхансеров управляющих ранним развитием ОгозорИПа ше1ап

§аз1ег, как полигон для исследования строения последовательностей цис-регуляторных элементов.

2.4. Текстовые мотивы в последовательностях биополимеров и в случайных текстах.

2.5. Математические методы описания встречаемости мотивов в текстовых последовательностях.

2.5.1. Основные термины.

2.5.2. Представления мотивов.

2.5.3. Выделение оптимального мотива из множества последовательностей

2.5.4. Наиболее известные алгоритмы поиска мотивов.

2.6. Экспериментальные данные, позволяющие получать информацию об участках ДНК, взаимодействующих с регуляторными белками.

2.7. Статистический анализ встречаемости нескольких вхождений мотивов в последовательности протяженной регуляторной области.

2.7.1. Статистическая значимость нескольких одновременных вхождений мотива в случайный текст.

2.8. Вероятностное описание случайных последовательностей, содержащих фиксированное число вхождений заданного мотива в случайный текст.

2.8.1. Регулярные языки.

2.8.2. Вычисление математического ожидания числа появлений мотива в случайной последовательности длины п.

2.9. Выбор оптимальной случайной модели последовательности ДНК, хорошо приближаемой последовательностью независимых случайных испытаний.

3. Использование метода регулярных языков для вычисление статистических характеристик числа вхождений мотива, встреченных в случайной последовательности.

3.1. Явный вид производящей функции и вычисление математического ожидания.

3.2. Вычисление моментов через производящие функции.

3.3. Дифферецирование производящей функции для текста, порожденного последовательностью независимых случайных испытаний.

3.3.1. Вычисление вклада неперекрывающихся вхождений слов-компонент мотива в элемент матрицы ковариаций.

3.3.2. Последовательность независимых случайных испытаний. Вычисление вклада перекрывающихся мотивов.

3.3.3. Полные формулы для матрицы ковариации компонент мотива и дисперсии числа встреченных мотивов в случае текста, порожденного последовательностью независимых случайных испытаний.

3.3.4. Обсуждение выражения для дисперсии числа встреч мотива.

3.4. Вычисление дисперсии и ковариации числа встреч мотива в случае порождающего текста, являющегося цепью Маркова первого порядка.

4. Алгоритмическое вычисление Р-значепия для вероятности последовательности, содержащей минимальные количество встреч каждого мотива из заданного набора мотивов.

4.1. Конструкция Ахо-Корасик.

4.2. Текст, порожденный последовательностью случайных испытаний. Вероятность появления как минимум одного вхождения данного мотива.

4.3. Вероятность появления как минимум заданного числа вхождений мотива в текст, прожденный последовательностью независимых случайных испытаний.

4.4. Особенности практической реализации.

4.5. Вероятность найти как минимум данное число встреч для множества мотивов в тексте, порожденном последовательностью независимых случайных испытаний.

4.6. Представление мотива, заданного в виде комбинации матрицы позиционных весов и порога, в виде бора.

Введение Диссертация по биологии, на тему "Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК"

1.1. Предмет, объект и метод исследования. Актуальность проблемы

Развитие методов современной экспериментальной биологии позволило подойти вплотную к пониманию того, как происходит реализация наследственной информации в живом организме. Живой организм устроен во многом сходным образом с вычислительной системой и с логической точки зрения состоит из двух составных частей, возобновляющихся в каждом поколении. Одна из этих частей — это геном, несущий большие объемы информации в закодированном виде; физическим носителем этой информации являются молекулы ДНК. Другой «частью» является остальной клеточный аппарат (для многоклеточных — аппарат организменный), служащий для декодирования, реализации и воспроизводства наследственной информации, включая и физическое воспроизводство генома.

Эти две составные части существуют достаточно независимо друг от друга: все успехи генной инженерии основываются на том, что средства реализации программы одного организма молено заставить работать с информацией, взятой из другого организма, и даже синтезированной заново. С ростом сложности организма специфичность соответствия генома и реализующего наследственную информацию аппарата, в общем, усиливается, поэтому генетические манипуляции с высшими многоклеточными существенно более сложны, чем таковые с более просто устроенными организмами. Это явление является главным препятствием промышленной генной инженерии с использованием клеточного материала млекопитающих, а также генной терапии наследственных болезней.

Первичная структура генома, т.е. структурная формула молекулы ДНК в настоящее время известна для многих организмов (более тысячи видов бактерий и около сотни эукариот). Знание первичной структуры генома позволяет получить информацию о структурах большого количества белков с достаточно высокой надежностью. Однако, жизнедеятельность организмов связана в первую очередь с взаимодействием биомакромолекул между собой. Биомакромолекулы постоянно синтезируются и деградируют в клетке, в разные моменты времени, разные наборы биомакромолекул присутствуют в одной и той же клетке и в разных клетках многоклеточного организма.

Современные технологии позволяют достаточно полно охарактеризовать набор типов биомакромолекул, одновременно присутствующих в клетке. Имеются данные о наличии в клетке различных типов мРНК, т.е. данные по экспрессии генов (публично доступны сотни наборов данных для тысяч генов). Исследования, полученные методом масс-спектрометрии, позволили получить информацию о наличии в клетке тех или иных типов белковых молекул. Современные технологии позволяют также получить сведения о взаимодействии различных белков между собой. Во многих случаях эта информация может быть связана с различными физиологическими процессами в клетке и в организме, в частности, с развитием различных патологий. В то же время, информация о том, каким образом происходит управление процессами синтеза и деградации различных биомакромолекул, в частности, до сих пор нет четкой картины ключевого процесса управления экспрессией различных генов.

Понимание природы молекулярных явлений, лежащих в основе процессов синтеза и деградации определенных биомакромолекул, необходимо для решения классических проблем молекулярной биологии, таких как детальное описание механизмов контроля клеточного деления и дифференцировки клеток, включая механизмы тканеобразования. В настоящее время получены значительные массивы различных экспериментальных данных, что дает надежду на продвижение в решении упомянутых классических проблем. Одной из непосредственных задач является систематизация и сопоставление данных, полученных различными экспериментальными методами.

Объемы данных, доступных для изучения в настоящее время, чрезвычайно велики. Для понимания межмолекулярных взаимодействий необходимо знать как структуру индивидуальных макромолекул, так и возможную комбинаторику их взаимодействий. Примерная оценка может быть построена следующим образом. Геномная ДНК человека содержит приблизительно 3*109 мономеров, в клетке одновременно находится около как минимум 5*103 различных молекул РНК, каждая из которых имеет длину около 5*103 мономеров. Кроме того, в клетке имеется около о

5*10 разных белков, каждый из которых имеет длину около 500 аминокислот.

9П

Таким образом возможно как минимум 10 комбинаций контактов различных макромолекул и это без учета пространственных конформаций макромолекул. Большая часть этих контактов, однако, никогда не реализуется в природе. Тем не менее, считая, что ДНК функционально взаимодействует как минимум с 5000 белками и РНК, возможно около 1015 типов контактов. Существующие методики позволяют получить данные, по объему приближающиеся к этому числу. Например, один эксперимент СЫР-5едиепст§ дает информацию относительно 4-109 нуклеотидов [1], при этом в мире существуют десятки центров, в которых производятся эксперименты этого типа.

Для систематизации известных данных используются методы вычислительной биологии или биоинформатики. Может создаться впечатление, что оцененные выше объемы данных не позволяют никакой конструктивной обработки, однако, по-видимому, это не так. Объемы памяти современных компьютеров — порядка терабайт - т.е. 1012. Эта величина меньше на три порядка меньше, чем меньшая из оценок, но поскольку компьютеры объединяются в сеть, содержащую миллионы компьютеров то очевидно можно превзойти 1015 и приблизиться к объему 10 . Таким образом, амбициозная задача биоинформатики — описать живое на молекулярном уровне по крайней мере не ограничивается памятью доступных вычислительных средств.

При работе с данными подобных масштабов использование вычислительной техники в биологии является необходимым условием экспериментальной работы, на всех этапах проведения биологического эксперимента, а именно: при планировании эксперимента, получении экспериментальных результатов, и предоставлении этих экспериментальных результатов мировому научному сообществу [2]. Только вычислительные методы позволяют использовать результаты высокозатратных индустриальных биологических проектов для продвижения в решении фундаментальных проблем молекулярной биологии, а также разработки эффективных технологий в области биотехнологии, фармакогеномики, и индивидуальной медицины, включая молекулярную диагностику.

Особенностью современной науки является то, что огромные массивы данных находятся в открытом доступе и доступны для анализа. Несмотря на то, что при всех экспериментальных центрах имеются биоинформатические лаборатории, справиться с нарастающим потоком данных можно только совместными усилиями мирового научного сообщества. Поэтому в настоящее время имеется уникальная возможность вклада в мировой научный прогрессе путем анализа экспериментальных данных, доступных в открытых источниках.

Следует отметить, что вычислительное исследование данных, полученных с помощью индустриальных методов современной молекулярной биологии, является одним из самых интересных исследовательских предприятий нашего времени. За всю свою историю научные исследования никогда не располагали средствами такой мощи для переработки информации, никогда не сталкивались с необходимость переработки информации такого объема, приходящей из различных источников, и никогда искомый результат не был до такой степени загадочным. В отличии от близких задач распознавания речи или радиолокационных сигналов, а также от анализа данных социологической природы, в биоинформатических задачах исследователь часто имеет очень слабое представление о том, какое, собственно явление он планирует пронаблюдать. Поэтому, кроме анализа собственно экспериментального материала важнейшую роль играет формулировка естественнонаучных предположений, и оценка статистических зависимостей, присутствующих в экспериментальном материале, и позволяющих отвергнуть или принять естественнонаучные гипотезы. Все это приводит к тому, что вычислительная биология становится полигоном для применения сложных статистических методов анализа данных и оценки гипотез. Разработке подобных методов и посвящена настоящая работа.

Биологической темой настоящей работы является анализ регуляции инициации транскрипции у про- и эукариот, причем с большим смещением акцента в сторону задач, возникающих при изучении эукариот. Инициация транскрипции является первичным процессом взаимодействия генома с декодирующей его машиной и не исключено, что, процессы, происходящие при инициации транскрипции должны быть ответственны за определенную долю совместимости геномной последовательности и считывающего аппарата клетки. Прогресс в понимании этих вопросов может найти полезные приложения в биотехнологии и индивидуальной медицине. Кроме того, поскольку транскрипция является первой стадией реализации генетической информации, более глубокое понимание процесса инициации транскрипции может послужить прогрессу в области контроля над формированием функциональных особенностей клеток, в частности формирования и поддержания дифференцировки тканей. Действительно, зрелые дифференцированные ткани отличаются в первую очередь различными наборами постоянно экспрессирующихся в них генов. В наиболее широком смысле целью настоящего исследования является ответ на вопрос, сформулированный еще Тимофеевым-Ресовским как основной вопрос молекулярной биологии: «чем объясняется присутствие тех или иных биологических молекул в данном месте клетки или ткани в данное время».

В качестве объекта исследования выбраны последовательности нуклеотидах в геномах. Такой выбор имеет ряд технических преимуществ. Во-первых, ДНК-тексты дискретны и однозначны, достаточно просто определить, где в последовательности находится та или иная буква. При современном уровне технологий секвенирования число ошибок в последовательностях не превышает как максимум одной ошибки на пять тысяч оснований [3]. Этим уровнем можно пренебречь при решении различных задач, в частности описанных в настоящей работе. Во-вторых, современные методы секвенироване относительно дешево, а поэтому в открытом доступе имеются последовательности геномов тысяч видов прокариот и сотен видов эукариот. В третьих, геном является одномерной структурой, поэтому молекула гетерополимера ДНК могут рассматриваться как текст, составленный из символов — мономеров разных типов нуклеотидов. Анализ на уровне текста ДНК, как выясняется, позволяет понять значительное число эффектов, связанных с инициацией транскрипции на молекулярном уровне. С практической точки зрения анализ текстов ДНК позволяет сформулировать ряд решений, позволяющих повысить эффективность генноинженерных манипуляций с геномами эукариот. В то же время, анализ эффектов, связанных с трехмерными структурами биополимеров в настоящее время затруднен в виду значительно меньшего объема достоверных данных.

Основным методом исследования является анализ экспериментальных данных различной природы с помощью вычислительных методов. Если основной целью настоящей работы является понимание механизмов переключения генов то конкретной целью настоящей работы можно считать разработку и применение вычислительных методов, позволяющих показать, какие именно сегменты ДНК несут регуляторную нагрузку, и какие факторы белковой природы действуют на эти регуляторные сегменты, вызывая переключение экспрессии конкретных генов. В работе используется широкий арсенал математических методов анализа последовательностей. В частности, это методы сравнительного анализа последовательностей, грамматический анализ, т.е. анализ структурных закономерностей в последовательностях, распознавание характерных образов в последовательностях, а также оценка надежности найденных закономерностей путем построения статистических критериев, основывающихся на вычислении вероятности возникновения наблюдаемых закономерностей в случайных последовательностях, порожденных различными случайными моделями.

Важной задачей настоящей работы является нахождение участков ДНК, участвующих в работе механизмов, управляющих переключением генов. Для решения вопросов, связанных с пространственной структурой и физикой взаимодействия элементов регуляторных комплексов прежде всего надо знать какие именно сегменты ДНК несут регуляторную нагрузку и какие факторы белковой природы действуют на эти регуляторные сегменты, вызывая переключение экспрессии конкретных генов.

Заключение Диссертация по теме "Биофизика", Макеев, Всеволод Юрьевич

8. Выводы

2. Оценена вероятность разномасштабных флуктуаций первичной структуры в модельной случайной последовательности ДНК, в результате которых самопроизвольно возникают участки специфического связывания регуляторных белков.

6. Показано, что кооперативность взаимодействия регуляторных факторов с ДНК позволяет сформировать сложную картину экспрессии генов в пространстве развивающейся личинки Огояоркйа, под управлением трехмерных градиентов небольшого числа регуляторных белков.

9. Благодарности

Я неоценимо обязан своим учителям Натальи Георгиевне Есиповой и Владимиру Гаевичу Туманяну за более чем 20 летнюю поддержку моего пути в науке. Я благодарю участников Московского семинара по биоинформатике, в первую очередь Михаила Сергеевича Гельфанда, Андрея Александровича Миронова и Михаила Абрамовича Ройтберга, неустанными трудами которых поддерживался и поддерживается уникальный научный климат московской биоинформатической школы. Эта работа не могла бы состояться без моих друзей, коллег и соавторов ключевых работ по теме регуляции генов, а именно Дмитрия Папаценко, который привлек меня к изучению вопросов связанных с регуляцией генов у Drosophila, и Александра Лифанова, создателя первых версий программного обеспечения. Я благодарю также своих коллег и соавторов Дмитрия Малько, Елизавету Пермину, Марину Фридман, Ивана Кулаковского, Юлию Медведеву, Сергея Рахманова, Александра Фаворова, Елену Ставровскую, Анну Герасимову, Ольгу Калинину, Екатерину Ермакову, Рамиля Нуртдинова, Дмитрия Равчеева, Алексея Неверова, Нику Опарину, Петра Власова, за их часто определяющий вклад в работу и дружескую и творческую атмосферу. Я благодарю Мирей Ренье за более чем 10 летнее сотрудничество с ENRIA и ключевые идеи в области вероятностных методов анализа последовательностей. Я благодарен сотрудникам Диссертационного совета Татьяне Александровне Преображенской и Геннадию Борисовичу Хомутову за внимание и долготерпение при подготовке диссертации к защите. Я также хочу поблагодарить всех коллег, способствующих созданию творческой атмосферы в научной среде.

10. Публикации, содержащие материалы диссертации.

1. Полищук М.С., Хайнцель, А., Фаворов А.В., Макеев В.Ю. Сравнительный анализ участков связывания белков-регуляторов транскрипции в раннем развитии Drosophila Melanogaster, определенных методом ChIP-chip, и вычислительно предсказанных кластеров сайтов связывания этих белков. Биофизика. 2008, 53(5):754-7

2. Bogush VG, Sokolova OS, Davydova LI, Klinov DV, Sidoruk KV, Esipova NG, Neretina TV, Orchanskyi IA, Makeev VY, Tumanyan VG, Shaitan KV, Debabov VG, Kirpichnikov MP. A novel model system for design of biomaterials based on recombinant analogs of spider silk proteins. J Neuroimmune Pharmacol. 2009 Mar;4(l): 17-27.

5. Britanova LV, Makeev VJ, Kuprash DV. In vitro selection of optimal RelB/p52 DNA-binding motifs. Biochem Biophys Res Commun. 2008 Jan 18;365(3):583-8.

7. Enikeeva FN, Kotelnikova EA, Gelfand MS, Makeev VJ. A model of evolution with constant selective pressure'for regulatory DNA sites. BMC Evol Biol. 2007 Jul 27;7:125.

8. Rakhmanov SV, Makeev VJ. Atomic hydration potentials using a Monte Carlo Reference State (MCRS) for protein solvation modeling. BMC Struct Biol. 2007 Mar 30;7:19.

9. B.A. Боева, M.B. Фридман, В.Ю. Макеев Эволюция микро- и мнинисателлитов в геноме человека. Биофизика. 2006, 51:650-655.

11. Malko DB, Makeev VJ, Mironov AA, Gelfand MS. Evolution of exon-intron structure and alternative splicing in fruit flies and malarial mosquito genomes. Genome Res. 2006 Apr;16(4):505-9. Epub 2006.

13. Favorov AV, Gelfand MS, Gerasimova AV, Ravcheev DA, Mironov AA, Makeev VJ. A Gibbs sampler for identification of symmetrically structured, spaced DNA motifs with improved estimation of the signal length. Bioinformatics. 2005 May 15;21(10):2240-5.

14. Kotelnikova EA, Makeev VJ, Gelfand MS. Evolution of transcription factor DNA binding sites. Gene. 2005 Mar 14;347(2):255-63.

15. Tompa M, Li N, Bailey TL, Church GM, De Moor B, Eskin E, Favorov AV, Frith MC, Fu Y, Kent WJ, Makeev VJ, Mironov AA, Noble WS, Pavesi G, Pesole G, Régnier M, Simonis N, Sinha S, Thijs G, van Helden J, Vandenbogaert M, Weng Z, Workman C, Ye C, Zhu Z. Assessing computational tools for the discovery of transcription factor binding sites. Nat Biotechnol. 2005 Jan;23(l): 137-44.

16. Рагулина, Jl.E., Макеев, В.Ю., Есипова, Н.Г., Туманян, В.Г., Богуш, В.Г., Дебабов В;Г. Анализ вторичных структур спидроинов первого и второго типов из пауков, принадлежащих различным видам. Биофизика, 2004;49(6):1147-9.

17. Рагулина, JI.E., Макеев, В.Ю., Есипова, Н.Г., Туманян, В.Г., Никитин, A.M., Богуш, В.Г., Дебабов В.Г.Исследование периодичностей в последовательностях аминокислот спидроинов» первого и второго типов из пауков различных видов. Биофизика, 2004,49(6) 1053-60

19. Makeev VJ, Lifanov AP, Nazina AG, Papatsenko DA. Distance preferences in the arrangement of binding motifs and^ hierarchical levels in organization of transcription regulatory information. Nucleic Acids Res. 2003 Oct 15;31(20):6016-26.

20. Kalinina OV, Makeev VJ, Sutormin RA, Gelfand MS, Rakhmaninova AB. The channel in transporters is formed by residues that are rare in transmembrane helices. In Silico Biol. 2003;3(1-2): 197-204.

21». Vandenbogaert M, Makeev V. Analysis of bacterial RM-systems through genome-scale analysis and related taxonomy issues. In Silico Biol. 2003;3(l-2):127-43. Epub 2003.

22. Lifanov АР, Makeev VJ, Nazina AG, Papatsenko DA. Homotypic regulatory clusters in Drosophila. Genome Res. 2003 Apr;13(4):579-88.

24. Papatsenko DA, Makeev VJ, Lifanov АР, Régnier M, Nazina AG, Desplan С. Extraction of functional binding sites from unique regulatory regions: the Drosophila early developmental enhancers. Genome Res. 2002 Mar;12(3):470-81.

25. Ramensky VE, Makeev VJ, Roytberg MA, Tumanyan VG. Segmentation of long genomic sequences into domains with homogeneous composition with BASIO software. Bioinformatics. 2001 Nov;17(ll):1065-6.

26. Ramensky VE, Makeev VJu, Roytberg MA, Tumanyan VG. DNA segmentation through the Bayesian approach. J Comput Biol. 2000 Feb-Apr;7(l-2):215-31.

27. Есипова Н.Г., Кутузова Г.И., Макеев В.Ю., Франк Т.К., Баландина А.В., Камашев Д.Э., Карпов B.JI. Анализ особенностей распределения нуклеотидов на участке начала репликации хромосомы oriC из Е. coli. Биофизика, 2000, т. 45, № 3, с. 432-438.

28. Кривенцева Е.В., Макеев В.Ю., Гельфанд М.С. Статистический анализ экзон-интронной структуры генов высших эукариот. Биофизика, т. 44, № 4, 1999, с. 595600.

29. Кутузова, Г.И., Франк, Г.К., Есипова, Н.Г., Макеев, В.Ю., Полозов Р.В. Периодичности в контактах РНК-полимеразы с промоторами. Биофизика, 1999 Mar-Apr ;44(2) :216-23.

30. Frank GK, Makeev VJ. G and T nucleotide contents show specie-invariant negative correlation for all three codon positions. J Biomol Struct Dyn. 1997 Apr;14(5):629-39.

31. Кутузова Г.И., Франк Т.К., Макеев В.Ю., Есипова Н.Г., Полозов Р.В. Фурье-анализ нукле-отидных последовательностей. Периодичности в промоторных последовательностях Ecoli. Биофизика, 1997, 42(2):354-62.

32. Makeev VJu, Tumanyan VG. Search of periodicities in primary structure of biopolymers: a general Fourier approach. Comput Appl Biosci. 1996 Feb;12(l):49-54.

33. Макеев В.Ю., Франк Т.К., Туманян В.Г. Статистика периодических закономерностей в последовательностях интронов человека М., Наука. Биофизика, том 41, вып. 1., 1996.

34. Makeev VJu, Tumanyan VG, Esipova NG. The third nucleotide of the Gly coding triplet remembers the periodicity of the collagen chain. FEBS Lett. 1995; 366(l):33-6.

36. Макеев В.Ю. Стохастический резонанс и его возможная роль в живой природе. Биофизика, 1993, 38, 1, ст. 194.

Библиография Диссертация по биологии, доктора физико-математических наук, Макеев, Всеволод Юрьевич, Москва

1. Robertson, G., et al., Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat Methods, 2007. 4(8): p. 651-7.

2. Stein, L.D., Bioinformatics: alive and kicking Genome Biol, 2008. 9(12): p. 114.

3. Johnson, P.L. and M. Slatkin, Accounting for bias from sequencing error in population genetic estimates. Mol Biol Evol, 2008. 25(1): p. 199-206.

4. Tompa, M., et al., Assessing computational tools for the discovery of transcription factor binding sites. Nat Biotechnol, 2005. 23(1): p. 137-44.

5. Миронов, А. А., Н.П. Винокурова, and M.C. Гельфанд, Программное обеспечение анализа бактериальных геномов. Молекулярная биология, 2000. 34(2): р. 253-262.

6. Papatsenko, D.A., et al., Extraction of* functional binding sites from unique regulatory regions: the Drosophila early developmental enhancers. Genome Res, 2002. 12(3): p. 470-81.

7. Lifanov, A.P., et al., Homotypic regulatory clusters in Drosophila. Genome Res, 2003. 13(4): p. 579-88.

8. Makeev, V.J., et al., Distance preferences in the arrangement of binding motifs and hierarchical levels in organization of transcription regulatory information. Nucleic Acids Res, 2003. 31(20): p. 6016-26.

9. Kotelnikova, E.A., V.J. Makeev, and M.S. Gelfand, Evolution of transcription factor DNA binding sites. Gene, 2005. 347(2): p. 255-63.

10. Malko, D.B., et al., Evolution of exon-intron structure and alternative splicing in fruit flies and malarial mosquito genomes. Genome Res, 2006.16(4): p. 505-9.

11. Ochoa-Espinosa, A., et al., The role of binding site cluster strength in Bicoid-dependent patterning in Drosophila. Proc Natl Acad Sci USA, 2005.102(14): p. 4960-5.

12. Clyde, D.E., et al., A self-organizing system of repressor gradients establishes segmental complexity in Drosophila. Nature, 2003. 426(6968): p. 849-53.

13. Karolchik, D., et al., The UCSC Genome Browser Database: 2008 update. Nucleic Acids Res, 2008. 36(Database issue): p. D773-9.

14. Kyrpides, N.C., Genomes OnLine Database (GOLD 1.0): a monitor of complete and ongoing genome projects world-wide. Bioinformatics, 1999.15(9): p. 773-4.

15. Benson, D.A., et al., GenBank. Nucleic Acids Res, 2003. 31(1): p. 23-7.

16. Stoesser, G., et al., The EMBL Nucleotide Sequence Database: major new developments. Nucleic Acids Res, 2003. 31(1): p. 17-22.

17. Bock, C. and T. Lengauer, Computational epigenetics. Bioinformatics, 2008. 24(1): p. 1-10.

18. FlyBase, C., The Fly Base Database of the Drosophila Genome Projects and community literature. Nucleic Acids Res., 1999. 27(1): p. 85-88.

19. Ashburner, M., et al., Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet, 2000. 25(1): p. 25-9.

20. Levine, M. and R. Tjian, Transcription regulation and animal diversity. Nature, 2003. 424(6945): p. 147-51.

21. Berg, O.G. and P.H. von Hippel, Diffusion-controlled macromolecular interactions. Annu Rev Biophys Biophys Chem, 1985. 14: p. 131-60.

22. Polyanovsky, O.L. and A.G. Stepchenko, Eukaryotic transcription factors. Bioessays, 1990.12(5): p. 205-10.

23. Berg, O.G. and P.H. von Hippel, Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters. Journal of Molecular Biology, 1987. 193(4): p. 723-50.

24. Нечипуренко, Ю.Д., Кооперативные взаимодействия при связывании протяженных лигандов с ДНК. П. Контактные кооперативные взаимодействия между адсорбированными лигандами. Молекулярная биология, 1984.18: р. 1066 1079.

25. Нечипуренко, Ю.Д. and Г.В. Гурский, Анализ связывания белков и антибиотиков с фрагментами ДНК. . Доклады Академии Наук СССР, 1985. 281: р. 213-216.

26. Нечипуренко, Ю.Д., А.С. Заседателев, and Г.В. Гурский, Кооперативные взаимодействия при связывании протяженных лигандов с ДНК. 1 Неконтактные кооперативные взаимодействия. . Молекулярная биология, 1984.18: р. 798 812.

27. Hogan, M.E. and R.H. Austin, Importance of DNA stiffness in protein-DNA binding specificity. Nature, 1987. 329(6136): p. 263-6.

28. Berg, O.G., Selection of DNA binding sites by regulatory proteins. Functional specificity and pseudosite competition. J Biomol Struct Dyn, 1988. 6(2): p. 275-97.

29. Krogh, A., et al., Hidden Markov models in computational biology. Applications to protein modeling. J Mol Biol, 1994. 235(5): p. 1501-31.

30. Shivaswamy, S., et al., Dynamic remodeling of individual nucleosomes across a eukaryotic genome in response to transcriptional perturbation. PLoS Biol, 2008. 6(3): p. e65.

31. Latchman, D.S., Transcription factors: an overview. Int J Biochem Cell Biol, 1997. 29(12): p. 1305-12.

32. Latchman, Eukaryotic transcription factors. 1998, San Diego, CA: Academic Press.

33. Wimmer, E.A., et al., Trans- and cis-acting requirements for blastodermal expression of the head gap gene buttonhead. Mech Dev, 1995. 53(2): p. 235-45.

34. Wasserman, W.W. and A. Sandelin, Applied bioinformatics for the identification of regulatory elements. Nat Rev Genet, 2004. 5(4): p. 276-87.

35. Mismer, D., et al., Analysis of the promoter of the Rh2 opsin gene in Drosophila melanogaster. Genetics, 1988.120(1): p. 173-80.

36. Ohler, U., et al., Computational analysis of core promoters in the Drosophila genome. Genome Biol, 2002. 3(12): p. RESEARCH0087. Epub 2002 Dec 20.

37. Rogers, B.L. and G.F. Saunders, Transcriptional enhancers play a major role in gene expression. Bioessays, 1986. 4(2): p. 62-5.

38. Bornstein, P. and J. McKay, The first intron of the alpha 1(1) collagen gene contains several transcriptional regulatory elements. J Biol Chem, 1988. 263(4): p. 1603-6.

39. Halfon, M.S., S.M. Gallo, and C.M. Bergman, REDfly 2.0: an integrated database of cis-regulatory modules and transcription factor binding sites in Drosophila. Nucleic Acids Res, 2008. 36(Database issue): p. D594-8.

40. Rushlow, C. and M. Levine, Combinatorial expression of a ftz-zen fusion promoter suggests the occurrence of cis interactions between genes of the ANT-C. Embo J, 1988. 7(11): p. 3479-85.

41. Reinke, R. and S.L. Zipursky, Cell-cell interaction in the Drosophila retina: the bride of sevenless gene is required'in photoreceptor cell R8 for R7 cell development. Cell, 1988.55(2): p. 321-30.

42. Dearolf, C.R., J. Topol, and C.S. Parker, The caudal gene product is a direct activator of fushi tarazu transcription during Drosophila embryogenesis. Nature, 1989. 341(6240): p. 340-3.

43. Krasnow, M.A., et al., Transcriptional activation and repression by Ultrabithorax proteins in cultured Drosophila cells. Cell, 1989. 57(6): p. 1031-43.

44. Mismer, D. and G.M. Rubin, Definition of cis-acting elements regulating expression i of the Drosophila melanogaster ninaE opsin gene by oligonucleotide-directed mutagenesis.

45. Genetics, 1989.121(1): p. 77-87.

46. Moses, K., M.C. Ellis, and G.M. Rubin, The glass gene encodes a zinc-finger protein required by Drosophila photoreceptor cells. Nature, 1989. 340(6234): p. 531-6.

47. Stanojevic, D., T. Hoey, and M. Levine, Sequence-specific DNA-binding activities of the gap proteins encoded by hunchback and Kruppel in Drosophila. Nature, 1989. 341(6240): p. 331-5.

48. Fortini, M.E. and G.M. Rubin, Analysis of cis-acting requirements of the Rh3 and Rh4 genes reveals a bipartite organization to rhodopsin promoters in Drosophila' melanogaster. Genes & Development, 1990. 4(3): p. 444-63.

49. Ferretti, V., et al., PReMod: a database of genome-wide mammalian cis-regulatory module predictions. Nucleic Acids Res, 2007. 35(Database issue): p. D122-6.

50. Kinney, J.B., G. Tkacik, and C.G. Callan, Jr., Precise physical models of proteinDNA interaction from high-throughput data. Proc Natl Acad Sci USA, 2007. 104(2): p. 501-6.

51. Li, L., et al., Large-scale analysis of transcriptional cis-regulatory modules reveals both common features and distinct subclasses. Genome Biol, 2007. 8(6): p. R101.

52. Bulyk, M.L., DNA microarray technologies for measuring protein-DNA interactions. Curr Opin Biotechnol, 2006.17(4): p. 422-30.

53. Zhou, Q. and J.S. Liu, Extracting sequence features to predict protein-DNA interactions: a comparative study. Nucleic Acids Res, 2008. 36(12): p. 4137-48.

54. Euskirchen, G.M., et al., Mapping of transcription factor binding regions in mammalian cells by ChIP: comparison of array- and sequencing-based technologies. Genome Res, 2007.17(6): p. 898-909.

55. Hoey, T. and M. Levine, Divergent homeo box proteins recognize similar DNA sequences in Drosophila. Nature, 1988. 332(6167): p. 858-61.

56. Wolberger, C., Multiprotein-DNA complexes in transcriptional regulation. Annu Rev Biophys Biomol Struct, 1999. 28: p. 29-56.

57. Doe, C.Q., D. Smouse, and C.S. Goodman, Control of neuronal fate by the Drosophila segmentation gene even-skipped. Nature, 1988. 333(6171): p. 376-8.

58. Hoch, M., E. Seifert, and H. Jackie, Gene expression mediated by cis-acting sequences of the Kruppel gene in response to the Drosophila morphogens bicoid and hunchback. Embo J, 1991. 10(8): p. 2267-78.

59. Bender, W. and D.P. Fitzgerald, Transcription activates repressed domains in the Drosophila bithorax complex. Development, 2002.129(21): p. 4923-30.

60. Jeang, K.T. and G. Khoury, The mechanistic role of enhancer elements in eukaryotic transcription. Bioessays, 1988. 8(4): p. 104-7.

61. Basler, K. and E. Hafen, Specification of cell fate in the developing eye of Drosophila. Bioessays, 1991.13(12): p. 621-31.

62. Grad, Y.H., et al., Prediction of similarly acting cis-regulatory modules by subsequence profiling and comparative genomics in Drosophila melanogaster and D.pseudoobscura. Bioinformatics, 2004. 20(16): p. 2738-50.

63. Chandlee, J.M. and J.G. Scandalios, Regulatory gene action> during eukaryotic development. Adv Genet, 1987. 24: p. 73-125.

64. Davidson, E.H., et al., A genomic regulatory network for development. Science, 2002. 295(5560): p. 1669-78.

65. Desplan, C., J. Theis, and O.F. PH, The*sequence specificity of homeodomain-DNA interaction. Cell, 1988. 54(7): p. 1081-90.

66. Kel, O.V., et al., A compilation of composite regulatory elements affecting gene transcription in vertebrates. Nucleic Acids Res, 1995. 23(20): p. 4097-103.

67. Bulyk, M.L., et al., Exploring the DNA-binding specificities of zinc fingers with DNA microarrays. Proc Natl Acad Sci USA, 2001. 98(13): p. 7158-63.

68. Berman, B.P., et al., Exploiting transcription factor binding site clustering to identify cis-regulatory modules involved in pattern formation in the Drosophila genome. Proc Natl Acad Sci USA, 2002. 99(2): p. 757-62.

69. Ioshikhes, I., E.N. Trifonov, and M.Q. Zhang, Periodical distribution of transcription factor sites in promoter regions and connection with chromatin structure. Proc Natl Acad Sci USA, 1999. 96(6): p. 2891-5.

70. Takasuka, T.E., A. Cioffi, and A. Stein, Sequence information encoded in DNA that may influence long-range chromatin structure correlates with human chromosome functions. PLoS ONE, 2008. 3(7): p. e2643.

71. Majewski, J. and J. Ott, GT repeats are associated with recombination on human chromosome 22. Genome Res, 2000.10(8): p. 1108-14.

72. Ludwig, M.Z., N.H. Patel, and M. Kreitman, Functional- analysis of eve stripe 2 enhancer evolution in Drosophila: rules governing conservation and change. Development, 1998.125(5): p. 949-58.

73. Li, W., et al., Compositional heterogeneity within, and uniformity between, DNA sequences of yeast chromosomes. Genome Res, 1998. 8(9): p. 916-28:

74. Abe, T., et al., Informatics for unveiling hidden genome signatures. Genome Res, 2003.13(4): p. 693-702.

75. Mrazek, J. and J. Kypr, Middle-range clustering of nucleotides in genomes. Comput Appl Biosci, 1995.11(2): p. 195-9.

76. Oliver, J.L., et al., SEGMENT: identifying compositional domains in DNA sequences. Bioinformatics, 1999.15(12): p. 974-9;

77. Makeev, V. and V.G. Tumanyan, Search of periodicities in primary structure of biopolymers: a general Fourier approach. Comput Appl Biosci, 1996.12(1): p. 49-54.

78. Kennison, J.A. and J.W. Tamkun, Trans-regulation of homeotic genes in Drosophila. New Biol, 1992. 4(2): p. 91-6.

79. Sauer, F., et al., Gene regulation'in the Drosophila embryo. Philos Trans R Soc Lond B Biol Sci, 1996. 351(1339): p. 579-87.

80. Zhou, J., et al., The regulation of enhancer-promoter interactions in the Drosophila embryo. Cold Spring Harb Symp Quant Biol, 1997. 62: p. 307-12.

81. Biggin, M.D. and R. Tjian, Transcriptional regulation in Drosophila: the postgenome challenge. Funct Integr Genomics, 2001. 1(4): p. 223-34.

82. Arnosti, D.N., Design and function of transcriptional switches in Drosophila. Insect Biochem Mol Biol, 2002. 32(10): p. 1257-73.

83. Markstein, M. and M. Levine, Decoding cis-regulatory DNAs in the Drosophila genome. Curr Opin Genet Dev, 2002.12(5): p. 601-6.

84. Liaw, G.J. and J.A. Lengyel, Control of tailless expression-by bicoid, dorsal and synergistically interacting terminal,system regulatory elements. Mech Dev, 1993. 40(1-2): p. 47-61.

85. Bonneton, F., et al., Comparison of bicoid-dependent regulation of hunchback between Musca domestica and Drosophila melanogaster. Mech Dev, 1997. 66(1-2): p. 14356.

86. Gao, Q. and R. Finkelstein, Targeting gene expression to the head: the Drosophila orthodenticle gene is a direct target of the Bicoid morphogen. Development, 1998.125(21): p. 4185-93.

87. Qian, S., M. Capovilla, and V. Pirrotta, The bx region enhancer, a distant cis-control element of the Drosophila Ubx gene and its regulation by hunchback and other segmentation genes. Embo J, 1991.10(6): p. 1415-25.

88. Capovilla, M., E.D. Eldon, and V. Pirrotta, The giant gene of Drosophila encodes a b-ZIP DNA-binding protein«that regulates the expression of other segmentation gap genes. Development, 1992.114(1): p. 99-112.

89. Brown, S.J., et al., Molecular characterization and embryonic expression of the even-skipped ortholog of Tribolium castaneum. Mech Dev, 1997. 61(1-2): p. 165-73.

90. Small, S., A. Blair, and M. Levine, Regulation of even-skipped stripe 2 in the Drosophila embryo. Embo J, 1992.11(11): p. 4047-57.

91. Topol, J., et al., Synthetic oligonucleotides recreate Drosophila fushi tarazu zebra-stripe expression. Genes Dev, 1991. 5(5): p. 855-67.

92. Ohno, C.K., H. Ueda, and M. Petkovich, The Drosophila nuclear receptors FTZ-F1 alpha and FTZ-F1 beta compete as monomers for binding to a site in the fushi tarazu gene. Mol Cell Biol, 1994.14(5): p. 3166-75.

93. Kondo, T., J. Zakany, and D. Duboule, Control of colinearity in AbdB genes of the mouse HoxD complex. Mol Cell, 1998. 1(2): p. 289-300.

94. Florence, B., et al., Ftz-Fl is a cofactor in Ftz activation of the Drosophila engrailed gene. Development, 1997. 124(4): p. 839-47.

95. Klingler, M., et al., Disperse versus compact elements for the regulation of runt stripes in Drosophila. Dev Biol, 1996.177(1): p. 73-84.

96. Mihaly, J., et al., Chromatin domain boundaries in the Bithorax comple. Cell Mol Life Sci, 1998. 54(1): p. 60-70.

97. Lewis, E.B., et al., Sequence analysis of the cis-regulatory regions of the bithorax complex of Drosophila. Proc Natl Acad Sci USA, 1995. 92(18): p. 8403-7.

98. Papatsenko, D. and M.S. Levine, Dual regulation by the Hunchback gradient in the Drosophila embryo. Proc Natl Acad Sci USA, 2008.105(8): p. 2901-6.

99. Reinitz, J. and D.H. Sharp, Mechanism of eve stripe formation. Mech Dev, 1995. 49(1-2): p. 133-58. •

100. Wagner, A., A computational "genome walk" technique to identify regulatory interactions in gene networks. Pac Symp Biocomput, 1998: p. 264-78.

101. Wagner, A., Genes regulated cooperatively by one or more transcription factors and their identification in whole eukaryotic genomes. Bioinformatics, 1999.15(10): p. 776-84.

102. Murakami, K., T. Kojima, and Y. Sakaki, Assessment of clusters of transcription factor binding sites in relationship to human promoter, CpG islands and gene expression. BMC Genomics, 2004. 5(1): p. 16.

103. Jegga, A.G., et al., Detection and visualization of compositionally similar cis-regulatory element clusters in orthologous and coordinately controlled genes. Genome Res, 2002.12(9): p. 1408-17.

104. Aerts, S., et al., Computational detection of cis -regulatory modules. Bioinformatics, 2003.19 SuppI 2: p. II5-II14.

105. Thompson, W., et al., Decoding human regulatory circuits. Genome Res, 2004. 14(1 OA): p. 1967-74.

106. Zhong, D., et al., Establishment of the methods for searching eukaryotic gene cis-regulatory modules. Di Yi Jun Yi Da Xue Xue Bao, 2004. 24(2): p. 172-6.

107. Markstein, M., et al., A regulatory code for neurogenic gene expression in the Drosophila embryo. Development, 2004.131(10): p. 2387-94.

108. Rajewsky, N., et al., Computational detection of genomic cis-regulatory modules applied to body patterning in the early Drosophila embryo. BMC Bioinformatics, 2002. 3(1): p. 30. Print 2002 Oct 24.

109. Ettwiller, L.M., J. Rung, and E. Birney, Discovering novel cis-regulatory motifs using functional networks. Genome Res, 2003.13(5): p. 883-95.

110. Nazina, A.G. and D.A. Papatsenko, Statistical extraction of Drosophila cis-regulatory modules using exhaustive assessment of local word frequency. BMC Bioinformatics, 2003. 4(1): p. 65.

111. Frith, M.C., M.C. Li, and Z. Weng, Cluster-Buster: Finding dense clusters of motifs in DNA sequences. Nucleic Acids Res, 2003. 31(13): p. 3666-8.

112. Sinha, S., et al., Cross-species comparison significantly improves genome-wide prediction of cis-regulatory modules in Drosophila. BMC Bioinformatics, 2004. 5(1): p. 129.

113. Sosinsky, A., et al., Target Explorer: An automated tool for the identification of new target genes for a specified set of transcription factors. Nucleic Acids Res, 2003. 31(13): p. 3589-92.i

114. Sudarsanam, P., Y. Pilpel, and G.M. Church, Genome-wide co-occurrence of promoter elements reveals a cis-regulatory cassette of rRNA transcription motifs in Saccharomyces cerevisiae. Genome Res, 2002.12(11): p. 1723-31.

115. Aerts, S., et al., Toucan: deciphering the cis-regulatory logic of coregulated genes. Nucleic Acids Res, 2003. 31(6): p. 1753-64.

116. Davuluri, R.V., et al., AGRIS: Arabidopsis gene regulatory information server, an information resource of Arabidopsis cis-regulatory elements and transcription factors. BMC Bioinformatics, 2003. 4(1): p. 25. Print 2003 Jun 23.

117. Kreiman, G., Identification of sparsely distributed clusters of cis-regulatory elements in sets of co-expressed genes. Nucleic Acids Res, 2004. 32(9): p. 2889-900. Print 2004.

118. Ivan, A., M.S. Halfon, and S. Sinha, Computational discovery of cis-regulatory modules in Drosophila without prior knowledge of motifs. Genome Biol, 2008. 9(1): p. R22.

119. Boeva, V., et al., Exact p-value calculation for heterotypic clusters of regulatory motifs and its application in computational annotation of cis-regulatory modules. Algorithms Mol Biol, 2007. 2: p. 13.

120. Гренандер, У., Лекции no теории образов. Vol. 2. 1981, Москва: Мир. 446.

121. Pevzner, Р.А., М. Borodovsky, and А.А. Mironov, Linguistics of nucleotide sequences. II: Stationary words in genetic texts and the zonal structure of DNA. J Biomol Struct Dyn, 1989. 6(5): p. 1027-38.

122. Seely, O., Jr., et al., Construction of a facsimile data set for large genome sequence analysis. Genomics, 1990. 8(1): p. 71-82.

123. Regnier, M. and W. Szpankowski, On pattern frequency occurrences in a Markovian sequence. Algorithmica, 1998. 22(4): p. 631-649.

124. Миронов, A.A. and M.C. Гельфанд, Компьютерный анализ регуляторных сигналов в полных бактериальных геномах. Участки связывания PurR. Молекулярная биология, 1999. 33(1): р. 127-132.

125. Lawrence, С.Е., et al., Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment. Science, 1993. 262(5131): p. 208-14.

126. Shannon, C.E. and W. Weaver, The mathematical theory of communication. 1949, Urbana,: University of Illinois Press, v (i.e. vii), 117 p.

127. Kullback, S., Information theory and statistics. Dover books on mathematics. 1997, Mineola, N.Y.: Dover Publications, xv, 399 p.

128. Favorov, A.V., et al., A Gibbs sampler for identification of symmetrically structured, spaced DNA motifs with improved estimation of the signal length. Bioinformatics, 2005. 21(10): p. 2240-2245.

129. Bailey, T.L. and C. Elkan, Fitting a mixture model by expectation maximization to discover motifs in biopolymers. Proc Int Conf Intell Syst Mol Biol, 1994. 2: p. 28-36.

130. Bailey, T.L. and C. Elkan, The value of prior knowledge in discovering motifs with MEME. Proc Int Conf Intell Syst Mol Biol, 1995. 3: p. 21-9.

131. Bailey, T.L. and C.P. Elkan, Unsupervised learning of multiple motifs in biopolymers using expectation maximization. Machine Learning J, 1995. 21: p. 51-83.

132. Grundy, W.N., T.L. Bailey, and C.P. Elkan, ParaMEME: a parallel implementation and a web interface for a DNA and protein motif discovery tool. Comput Appl Biosci, 1996. 12(4): p.'303-10.

133. Roth, F.P., et al., Finding DNA regulatory motifs within unaligned noncoding sequences clustered by whole-genome mRNA quantitation. Nat Biotechnol, 1998. 16(10): p. 939-45.

134. Thijs, G., et al., A Gibbs sampling method to detect overrepresented motifs in the upstream regions of coexpressed genes. J Comput Biol, 2002. 9(2): p. 447-64.

135. Liu, X., D.L. Brutlag, and J.S. Liu, BioProspector: discovering conserved DNA motifs in upstream regulatory regions of co-expressed genes. Рас Symp Biocomput, 2001: p. 127-38.

136. Sandve, G.K. and F. Drablos, A survey of motif discovery methods in an integrated framework Biol Direct, 2006.1: p. 11.

137. Waterman, M.S., Multiple sequence alignment by consensus. Nucleic Acids Res, 1986.14(22): p. 9095-102.

138. Hampshire, A.J., et al., Footprinting: a method for determining the sequence selectivity, affinity and kinetics of DNA-binding ligands. Methods, 2007. 42(2): p. 128-40.

139. Rouchka, E.C., A Brief Overview of Gibbs Sampling. 1997, Washington University Institute for Biomedical Computing1. Statistics Study Group.

140. Freeh, K., G. Herrmann, and T. Werner, Computer-assisted prediction, classification, and delimitation of protein binding sites in nucleic acids. Nucleic Acids Res, 1993. 21(7): p. 1655-64.

141. Wolfertstetter, F., et al., Identification of functional elements in unaligned nucleic acid sequences by a novel tuple search algorithm. Comput'Appl Biosci, 1996. 12(1): p. 7180.

142. Quandt, K., et al., Matlnd and Matlnspector: new fast and versatile tools for detection of consensus matches in nucleotide sequence data. Nucleic Acids Res, 1995. 23(23): p. 4878-84.

143. Kielbasa, S.M., et al., Combining frequency and positional information to predict transcription factor binding sites. Bioinformatics, 2001.17(11): p. 1019-26.

144. Pesole, G., et al., WORDUP: an efficient algorithm for discovering statistically significant patterns in DNA sequences. Nucleic Acids Res, 1992. 20(11): p. 2871-5.

145. Liuni, S., et al., SIMD parallelization of the WORDUP algorithm for detecting statistically significant patterns in DNA sequences. Comput Appl Biosci, 1993. 9(6): p. 701-7.

146. Hertz, G.Z. and G.D. Stormo, Identifying DNA and protein patterns with statistically significant alignments of multiple sequences. Bioinformatics, 1999. 15(7-8): p. 563-77.

147. Pevzner, P.A. and S.H. Sze, Combinatorial approaches to finding subtle signals in DNA sequences. Proc Int Conf Intell Syst Mol Biol, 2000. 8: p. 269-78.

148. Buhler, J. and M. Tompa, Finding motifs using random projections. J Comput Biol, 2002. 9(2): p. 225-42.

149. Jonassen, I., Efficient discovery of conserved patterns using a pattern graph. Comput Appl Biosci, 1997.13(5): p. 509-22.

150. Marsan, L. and M.F. Sagot, Algorithms for extracting structured motifs using a suffix tree with an application to promoter and regulatory site consensus identification. J Comput Biol, 2000. 7(3-4): p. 345-62.

151. Eskin, E. and P.A. Pevzner, Finding composite regulatory patterns in DNA sequences. Bioinformatics, 2002.18 Suppl 1: p. S354-63.

152. Ulyanov, A.V. and G.D. Stormo, Multi-alphabet consensus algorithm for identification of low specificity protein-DNA interactions. Nucleic Acids Res, 1995. 23(8): p. 1434-40.

153. Fraenkel, Y.M., et al., Identification of common motifs in unaligned DNA sequences: application to Escherichia coli Lrp regulon. Comput Appl Biosci, 1995. 11(4): p. 379-87.

154. Rocke, E. and M. Tompa. An algorithm for finding novel gapped motifs in DNA sequences, in Proceedings of the second annual international conference on Computational molecular biology RECOMB '98. 1998. New York, New York, United States: ACM Press.

155. Tompa, M., An exact method for finding short motifs in sequences, with application to the ribosome binding site problem. Proc Int Conf Intell Syst Mol Biol, 1999: p. 262-71.

156. Jensen, L.J. and S. Knudsen, Automatic discovery of regulatory patterns in promoter regions based on whole cell expression data and functional annotation. Bioinformatics, 2000. 16(4): p. 326-33.

157. Cho, R.J., et al., A genome-wide transcriptional analysis of the mitotic cell cycle. Mol Cell, 1998. 2(1): p. 65-73.

158. Wolfsberg, T.G., et al., Candidate regulatory sequence elements for cell cycle-dependent transcription in Saccharomyces cerevisiae. Genome Res, 1999. 9(8): p. 775-92.

159. Stormo, G.D. and G.W. Hartzell, 3rd, Identifying protein-binding sites from unaligned DNA fragments. Proc Natl Acad Sei USA, 1989. 86(4): p. 1183-7.

160. Hertz, G.Z., G.W. Hartzell, 3rd, and G.D. Stormo, Identification of consensus patterns in unaligned DNA sequences known to be functionally related. Comput Appl Biosci, 1990. 6(2): p. 81-92.

161. Lawrence, C.E. and A.A. Reilly, An expectation maximization (EM) algorithm for the identification and characterization of common sites in unaligned biopolymer sequences. Proteins, 1990. 7(1): p. 41-51.

162. Cardon, L.R. and G.D. Stormo, Expectation maximization algorithm for identifying protein-binding sites with variable lengths from unaligned DNA fragments. J Mol Biol, 1992. 223(1): p. 159-70.

163. Frishman, D., A. Mironov, and M. Gelfand, Starts of bacterial genes: estimating the reliability of computer predictions. Gene, 1999. 234(2): p. 257-65.

164. Gelfand, M.S., E.V. Koonin, and A.A. Mironov, Prediction of transcription regulatory sites inArchaea by a comparative genomic approach. Nucleic Acids Res, 2000. 28(3): p. 695-705.

165. Hu, Y.J., et al., Combinatorial motif analysis and hypothesis generation on a genomic scale. Bioinformatics, 2000.16(3): p. 222-32.

166. Lukashin, A.V., J. Engelbrecht, and S. Brunak, Multiple alignment using simulated annealing: branch point definition in human mRNA splicing. Nucleic Acids Res, 1992. 20(10): p. 2511-6.

167. Geman, S. and D. Geman, Stochastic relaxation, Gibbs distribution and the Bayesian restoration of images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1984. 6: p. 621-641.

168. Liu, J.S., Monte Carlo, strategies in scientific computing. Springer series in statistics. 2001, New York: Springer. XVI, 343 s.

169. Robert, C.P. and G. Casella, Monte Carlo statistical methods. Springer texts in statistics. 1999, New York: Springer. XXI, 507 s.

170. Favorov, A.V., et al., A Markov Chain Monte Carlo Technique for Identification of Combinations of Allelic Variants Underlying Complex Diseases. Genetics, 2005.

171. Liu, Y., et al., A suite of web-based programs to search for transcriptional regulatory motifs. Nucleic Acids Res, 2004. 32(Web Server issue): p. W204-7.

172. Sze, S.H., M.S. Gelfand, and P.A. Pevzner, Finding weak motifs in DNA sequences. Pac Symp Biocomput, 2002: p. 235-46.

173. Eskin, E., et al., Genome-wide analysis of bacterial promoter regions. Pac Symp Biocomput, 2003: p. 29-40.

174. Buhler, J. and M. Tompa, Finding motifs using random projections. J Comput Biol, 2002. 9(2): p. 225-42.

175. Mathur, D., et al., Analysis of the mouse embryonic stem cell regulatory networks obtained by ChlP-chip and ChlP-PET. Genome Biol, 2008. 9(8): p. R126.

176. Galas, D.J. and A. Schmitz, DNAse footprinting: a simple method for the detection of protein-DNA binding specificity. Nucleic Acids Res, 1978. 5(9): p. 3157-70.

177. Tuerk, C. and L. Gold, Systematic evolution of ligands by exponential enrichment: RNA ligands to bacteriophage T4 DNA polymerase. Science, 1990. 249(4968): p. 505-10.

178. Blackwell, T.K. and H. Weintraub, Differences and similarities in DNA-binding preferences of MyoD and E2A protein complexes revealed by binding site selection. Science, 1990. 250(4984): p. 1104-10.

179. Noyes, M.B., et al., A systematic characterization of factors that regulate Drosophila segmentation via a bacterial one-hybrid system. Nucleic Acids Res, 2008. 36(8): p. 254760.

180. Blanchette, M., B. Schwikowski, and M. Tompa, Algorithms for phylogenetic footprinting. J Comput Biol, 2002. 9(2): p. 211-23.

181. Boffelli, D., et al., Phylogenetic shadowing of primate sequences to find functional regions of the human genome. Science, 2003. 299(5611): p. 1391-4.

182. Blanchette, M. and M. Tompa, Discovery of regulatory elements by a computational method for phylogenetic footprinting. Genome Res, 2002. 12(5): p. 739-48.

183. Matys, V., et al., TRANSFAC and its module TRANSCompel: transcriptional gene regulation in eukaryotes. Nucleic Acids Res, 2006. 34(Database issue): p. D108-10.

184. Bryne, J.C., et al., JASPAR, the open access database of transcription factor-binding profiles: new content and tools in the 2008 update. Nucleic Acids Res, 2008. 36(Database issue): p. D102-6.

185. Cartharius, K., et al., Matlnspector and beyond: promoter analysis based on transcription factor binding sites. Bioinformatics, 2005. 21(13): p. 2933-42.

186. Bergman, C.M., J.W. Carlson, and S.E. Celniker, Drosophila DNase I footprint database: a systematic genome annotation of transcription factor binding sites in the fruitfly, Drosophila melanogaster. Bioinformatics, 2005. 21(8): p. 1747-9.

187. Down, T.A., et al., Large-scale discovery of promoter motifs in Drosophila melanogaster. PLoS Comput Biol, 2007. 3(1): p. e7.

188. Wagner, A., A computational genomics approach to the identification of gene networks. Nucleic Acids Res, 1997. 25(18): p. 3594-604.

189. Nicodeme, P., B. Salvy, and P. Flajolet, Motif statistics. Theoretical Computer Science 2002. 287(2): p. 593-617.

190. Thijs, G., et al., A Gibbs sampling method to detect overrepresented motifs in the upstream regions of coexpressed genes. J Comput Biol, 2002. 9(2): p. 447-64.

191. Guibas, L. and A. Odlyzko, A string overlaps, pattern matching and nontransitive games. Journal of Combinatorial Theory, A, 1981. 30: p. 183-208.

192. Chrysaphinou, C. and S. Papastavridis, The occurrence of sequence of patterns in repeated dependent experiments. Theory of probability and applications, 1990. 79: p. 167173.

193. Robin, S. and J.J. Doudin, Exact distrition of word occurrences in a random sequence of letters. J. Appl. Prob., 1999. 36: p. 179-193.

194. Hertzberg, L., et al., Finding motifs in promoter regions. J Comput Biol, 2005. 12(3): p. 314-30.

195. Zhang, J., et al., Computing exact P-values for DNA motifs. Bioinformatics, 2007. 23(5): p. 531-7.

196. Vandenbogaert, M. and V. Makeev, Analysis of bacterial RM-systems through genome-scale analysis and related taxonomy issues. In Silico Biol, 2003. 3(1-2): p. 127-43.

197. Regnier, M;, A Unified Approach to Word Statistics. Proc. Second Annual International Conference, on« Computational Molecular Biology, March 22 25, 1998, Holiday Inn Manhattan, New York, NY, 1998: p. 203-207.

198. Regnier, M., A unified approach to word probabilities. Discrete Applied Mathematics, 2000.104: p. 259-280:

199. Pevzner, Nucleotide sequences versus markov models. Computers Chem, 1992. 16(2): p. 103-106.

200. Fickett, J.W., Recognition of protein coding regions in DNA sequences. Nucleic Acids Res, 1982.10(17): p. 5303-18.

201. Frank, G.K. and V.J. Makeev, G and T nucleotide contents show specie-invariant negative correlation for all three codon positions. J Biomol Struct Dyn, 1997.14(5): p. 62939.

202. Kypr, J., J. Mrazek, and J. Reich, Nucleotide composition bias and CpG dinucleotide content in the genomes of HIV and HTLV 1/2. Biochim Biophys Acta, 1989. 1009(3): p. 280-2.

203. Bernaola-Galvan, P., et al., Study of statistical correlations in DNA sequences. Gene, 2002. 300(1-2): p. 105-15.

204. Bernaola-Galvan, P., R. Roman-Roldan, and J.L. Oliver, Compositional segmentation and long-range fractal correlations in DNA sequences. Phys Rev E Stat Phys Plasmas Fluids Relat Interdiscip Topics, 1996. 53(5): p. 5181-5189.

205. Ramensky, V.E., et al., DNA segmentation through the Bayesian approach. J Comput Biol, 2000. 7(1-2): p. 215-31.

206. Ramensky, V.E., et al., DNA segmentation through the Bayesian approach. J Comp Biol, 1999. to appear.

207. Liu, J.S. and C.E. Lawrence, Bayesian inference on biopolymer models. Bioinformatics, 1999.15(1): p. 38-52.

208. Kucherov, G., L. Noe, and M. Roytberg, A unifying framework for seed sensitivity and its application to subset seeds. J Bioinform Comput Biol, 2006. 4(2): p. 553-69.

209. Aho, A. and M. Corasick, Efficient string matching: an aid to bibliographic search. Communications of the ACM, 1975.18: p. 333-340.

210. Knuth, D., The Art of Computer Programming. Sorting and Searching. Vol. 3. 1997: Addison-Wesley.

211. Harbison, C.T., et al., Transcriptional regulatory code of a eukaryotic genome. Nature, 2004. 431(7004): p. 99-104.

212. Boeva, V., et al., Short fuzzy tandem repeats in genomic sequences, identification, and possible role in regulation of gene expression. Bioinformatics, 2006. 22(6): p. 676-84.

213. Forney, G.D., The Viterbi algorithm. Proceedings of the IEEE, 1973. 61(3): p. 268278.

214. Finkelstein, A.V. and M.A. Roytberg, Computation of biopolymers: a general approach to different problems. Biosystems, 1993. 30(1-3): p. 1-19.

215. Гроот, М.д., Оптимальные статистические решения. 1974, Москва: Мир. 496.

216. Wolpert, D.H. and D.R. Wolf, Estimating functions ofprobability distributions from a finite set of samples. Phys Rev E Stat Phys Plasmas Fluids Relat Interdiscip Topics, 1995. 52(6): p. 6841-6854.

217. Розанов, Ю.А., Теория вероятностей, случайные процессы и математическая статистика. 1985, Москва: Наука. 320.

218. Sjolander, К., et al., Dirichlet mixtures: a method for improved detection of weak but significant protein sequence homology. Comput Appl Biosci, 1996.12(4): p. 327-45.

219. Li, W., The study of correlation structures of DNA sequences: a critical review. Comput Chem, 1997.21(4): p. 257-71.

220. Grosse, I., . Estimating Entropies from Finite Samples. Dynamik ~ Evolution — Strukturen, ed. J. Freund. 1996, Berlin: Kosster Verlag. 181-190.

221. Lin, J., Divergence measures based on the Shannon entropy. . IEEE Trans. Inf. Theor., 1991. 37: p. 145-149.

222. Li, H., et al., Identification of the binding sites of regulatory proteins in bacterial genomes. Proc Natl Acad Sci USA, 2002. 99(18): p. 11772-7. Epub 2002 Aug 14.

223. Sivia, D.S., Data analysis : a Bayesian tutorial. Oxford science publications. 1996, Oxford; New York: Clarendon Press; Oxford University Press, xi, 189 p.

224. Ramensky, V.E., et al., Segmentation of long genomic sequences into domains with homogeneous composition with BASIO software. Bioinformatics, 2001.17(11): p. 1065-6.

225. Lawrence, C.E., et al., Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment. Science, 1993. 262: p. 208-214.

226. Berg, O.G. and P.H. von Hippel, Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters. J Mol Biol, 1987.193(4): p. 723-50.

227. Pollard, D.A., et al., Widespread discordance of gene trees with species tree in Drosophila: evidence for incomplete lineage sorting. PLoS Genet, 2006. 2(10): p. el73.

228. Papatsenko, D. and M. Levine, A rationale for the enhanceosome and other evolutionarily constrained enhancers. Curr Biol, 2007. 17(22): p. R955-7.

229. Crooks, G.E., et al., WebLogo: a sequence logo generator. Genome Res, 2004. 14(6): p. 1188-90.

230. Schneider, T.D. and R.M. Stephens, Sequence logos: a new way to display consensus sequences. Nucleic Acids Res, 1990.18(20): p. 6097-100.

231. Pisarev, A., et al., FlyEx, the quantitative atlas on segmentation gene expression at cellular resolution. Nucleic Acids Res, 2009. 37(Database issue): p. D560-6.

232. Poustelnikova, E., et al., A database for management of gene expression data in situ. Bioinformatics, 2004. 20(14): p. 2212-21.

233. Waterman, M.S., Introduction to Computational Biology. 1995: Chapmen&Hall.

Информация о работе

Макеев, Всеволод Юрьевич
доктора физико-математических наук
Москва, 2009
ВАК 03.00.02

Диссертация

Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК - тема диссертации по биологии, скачайте бесплатно

Автореферат

Похожие работы