Бесплатный автореферат и диссертация по биологии на тему
Компьютерный анализ конформационных и физико-химических особенностей функциональных сайтов геномной ДНК эукариот
ВАК РФ 03.01.09, Математическая биология, биоинформатика

Автореферат диссертации по теме "Компьютерный анализ конформационных и физико-химических особенностей функциональных сайтов геномной ДНК эукариот"

На правах рукописи

ООЭ4Ь4Ээг

ОЩЕПКОВ ДМИТРИЙ ЮРЬЕВИЧ

КОМПЬЮТЕРНЫЙ АНАЛИЗ КОНФОРМАЦИОННЫХ И ФИЗИКО-ХИМИЧЕСКИХ ОСОБЕННОСТЕЙ ФУНКЦИОНАЛЬНЫХ САЙТОВ ГЕНОМНОЙ ДНК

Специальность 03.01.09 - математическая биология, биоинформатика

АВТОРЕФЕРАТ

Диссертации на соискание степени кандидата биологических наук

ЭУКАРИОТ

2 ^ ^ < Л О

Новосибирск-2010

003494557

Работа выполнена в лаборатории теоретической генетики Учреждения РАН Институт цитологии и генетики СО РАН, г. Новосибирск.

Научный руководитель:

академик РАН, профессор Н.А.Колчанов, Институт цитологии и генетики СО РАН, г. Новосибирск-

Официальные оппоненты:

доктор биологических наук М.Г.Самсонова, Санкт-Петербургский государственный политехнический университет, г. Санкт-Петербург

кандидат биологических наук Л.К.Савинкова, Институт цитологии и генетики СО РАН, г. Новосибирск

Ведушее учреждение:

Государственный научный центр вирусологии и биотехнологии «Вектор», Кольцово, Новосибирская обл.

Зашита диссертации состоится « <f » rJinf ел J-_2010 г. на

утреннем заседании диссертационного совете^ по защите диссертаций на соискание ученой степени доктора наук (Д-003.011.01) в конференц-зале Института цитологии и генетики СО РАН по адресу: 630090, г.Новосибирск. 90, пр. акад. Лаврентьева, 10, тел/факс: (383)3331278; e-mail: dissov@bionet.nsc.ru.

С диссертацией можно ознакомиться в библиотеке Института цитологии и генетики СО РАН.

Автореферат разослан « 2L

Ученый секретарь диссертационного совета, доктор биологических наук

_» хМ^РГгЯ_2010 г.

Т.М. Хлебодарова

Актуальность проблемы Регуляция транскрипции играет ключевую роль в механизмах регуляции экспрессии генов. У эукариот этот процесс контролируется огромным количеством разнообразных белковых молекул, которые в процессе сложнейших ДНК-белковых и белок-белковых взаимодействий обеспечивают выполнение функций транскрипционного аппарата. Одним из основных механизмов регуляции экспрессии генов на уровне транскрипции является процесс взаимодействия белков - факторов транскрипции с сайтами их связывания в регуляторных районах генов. В процесс транскрипции вовлечена также топоизомераза. Связываясь с ДНК, она обеспечивает сохранение топологии спирали ДНК в процессах транскрипции и репликации. Исследование особенностей связывания белковых факторов с последовательностями ДНК является одним из ключевых моментов для понимания основ регуляции транскрипции.

Приблизительная оценка числа сайтов связывания транскрипционных факторов (ССТФ) в геноме человека дает числа более сотен тысяч . Экспериментальное выявление такого количества сайтов является чрезвычайно сложной и дорогостоящей задачей. Один из путей решения этой проблемы основан на создании эффективных методов планирования экспериментов по выявлению сайтов связывания транскрипционных факторов. В связи с этим важнейшее значение приобретает создание точных методов предсказания ССТФ, обеспечивающих минимальное число ложных предсказаний, что, в свою очередь, дает возможность рационального планирования эксперимента по выявлению ССТФ*.

Как правило, каждый транскрипционный фактор обладает способностью связываться с набором сайтов, сходных по нуклеотидной последовательности. В настоящее время существует большое число методов распознавания потенциальных сайтов связывания, основанных на анализе контекстного сходства. Однако эти методы, как правило, не учитывают или недостаточно эффективно используют данные о контекстно-зависимых конформационных и физико-химических особенностях ДНК сайтов связывания.

Многочисленные экспериментальные данные, полученные за последние 20 лет, однозначно свидетельствуют о том, что геномная ДНК неоднородна как по конформации, так и по своим физико-химическим свойствам. Накоплен большой объем экспериментальных данных по пространственному строению двойной спирали ДНК, ДНК-белковых комплексов, а также о зависимости локальных конформационных и физико-химических свойств двойной спирали ДНК от нуклеотидной последовательности. В то же время, как экспериментальные данные, так и компьютерный анализ и теоретическое обобщение этих данных показывают, что способность регуляторных белков взаимодействовать с

* Ко1с11апоу е! а1. (2007) Вне/. ВЫфгт., 8(4): 266-274.

двойной спиралью ДНК в сильной степени зависит от ее локальных конформационных и физико-химических свойств*.

Однако количество научных публикаций по распознаванию ССТФ на основе анализа контекстно-зависимых конформационных и физико-химических свойств ДНК весьма ограничено. В связи с этим актуальной задачей является разработка компьютерных подходов к анализу контекстно-зависимых конформационных и физико-химических свойств сайтов связывания транскрипционных факторов и построения на этой основе точных методов их распознавания в геномной ДНК эукариот. Использование данных о контекстно-зависимых конформационных и физико-химических свойствах при анализе сайтов связывания транскрипционных факторов может привести не только к повышению качества их распознавания, но и позволит получить полезную информацию об особенностях ДНК-белковых взаимодействий.

Целью работы являлось выявление особенностей контекстно-зависимых конформационных и физико-химических свойств ДНК функциональных сайтов в геномах эукариот с помощью компьютерного анализа и создание на этой основе подхода для планирования экспериментов по выявлению сайтов связывания регуляторных белков. В работе были поставлены следующие задачи:

1. Разработка компьютерного метода выявления контекстно-зависимых конформационных и физико-химических особенностей ДНК функциональных сайтов.

2. Проведение компьютерного анализа конформационных и физико-химических свойств ДНК сайтов связывания различных транскрипционных факторов и сайтов расщепления ДНК топоизомеразой 1 человека.

3. Разработка методов распознавания потенциальных сайтов связывания различных транскрипционных факторов, в частности, 8Р-1, БЯЕВР и гетеродимера Е2Р/ОР на основе выявленных значимых конформационных и физико-химических свойств этих сайтов.

4. Создание Интернет-доступной компьютерной системы для анализа и распознавания сайтов связывания транскрипционных факторов, создание информационного ресурса по особенностям конформационных и физико-химических свойств для доступных выборок сайтов связывания транскрипционных факторов и методам их распознавания.

5. Проведение планирования экспериментов по локализации сайтов связывания транскрипционных факторов 8Р-1 и БЛЕВР в промоторных районах генов млекопитающих.

+ Ропотагепко е? о/. (1999) Вют/огтаНся, 15(7):654-668.

Научная новизна Впервые показано наличие значимых консервативных контекстно-зависимых конформационных и физико-химических свойств ДНК в выборках различных классов последовательностей функциональных сайтов - сайтов связывания транскрипционных факторов и сайтов расщепления ДНК топоизомеразой I человека. Впервые разработана система БИЕСОЫ, представляющая собой реализованный в виде компьютерной программы комплекс методов для выявления консервативных конформационных и физико-химических свойств сайтов связывания транскрипционных факторов и распознавания с использованием этих данных потенциальных ССТФ. С помощью этой системы исследованы конформационные и физико-химические особенности сайтов связывания четырех типов транскрипционных факторов (8Р-1, 5ЯР, МСМ1 и Е2РЮР). Показано, что сайты каждого типа характеризуются уникальным набором конформационных и физико-химических особенностей двойной спирали ДНК, отличающих их от случайных последовательностей нуклеотидов. Анализ показал, что выявляемые консервативные конформационные и физико-химические свойства ДНК изученных функциональных сайтов отражают специфику ДНК-белковых взаимодействий. Впервые проведено планирование эксперимента по проверке потенциальных сайтов связывания 8Р1 и БЯЕВР. Независимо проведенная экспериментальная проверка выявленных сайтов показала высокую эффективность применяемого комплекса методов.

Практическая ценность Разработанная система 51ТЕСОЫ обеспечивает возможность выявления значимых консервативных контекстно-зависимых конформационных и физико-химических особенностей ДНК функциональных сайтов на основе анализа выборок последовательностей этих сайтов. Используемый системой метод выявления особенностей ДНК может использоваться для' анализа разнообразных сайтов в геномах эукариот. Выявленные характеристики ДНК функциональных сайтов являются основой для создания методов их распознавания в геномной ДНК. Система БИЕССЖ обладает высокой производительностью и может применяться для массового анализа сайтов связывания транскрипционных факторов, информация о значимых конформационных и физико-химических особенностях которых накапливается в соответствующей базе знаний. В настоящее время эта база знаний содержит результаты анализа 220 выборок последовательностей сайтов связывания различных транскрипционных факторов и методы их распознавания. Проведенные исследования показали высокую точность распознавания сайтов связывания транскрипционных факторов системой ЗИЕСОЫ, что критически значимо для эффективного планирования экспериментов по выявлению таких сайтов в геномах эукариот. Система БИЕСОЫ доступна по сети Интернет

(http://wwwmgs.bionet.nsc.ru/mgs/programs/sitecon/) и может применяться в учебном процессе как в курсах биоинформатики (информационной биологии), так и в курсах экспериментальной молекулярной биологии.

Представленный в диссертации комплекс методов SITECON был успешно- применен для распознавания сайтов связывания транскрипционных факторов SF-1, SRESP, FOXA, E2F/DP, IRF, ISGF3, STAT, NF-kB, COUP-TF, PPAR, HSF, AhR; а также использован при планировании эксперимента по распознаванию сайтов SF-1 и SREBP в промоторах генов млекопитающих. Получено авторское свидетельство № 2006610270 "Программа для определения консервативных свойств в сайтах связывания транскрипционных факторов и их распознавания (САЙТКОН) / The tool for detecting conservative properties in transcription factor binding sites and for site recognition (SITECON)", автор: Ощепков Д.Ю., зарегистрировано 10.01.2006.

Основные положения диссертации, выносимые на защиту

1. Различные функциональные сайты в геномной ДНК характеризуются наличием наборов статистически значимых контекстно-зависимых консервативных конформационных и физико-химических свойств.

2. Наборы консервативных контекстно-зависимых конформационных и физико-химических свойств, выявляемые при анализе выборок сайтов связывания транскрипционных факторов, могут быть эффективно использованы для распознавания потенциальных сайтов связывания этих факторов в геномах различных организмов.

Публикации По теме диссертационной работы опубликовано 33 работы, из них 9 статей в рецензируемых и ведущих журналах, 5 из которых входят в список ВАК, и 6 публикаций в монографиях. Результаты работы представлены на 10 российских и 2 зарубежных конференциях в виде устных докладов и стендовых сообщений, среди которых первая, вторая, третья, четвертая, пятая и шестая международные конференции по биоинформатике, структуре и регуляции генома (г. Новосибирск, август 1998 г., июль 2000 г., июль 2002 г., август 2004 г., июль 2006г., июнь 2008г.); международная конференция по компьютерной молекулярной биологии, (Москва, июнь 2003 г.); 27th International Symposium on Halogenated Persistent Organic Pollutants "Dioxin 2007", 2-7 September, 2007; Conference on modeling and simulation in biology, medicine and biomedical engineering. Linkoping, Sweden, May 26-27,2005.

Структура работы Диссертационная работа состоит из введения и обзора литературы (глава I), трёх разделов, содержащих основные результаты (главы II- IV), заключения, выводов, списка цитированной литературы (267 ссылок). Работа изложена на 177 страницах, содержит 41 рисунок и 28 таблиц.

Вклад автора Автором диссертации был самостоятельно разработан комплекс методов системы SITECON, проведено выявление и анализ консервативных свойств всех описанных в диссертации типов сайтов связывания транскрипционных факторов, проведено распознавание всех потенциальных ССТФ, описанных в диссертации. Автор привнес решающий вклад в работу по анализу консервативных свойств сайтов расщепления топоизомеразой I человека, планированию экспериментов по проверке потенциальных сайтов SF-1 и SREBP, анализу локализации сайтов SF-1 в регуляторных районах генов-ортологов.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Компьютерная система SITECON

В диссертации разработан подход для поиска конформационных и физико-химических особенностей ДНК в позициях выборок последовательностей функциональных сайтов, ставший основой для системы SITECON. Для анализа и обучения системы могут использоваться как выравненные пользовательские выборки, так и любая из 220 выборок ССТФ, представленных во внутренней базе данных (БД) выравненных нуклеотидных последовательностей ССТФ системы (рис. 1).

В ходе анализа в модуле выявления значимых контекстно-зависимых конформационных и физико-химических особенностей ДНК функциональных сайтов системы (рис. 1) каждому динуклеотиду каждой из N выравненных (фазированных)

последовательностей длиной L выборки сопоставляется значение определенного физико-химического или конформационного свойства F,. Значения 38 контекстно-зависимых конформационных и физико-химических свойств В-формы ДНК (табл. 1), используемых в расчетах, взяты из БД PROPERTY (рис. 1) (http://wwwmgs.bionet.nsc.ru/mgs/gn w/bdna/). Матрицы размером Nx(L-l), каждый элемент которых F,u соответствует величине ;-го свойства F, динуклеотида в /-ой позиции k-oi\ последовательности, используются

Таблица 1.

Пример конформационного свойства ДНК из БД PROPERTY.

Дннуклеотид Угол наклона оснований Roll, градус

АА 0.3

AT -0.8

Roll AG 4.5

+Z AC 0.5

3' ТА 2.8

I *+х ТТ 0.3

5' TG 0.5

) II ТС -1.3

1 GA -1.3

GT 0.5

3' GG 6.0

GC -6.2

СА 0.5

СТ 4.5

CG -6.2

СС 6.0

для вычисления средних значений каждого из свойств F¡ в каждой из

позиций I выборки:

_ } »

Ъ-й (1)

и дисперсий каждого из свойств для каждой из позиций /:

Величина аГп нами используется в качестве меры консервативности каждого из свойств / для каждой из / позиции выборки. Предполагается, что если значение конкретного свойства ДНК в определенном участке последовательности сайта сохраняется (консервативно) для всех сайтов выборки, то такое значение этого свойства в этом участке важно для функционирования этого сайта. Это обеспечивает малую величину дисперсии значений свойства по сравнению с выборкой случайных последовательностей. Иными словами, малая величина дисперсии конкретного свойства говорит о консервативности свойства в данной позиции. Значимыми для связывания мы будем считать те конформационные или физико-химические свойства ДНК функционального сайта, дисперсия которых значимо мала при оценке по критерию %г.

База данных PROPERTY

http:/Affwvrmg).frl«ntt.n!( ru/mgs/gnnftfim/

т-

X

Интерфейс поль

У

Внутренняя база данных выравненных

нукпеотидных последовательностей ССТФ (220 типов ТФ, данные из БД ТРРД)

Модуль выявления значимых контекстно-зависимых конформаи ионных и физико-химических особенностей ДНК

функциональных сайтов_

Модуль автоматической генерации и запуска программ поиска функциональных сайтов на основе выявленных особенностей

Л Г

БАЗА ЗНАНИИ, в которой

накапливается информация о значимых конформационных и физико-химических особенностях ДНК ССТФ

/

Модуль расчета ошибок распознавания

Интерфейс пользователя

Рисунок 1. Блок-схема системы ЗГГЕСОК

Информация о значимых конформационных и физико-химических особенностях ДНК ССТФ - выявленных консервативных свойствах - для всех 220 типов выборок ССТФ из базы данных системы содержится в соответствующей базе знаний системы (рис. 1) в форме двух матриц:

||°>а|и 1)^1. Для удобства анализа этой информации она может быть

представлена пользователю системой 81ТЕС(Ж на одной цветной диаграмме. Анализ данных в базе знаний системы показал, что каждый из 220 типов сайтов ТФ характеризуется набором статистически значимых консервативных контекстно-зависимых конформационных и физико-химических свойств ДНК.

Набор консервативных свойств далее используется соответствующим модулем системы для автоматической генерации и запуска программ поиска функциональных сайтов на основе выявленных особенностей (рис. 1). Распознавание потенциальных сайтов в последовательностях ДНК осуществляется путем сравнения консервативных свойств сайтов со свойствами фрагмента анализируемой последовательности. Программы поиска сайтов могут быть использованы для анализа любой пользовательской последовательности ДНК. Для каждой позиции / движущегося окна анализируемой последовательности вычисляется величина вероятности Рй того, что каждое из свойств Г, может принять значение , характерное для выборки сайтов данного типа при значении для данного окна:

где/7,, и о,/ - среднее значение и стандартное отклонение /-го свойства выборки в позиции / соответственно, ^ - значение свойства в анализируемой последовательности в позиции / движущегося окна, ат -дополнительный параметр, введенный для учета тепловых флуктуаций и погрешностей измерения свойств ДНК, взят равным 10% от величины стандартного отклонения свойства / для случайных последовательностей.

Сумму Рй для всех значимо консервативных свойств, нормированную на количество таких свойств, примем в качестве меры сходства между последовательностями выборки сайтов связывания и анализируемой последовательностью в пределах движущегося окна:

Ра -^/К +0)2), (3)

где 8и = 1, если сг2^ значимо мало, иначе 5и =0.

Величина Рг соответствует вероятности того, что величины консервативных свойств, которые обнаружены для последовательностей выборки и величины свойств анализируемой последовательности ДНК в пределах движущегося окна близки. Будем называть величину Р^ уровнем конформационного сходства. Предполагается, что чем больше Ps в пределах" движущегося окна с выборкой экспериментально выявленных сайтов данного типа, тем выше достоверность нашего суждения о том, что последовательность в пределах движущегося окна является сайтом связывания данного ТФ.

При распознавании используется два алгоритма отбора наиболее информативных характеристик функциональных сайтов, разработанных в рамках диссертации и позволяющих повысить качество распознавания. Пороговое значение конформационного сходства, при превышении которого анализируемая последовательность считается сайтом связывания соответствующего транскрипционного фактора, может быть выбрано на основе анализа таблицы ошибок распознавания, которая автоматически рассчитывается модулем расчета ошибок распознавания системы SITECON (рис. 1). Для оценки ошибки первого рода (недопредсказание) применяется стандартный подход складного ножа (jack-knife) с последовательным удалением одной последовательности и последующим ее распознаванием (определением конформационного сходства) на основе обучения на оставшейся части выборки. Ошибки второго рода (перепредсказание) оцениваются путем распознавания сайтов связывания в последовательности длиной 100000 п.о., сгенерированной случайным образом с сохранением ATGC-состава, вычисленного для обучающей выборки. Используется предположение, что вероятность сгенерировать последовательность, совпадающую с последовательностью сайта, пренебрежимо мала. Интерфейс системы SITECON (http://wwwmgs.bionet.nsc.ru/mgs/programs/sitecon) подробно описан в (Oshchepkov et al., 2004а) и обеспечивает доступ ко всем описанным выше функциональным возможностям и информационным ресурсам системы.

Исследование сайтов связывания гетеродимера E2F/DP

В результате анализа выборки из 40 последовательностей экспериментально подтвержденных сайтов E2F/DP из БД TRRD с помощью системы SITECON для них был выявлен набор консервативных конформационных и физико-химических свойств ДНК. На основании двух эмпирических критериев, а также анализа взаимных корреляций свойств двойной спирали ДНК для анализа нами были отобраны два свойства - «ширина большой бороздки» и «ширина малой бороздки». Сопоставим значения этих свойств в позициях сайтов (рис. 2) с информацией, полученной в результате

рентгеноструктурного анализа (РСА) ДНК-белкового комплекса Е2Р/Е)Р* (рис. 3).

а б

Рисунок 2. Значения ширины большой (а) и малой (б) бороздок ДНК для сайтов связывания транскрипционного фактора Е2Р/1)Р. Центральная кривая соответствует среднему значению свойства для каждой из позиций выборки; верхняя кривая соответствует среднему значению плюс значение стандартного отклонения для позиции; нижняя кривая соответствует среднему значению минус значение стандартного отклонения для позиции. Уровень значимости консервативности для каждой позиции помечен: (') - 99.0%, (") -99.9%, ("')- 99.99%.

Для отмеченного участка консенсуса ТТТССССС'С А V/ сайта характеристика «ширина большой бороздки» консервативна среди набора исследованных сайтов. Одновременно значение этой характеристики в пределах рассматриваемого участка увеличено по сравнению со средним значением этого свойства для случайных последовательностей (Рис.2а).

В свою очередь, по данным РСА при связывании гетеродимера Е2РЮР в большую бороздку ДНК в этом же участке сайта ТТТСССССОАУ/ помещается две узнающих а-спирали, по одной от каждого из составляющих гетеродимера (рис. 3). Таким образом, увеличенная ширина большой бороздки ДНК в этом участке сайта является необходимым условием для распознавания гетеродимером Е2РЯ)Р своего сайта связывания.

Для участка сайта

ТТТСССОССАУь' свойство «ширина

ПР

\\Яу

Рисунок 3. Комплекс димера Е2Р/БР с ДНК, вход РОВ 1сП. 1 и 2 - распознающие а-спирали ОР (1) и Е2Р (2), 3 - 1Ч-концевой домен Е2Р.

1 гИег^ е! а1. (1999) вепез & Оеуе1ортеМ, 13:666-674.

малой бороздки» консервативно для исследованной выборки последовательностей, и его значение увеличено по сравнению со средним значением этого свойства для случайных последовательностей (Рис. 26). Результаты РСА, в свою очередь, указывают на важную роль этого Т-тракта в консенсусной последовательности. Он необходим для встраивания М-концевой петли распознающего домена фактора Е2Р в расширенную малую бороздку ДНК в соответствующем участке сайта ТТГСОСОССА"М (Рис. 3).

Таким образом, выявляемые с помощью нашего подхода особенности конформации молекулы ДНК в районе сайта согласуются с данными РСА, что, в свою очередь, подтверждает, что выявленные конформационные особенности отражают молекулярные механизмы ДНК-белкового узнавания и связывания (ОБЬсЬеркоу е/ а!., 20046).

На основе

выявленного набора консервативных свойств двойной спирали ДНК в позициях сайтов

связывания гетеродимера Е2Р/БР был построен метод их распознавания. Для оценки качества разработанного метода распознавания ССТФ Е2Р/БР стандартным образом в системе 81ТЕСОМ был проведен расчет ошибок первого и второго рода (табл. 2). Анализ этих данных свидетельствует о том, что разработанный метод характеризуется низкими значениями ошибок распознавания ССТФ Е2ЕЮР.

Исследование сайтов расщепления топоизомеразой I человека

ДНК-топоизомераза I участвует в процессе транскрипции, релаксируя положительные и отрицательные супервитки в ДНК. Скорость расщепления топоизомеразой I в зависимости от контекста может меняться на три порядка. Факторы, определяющие скорость расщепления ДНК, остаются неизвестны. Проведенный анализ контекста 45 сайтов расщепления ДНК топоизомеразой I, фазированных по точке расщепления ДНК ферментом, показал, что кроме нуклеотида Т в точке

Таблица 2.

Ошибки распознавания сайтов связывания Е2РЛЭР для разных пороговых уровней конформационного сходства._

Порог распознавания Ошибка 1-го рода, % Ошибка Н-го рода

0.68 0 3.95Е-03 (1/253)

0.69 2.5 3.19Е-03 (1/314)

0.70 5.0 2.47Е-03 (1 /405)

0.73 17.5 9.35Е-04 (1/ 1069)

0.74 22.5 6.45Е-04 (1 / 1550)

0.75 25.0 4.35Е-04 (1/2298)

0.77 32.5 2.10Е-04 (1/4760)

0.78 35.0 1.25Е-04 (1 /7996)

0.79 45.0 7.50Е-05 (1/13327)

0.80 52.5 6.00Е-05 (1 /16659)

0.81 55.0 4.00Е-05 (1/24988)

0.82 57.5 3.00Е-05 (1 /33317)

0.83 60.0 1.50Е-05 (1/66635)

расщепления ДНК отсутствуют значимые частотные предпочтения нуклеотидов, поэтому контекстный анализ не дает возможности объяснить существующие предпочтения фермента к тому или иному контексту ДНК.

В результате анализа выборки сайтов расщепления ДНК топоизомеразой I были выявлены следующие значимо консервативные свойства: (1) угол наклона оснований (Roll) для динуклеотидного шага -1..1 относительно точки расщепления ДНК ферментом; (2) сдвиг пары оснований (Slide) для динуклеотидного шага -2..-1; (3) угол поворота спирали (Twist) в для динуклеотидного шага -1..1; (4) шаг спирали (Rise) для динуклеотидного шага -1..1; (5) размер малой бороздки ДНК для динуклеотидного шага -1..1; (6) температура плавления ДНК-спирали для динуклеотидных шагов -2..-1 и -1..1. Обнаруженные особенности для участка ДНК вблизи точки расщепления находятся в согласии с данными РСА (Ощепков с соавт., 2005).

Исследование сайтов связывания SRF и МСМ1

Анализ консервативных контекстно-зависимых конформационных и физико-химических свойств ДНК сайтов связывания двух близких по структуре ДНК-связывающих доменов (ДСД) транскрипционных факторов - SRF и МСМ1 - позволил выявить сходства и различия этих двух типов сайтов. ДСД этих ТФ обладают структурным сходством более 70%, и содержит консервативный район 56 аминокислот, называемый MADS-бокс. В результате анализа выборок ССТФ SRF и МСМ1 для детального рассмотрения нами были отобраны свойства изгибной жесткости в сторону малой и большой бороздок, которые являются значимыми для обеих выборок. Эти свойства демонстрируют согласованное гармоническое изменение вдоль последовательности сайта с периодом, соответствующим шагу ДНК (10 п.н.), что соответствует пониженной изгибной жесткости ДНК. Такое поведение наблюдается для всей последовательности сайта SRF и только для 5'-половины сайта МСМ1. Сопоставление данных РСА ДНК-белковых комплексов SRF и МСМ1 и полученных данных показывает следующее: в комплексе с SRF ДНК претерпевает симметричные равнозначные изгибы в обеих половинах сайта. В комплексе с МСМ1 ДНК значительно изогнута лишь в 5'-половине сайта связывания. Таким образом, эти различия полностью соответствуют выявленным различиям консервативных свойств ДНК ССТФ SRF и МСМ1.

Исследование и распознавание сайтов связывания SF-1

Анализ набора консервативных контекстно-зависимых конформационных и физико-химических свойств выборки из 54 последовательностей сайтов связывания SF-1 (Steroidogenic factor 1) позволил отобрать для детального рассмотрения конформационное свойство «персистентная длина». Эта характеристика ДНК измеряется как

средняя длина между двумя участками двойной спирали, направления которых отличаются на 1 радиан, и отражает ее изгибную жесткость. Выявленный характер ее изменения вдоль последовательности сайта совпадает с данными о способности двух мотивов, составляющих ДСД SF-1, изгибать ось молекулы ДНК.

На основе выявленного набора консервативных свойств ССТФ SF-1 был построен метод распознавания потенциальных сайтов этого ТФ. Для выбора наиболее адекватного порога распознавания ССТФ SF-1 было проведено их распознавание в промоторных районах пяти функциональных групп генов: стероидогенеза, клеточного цикла, эритроид-специфичных генов, генов регуляции уровня холестерина и тканеспецифичных генов поджелудочной железы (рис. 4).

Ожидаемый результат заключался в более высокой плотности ССТФ SF-1 в промоторах генов стероидогенеза, для которых характерна регуляция этим

транскрипционным фактором. Промоторные районы генов остальных исследованных функциональных групп, согласно данным в базе данных TRRD8, не содержат ССТФ SF-1. Действительно, при пороговом уровне конформационного сходства больше 0.94 плотность выявляемых сайтов ССТФ SF-1 (на 1000 п.н.) для промоторов генов стероидогенеза оказалась более чем в 2 раза выше, чем для других функциональных групп генов. Поэтому для дальнейших исследований нами был выбран порог конформационного сходства, равный 0.94, значение ошибки 1-го рода при этом составляет 59%, ошибка П-го рода -1.30Е-04 (1/7685).

Методом SITECON были проанализированы промоторы 32 генов стероидогенеза. Было выявлено 18 новых потенциальных ССТФ SF-1 (табл. 3). Независимая экспериментальная поверка in vitro методом задержки в геле (EMSA) меченых двухцепочечных олигонуклеотидных проб, соответствующих предсказанным сайтам проведена в лаборатории

8 Kolchanov et al. (2002) Nucleic Acids Res., 30(1):312-7.

порог распознавания

Рисунок 4. Значение плотности потенциальных сайтов 8Б-1 на 1000 нуклеотидов в промоторных районах генов различных функциональных групп при разных порогах конформационного сходства.

регуляции экспрессии генов ИЦиГ СО РАН. Способность взаимодействовать с белком 8Р-1 подтверждена для всех 18 сайтов, предсказанных методом 51ТЕСОЫ (Игнатьева с соавт., 2007).

Таблица 3.

Предсказанные методом БГГЕСОК потенциальные ССТФ 8Р-1 в промоторах генов стероидогенеза и результаты их экспериментальной проверки._

Название гена Пози- р** Последовательность сайта Экспери-

(вид) ция* ментальное подтверждение

С>'р/7(мышь) -283 0.944 aagatcaaggtttcagagtg +

Сур 17 (мышь) -49 0.949 gtcttcaaggtgacaatcag +

AD (бык) -428 0.962 atctccaaggtcagatgaat +

СурПЫ (морская свинка) -126 0.945 gaggtcaaggctggggcctc +

СурНЬЗ (крыса) -309 0.945 tcattcaaggttccacaaag +

CYP11B1 (овца) -337 0.947 atacccaaggtctcctttca +

Oxt (мышь) -164 0.966 agggtcaaggtcatcgtctc +

Oxt (крыса) -167 0.962 ggggtcaaggtcaccgcctc +

ОХТ (человек) -159 0.961 ggggtcaaggtcaccgcgtt +

Сур11Ь2 (крыса) -324 0.951 gaaaccaaggtcttctagga +

Hsd3b (мышь) -из 0.942 agcttcaaggttacactgtg +

Nr5al (мышь) -224 0.952 ctggccaaggtctctccagt +

CYP17 (свинья) -51 0.946 aaagtcaaggtgaagatcag +

Hsdl7bl (крыса) —84 0.941 aatctcaaggctgagttggg +

LHB (свинья) -114 0.959 gcaggcaaggtcagggaggt +

CYP17 (человек) -44 0.944 aaagtcaaggtgaagatcag +

Cypl 7 (крыса) -309 0.944 gagatcaaggttttagagtc +

LHB (свинья) -58 0.928 ggcggcaaggccactggaag +

* Позиция указана относительно старта транскрипции

** Уровень информационного сходства с известными сайтами связывания БИ-1, оцененный методом БГГЕССЖ

Распознавание сайтов связывания SREBP

Транскрипционные факторы семейства SREBP (Sterol Regulatory Element-Binding Protein) участвуют в регуляции экспрессии генов липидного метаболизма и биосинтеза холестерина. Факторы подсемейства SREBP взаимодействуют с сайтами связывания двух типов: SRE (Sterol Regulatory Element) и Е-бокс. Известно, что с сайтами SRE-типа связывается только фактор SREBP, с сайтами типа Е-бокс, помимо SREBP, могут связываться также ряд других факторов. Чтобы избежать большого числа ложно предсказанных сайтов SREBP из обучающей выборки были отсеяны сайты типа Е-бокс (Игнатьева с соавт., 2009). Обучающая выборка сайтов SRE-типа составила 38 последовательностей длиной 40 п.н. Поиск потенциальных SRE с помощью системы SITECON осуществляли в 5'-фланкирующих областях 46 генов системы липидного метаболизма, регуляторные районы которых не содержали ССТФ SREBP,

включенных в обучающую выборку. На основании анализа таблицы ошибок распознавания нами был выбран порог конформационного сходства, равный 0.73, значение ошибки 1-го рода при этом составляет 53%, ошибка П-го рода - 7.55Е-04 (1/1324).

Таблица 4.

Предсказанные методом 81ТЕСОЫ потенциальные ССТФ 811ЕВР в промоторах генов системы липидного метаболизма и результаты их экспериментальной проверки._____

Название гена (вид) Позиция* р** Последовательность сайта Экспериментальное подтверждение

АШ?(человек) -439 0.750 ggaccatgaggtcaggggatcaagaccatc +

^«(человек) -303 0.778 gagatcacaccactgcactccaccctggtg +

МЩчеловек) -164 0.796 agataactcactcttcaccccatttaggcc +

£С4/'(человек) -311 0.777 tctccccccgtcacaccaggggcccgcgga +

/•/Щцыпленок) -484 0.756 gcctagcaacaccctcacgggctccgcatt +

/^-Щцыпленок) -63 0.749 ggagtaaaccgtcagcccatgtggtggccg +

ABCG1( человек) -558 0.732 cccttcccgcccaccccaccccgacggtgt +

INSIGH человек) -385 0.736 ggcccgaaaaaatcacccaaggatgcaagc +

INSIG1 (человек) -99 0.769 gcggggcaagctcaggccacgcccctgggc +

¿АК/1(человек) -81 0.780 ctgccgaggggtcaggccacccctccttcc +

CYP4A6 (кролик) -641 0.783 acaagcatttccaccccactgccctcaact +

£р/(мышь) -773 0.805 ccacactcctagcaccccatatcccctcgc +

СРГ2(человек) -789 0.731 caatccgaggtcacctaactagataacaaa +

/йайр(иышь) -67 0.863 agccccaaagtcaccccacttctcagtcct +

/ВЛВЯ(человек) -66 0.881 cagcccctaagtcaccccacttcttctccc +

* Позиция указана относительно старта транскрипции ** Уровень конформационного сходства с известными сайтами связывания ЭНЕВР, оцененный методом 81ТЕСОЫ.

Было выявлено 50 потенциальных SRE, имеющих уровень конформационного сходства с последовательностями в обучающей выборке выше, чем 0.73, 15 из этих последовательностей были проверены экспериментально (табл. 4). Независимая экспериментальная поверка in vitro методом задержки в геле (EMSA) меченых двухцепочечных олигонуклеотидных проб, соответствующих предсказанным сайтам проведена в лаборатории регуляции экспрессии генов ИЦиГ СО РАН с использованием рекомбинантного SREBP-la. Все 15 протестированных сайтов показали связывание с SREBP (Игнатьева с соавт., 2009). Этот результат подтверждает высокую эффективность метода для распознавания ССТФ SREBP.

Выводы

1. Создана Интернет-доступная компьютерная система 81ТЕС(Ж для выявления консервативных контекстно-зависимых конформационных и физико-химических свойств различных функциональных сайтов в геномной ДНК, на основе которой разработаны методы распознавания сайтов связывания транскрипционных факторов.

2. Анализ последовательностей сайтов расщепления ДНК топоизомеразой I человека выявил набор значимых консервативных контекстно-зависимых конформационных и физико-химических свойств ДНК для этих сайтов: угол наклона оснований; сдвиг пары оснований; угол поворота спирали; шаг спирали; размер малой бороздки ДНК; температура плавления ДНК.

3. В результате анализа выборок нуклеотидных последовательностей 220 типов сайтов связывания транскрипционных факторов показано, что каждый из типов сайтов характеризуется набором статистически значимых консервативных контекстно-зависимых конформационных и физико-химических свойств ДНК, информация о которых, а также созданные на их основе методы распознавания сайтов доступны по адресу http://wwwmgs.bionet.nsc.ru/mgs/programs/sitecoa/.

4. Анализ сайтов связывания транскрипционного фактора Е2РЛЭР, участвующего в регуляции генов клеточного цикла млекопитающих показал, что наиболее значимыми характеристиками являются увеличенная ширина большой и малой бороздок ДНК, что согласуется с данными рентгеноструктурного анализа. Разработанный на основе набора выявленных значимых характеристик ДНК этих сайтов метод распознавания характеризуется низким значением ошибок первого и второго рода. С использованием аналогичного подхода разработаны методы распознавания сайтов связывания транскрипционных факторов БР-1 и БКЕВР.

5. Проведено планирование эксперимента по выявлению новых потенциальных сайтов связывания транскрипционных факторов БР-1 и БЛЕВР в промоторных районах генов стероидогенеза и липидного метаболизма, соответственно. Определены параметры методов, при которых экспериментальная проверка методом задержки в геле подтвердила связывание всех выявляемых сайтов (18 и 15) с факторами БЯЕВР и 8Р-1, соответственно.

Список основных работ, опубликованных по теме диссертации

1. Игнатьева Е.В., Меркулова Т.И., Ощепков Д.Ю., Климова Н.В., Васильев Г.В., Турнаев И.И., Кобзев В.Ф., Колчанов Н.А. (2009) Выявление новых сайтов связывания транскрипционных факторов БЯЕВР в промоторных районах генов позвоночных на основе комбинации биоинфоматического и экспериментального подходов. Вестник ВОГИС, 13(1):37-45.

2. Ощепков Д.Ю., Фурман Д.П., Ощепкова Е.А., Катохин А.В., Шаманина М.Ю., Мордвинов В.А. (2009) Выявление новых DRE в регуляторной области генов человека, кодирующих компоненты цитозольного комплекса арил-гидрокарбонового рецептора. Вестник ВОГИС, 13(1):46-52.

3. Брызгалов Л.О., Ершов Н.И., Ощепков Д.Ю., Каледин В.И., Меркулова Т.И. (2008) Выявление генов-мишеней транскрипционного фактора FOXA, связанных с регуляцией пролиферации. Биохимия, 73(1):70-5.

4. Кузнецова Т.Н., Игнатьева Е.В., Мордвинов В.А., Катохин А.В., Шаманина М.Ю., Ощепков Д.Ю., Колчанов Н.А. (2008) Анализ структуры инсулин-зависимых регуляторных контуров зрелых адипоцитов. Успехи физиологических наук, 39(1):3-22.

5. Oshchepkova Е.А., Furman D.P., Oshchepkov D.Y., Katokhin A.V., Shamanina M.Y., Mordvinov V.A., Tsyrlov I.B. (2008) Regulatory region of human genes encoding macrophageal transcription factors possess multiple potential dioxin response elements. Organohalogen Compounds, 70:001467.

6. Nedosekina E.A., Oshchepkov D.Y., Katokhin A.V., Kuznetsova T.N., Shamanina M.Y., Mordvinov V.A., Tsyrlov I. B. (2007) Detection of new potentially active DRE sites in regulatory region of human genes encoding components of Ah receptor cytosolic complex. Organohalogen Compounds 69:1889-92.

7. Игнатьева E. В., Климова H. В., Ощепков Д. Ю., Васильев Г. В., Меркулова Т. И., член - корреспондент РАН Колчанов Н. А. (2007) Поиск новых сайтов связывания транскрипционного фактора SF1 методом SITECON: экспериментальная проверка и анализ регуляторных районов генов-ортологов. Доклады академии наук, 415(1):120-124.

8. Khlebodarova Т., Podkolodnaya О., Oshchepkov D., Miginsky D., Ananko E., Ignatieva E. (2006) ARTS1TE database: comparison of in vitro selected and natural binding sites of eukaryotic transcription factors. In: Bioinformatics of Genome Regulation and Structure II. (Eds. N.Kolchanov, R.Hofestaedt, L.Milanesi), Springer Science+Business Media, Inc. pp. 55-65.

9. Katokhin A., Levitsky V., Oshchepkov D., Poplavsky A., Trifonov V., Furman D. (2006) Analysis of nucleosome formation potential and conformational properties of human J1-J2 and D2-D1 type alpha satellite DNA. In: Bioinformatics of Genome Regulation and Structure II. (Eds. N.Kolchanov, R.Hofestaedt, L.Milanesi), Springer Science+Business Media, Inc., pp. 75-83.

10. Ananko E., Oshchepkov D., Nedosekina E., Levitsky V., Lokhova I., Smirnova O., Likhoshvai V., Kolchanov N. (2006) Study of the interactions between viral and human genomes during transformation of В cells with epstein-barr virus. In: Bioinformatics of Genome Regulation and Structure II. (Eds. N.Kolchanov, R.Hofestaedt, L.Milanesi), Springer Science+Business Media, Inc., pp. 443-450.

11. Ощепков Д.Ю., Бугреев Д.В., Колчанов H.A., Невинский Г.А. (2005) Комьютерный анализ конформационных и физико-химических особенностей последовательностей ДНК, расщепляемых ДНК-топоизомеразой I. Мол. Биол., 39(3):488-96.

12. Furman D.P., Oshchepkov D.Yu., Pozdnyakov O.A., Katokhin A.V. (2004) Properties of insertion regions of Drosophila LTR retrotransposons. In: N.Kolchanov and R.Hofestaedt (ed.), Bioinformatics of genome regulation and structure. Kluwer Academic Publishers, Boston/Dordrecht/London, pp. 21 - 32.

13. Turnaev I.I., Oshchepkov D.Yu., Podkolodnaya O.A. (2004) Extension of cell cycle gene network description based on prediction of potential binding sites for E2F transcription factor. In: N.Kolchanov and R.Hofestaedt (ed.), Bioinformatics of genome regulation and structure. Kluwer Academic Publishers, Boston/Dordrecht/London, pp. 273-82.

14. Oshchepkov D.Yu.. Tumaev 1.1., Pozdnyakov M.A., Milanesi L., Vityaev E.E.. Kolchanov N.A. (20046) SITECON - a tool for analysis of DNA physicochemical and conformational properties: E2F/DP transcription factor binding site analysis and recognition. In: N.Kolchanov and R.Hofestaedt (ed.), Bioinformatics of genome regulation and structure. Kluwer Academic Publishers, Boston/Dordrecht/London, pp. 93-102.

15. Oshchepkov D.Y., Vityaev E.E., Grigorovich D.A., Ignatieva E.V., Khlebodarova T.M. (2004a) SITECON: a tool for detecting conservative conformational and physicochemical properties in transcription factor binding site alignments and for site recognition. Nucleic Acids Res. 32:208-12.

Благодарности Автор выражает благодарность сотрудникам отдела системной биологии ИЦиГ СО РАН и лично с.н.с.. к.б.н. Е.В. Игнатьевой за плодотворные дискуссии и сотрудничество: с.н.с.. к.б.н. М.П. Пономаренко за предоставление в пользование БД конформационных и физико-химических свойств ДНК «PROPERTY»; зав. сектором мутагенеза и репарации ИЦиГ СО РАН, д.х.н. Г.А. Невинскому, сотрз'дникам лаборатории регуляции экспрессии генов ИЦиГ СО РАН и лично зав. лаб.. д.б.н. Т.Н. Меркуловой за плодотворное сотрудничество: в.н.с.. д.б.н. Д.П.Фурман и зав. лаб. генной инженерии ИЦиГ СО РАН, к.б.н. А.В. Кочетову за помощь в работе над текстом диссертации.

Подписано к печати 18.02.2010 г.

Формат бумаги 60 х 90 1/16. Печ. 1. Уч. изд. 0,7.

Тираж 100 экз. Заказ 12

Ротапринт Института цитологии и генетики СО РАН 630090, Новосибирск, пр. ак. Лаврентьева, 10

Содержание диссертации, кандидата биологических наук, Ощепков, Дмитрий Юрьевич

ВВЕДЕНИЕ.

Актуальность проблемы.

Цели и задачи исследования.

Научная новизна.

Научная и практическая ценность.

Публикации.

Структура работы.

Благодарности.

Вклад автора.

Принятые сокращения.

ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ.

1.1. Особенности структурно-функциональной организации геномной ДНК.

1.1.1. Общие сведения о структуре двойной спирали ДНК.

1.1.2. Конформационные и физико-химические контекстно-зависимые свойства ДНК

1.1.3. Контекстно-зависимые конформационные и физико-химические свойства ДНК как особый тип кода, значимого для функционирования геномов.

1.2. Регуляция транскрипции генов эукариот. Транскрипционные факторы и топоизомераза 1.

1.2.1. Структурно-функциональная организация 5'-регуляторных районов, контролирующих транскрипцию генов эукариот.

1.2.2. Классификация транскрипционных факторов.

1.2.3. Основные типы ДНК-связывающих доменов транскрипционных факторов.

1.2.3.1. ДНК-связывающий домен типа спираль-поворот — спираль.

1.2.3.2. ДНК-связывающий домен, координированный ионами цинка.

1.2.3.3. ДНК-связывающий домен, обогащенный положительно заряженными аминокислотными остатками.

1.2.3.4. Домен типа ß-скэффолд.

1.2.4. Конформация ДНК в комплексах с транскрипционными факторами.

1.2.5. ДНК топоизомераза 1.

1.3. Компьютерные методы распознавания функциональных последовательностей ДНК

1.3.1. Метод консенсуса.

1.3.2. Метод весовых матриц.

1.3.3. Метод скрытых Марковских цепей и байесовские сети.

1.3.4. Метод дискриминантного анализа.

1.3.5. Метод конформационных параметров: система B-DNA Video.

1.3.6. Метод статистического потенциала.

1.3.7. Статистические характеристики, используемые для сравнения точности методов распознавания.

1.3.8. Метод филогенетического футпринтинга.

Введение Диссертация по биологии, на тему "Компьютерный анализ конформационных и физико-химических особенностей функциональных сайтов геномной ДНК эукариот"

АКТУАЛЬНОСТЬ ПРОБЛЕМЫ

Регуляция транскрипции играет ключевую роль в механизмах регуляции экспрессии генов. У эукариот этот процесс контролируется огромным количеством разнообразных белковых молекул, которые в процессе сложнейших ДНК-белковых и белок-белковых взаимодействий обеспечивают выполнение функций транскрипционного аппарата. Одним из основных механизмов регуляции экспрессии генов на уровне транскрипции является процесс взаимодействия белков - факторов транскрипции с сайтами их связывания в регуляторных районах генов. В процесс транскрипции вовлечена также топоизомераза. Связываясь с ДНК, она обеспечивает сохранение топологии спирали ДНК в процессах транскрипции и репликации. Исследование особенностей связывания белковых факторов с последовательностями ДНК является одним из ключевых моментов для понимания основ регуляции транскрипции.

Приблизительная оценка числа сайтов связывания транскрипционных факторов (ССТФ) в геноме дает числа более сотен тысяч (Ко1сЬапоу et а1, 2007). Экспериментальное выявление такого количества сайтов является чрезвычайно сложной и дорогостоящей задачей. Один из путей решения этой проблемы основан на создании эффективных методов планирования экспериментов по выявлению сайтов связывания транскрипционных факторов. В связи с этим важнейшее значение приобретает создание точных методов предсказания ССТФ, обеспечивающих минимальное число ложных предсказаний, что, в свою очередь, дает возможность рационального планирования эксперимента по выявлению ССТФ (Ко1сЬапоу е^ а1, 2007; Меркулова и др., 2007).

Как правило, каждый транскрипционный фактор обладает способностью связываться с набором сайтов, сходных по нуклеотидной последовательности. В настоящее время существует большое число методов распознавания потенциальных сайтов связывания, основанных на анализе контекстного сходства. Однако эти методы, как правило, не учитывают, или недостаточно эффективно используют данные о контекстно-зависимых конформационных и физико-химических особенностях ДНК сайтов связывания.

Многочисленные экспериментальные данные, полученные за последние 20 лет, однозначно свидетельствуют о том, что геномная ДНК неоднородна как по конформации, так и по своим физико-химическим свойствам (Suzuki et al., 1997). Накоплен большой объем экспериментальных данных по пространственному строению двойной спирали ДНК, ДНК-белковых комплексов, а также о зависимостях локальных конформационных и физико-химических свойств двойной спирали ДНК от нуклеотидной последовательности. В то же время, как экспериментальные данные, так и компьютерный анализ и теоретическое обобщение этих данных показывают, что способность регуляторных белков взаимодействовать с двойной спиралью ДНК в сильной степени зависит от ее локальных конформационных и физико-химических свойств (Starr et al., 1995; Meierhans etal., 1997; Ponomarenko et al., 1997).

Однако количество научных публикаций по распознаванию ССТФ на основе анализа контекстно-зависимых конформационных и физико-химйческих свойств ДНК весьма ограничено (Kolchanov et al., 2007; Меркулова и др., 2007). В связи с этим актуальной задачей является разработка компьютерных подходов к анализу контекстно-зависимых конформационных и физико-химических свойств сайтов связывания транскрипционных факторов и построения на этой основе точных методов их распознавания в геномной ДНК эукариот. Использование данных о контекстно-зависимых конформационных и физико-химических свойствах при анализе сайтов связывания транскрипционных факторов может привести не только к повышению качества их распознавания, но и позволит получить полезную информацию об особенностях ДНК-белковых взаимодействий.

ЦЕЛИ И ЗАДАЧИ ИССЛЕДОВАНИЯ

Целью работы являлось выявление особенностей контекстно-зависимых конформационных и физико-химических свойств ДНК функциональных сайтов в геномах эукариот с помощью компьютерного анализа и создание на этой основе подхода для планирования экспериментов по выявлению сайтов связывания регуляторных белков.

В работе были поставлены следующие задачи:

1. Разработка компьютерного метода выявления контекстно-зависимых конформационных и физико-химических особенностей ДНК функциональных сайтов.

2. Проведение компьютерного анализа конформационных и физико-химических свойств ДНК сайтов связывания различных транскрипционных факторов и сайтов расщепления ДНК топоизомеразой 1 человека.

3. Разработка методов распознавания потенциальных сайтов связывания различных транскрипционных факторов, в частности, 8Р-1, БЯЕВР и гетеродимера Е2Р/ОР на основе выявленных значимых конформационных и физико-химических свойств этих сайтов.

4. Создание Интернет-доступной компьютерной системы для анализа и распознавания сайтов связывания транскрипционных факторов, создание информационного ресурса по особенностям конформационных и физико-химических свойств для доступных выборок сайтов связывания транскрипционных факторов и методам их распознавания.

5. Проведение планирования экспериментов по локализации сайтов связывания транскрипционных факторов 8Р-1 и 8ЯЕВР в промоторных районах генов млекопитающих.

НАУЧНАЯ НОВИЗНА

Впервые показано наличие значимых консервативных контекстно-зависимых конформационных и физико-химических свойств ДНК в выборках различных классов последовательностей функциональных сайтов — сайтов связывания транскрипционных факторов и сайтов расщепления ДНК топоизомеразой I человека. Впервые разработана система 81ТЕС(Ж, представляющая собой реализованный в виде компьютерной программы комплекс методов для выявления консервативных конформационных и физико-химических свойств сайтов связывания транскрипционных факторов (ССТФ) и распознавания с использованием этих данных потенциальных ССТФ. С помощью этой системы исследованы конформационные и физико-химические особенности сайтов связывания четырех типов транскрипционных факторов (8Р-1, ЯЯР, МСМ1 и Е2Р/ОР). Показано, что сайты каждого типа характеризуются уникальным набором конформационных и физико-химических особенностей двойной спирали ДНК, отличающих их от случайных последовательностей нуклеотидов. Анализ показал, что выявляемые консервативные конформационные и физико-химические свойства ДНК изученных функциональных сайтов отражают специфику ДНК-белковых взаимодействий. Впервые проведено планирование эксперимента по проверке потенциальных сайтов связывания SF1 и SREBP. Независимо проведенная экспериментальная проверка выявленных сайтов показала высокую эффективность применяемого комплекса методов.

НАУЧНАЯ И ПРАКТИЧЕСКАЯ ЦЕННОСТЬ

Разработанная система SITECON обеспечивает возможность выявления значимых консервативных контекстно-зависимых конформационных и физико-химических особенностей ДНК функциональных сайтов на основе анализа выборок последовательностей этих сайтов. Используемый системой метод выявления особенностей ДНК может использоваться для анализа разнообразных сайтов в геномах эукариот. Выявленные характеристики ДНК функциональных сайтов являются основой для создания методов их распознавания в геномной ДНК. Система SITECON обладает высокой производительностью и может применяться для массового анализа сайтов связывания транскрипционных факторов, информация о значимых конформационных и физико-химических особенностях которых накапливается в соответствующей базе знаний. В настоящее время эта база знаний содержит результаты анализа 220 выборок последовательностей сайтов связывания различных транскрипционных факторов и методы их распознавания. Проведенные исследования показали высокую точность распознавания сайтов связывания транскрипционных факторов системой SITECON, что критически значимо для эффективного планирования экспериментов по выявлению таких сайтов в геномах эукариот. Система SITECON доступна по сети Интернет (http://vywwrngs.bionet.nsc.ru/mgs/proa-ams/sitecon/) и может применяться в учебном процессе как в курсах биоинформатики (информационной биологии), так и в курсах экспериментальной молекулярной биологии.

Представленный в диссертации комплекс методов SITECON был успешно применен для распознавания сайтов связывания транскрипционных факторов SF-1, SREBP, FOXA, E2F/DP, IRF, ISGF3, STAT, NF-kB, COUP-TF, PPAR, HSF, AhR; a также использован при планировании эксперимента по распознаванию сайтов SF-1 и SREBP в промоторах генов млекопитающих. Получено авторское свидетельство № 2006610270 "Программа для определения консервативных свойств в сайтах связывания транскрипционных факторов и их распознавания (САЙТКОН) / The tool for detecting conservative properties in transcription factor binding sites and for site recognition (SITECON)", автор: Ощепков Д.Ю., зарегистрировано 10.01.2006.

ПУБЛИКАЦИИ

По теме диссертационной работы опубликовано 33 работы, из них 9 статей в рецензируемых и ведущих журналах, 5 из которых входят в список ВАК, и 6 публикаций в монографиях. Результаты работы представлены на 10 российских и 2 зарубежных конференциях в виде устных докладов и стендовых сообщений, среди которых первая, вторая, третья, четвертая, пятая и шестая международные конференции по биоинформатике, структуре и регуляции генома (г. Новосибирск, август 1998 г., июль 2000 г., июль 2002 г., август 2004 г., июль 2006г., июнь 2008г.); международная конференция по компьютерной молекулярной биологии, (Москва, июнь 2003 г.); 27th International Symposium on Halogenated Persistent Organic Pollutants "Dioxin 2007", 2-7 September, 2007; Conference on modeling and simulation in biology, medicine and biomedical engineering. Linkoping, Sweden, May 26-27, 2005.

Структура работы

Диссертационная работа состоит из введения и обзора литературы (глава I), трёх разделов, содержащих основные результаты (главы II- IV), выводов, списка цитированной литературы (267 ссылок). Работа изложена на 177 страницах, содержит 41 рисунок и 28 таблиц. Нумерация рисунков, таблиц и формул производится отдельно для каждой главы.

Заключение Диссертация по теме "Математическая биология, биоинформатика", Ощепков, Дмитрий Юрьевич

ВЫВОДЫ

1. Создана Интернет-доступная компьютерная система SITECON для выявления консервативных контекстно-зависимых конформационных и физико-химических свойств различных функциональных сайтов в геномной ДНК, на основе которой разработаны методы распознавания сайтов связывания транскрипционных факторов.

2. Анализ последовательностей сайтов расщепления ДНК топоизомеразой I человека выявил набор значимых консервативных контекстно-зависимых конформационных и физико-химических свойств ДНК для этих сайтов: угол наклона оснований; сдвиг пары оснований; угол поворота спирали; шаг спирали; размер малой бороздки ДНК; температура плавления ДНК.

3. В результате анализа выборок нуклеотидных последовательностей 220 типов сайтов связывания транскрипционных факторов показано, что каждый из типов сайтов характеризуется набором статистически значимых консервативных контекстно-зависимых конформационных и физико-химических свойств ДНК, информация о которых, а также созданные на их основе методы распознавания сайтов доступны по адресу http://\vwAvmgs.bionet.nsc.ru/mgs/prog.rams/sitecon/.

4. Анализ сайтов связывания транскрипционного фактора E2F/DP, участвующего в регуляции генов клеточного цикла млекопитающих показал, что наиболее значимыми характеристиками являются увеличенная ширина большой и малой бороздок ДНК, что согласуется с данными рентгеноструктурного анализа. Разработанный на основе набора выявленных значимых характеристик ДНК этих сайтов метод распознавания характеризуется низким значением ошибок первого и второго рода. С использованием аналогичного подхода разработаны методы распознавания сайтов связывания транскрипционных факторов SF-1 и SREBP.

5. Проведено планирование эксперимента по выявлению новых потенциальных сайтов связывания транскрипционных факторов SF-1 и SREBP в промоторных районах генов стероидогенеза и липидного метаболизма, соответственно. Определены параметры методов, при которых экспериментальная проверка методом задержки в геле подтвердила связывание всех выявляемых сайтов (18 и 15) с факторами SREBP и SF-1, соответственно.

ЗАКЛЮЧЕНИЕ

Настоящая диссертационная работа посвящена исследованию особенностей контекстно-зависимых конформационных и физико-химических свойств ДНК функциональных сайтов в геномах эукариот с помощью компьютерного анализа и созданию на этой основе подхода для планирования экспериментов по выявлению сайтов связывания регуляторных белков. Известно, что процесс взаимодействия транскрипционных факторов с ДНК является одним из механизмов регуляции транскрипции и одновременно решающим образом зависит от локальных свойств двойной спирали ДНК. В то же время имеющиеся методы анализа и распознавания сайтов связывания транскрипционных факторов либо не учитывают этих свойств ДНК, либо обладают рядом недостатков, не позволяющих использовать их для анализа протяженных геномных последовательностей.

Для решения этой проблемы был проведен компьютерный анализ контекстно-зависимых -конформационных и физико-химических свойств нуклеотидных последовательностей сайтов связывания различных транскрипционных факторов. Показано, что выборки функциональных сайтов ДНК характеризуются наличием консервативных конформационных и физико-химических свойств и эти данные можно использовать для их распознавания. В рамках диссертационной работы был создан комплекс методов для выявления консервативных свойств двойной спирали ДНК, характерных для выборок сайтов связывания транскрипционных факторов, на основе которых может быть осуществлено распознавание потенциальных сайтов. Комплекс методов был реализован в виде компьютерных программ и объединен в Интернет-доступной компьютерной системе 81ТЕС(Ж http://vvwwmgs.bionet.nsc.rii/mgs/programs/sitecon/).

С использованием системы 8ГГЕС(Ж было показано, во-первых, что для каждой из проанализированных в диссертации выброк сайтов связывания транскрипционных факторов (8Е-1, 8КБ, МСМ1 и Е2Е/ОР) существует уникальный набор консервативных конформационных и физико-химических свойств двойной спирали ДНК, и, во-вторых, что эти особенности отражают молекулярные механизмы ДНК-белковых взаимодействий. В частности, для факторов 8Е-1, ЗЯБ и МСМ1 было показано, что определенное распределение значений некоторых свойств двойной спирали ДНК вдоль последовательности сайта (например, изгибной жесткости в сторону большой и малой бороздок (8Щ?, МСМ1) или персистентной длины (8Р-1)) может способствовать изгибам оси ДНК в результате взаимодействия с транскрипционным фактором. Способность изгибать ДНК при взаимодействии, в свою очередь, является одним из свойств ТФ, напрямую связанных с возможным механизмом их воздействия на транскрипцию, таким, как создание оптимальной конформации ДНК и/или изменение структуры хроматина. По-видимому, выявляемые особенности двойной спирали ДНК в районе сайтов связывания транскрипционных факторов могут иметь прямое отношение к механизму регуляции транскрипции.

Применение комплекса методов системы 81ТЕС(Ж не ограничено анализом сайтов связывания транскрипционных факторов и позволяет проводить также анализ других важных с биологической точки зрения сайтов в составе геномной ДНК. Проведен компьютерный анализ последовательностей сайтов расщепления ДНК топоизомеразой I человека. Показано наличие ряда консервативных контекстно-зависимых конформационных и физико-химических свойств ДНК, потенциально обеспечивающих оптимальное взаимодействие этих участков ДНК с ферментом.

Система 81ТЕССЖ эффективно использует только контекстно-зависимые конформационные и физико-химические свойства ДНК для распознавания сайтов связывания транскрипционных факторов. Сравнение качества распознавания разработанного метода с существующим аналогом — методом весовых матриц -показало, что использование данных о консервативных конформационных и физико-химических свойствах двойной спирали ДНК позволяет достигать качества распознавания как минимум не хуже, а в ряде случаев - лучше существующего аналога. Не в последнюю очередь эффективность данного подхода обусловлена учетом информации, которая теряется при распознавании ССТФ с использованием метода весовых матриц, основанном на допущении о том, что нуклеотиды взаимодействуют с белком независимо друг от друга. Комплекс методов системы 81ТЕС(Ж позволяет избежать использования этого допущения, что улучшает качество распознавания.

Разработанный комплекс методов был успешно применен в ряде экспериментальных исследований. Так, с использованием системы 81ТЕС(Ж проведено планирование эксперимента по выявлению новых потенциальных ССТФ SF-1 в промоторных районах генов стероидогенеза и SRJEBP в промоторных районах генов липидного метаболизма. Определены параметры методов, при которых экспериментальная проверка методом задержки в геле подтвердила связывание всех выявляемых сайтов (18 и 15) с факторами SREBP и SF-1, соответственно (Игнатьева и др., 2007; 2009).

Система SITECON также была использована в экспериментально-теоретических исследованиях. Комплекс методов SITECON был успешно применен для распознавания сайтов связывания транскрипционных факторов IRF, ISGF3, STAT, NF-кВ (Ananko et al, 2002, 2006), COUP-TF, PPAR (Proscura et al., 2002), HSF (Furman et al., 2002), E2F/DP (Oshchepkov et al, 20046; Turnaev et al, 2004), AhR (Nedosekina et al, 2007), FOXA (Брызгалов и др., 2008).

Получено авторское свидетельство № 2006610270 "Программа для определения консервативных свойств в сайтах связывания транскрипционных факторов и их распознавания (САЙТКОН) / The tool for detecting conservative properties in transcription factor binding sites and for site recognition (SITECON)", автор: Ощепков Д.Ю., зарегистрировано 10.01.2006.

Библиография Диссертация по биологии, кандидата биологических наук, Ощепков, Дмитрий Юрьевич, Новосибирск

1. Брызгалов Л.О., Ершов Н.И., Ощепков Д.Ю., Каледин В.И., Меркулова Т.И. Выявление генов-мишеней транскрипционного фактора FOXA, связанных с регуляцией пролиферации // Биохимия. 2008. - Т. 73(1). - С. 7075.

2. Бугреев Д.В., Бунева В.Н., Невинский Г.А. Механизм расщепления суперскрученной ДНК человеческой ДНК-топоизомеразой I: влияние структуры лиганда на каталитическую стадию реакции // Молекулярная биология. 2003в. - Т. 37. - С. 1-15.

3. Вингендер, Э. Классификация транскрипционных факторов эукариот // Молекулярная биология. 1997. - Т. 31(4). - С. 584-600.

4. Воробьев Ю.Н. Методы компьютерного моделирования и конформационная подвижность ДНК дуплексов // Молекулярная биология. 2003. - Т. 37(2) . -С. 240-254.

5. Зенгер В. Принципы структурной организации нуклеиновых кислот. -М.: Мир, 1987.

6. Колчанов,H.A., Пономаренко,М.П., Пономаренко,Ю.В., Подколодный, H.A., Фролов,A.C. Функциональные сайты геномов про- и эукариот: компьютерное моделирование и предсказание активности // Молекулярная биология. 1998. - Т. 32. - С. 255-267.

7. Левицкий В.Г., Игнатьева Е.В., Ананько Е.А., Меркулова Т.И., Колчанов H.A., Ходжман Ч. Распознавание сайтов связывания транскрипционных факторов с помощью метода SiteGA // Биофизика. 2006. - Т. 51(4) . - С. 633639.

8. Меркулова Т.И., Ощепков Д.Ю., Игнатьева Е.В., Ананько Е.А. Экспериментальные и компьютерные подходы к изучению регуляторных элементов в эукариотических генах // Биохимия. 2007. - Т. 72(11) . - С. 1187-1193.

9. Невинский Г.А. Роль слабых специфических и неспецифических взаимодействий в узнавании и превращении ферментами протяженных ДНК // Молекулярная биология. 2004. - Т. 38. - С. 756-785.

10. Невинский Г.А. Важная роль слабых взаимодействий при узнавании ферментами протяженных молекул ДНК и РНК // Молекулярная биология. -1995.-Т. 29.-С. 16-37.

11. Ощепков Д.Ю., Бугреев Д.В., Колчанов H.A., Невинский Г.А. Компьютерный анализ конформационных и физико-химических особенностей последовательностей ДНК, расщепляемых ДНК-топоизомеразой I // Молекулярная биология. 2005. - Т. 39(3) . - С. 488-96.

12. Пономаренко М.П., Пономаренко Ю.В., Кель А.Е., Колчанов H.A., Карас Г., Вингендер Е., Скленар Г. Компьютерный анализ конформационных характеристик эукариотических TATA- боксов ДНК промоторов // Молекулярная биология. 1997. - Т. 31(4) . - С. 733-740.

13. Прикладная статистика: Классификация и снижение размерности / С.А. Айвазян, В.М.Бухштабер, И.С, Енюков, Л.Д. Мешалкин /под ред. С.А. Айвазян. М. - Р. Финансы и статистика, 1989. -607 с.

14. Сингер М., Берг П. Гены и геномы. М.: Мир, 1998.

15. Трифонов Э.Н. Генетическое содержание последовательностей ДНК определяется суперпозицией многих кодов // Молекулярная биология. -1997.-Т. 31(4).-С. 759-766.

16. Фишберн, П. Теория полезности для принятия решений. М.: Наука, 1978.

17. Ahmad S, Kono H, Arauzo-Bravo MJ, Sarai A. ReadOut: structure-based calculation of direct and indirect readout energies and specificities for proteinDNA recognition // Nucleic Acids Res. 2006. - Vol. 34. - P. 124-127.

18. An W. Histone acetylation and methylation: combinatorial players for transcriptional regulation // Subcell Biochem. 2007. - Vol. 41. - P. 351-69.

19. Anderberg, M. R. Cluster Analysis for Applications. Academic Press. -N.Y., 1973.

20. Anderson T.W. An introduction to multivariate statistical analysis. John Wiley & Sons Inc. - N.Y., 1958.

21. Andoh T., Ikeda H., Aguro M. Molecular biology of DNA topoisomerase and its application to chemotherapy. CRC Press. - Boca Raton., 1993.

22. Annunziato A. T. Inhibitors of topoisomerases I and II arrest DNA replication, but do not prevent nucleosome assembly in vivo II J Cell Sci. -1989.-Vol. 93.- 593-603.

23. Baldi,P., Brunak,S., Chauvin,Y., Andersen,C.A., Nielsen,H. Assessing the accuracy of prediction algorithms for classification: an overview // Bioinformatics. 2000. - Vol. 16(5) . - 412-24.

24. Bajic,V.B. Comparing the success of different prediction software in sequence analysis: a review // Brief. Bioinform. 2000. - Vol. 1(3) . - 21428.

25. Barton M.C., Crowe A.J. Chromatin alteration, transcription and replication: What's the opening line to the story? // Oncogene. 2001. - Vol. 20(24) .-3094-9.

26. Beckett D. Regulated assembly of transcription factors and control of transcription initiation // J. Mol. Biol. 2001. - Vol. 314(3) . - 335-52.

27. Berg O.G., von Hippel P.H. Selection of DNA binding sites by regulatory proteins//Trends Biochem Sci.- 1988.-Vol. 13(6) .- 207-11.

28. Berg O.G., von Hippel P.H. Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters//J. Mol. Biol.- 1987.-Vol. 193(4) .- 723-50.

29. Berg O.G. Selection of DNA binding sites by regulatory proteins. Functional specificity and pseudosite competition // J Biomol Struct Dyn. -1988a.- Vol. 6(2) .-275-97.

30. Berg O.G. Selection of DNA binding sites by regulatory proteins: the LexA protein and the arginine repressor use different strategies for functional specificity//Nucleic Acids Res. 1988b.- Vol. 16(11) .-5089-105.

31. Berg O.G., von Hippel P.H. Selection of DNA binding sites by regulatory proteins // Trends Biochem Sci. 1988a.- Vol. 13(6) .-207-11.

32. Berg, O.G. & von Hippel P.H. Selection of DNA binding sites by regulatory proteins II. The binding specificity of cyclic AMP receptor protein to recognition sites // J. Mol. Biol. 1988b. - Vol. 193. - 723-750.

33. Berman H.M., Westbrook J., Feng Z., Iype L., Schneider B., Zardecki C. The Nucleic Acid Database // Acta Crystallogr D Biol Crystallogr. 2002. -Vol. 58(Pt6No 1) .- 889-98.

34. Bharti A.K., Olson M.O., Kufe D.W., Rubin E.H. Identification of a nucleolin binding site in human topoisomerase I // J. Biol. Chem. 1996. - Vol. 271. - P. 1993-1997.

35. Bolshoy A., McNamara P., Harrington R.E., Trifonov E.N. Curved DNA without A-A: experimental estimation of all 16 DNA wedge angles // Proc Natl Acad Sci.- 1991.-Vol. 88(6) .-P. 2312-6.

36. Brennan R.G. The winged-helix DNA-binding motif: another helix-turn-helix takeoff//Cell. 1993.-Vol. 74(5) .-P. 773-6.

37. Brukner I., Jurukovski V., Konstantinovic M., Savic A. Curved DNA without AA/TT dinucleotide step // Nucleic Acids Res. 1991. - Vol. 19(13) . -P. 3549-51.

38. Brukner I., Jurukovski V., Savic A. Sequence-dependent structural variations of DNA revealed by DNase I // Nucleic Acids Res. 1990. - Vol. 18(4) .-P. 891-4.

39. Bucher P. Weight matrix descriptions of four eukaryotic RNA polymerase II promoter elements derived from 502 unrelated promoter sequences // J. Mol. Biol. 1990,-Vol. 212.-P. 563-578.

40. Bucher P. Regulatory elements and expression profiles // Curr Opin Struct Biol. 1999. - Vol. 9(3) . - P. 400-407.

41. Busk H., Thomsen B., Bonven BJ., Kjeldsen E., Nielsen O.F., Westergaard O. Preferential relaxation of supercoiled DNA containing a hexadecameric recognition sequence for topoisomerase I // Nature. 1987. - Vol. 327. — P. 638640.

42. Bugreev D.V., Vasutina E.L., Kolocheva T.I., Buneva V.N., Andoh T., Nevinsky G.A. Interaction of human DNA topoisomerase I with specific sequence oligodeoxynucleotides//Biochimie. 1998.- Vol. 80.-P. 303-308.

43. Bulyk, M., Johnson, P. and Church, G. Nucleotides of transcription factor binding sites exert inter-dependent effects on the binding affinities of transcription factors //Nucleic Acids Res. 2002. - Vol. 30. - P. 1255-1261.

44. Burke L.J., Baniahmad A. Co-repressors 2000 // FASEB J. 2000. - Vol. 14(13). - P. 1876-88.

45. Burley S.K., Clark K.L., Ferre-D'Amare A., Kim J.L., Nikolov D.B. X-ray crystallographic studies of eukaryotic transcription factors // Cold Spring Harb Symp Quant Biol. 1993. - Vol. 58. - P. 123-32.

46. Burset, M. and Guigo, R. . Evaluation of gene structure prediction programs // Genomics.- 1996.- Vol. 34. P. 353-367.

47. Calladine C.R., Drew H.R., McCall M.J. The intrinsic curvature of DNA in solution // J. Mol. Biol. 1988.- Vol. 201(1). - P. 127-37.

48. Calladine C.R., Drew H.R. Principles of sequence-dependent flexure of DNA // J. Mol. Biol. 1986. - Vol. 192(4). - P. 907-18.

49. Calladine C.R. Mechanics of sequence-dependent stacking of bases in B-DNA// J. Mol. Biol.- 1982.- Vol. 161(2). P. 343-52.

50. Cartharius K., Freeh K., Grote K., Klocke B., Haltmeier M., Klingenhoff A., Frisch M., Bayerlein M., Werner T. Matlnspector and beyond: promoter analysis based on transcription factor binding sites // Bioinformatics. 2005.- Vol. 21(13). - P. 2933-42.

51. Chang L.W., Nagarajan R., Magee J.A., Milbrandt J., Stormo G;D; A systematic model to predict transcriptional regulatory mechanisms based on overrepresentation of transcription factor binding profiles // Genome Res. -2006.- Vol. 16(3).-P. 405-413.

52. Chang M., Jaehning J.A. A multiplicity of mediators: alternative forms of transcription complexes communicate with transcriptional regulators // Nucleic Acids Res.- 1997.- Vol. 25(24). P. 4861-5.

53. Chen Q.K., Hertz G.Z., Stormo G.D. MATRIX SEARCH 1.0: a computer program that scans DNA sequences for transcriptional elements using a database of weight matrices // Comput Appl Biosci. 1995. - Vol. 11(5). -P. 563-6.

54. Cho Y., Gorina S., Jeffrey P.D., Pavletich N.P. Crystal structure of a p53 tumor suppressor-DNA complex: understanding tumorigenic mutations // Science.- 1994.- Vol. 265(5170). P. 346-55.

55. Choo Y., Klug A. Physical basis of a protein-DNA recognition code // Curr Opin Struct Biol. 1997.- Vol. 7(1). - P. 117-25.

56. Clark K.L., Halay E.D., Lai E., Burley S.K. Co-crystal structure of the HNF-3/fork head DNA-recognition motif resembles histone H5 // Nature. -1993.- Vol. 364(6436). P. 412-20.

57. Das M.K., Dai H.K. A survey of DNA motif finding algorithms // BMC Bioinformatics. 2007. - Vol. 8(7). - P. 21.

58. Day W.H., MeMorris F.R. Threshold consensus methods for molecular sequences//J. Theor. Biol.- 1992a.- Vol. 159(4). P. 481-9.

59. Day W.H., MeMorris F.R. Consensus sequences based on plurality rule // Bull. Math. Biol. 1992b. - Vol. 54(6). - P. 1057-68.

60. Day W.H., MeMorris F.R. Interpreting consensus sequences based on plurality rule//Math. Biosci. 1992c.- Vol. 111(2). - P. 231-47.

61. Day W.FI., MeMorris F.R. Critical comparison of consensus methods for molecular sequences // Nucleic Acids Res. 1992d. - Vol. 20(5). - P. 10939.

62. Decker C.J., Parker R. Mechanisms of mRNA degradation in eukaryotes // Trends Biochem. Sci. 1994. - Vol. 19(8). - P. 336-340.

63. Dickerson, T.D. and Drew, H.R. Structure of B-DNA dodecamer. II. Influence of base sequence on helix structure // J. Mol. Biol. 1981. - Vol. 149. - P. 761-786.

64. De Santis P., Palleschi A., Savino M., Scipioni A. Theoretical prediction of sequence dependent DNAs superstructures and their implications in recognition mechanisms with proteins // Nucleic Acids Symp Ser. 1991. -Vol.25. - P. 83-4.

65. Desjarlais J.R., Berg J.M. Toward rules relating zinc finger protein sequences and DNA binding site preferences // Proc Natl Acad Sci. 1992. -Vol. 89(16). - P. 7345-9.

66. Dragan A.I., Liu Y., Makeyeva E.N., Privalov P.L. DNA-binding domain ofGCN4induces bending of both the ATF/CREB and AP-1 binding sites of DNA //Nucleic Acids Research. 2004.- Vol. 32(17). - P. 5192-5197.

67. Drew H.R., McCall M.J., Calladine C.R. Recent studies of DNA in the crystal. Annu. Rev. Cell Biol. 1988. - Vol. 4. - P. 1-20.

68. Durbin R., Eddy S.R., Krogh A., Mitchson G. Biological sequence analysis. Cambridge University Press. -U.K., 1998.

69. Duret L, Bucher P. Searching for regulatory elements in human noncoding sequences. Curr Opin Struct Biol. 1997. - Vol. 7(3). - P. 399-406.

70. Eddy S.R. Profile hidden Markov models // Bioinformatics. 1998. - Vol. 14(9). - P. 755-63.

71. Efron B, Gong G A leisure look at the bootstrap, the jackknife and cross-validation // Am. Star. 1983. - Vol. 37. - P. 36-48.

72. Efron B, Tibshirani R Statistical data analysis in the computer age // Science.- 1991,- Vol. 253. P. 390-395.

73. Ellenberger T.E., Brandl C.J., Struhl K., Harrison S.C. The GCN4 basic region leucine zipper binds DNA as a dimer of uninterrupted alpha helices:crystal structure of the protein-DNA complex // Cell. 1992. - Vol. 71(7). -P. 1223-37.

74. Ellenberger T., Fass D., Arnaud M., Harrison S.C. Crystal structure of transcription factor E47: E-box recognition by a basic region helix-loop-helix dimer//Genes Dev. 1994.- Vol. 8(8). - P. 970-80.

75. Elnitski L., Victor X. Jin, Peggy J. Farnham, and Steven J.M. Jones Locating mammalian transcription factor binding sites: A survey of computational and experimental techniques // Genome Res. 2006. - Vol. 16(12).-P. 1455-64.

76. Jacobs G.H. Determination of the base recognition positions of zinc fingers from sequence analysis//EMBO J. 1992.- Vol. 11(12). - P. 4507-17.

77. Jacobs G., Michaels G. Zinc finger gene database // New Biol. 1990. -Vol. 2(6). - P. 583-584.

78. Jakoby M., Weisshaar B., Droge-Laser W., Vicente-Carbajosa J., Tiedemann J., Kroj T., Parcy F. bZIP transcription factors in Arabidopsis // Trends Plant Sci. 2002. - Vol. 7(3). - P. 106-11.

79. Jolly E.R., Chin C.S., Herskowitz I., Li H. Genome-wide identification of the regulatory targets of a transcription factor using biochemical characterization and computational genomic analysis // BMC Bioinformatics. 2005. - Vol. 18(6). - P. 275.

80. Jordan K., Haas A., Logan T. and Hall D. Detailed analysis of the basic domain of the E2F1 transcription factor indicate that it is unique among bHLH proteins // Oncogene. 1994. - Vol. 9. - P. 1177-1185.

81. Juo Z.S., Chiu T.K., Leiberman P.M., Baikalov I., Berk A.J., Dickerson R.E. How proteins recognize the TATA box // J. Mol. Biol. 1996. - Vol. 261(2). - P. 239-54.

82. Jupe, E.R., Sinden, R.R. and Cartwright, I.L., Specialized chromatin structure domain boundary elements flanking a Drosophila heat shock gene locus are under torsional strain in vivo II Biochem. 1995. - Vol. 34. - P. 2628-2633.

83. Eskin E., Pevzner P.A Finding composite regulatory patterns in DNA sequences // Bioinformatics. 2002. - Vol. 18(1). - P. 354-63.

84. Fairall L. Schwabe J.W. Chapman L. Finch J.T. Rhodes D. The crystal structure of a two zinc-finger peptide reveals an extension to the rules for zinc-finger/DNA recognition //Nature. 1993. - Vol. 366(6454). - P. 483-7.

85. Falvo J.V., Thanos D., Maniatis T. Reversal of intrinsic DNA bends in the IFN beta gene enhancer by transcription factors and the architectural protein HMG I(Y)//Cell. 1995.- Vol. 83(7). - P. 1101-11.

86. Ferré-D'Amaré A.R., Prendergast G.C., Ziff E.B., Burley S.K. Recognition by Max of its cognate DNA through a dimeric b/HLH/Z domain // Nature. -1993. Vol. 363(6424). - P. 38-45.

87. Ferré-D'Amaré A.R., Pognonec P., Roeder R.G., Burley S.K. Structure and function of the b/HLFI/Z domain of USF // EMBO J. 1994. - Vol. 13(1). -P. 180-9.

88. Fickett J.W., Wasserman W.W. Discovery and modeling of transcriptional regulatory regions // Curr. Opin. Biotechnol. 2000. - Vol. 11. - P. 19-24.

89. Fisher R. A. , On the interpretation of %2 from the contingency tables and the calculation of P' // J. Royal Statist. Soc. 1922. - Vol. 85. - P. 87-94.

90. Freeh K., Herrmann G., Werner T. Computer-assisted prediction, classification, and delimitation of protein binding sites in nucleic acids // Nucleic Acids Res. 1993. - Vol. 21(7). - P. 1655-64.

91. Gardiner E.J., Hunter C.A., Packer M.J., Palmer D.S., Willett P. Sequence-dependent DNA structure: a database of octamer structural parameters // J. Mol. Biol. 2003. - Vol. 332(5). - P. 1025-35.

92. Gartenberg, M.R., Crothers, D.M. DNA sequence determinants of CAP-induced bending and protein binding affinity // Nature. 1988. - Vol. 333. -P. 824-829.

93. Ghosh G., van Duyne G., Ghosh S., Sigler P.B. Structure of NF-kappa B p50 homodimer bound to a kappa B site//Nature. 1995.- Vol. 373(6512). - P. 303-10.

94. Ghosh D. Object-oriented transcription factors database (ooTFD) // Nucleic Acids Res. 2000.- Vol. 28(1). - P. 308-10.

95. Gelfand M.S. Prediction of function in DNA sequence analysis // J. Comput. Biol. 1995.- Vol. 2(1). - P. 87-115.

96. Gershenzon N.I., Stormo G.D., Ioshikhes LP. Computational technique for improvement of the position-weight matrices for the DNA/protein binding sites//Nucleic Acids Res. 2005.- Vol. 33(7). - P. 2290-301.

97. Gibson T.J., Postma J.P., Brown R.S., Argos P. A model for the tertiary structure of the 28 residue DNA-binding motif ('zinc finger') common to many eukaryotic transcriptional regulatory proteins // Protein Eng. 1988. -Vol. 2(3). - P. 209-18.

98. Gorin A.A., Zhurkin V.B., Olson W.K. B-DNA twisting correlates with base-pair morphology//J. Mol. Biol.- 1995.- Vol. 247. P. 34-48.

99. Gotoh O., Tagashira Y. Locations of frequently opening regions on natural DNAs and their relation to functional loci // Biopolymers. 1981. - Vol. 20(5). - P. 1043-58.

100. Gromiha,M., Siebers,J.G., Selvaraj,S., Kono,H. and Sarai,A. Intermolecular and intramolecular readout mechanisms in protein-DNA recognition // J. Mol. Biol. 2004. - Vol. 337. - P. 285-294.

101. Gross P, Oelgeschlager T. Core promoter-selective RNA polymerase II transcription // Biochem. Soc. Symp. 2006 . - Vol. 73. - P. 225-36.

102. Grundy W.N., Bailey T.L., Elkan C.P., Baker M.E. Meta-MEME: motif-based hidden Markov models of protein families // Comput. Appl. Biosci. -1997. Vol. 13(4). - P. 397-406.

103. Gunewardena S., Zhang Z. Accounting for structural properties and nucleotide co-variations in the quantitative prediction of binding affinities of protein-DNA interactions // Pac. Symp. Biocomput. 2006. - P. 379-90.

104. Ha J.H., Spolar R.S., Record T.M.J. Role of the hydrophobic effect in stability of site-specific protein-DNA complexes // J. Mol. Biol. 1989. -Vol.209. - P. 801-16.

105. Hegde R.S., Grossman S.R., Laimins L.A., Sigler P.B. Crystal structure at 1.7 A of the bovine papillomavirus-1 E2 DNA-binding domain bound to its DNA target//Nature. 1992. - Vol. 359(6395). - P. 505-12.

106. Herman N.D., Schneider T.D. High information conservation implies that at least three proteins bind independently to F plasmid incD repeats // J Bacteriol. 1992. - Vol. 174(11). - P. 3558-60.

107. Hertz G.Z., Stormo G.D. Identifying DNA and protein patterns with statistically significant alignments of multiple sequences // Bioinformatics. -1999.- Vol. 15.-P. 563-77.

108. Horikoshi M., Bertuccioli C., Takada R., Wang J., Yamamoto T., Roeder R.G. Transcription factor TFIID induces DNA bending upon binding to the TATA element // Proc. Natl. Acad. Sci. 1992. - Vol. 89(3). - P. 1060-1064.

109. Hogan M.E., Austin R.H. Importance of DNA stiffness in protein-DNA binding specificity //Nature. 1987. - Vol. 329. - P. 263-266.

110. Holloway D.T., Kon M., DeLisi C. Integrating genomic data to predict transcription factor binding// Genome Inform. 2005. - Vol. 16(1). - P. 8394.

111. Hoopes B.C., LeBlanc J.F., Hawley D.K. Contributions of the TATA box sequence to rate-limiting steps in transcription initiation by RNA polymerase II//J. Mol. Biol. 1998.- Vol. 277(5). - P. 1015-31.

112. Houbaviy H.B., Usheva A., Shenk T., Burley S.K. Cocrystal structure of YY1 bound to the adeno-associated virus P5 initiator // Proc. Natl. Acad. Sci.- 1996.- Vol. 93(24). P. 13577-82.

113. Hu J., Banerjee A., Goss D.J. Assembly of b/HLH/z proteins c-Myc, Max, and Madl with cognate DNA: importance of protein-protein and proteinDNA interactions // Biochemistry. 2005. - Vol. 44(35). - P. 11855-63

114. Hughey R., Krogh A. Hidden Markov models for sequence analysis: extension and analysis of the basic method // Comput. Appl. Biosci. 1996. - Vol. 12(2). - P. 95-107.

115. Ives, K. H. and Gibbons, J. D. A correlation measure for nominal data // Amer. Statist.- 1976.- Vol. 21(5).-P. 16-17.

116. Kabsch,W., Sander,S., Trifonov,E.N. The ten helical twist angles of B-DNA//Nucleic Acids Res.- 1982.- Vol. 10. P. 1097-1104.

117. Kaufmann E., Knochel W. Five years on the wings of fork head // Mech. Dev. 1996.- Vol. 57(1). - P. 3-20.

118. Kel A.E., Gossling E., Reuter I., Cheremushkin E., Kel-Margoulis O.V., Wingender E. MATCH: A tool for searching transcription factor binding sites in DNA sequences // Nucleic Acids Res. 2003. - Vol. 31(13). - P. 3576-9.

119. Kel-Margoulis,O.V., Kel,A.E., Reuter,I., Deineko,I.V., Wingender,E. TRANSCompel: a database on composite regulatory elements in eukaryotic genes // Nucleic Acids Res. 2002. - Vol. 30. - P. 332-4.

120. Kel,A., Kel-Margoulis,O., Babenko,V., Wingender,E. Recognition of NFATp/AP-1 composite elements within genes induced upon the activation of immune cells//J. Mol. Biol.- 1999.- Vol. 288. P. 353-76.

121. Khlebodarova, T., Podkolodnaya, O., Oshchepkov, D., Miginsky, D., Ananko, E., Ignatieva E. ARTSITE database: comparison of in vitro selected and natural binding sites of eukaryotic transcription factors // Bioinformatics of Genome

122. Regulation and Structure II. (Eds. N.Kolchanov and R. Hofestaedt). Springer Science+Business Media, Inc. - 2005. - P. 55-65.

123. Kim Y., Geiger J.H., Hahn S., Sigler P.B. Crystal structure of a yeast TBP/TATA-box complex//Nature. 1993.- Vol. 365(6446). - P. 512-20.

124. Kim J.L., Nikolov D.B., Burley S.K. Co-crystal structure of TBP recognizing the minor groove of a TATA element // Nature. 1993. - Vol. 365(6446). - P. 520-7.

125. Kingston R.E., Bunker C.A., Imbalzano A.N. Repression and activation by multiprotein complexes that alter chromatin structure // Genes. Dev. 1996. -Vol. 10(8).-P. 905-920.

126. Klevit R.E., Herriott J.R., Horvath S.J. Solution structure of a zinc finger domain of yeast ADR1 // Proteins. 1990. - Vol. 7(3). - P. 215-26.

127. Kolchanov N.A., Lim H.A. () Computer Analysis of Genetic Macromolecules: Structure, Function and Evolution. World Scientific Pub. Co. - Singarope, New Jersey, London, Hong Kong, 1994.

128. Kono H., Sarai A. Structure-based prediction of DNA target sites by regulatory proteins//Proteins. 1999.- Vol. 35(1). - P. 114-31.

129. Koudelka G.B., Harrison S.C., Ptashne M. Effect of non-contacted bases on the affinity of 434 operator for 434 repressor and Cro // Nature. 1987. -Vol. 326(61 16). - P. 886-8.

130. Latchman D.S. Eukariotic Transcription Factors. Academic press limited.- 1995. P. 47-59.

131. Lavery D.N., McEwan I.J. Structure and function of steroid receptor AF1 transactivation domains: induction of active conformations // Biochem J. -2005. Vol. 391(3). - P. 449-64.

132. Lawrence,C.E., Altschul,S.F., Boguski,M.S., Liu,J.S., Neuwald,A.F.and Wootton,J.C. Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment // Science. 1993. - Vol. 262. - P. 208-214.

133. Levine M., Tjian R. Transcription regulation and animal diversity // Nature. -2003.- Vol.424.-P. 147-151.

134. Levy S., Hannenhalli S., Workman C. Enrichment of regulatory signals in conserved non-coding genomic sequence // Bioinformatics. 2001. - Vol. 17(10). - P. 871-7.

135. Li B., Carey M., Workman J.L. The role of chromatin during transcription // Cell.- 2007. Vol. 128(4). - P. 707-19

136. Li X., Zhong S., Wong W.H. Reliable prediction of transcription factor binding sites by phylogenetic verification // Proc. Natl. Acad. Sci. 2005. -Vol. 102(47). - P. 16945-16950

137. Liu R., Blackwell T.W., States D.J. Conformational model for binding site recognition by the E.coli MetJ transcription factor// Bioinformatics. 2001.- Vol. 17(7). P. 622-33.

138. Logan N., Graham A., Zhao X., Fisher R., Maiti B., Leone G. and La Thangue N.B. E2F-8: an E2F family member with a similar organization of DNA-binding domains to E2F-7 // Oncogene. 2005. - Vol. 24. - P. 5000-5004.

139. Loots G.G., Locksley R.M., Blankespoor C.M., Wang Z.E., Miller W., Rubin E.M., Frazer K.A. Identification of a coordinate regulator of interleukins 4, 13, and 5 by cross-species sequence comparisons // Science. -2000.- Vol. 288(5463). P. 136-40.

140. Ma P.C.M., Rould M.A., Weintraub H., Pabo C.O. Crystal structure of MyoD bHLH domain-DNA complex: perspectives on DNA recognition, implications for transcriptional activation//Cell. 1994.- Vol. 77. - P. 451^59.

141. Man T.K., Stormo G.D. Non-independence of Mnt repressor-operator interaction determined by a new quantitative multiple fluorescence relative affinity (QuMFRA) assay//Nucleic Acids Res. 2001.- Vol. 29. - P. 2471-2478.

142. Mahalanobis P.C. On the generalised distance in statistics // Proc. Natl. Inst. Sci. India. 1936. - Vol. 12. - P. 49-55.

143. Marinescu V.D., Kohane I.S., Riva A. MAPPER: a search engine for the computational identification of putative transcription factor binding sites in multiple genomes // BMC Bioinformatics. 2005. - 6. - P. 79.

144. Matthews B.W. Protein-DNA interaction. No code for recognition // Nature.- 1988.- Vol. 335(6188). P. 294-5.

145. McKeown M. Alternative mRNA splicing // Annu. Rev. Cell. Biol. 1992. -Vol. 8.-P. 133-155.

146. McKnight, S.L., Yamamoto, K.R. Transcriptional regulation. Cold Spring Harbor Laboratory Press. - Cold Spring Harbor, 1992.

147. Meierhans D., Sieber M. and Allemann R.K. High affinity binding of MEF-2C correlates with DNA bending // Nucleic Acids Res. 1997. - Vol. 25. - P. 45374544

148. Mikkelsen T. Interpreting sequence motifs: a cautionary note // Trends Genet.- 1993.- Vol. 9(5).-P. 159.

149. Miller J., McLachlan A.D., Klug A. Repetitive zinc-binding domains in the protein transcription factor IIIA from Xenopus oocytes // EMBO J. 1985. -Vol. 4(6). - P. 1609-14.

150. Miller M., Shuman J.D., Sebastian T., Dauter Z., Johnson P.F. Structural basis for DNA recognition by the basic region leucine zipper transcription factor CCAAT/enhancer-binding protein alpha // J Biol Chem. 2003. -Vol. 278(17). - P. 15178-84.

151. Moras D., Gronemeyer H. The nuclear receptor ligand-binding domain: structure and function // Curr. Opin. Cell Biol. 1998. - Vol. 10(3). - P. 384-91.

152. Muller C.W., Rey F.A., Sodeoka M., Verdine G.L., Harrison S.C. Structure of the NF-kappa B P50 homodimer bound to DNA // Nature. 1995. - Vol. 373 . - P. 311.

153. Mulligan M.E., Hawley D.K., Entriken R. and McClure W.R. Escherichia Coli promoter sequences predict in vitro RNA polymerase selectivity // Nucleic Acids Res. 1984. - Vol. 12. - P. 789-800

154. Munteanu M.G., Vlahovicek K., Parthasarathy S., Simon I., Pongor S. Rod models of DNA: sequence-dependent anisotropic elastic modelling of local bending phenomena // Trends Biochem. Sci. 1998. - Vol. 23(9). - P. 3417.

155. Muskhelishvili G., Travers A. Transcription factor as a topological homeostat//Front Biosci. 2003.- Vol. 8. - P. d279-85.

156. Nardelli J., Gibson T.J., Vesque C., Charnay P. Base sequence discrimination by zinc-finger DNA-binding domains // Nature. 1991. -Vol. 349(6305). - P. 175-8.

157. Neidle S. Discovery of new anticancer drugs by computer-aided drug design // Ann Oncol. 1994.- Vol. 5(4). - P. 51-4.

158. Newberg L.A., Thompson W.A., Conlan S., Smith T.M., McCue L.A., Lawrence C.E. A phylogenetic Gibbs sampler that yields centroid solutions for cis-regulatory site prediction // Bioinformatics. 2007. - Vol. 23(14). -P. 1718-27.

159. Nikolov D.B., Hu S.H., Lin J., Gasch A., Hoffmann A., Horikoshi M., Chua N.H., Roeder R.G., Burley S.K. Crystal structure of TFIID TATA-box binding protein // Nature. 1992. - Vol. 360(6399). - P. 40-6.

160. Nikolov D.B., Chen H., Halay E.D., Hoffinan A., Roeder R.G., Burley S.K. Crystal structure of a human TATA box-binding protein/TATA element complex // Proc. Natl. Acad. Sci. 1996.- Vol. 93(10). - P. 4862-7.

161. Nikolov D.B., Burley, S.K. RNA polymerase II transcription initiation: A structural view // Proc. Natl. Acad. Sci. 1997. - Vol. 94. - P. 15-22.

162. Omichinski J.G., Clore G.M., Appella E., Sakaguchi K., Gronenborn A.M. High-resolution three-dimensional structure of a single zinc finger from a human enhancer binding protein in solution // Biochemistry. 1990. - Vol. 29(40). - P. 9324-34.

163. Paillard G., Deremble C., Lavery R. Looking into DNA recognition: zinc finger binding specificity // Nucleic Acids Res. 2004. - Vol. 32(22). - P. 6673-82.

164. Papp P.P., Chattoraj D.K., Schneider T.D. Information analysis of sequences that bind the replication initiator RepA // J. Mol. Biol. 1993. -Vol. 233(2). - P. 219-30.

165. Parraga G., Horvath S., Hood L., Young E.T., Klevit R.E. Spectroscopic studies of wild-type and mutant "zinc finger" peptides: determinants of domain folding and structure // Proc. Natl. Acad. Sci. 1990. - Vol. 87(1). -P. 137-41.

166. Patikoglou G., Burley S.K. Eukaryotic transcription factor-DNA complexes //Annu. Rev. Biophys. Biomol. Struct. 1997. - Vol. 26. - P. 289-325.

167. Pavletich N.P., Pabo C.O. Zinc finger-DNA recognition: crystal structure of aZif268-DNA complex at 2.1 A //Science. 1991.- Vol. 252(5007). - P. 809-17.

168. Pavletich N.P., Pabo C.O. Crystal structure of a five-finger GLI-DNA complex: new perspectives on zinc fingers // Science. 1993. - Vol. 261(5129). - P. 1701-7.

169. Pedersen A.G., Baldi P., Chauvin Y., Brunak S. The biology of eukaryotic promoter prediction—a review // Comput. Chem. 1999. - 23. - P. 191-207.

170. Pellegrini L., Tan S., Richmond T.J. Structure of serum response factor core bound to DNA //Nature. 1995. - Vol. 376(6540). - P. 490-8.

171. Perez-Stable C., Shen C. C., Shen C-K. J., Enrichment and depletion of HeLa topoisomerase I recognition sites among specific types of DNA elements // Nucleic Asids Res.- 1988.- Vol. 16. P. 7975-7993.

172. Perier R.C., Praz V., Junier T., Bonnard C., Bucher P. The eukaryotic promoter database (EPD) // Nucleic Acids Res. 2000. - Vol. 28(1). - P. 302-3.

173. Pollock R., Treisman R. A sensitive method for the determination of protein-DNA binding specificities // Nucleic Acids Res. 1990. - Vol. 18(21).-P. 6197-204.

174. Ponomarenko M.P., Ponomarenko Iu.V., Kel1 A.E., Kolchanov N.A., Karas PI., Wingender E., Sklenar H. Computer analysis of conformational features of the eukaryotic TATA-box DNA promotors // J. Mol. Biol. -1997.- Vol.31. P. 733-740.

175. Ponomarenko J.V., Ponomarenko M.P., Frolov A.S., Vorobyev D.G., Overton G.C., and Kolchanov N.A. Conformational and physicochemical DNA features specific for transcription factor binding sites // Bioinformatics. 1999. - Vol. 15(7). - P. 654-668.

176. Ramji D.P., Foka P. CCAAT/enhancer-binding proteins: structure, function and regulation//Biochem J. 2002.- Vol. 365(3). - P. 561-75

177. Razin S.V., Iarovaia O.V., Sjakste N., Sjakste T., Bagdoniene L., Rynditch A.V., Eivazova E.R., Lipinski M., Vassetzky Y.S. Chromatin domains and regulation of transcription // J. Mol. Biol. 2007. - Vol. 369(3). - P. 597-607.

178. Redinbo M.R., Stewart L., Kuhn P., Champoux J.J., Hoi W.G. Crystal structures of human topoisomerase I in covalent and noncovalent complexes with DNA // Science. 1998. - Vol. 279. - P. 1504-1513.

179. Redinbo M.R., Champoux J.J., Hoi W.G. Novel insights into catalytic mechanism from a crystal structure of human topoisomerase I in complex with DNA // Biochemistry. 2000.- Vol. 39. - P. 6832-6840.

180. Robison K., McGuire A.M., Church G.M. A comprehensive library of DNA-binding site matrices for 55 proteins applied to the complete Escherichia coli K-12 genome // J. Mol. Biol. 1998. - Vol. 284(2). - P. 241-54.

181. Rosenfeld R., Margalit H. Zinc fingers: conserved properties that can distinguish between spurious and actual DNA-binding motifs // J. Biomol. Struct. Dyn. 1993. - Vol. 11(3). - P. 557-70.

182. Saenger W. Principles of Nucleic Acid Structure. Springer-Verlag. - N.Y., 1984.

183. Sarai A. and Kono PI. Protein-DNA recognition patterns and predictions // Ann. Rev. Biophys. Biomol. Struct. 2005. - Vol. 34. - P. 379-398.

184. Sheridan S.D., Benham C.J., Hatfield G.W. Inhibition of DNA supercoiling-dependent transcriptional activation by a distant B-DNA to Z-DNA transition // J. Biol. Chem. 1999. - Vol. 274(12). - P. 8169-74.

185. Schmiedeskamp M., Rajagopal P., Klevit R.E. NMR chemical shift perturbation mapping of DNA binding by a zinc-finger domain from the yeast transcription factor ADR1 // Protein Sci. 1997. - Vol. 6(9). - P. 1835-48.

186. Schneider T.D., Stormo G.D., Gold L., Ehrenfeucht A. Information content of binding sites on nucleotide sequences // J. Mol. Biol. 1986. - Vol. 188(3). - P. 415-31.

187. Schneider T.D., Stormo G.D. Excess information at bacteriophage T7 genomic promoters detected by a random cloning technique // Nucleic Acids Res. 1989. - Vol. 17(2). - P. 659-74.

188. Schneider T.D., Stephens R.M. Sequence logos: a new way to display consensus sequences // Nucleic Acids Res. 1990. - Vol. 18(20). - P. 6097100.

189. Shpigelman E.S., Trifonov E.N., Bolshoy A. CURVATURE: software for the analysis of curved DNA // Comput. Appl. Biosci. 1993. - Vol. 9. - P. 435-440.

190. Schumacher M.A., Goodman R.H., Brennan R.G. The structure of a CREB bZIP.somatostatin CRE complex reveals the basis for selective dimerization and divalent cation-enhanced DNA binding // J. Biol. Chem. 2000. - Vol. 275(45). - P. 35242-7.

191. Schwabe J.W., Chapman L., Finch J.T., Rhodes D. The crystal structure of the estrogen receptor DNA-binding domain bound to DNA: how receptors discriminate between their response elements // Cell. 1993. - Vol. 75(3). -P. 567-78.

192. Sierk M.L., Zhao Q., Rastinejad F. DNA deformability as a recognition feature in the reverb response element // Biochemistry. 2001. - Vol. 40(43). - P. 12833-43.

193. Sjottem E., Andersen C., Johansen T. Structural and functional analyses of DNA bending induced by Spl family transcription factors // J Mol Biol. -1997. Vol. 267(3). - P. 490-504.

194. Shen C.C., Shen C.K. Specificity and flexibility of the recognition of DNA helical structure by eukaryotic topoisomerase I // J. Mol. Biol. 1990. - Vol. 212. - P. 6778.

195. Sneath P. PI. A. and R. R. Sokal. Numerical taxonomy. W. H. Freeman. -San Francisco, 1973.

196. Spolar R.S., Record T.M. Coupling of local folding to site-specific binding of proteins to DNA // Science. 1994. - Vol. 263. - P. 777-84.

197. Starr D.B., Hoopes B.C. and Hawley D.K. DNA bending is an important component of site-specific recognition by the TATA binding protein // J. Mol. Biol. 1995. - Vol. 250. - P. 434 -446.

198. Steitz T.A. Structural studies of protein-nucleic acid interaction: the sources of sequence-specific binding // Q. Rev. Biophys. 1990. - Vol. 23(3). - P. 205-80.

199. Sturtevant J.M. Pleat capacity andentropy changes in processes involving proteins // Proc. Natl. Acad. Sci. 1977. - Vol. 74. - P. 2236-40.

200. Stewart, L., Redinbo, M.R., Qiu, X., Hoi, W.G., and Champoux, J.J. A model for the mechanism of human topoisomerase I // Science. 1998. -Vol. 279. - P. 1534-1541.

201. Stewart L., Ireton G.C., Champoux J.J. The domain organization of human Topoisomerase I//J. Biol. Chem. 1996.- Vol. 271: - P. 7602-7608.

202. Stewart L., Ireton G.C., Champoux J.J. Reconstitution of human topoisomerase I by fragment complementation // J. Mol. Biol. 1997. - Vol. 269. - P. 355-372.

203. Stoeckert C.J. Jr, Salas F., Brunk B., Overton G.C. EpoDB: a prototype database for the analysis of genes expressed during vertebrate erythropoiesis//Nucleic Acids Res. 1999.- Vol. 27(1). - P. 200-3.

204. Stoesser G., Tuli M.A., Lopez R., Sterk P. The EMBL Nucleotide Sequence Database // Nucleic Acids Res. 1999. - Vol. 27(1). - P. 18-24.

205. Sugimoto N., Nakano S., Yoneyama M., Honda K. Improved thermodynamic parameters and helix initiation factor to predict stability of DNA duplexes//Nucleic Acids Res. 1996.- Vol. 24(22). - P. 4501-5.

206. Suzuki M., Yagi N., Finch J.T. Role of base-backbone and base-base interactions in alternating DNA conformations // FEBS Lett. 1996. - Vol. 379. - P. 148-152.

207. Suzuki, M., Amano, N., Kakinuma, J. and Tateno, M. Use of 3D structure data for understanding sequence dependent conformational aspects of DNA// J.Mol.Biol.- 1997.- Vol. 274. - P. 421-435.

208. Suzuki M., Gerstein M., Yagi N. Stereochemical basis of DNA recognition by Zn fingers // Nucleic Acids Res. 1994. - Vol. 22(16). - P. 3397-405.

209. Suzuki M., Yagi N. DNA recognition code of transcription factors in the helix-turn-helix, probe helix, hormone receptor, and zinc finger families // Proc. Natl. Acad. Sci. 1994.- Vol. 91(26). - P. 12357-61.

210. Tachibana H., Ishihama A. Correlation between the rate of productive transcription initiation and the strand-melting property of Escherichia coli promoters//Nucleic Acids Res. 1985.- Vol. 13(24). - P. 903 1-42.

211. Tan S., Richmond T.J. Crystal structure of the yeast MATalpha2/MCM 1/DNA ternary complex // Nature. 1998. - Vol. 391(6668). - P. 660-6.

212. Thomas M.C., Chiang C.M. The general transcription machinery and general cofactors // Crit. Rev. Biochem. Mol. Biol. 2006. - Vol. 41(3). - P. 105-78.

213. Thompson W.A., Newberg L.A., Conlan S., McCue L.A., Lawrence C.E. The Gibbs Centroid Sampler // Nucleic Acids Res. 2007. - Vol. 35. - P. 232-7.

214. Thomsen В., Mollerup S., Bonven B.J., Frank R., Blocker H., Nielsen O.F., Westergaard O. Sequence specificity of DNA topoisomerase I in the presence and absence of camptothecin //EMBO. J. 1987. - Vol. 6. - P. 1817-1823.

215. Tompa M. Identifying functional elements by comparative DNA sequence analysis//Genome Res. 2001.- Vol. 11.-P. 1143-1144.

216. Treisman J., Harris E., Wilson D., Desplan C. The homeodomain: a new face for the helix-turn-helix? // Bioessays. 1992. - Vol. 14(3). - P. 145-50.

217. Uberbacher, E. C. and Mural, R. J. Locating protein-coding regions in human DNA sequences by a multiple sensorneural approach // Proc. Natl. Acad. 1991. -Vol. 88.-P. 11261-11265.

218. Val P., Lefrancois-Martinez A.M., Veyssiere G., Martinez A. SF-1 a key player in the development and differentiation of steroidogenic tissues // Nuc.l Recept. 2003. - Vol. 1(1). - P. 8.

219. Van Holde K.E. Chromatin. Springer. - Berlin Heiderberg New York, 1989.

220. Vlahovicek K., Kajan L., Pongor S. DNA analysis servers: plot.it, bend.it, model.it and IS // Nucleic Acids Res. 2003. - Vol. 31(13). - P. 3686-7.

221. Vorobjev Y.N., Emelianov D.Y. Modeling of Data Base of context-dependent conformational parameters of DNA duplexes // Proc. of the Fifth International Conference On Bioinformatics of Genome Regulation and Structure. 2006. -Vol. 1,- P. 207-211.

222. Wang J.C. DNA topoisomerases // Annu.Rev.Biochem. 1996. - Vol. 65. -P. 635-692.

223. Wang H.K., Morris-Natschke S.L., Lee K.H. Recent advances in the discovery and development of topoisomerase inhibitors as antitumor agents // Med. Res. Rev.- 1977.- Vol. 17.-P. 367-425.

224. Wahle E, Keller W. The biochemistry of polyadenylation // Trends Biochem. Sci.- 1996.- Vol. 21(7).-P. 247-250.

225. Wang T., Stormo G.D. (2003) Combining phylogenetic data with co-regulated genes to identify regulatory motifs // Bioinformatics. Vol. 19. - P. 2369-2380.

226. Watson C.J. Interpreting sequence motifs // Trends Genet. 1993. - Vol. 9(9). - P. 298.

227. Wasserman W.W., Fickett J.W. Identification of regulatory regions which confer muscle-specific gene expression // J. Mol. Biol. 1998. - Vol. 278. -P. 167-181.

228. Wasserman W.W., Palumbo M., Thompson W., Fickett J.W., Lawrence C.E. Human-mouse genome comparisons to locate regulatory sites // Nat Genet. -2000. Vol. 26(2). - P. 225-8.

229. Wells J., Boyd K.E., Fry C.J., Bartley S.M., Farnham P.J. Target gene specificity of E2F and pocket protein family members in living cells // Mol.Cell.Biol. 2000.- Vol.20. P. 5797-807.

230. Werner M.H., Bianchi M.E., Gronenborn A.M., Clore G.M. NMR spectroscopic analysis of the DNA conformation induced by the human testis determining factor SRY // Biochemistry. 1995. - Vol. 4(37). - P. 11998-2004.

231. Wingender E. Gene Regulation in Eukaryotes. VCH. - 1993. -430 p.

232. Wingender E., Chen X., Hehl R., Karas H., Liebich I., Matys V., Meinhardt T., Priiss M., Reuter I., Schacherer F. TRANSFAC: an integrated system for gene expression regulation // Nucleic Acids Res. 2000. - Vol. 28(1). -P. 316-9.

233. Wu J., Parkhurst K.M., Powell R.M., Brenowitz M., Parkhurst L.J. DNA bends in TATA-binding protein-TATA complexes in solution are DNA sequence-dependent//J. Biol. Chem. 2001.- Vol. 276(18). - P. 14614-22.vrj)

234. Wynne J., Treisman R. SRF and MCM1 have related but distinct DNA binding specificities // Nucleic Acids Res. 1992. - Vol. 20(13). - P. 3297303.

235. Yordy J.S., Muise-Helmericks R.C. Signal transduction and the Ets family of transcription factors // Oncogene. 2000. - Vol. 19(55). - P. 6503-13.

236. Yule, G. U. On the methods of measuring the association between two attributes // J. Royal Statist. Soc. 1912. - Vol. 75. - P. 579-642.

237. Zhang M.Q. A discrimination study of human core-promoters // Pac. Symp. Biocomput.- 1998.- P. 240-251.

238. Zhang,M. and Marr,T. A weight array method for splicing signal analysis // Comput. Appl. Biosci. 1993.- Vol. 9. - P. 499-509.

239. Zheng N., Fraenkel E., Pabo C.O., Pavletich N.P. Structural Basis Of DNA Recognition By The Heterodimeric Cell Cycle Transcription Factor E2F-DP // Genes & Development. 1999. - Vol. 13. - P. 666-674.