Бесплатный автореферат и диссертация по биологии на тему
Функциональный анализ промоторных последовательностей Е. coli
ВАК РФ 03.00.02, Биофизика

Содержание диссертации, кандидата физико-математических наук, Сорокин, Анатолий Александрович

СОДЕРЖАНИЕ.

ВВЕДЕНИЕ.

ОБЗОР ЛИТЕРАТУРЫ.

Поиск промоторов РНК-полимеразой.

Участки промоторной ДНК, взаимодействующие с РНК-полимеразой.

Анализ строк.

Анализ физических свойств.

Анализ корреляционных свойств последовательностей.

МЕТОДЫ.

Набор нуклеотидных последовательностей.

Метод расчета профиля распределения электростатический потенциала молекулы ДНК.

Предварительная обработка профилей электростатического потенциала и классификация промоторных последовательностей на основе их электростатических характеристик.

ГЛАВА 1. ЭЛЕКТРОСТАТИЧЕСКИЙ ПОТЕНЦИАЛ ПРОМОТОРНЫХ ДНК КАК НОВАЯ ПРОМОТОРНАЯ ДЕТЕРМИНАНТА.

ГЛАВА 2. КЛАССИФИКАЦИОННЫЙ АНАЛИЗ ПРОМОТОРОВ ПО ИХ ЭЛЕКТРОСТАТИЧЕСКИМ СВОЙСТВАМ.

Ближняя upstream область и core промотор.

Дальняя upstream область.

Промоторы о54 и о32.

ГЛАВА 3. ЛИНГВИСТИЧЕСКИЙ АНАЛИЗ НУКЛЕОТИДНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ ХРОМОСОМЫ Е. COLI.

Характеристики распределения строк различной длины в промоторах и на хромосоме в целом.

ЗаконЦипфа.

ГЛАВА 4. АНАЛИЗ РАСПРЕДЕЛЕНИЯ ЭЛЕКТРОСТАТИЧЕСКОГО ПОТЕНЦИАЛА ПОЛНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ ХРОМОСОМЫ E.COLI.

Выводы.

Введение Диссертация по биологии, на тему "Функциональный анализ промоторных последовательностей Е. coli"

Актуальность проблемы

За последние несколько лет количество расшифрованного генетического материала возросло в несколько раз и продолжает стремительно расти. Экспоненциальный рост числа расшифрованных первичных структур фрагментов ДНК и даже целых геномов требует разработки эффективных методов анализа и интерпретации генетических текстов. Наиболее сложными представляются задачи предсказания функции по первичной структуре специфических участков ДНК, особенно в тех случаях, когда белок по особенностям своего функционирования должен взаимодействовать с большим количеством фрагментов ДНК, имеющих слабую гомологию. Одной из основных задач этого класса в современной молекулярной биофизики является задача о взаимодействии РНК-полимеразы с промоторами. Многочисленные исследования первичной структуры промоторов показали, что, хотя все они выполняют одну и ту же функцию инициации транскрипции, их нуклеотидные последовательности отличаются высокой степенью разнообразия. Статистический анализ нуклеотидных последовательностей всех известных промоторов выявил наличие двух гомологичных гексануклеотидов в положении на 10 и 35 п.о. выше точки транскрипции, функциональное значение которых для промоторно-полимеразного узнавания было экспериментально доказано. Однако строгая идентификация промоторов в нуклеотидной последовательности ДНК на основе консенсусного промотора не является надежной. Кроме того, знание нуклеотидной последовательности промоторов не позволяет предсказывать ни количественные характеристики их функциональной активности, ни специфику их ответа на регуляторные сигналы.

Согласно современным представлениям не только нуклеотидная последовательность промоторов, но и физико-химические свойства, задаваемые этой последовательностью, играют важную роль в обеспечении специфичности и эффективности промоторно-полимеразного взаимодействия. В настоящее время известно, что такие физико-химические характеристики промоторной ДНК, как геометрия двойной спирали, ее изгибность, наличие изломов, легкоплавких участков, "шпилек" или "петель", а также динамические свойства как промоторных участков ДНК, так и макромолекулы в целом оказывают существенное влияние на "силу" промоторов и характер их взаимодействия с РНК-полимеразой.

В литературе неоднократно поднимался также вопрос о значении электростатических взаимодействий в промоторно-полимеразном узнавании. Однако исследование этого вопроса тормозилось из-за отсутствия простого метода расчета распределения электростатического потенциала вокруг длинных нуклеотидных последовательностей ДНК, величиной не менее длины промотора. Разработка такого метода на основе кулоновской формулы позволила нам в этой работе провести исследования, направленные на выяснение вклада электростатических взаимодействий в обеспечение дифференцированного характера взаимодействия РНК-полимеразы с разными промоторами и выявление новых промоторных детерминант на основе электростатических характеристик промоторов.

Цель и задачи исследования

Целью данной работы является изучение электростатических свойств совокупности нуклеотидных последовательностей известных бактериальных и фаговых промоторов для выявления локальных и глобальных особенностей распределения электростатического потенциала вокруг промоторной ДНК, связанных с функционированием этих участков.

Конкретными задачами данной работы являлись: выбор и разработка методов, адекватных для решения задач качественного описания и сравнения электростатических свойств протяженных фрагментов молекулы ДНК; изучение связи между функциональными особенностями промоторов, их первичной структурой и электростатическими свойствами ДНК в промоторной области; классификация промоторов по электростатическим свойствам на основании кластерного анализа профилей распределения электростатического потенциала вокруг промоторной ДНК; изучение распределения электростатических потенциалов полной нуклеотидной последовательности хромосомы Е. coli; выявление связи между первичной структурой ДНК и электростатическими свойствами промоторных и непромоторных участков ДНК.

Обзор литературы

Процесс транскрипции, т. е. синтез РНК на матрице ДНК является одним из ключевых в экспрессии закодированной в ДНК генетической информации. Помимо важной роли в обеспечении функционирования биологических систем, исследование процесса транскрипции представляет особый интерес, поскольку РНК-полимеразы занимают совершенно особое место среди белков, способных связываться с ДНК. Как правило, ДНК-связывающиеся белки разделяют на специфические, которые имеют высокую константу связывания с определенными нуклеотидными последовательностями и поэтому способны узнавать определенные сайты в ДНК, и неспецифические, которые имеют одинаковое сродство к разным нуклеотидным последовательностям. РНК-полимеразы относятся к специфическим ДНК-связывающим белкам, поскольку они начинают синтез РНК с определенных участков ДНК, называемых промоторами. Однако они способны и к неспецифическому связыванию с ДНК, что имеет важное значение для ускорения поиска промоторов среди других последовательностей ДНК. Кроме того, в процессе элонгации транскрипции РНК-полимеразы в идеале должны вести себя как сайт-неспецифические полимеразы, т. е. осуществлять синтез комплементарной РНК вне зависимости от последовательности транскрибируемой ДНК, останавливаясь только в точках терминации [1]. Однако, наиболее необычным свойством РНК-полимеразы Е. coli, которой посвящена данная работа, является ее способность к узнаванию сильно варьирующих по структуре промоторных участков. Эта

70 особенность РНК-полимеразы отличает ее как от других саитспецифических ДНК-связывающих белков, таких как рестриктазы, белки-активаторы или репрессоры, так и от некоторых просто организованных РНК-полимераз, таких как фаговые РНК-полимеразы.

Возможность узнавания разнообразных промоторных последовательностей одним и тем же белком - РНК-полимеразой, без участия каких-либо дополнительных белков-регуляторов свидетельствует о дифференцированном взаимодействии фермента с его многочисленными промоторами [2]. Факторами, определяющими взаимодействие фермента с промотором, является пространственное положение некоторого набора нуклеотидов, образующих контакты с боковыми цепями аминокислот, и физико-химические характеристики промоторной ДНК, специфические для разных промоторов — промоторные детерминанты. К настоящему моменту выделено несколько промоторных детерминант, важность которых биохимически подтверждена. Рассмотрим имеющиеся на данный момент экспериментальные данные о взаимодействии РНК-полимеразы с промотором.

Поиск промоторов РНК-полимеразой

Как правило, процесс транскрипции подразделяют на инициацию, элонгацию и терминацию. Однако в последнее время предлагается различать в транскрипционном цикле две основные фазы: 1) активация и инициация синтеза РЕК, 2) элонгация синтезируемой РНК, которая включает в себя терминацию и "редактирование" транскрипта (укорочение транскрипта и синтез с большей точностью) [3]. Как уже отмечалось выше, в первой фазе транскрипции РНК-полимераза ведет себя как сайт-специфический ДНК-связывающий белок, в то время как во второй фазе эта специфичность если и не исчезает, то сильно уменьшается. Вероятно, это связано с особенностями функциональной организации РНК-полимераз: как правило, домены, определяющие специфичность связывания с промоторными сайтами, не участвуют в составе активного центра, катализирующего образование фосфодиэфирной связи между рибонуклеотидами, который, в свою очередь, не содержит элементов, прямо задающих специфичность к той или иной последовательности ДНК [4].

При поиске промоторов сначала происходит образование неспецифического комплекса РНК-полимеразы с любым случайым участком ДНК. Затем неспецифически связанная с ДНК РНК-полимераза претерпевает одномерную диффузию вдоль ДНК [5-7], что приводит к ускорению поиска промоторов РНК-полимеразой. По-видимому, процесс одномерной или линейной диффузии вдоль ДНК является общим для всех специфических ДНК-связывающих белков [6-8], однако возможно, что в случае РНК-полимеразы одномерная диффузия имеет некоторые особенности. К примеру, для фермента рестрикции ЕсоШ было показано, что диффузия в любом направлении вдоль ДНК является равновероятной, и в этом случае приход белка к его специфическому сайту связывания с любой стороны приводит к образованию специфического комплекса [9], как это и предполагалось в теории одномерной диффузии специфических ДНК-связывающих белков [10]. Однако последовательность, узнаваемая этим белком, является палиндромной, поэтому направление подхода не играет роли при взаимодействии с ДНК. В случае взаимодействия РНК полимеразы с промотором специфика функционирования фермента предполагает наличие выделенного направления, определяющего направление дальнейшей транскрипции. В литературе имеются данные о направленности процесса поиска РНК-полимеразой промоторных участков на ДНК. Так, в случае взаимодействия РНК-полимеразы с промотором А1 фага Т7 было показано, что природа участков в downstream области существенна для эффективности поиска промотора ферментом, в то время как длина и последовательность upstream области не влияет на этот процесс [11].

Скорость линейной диффузии вдоль ДНК неодинакова на участках, имеющих разную последовательность. Так, для рестриктазы EcoRI было показано, что скольжение этого фермента вдоль ДНК замедляется на участках с необычной структурой (изгиб, триплекс), а также на участках ДНК, имеющих последовательность, сходную с сайтами разрезания этого фермента [9]. По-видимому, скольжение РНК-полимеразы Е. coli также может замедляться на последовательностях ДНК, обладающих необычными физико-химическими свойствами, и на участках, имеющих сходство с промоторными сайтами. В частности, было показано, что РНК-полимераза дольше задерживается на АТ-богатых участках ДНК по сравнению с ДНК, имеющей случайную последовательность [5]. Кроме того, поиск промоторов происходит быстрее на релаксированной ДНК, чем на суперскрученной [5].

Таким образом, литературные данные свидетельствуют о том, что топология ДНК, ее вторичная структура и физико-химические особенности регулируют скорость поиска промоторов РНК-полимеразой Е. coli. Однако детальные механизмы процесса скольжения фермента по ДНК и первичных этапов взаимодействия его с промоторами остаются неизвестными и требует дальнейшего более детального исследования. В частности, практически не изучены неспецифические комплексы РНК-полимеразы с ДНК. По аналогии с другими специфическими ДНК-связывающими белками можно предположить, что эти комплексы стабилизируются преимущественно за счет электростатических взаимодействий белка с сахаро-фосфатным остовом ДНК, в то время как контакты боковых цепей белка с основаниями в неспецифических комплексах отсутствуют [12].

Участки промоторной ДНК, взаимодействующие с РНК-полимеразой.

В настоящее время считается что, при специфическом взаимодействии с промотором РНК-полимераза Е. coli образует контакты одновременно с двумя областями промоторов, расположенными на расстоянии 35 и 10 нуклеотидов выше точки старта трансткрипции. Эти консенсусные гексануклеотиды были выявлены при статистическом анализе нуклеотидных последовательностей известных промоторов, взаимодействующих с этим ферментом [13, 14]. Некоторые авторы считают, что последовательность в -35 области является более важной в первичном узнавании и оказывает наибольшее влияние на величину константы связывания РНК-полимеразы с промотором, а последовательность в -10 области имеет большее значение для локального плавления ДНК вблизи точки старта транскрипции при образовании открытых промоторных комплексов. В связи с этим гексануклеотид в -35 области иногда называют "recognition domain", а в -10 - "melting domain" [15].

Степень консервативности отдельных нуклеотидов -10 и -35 областей и их функциональная значимость различаются для 12 консенсусных нуклеотидов. В частности, было показано, что среди нуклеотидов в -10 области замена основания в-12ив-11 положении, а в -35 области - замена основания в -34 и в -32 положении приводит к более заметному снижению промоторной активности [16]. Однако, следует отметить, что эффект замены нуклеотида в том или ином положении был систематически исследован только для очень немногих промоторов. В то же время, как будет обсуждаться далее, результаты, полученные при изучении одного промотора, не всегда могут быть перенесены на другие промоторы. В среднем, в каждом индивидуальном промоторе содержится лишь 6-7 консенсусных нуклеотидов из 12 и вклад каждого из них в суммарную активность промотора, вероятно, различается у разных промоторов.

Для многих промоторов было показано, что мутации, приближающие последовательности -10 и -35 гексануклеотидов к их консенсусу, приводят к усилению мутаитного промотора по сравнению с исходным, что указывает на функциональную значимость этих участков в определении промоторной активности [17]. В то же время было найдено, что консенсусные промоторы (Ptac и Peon) вовсе не являются самыми сильными. Кроме того, на примере трех синтетических промоторов, отличающихся по гексануклеотидам в -10 и -35 области, было показано, что по мере приближения последовательности этих гексануклеотидов к консенсусному, увеличивается константа связывания РНК-полимеразы с промоторами [18]. Однако увеличение константы связывания не коррелирует с активностью этих промоторов in vivo. Оказалось, что для промотора с наименьшим соответствием консенсусу скорость-лимитирующей стадией является связывание РНК-полимеразы с промотором, в то время как для промоторов с большим соответствием консенсусу наблюдается остановка инициирующего комплекса на +6 - +12 позициях, т. е. скорость-лимитирующей стадией в этом случае является уход РНК-полимеразы с промотора и переход в стадию элонгации [18].

Таким образом, помимо консенсусных гексануклеотидов, для функционирования промоторов имеют значение и другие участки промоторной ДНК, причем разные участки могут влиять на разные стадии процесса инициации транскрипции.

Консенсусные гексануклеотиды разделены спейсерным участком длиной 16-18 нуклеотидных пар. Оптимальной является длина спейсера в 17 нуклеотидных пар, отклонения от этого значения, как правило, приводят к уменьшению силы промотора. Более того, при неидеальной длине спейсера, в его нуклеотидной последовательности обнаруживаются некоторые закономерности, не наблюдающиеся в спейсерных участках длиной 17 нуклеотидных пар [19]. В частности, при длине спейсера менее 17 н. п. в области, примыкающей к -35 гексамеру, преобладают пурин-пуриновые и пиримидин-пиримидиновые гомодинуклеотиды, а в более длинных спейсерах в этой области преобладают пурин-пиримидиновые гетеродинуклеотиды [19]. Таким образом, для узнавания промоторов имеет значение не только последовательность в -35 и -10 консенсусных гексамерах, но и их пространственное расположение друг относительно друга, которое, в свою очередь, определяется структурой и динамикой (жесткостью на изгиб и кручение) спейсерной ДНК, требующей дальнейшего более подробного исследования.

В настоящее время известны отдельные группы промоторов, функциональная активность которых зависит не только от структуры и расположения канонических -10 и -35 участков, но определяется также другими промоторными детерминантами, характер которых специфичен для каждой из этих групп. Одной из таких групп являтеся группа так называемых "extended -10" промоторов. Для этих промоторов характерно отсутствие консенсусного гексануклеотида в -35 области, в то же время их отличительной особенностью является наличие дополнительной консервативной последовательности вокруг -12 положения [20]. Комплексы РНК-полимеразы с промоторами этой группы имеют характерную структуру — РНК-полимераза защищает от гидролиза ДНКазой1 дальнюю upstream область этих промоторов (дальше -55 положения), при этом контакты в -35 области отсутствуют.

Другой группой промоторов, характеризующейся специфической детерминантой являются промоторы, содержащие UP-элемент. UP-элементом называют АТ-обогащенную последовательность, расположенную в upstream области некоторых промоторов (положения -40 --60), которая увеличивает их активность в 30-70 раз [21]. Для этих промоторов показано специфическое взаимодействие UP-элементов с а-субъединицей РНК-полимеразы. UP-элементы могут функционировать независимо от других элементов промоторов, стимулируя транскрипцию с олигонуклеотидов, содержащих неспаренный участок, в отсутствие о-субъединицы [22]. В специальных экспериментах было показано, что увеличение гибкости ДНК UP-элементов за счет депуринизации оснований приводит к увеличению активности соответствующих промоторов [23], причем специфические контакты ос-субъединиц с UP-элементом при депуринизации оснований сохраняются. Несмотря на то, что, в отличие от многих других участков промоторной ДНК, взаимодействующих с РНК-полимеразой Е. coli, многие аспекты функционирования UP-элементов уже выяснены, остается много нерешенных вопросов. В частности, при попытке определить консенсус для UP-элементов путем исследования синтетических промоторов, оказалось, что существуют множество вариантов активирующих последовательностей в upstream области, большинство из которых являются более активными, чем UP-элемент дикого типа промотора rrnBPl, являющегося репрезентативным промотором этой группы [24]. Футпринтинг этих промоторов ДНКазоМ показал, что во всех этих синтетических промоторах наблюдается защита upstream области РНК-полимеразой, однако остается неизвестным, являются ли эти активирующие последовательности в действительности UP-элементами, т. е. имеет ли место специфическое взаимодействие а-субъединиц фермента с этими участками ДНК [24].

Задача определения функционально значимых участков промоторной ДНК еще более усложняется в связи с тем, что результаты, полученные при исследовании одного промотора, далеко не всегда могут быть перенесены на другой промотор, даже при условии, что эти промоторы относятся к одной и той же группе. Так, два промотора (galPl и РЫа), относящиеся к группе "extended -10" промоторов, образуют открытые промоторные комплексы при температуре ниже 20°С, а промотор cysG, также относящийся к этой группе, образует открытые промоторные комплексы при температуре выше 30°С [25]. Таким образом, проявление той или иной промоторной детерминанты зависит от контекста, в котором она находится.

Анализ строк

Основная масса теоретических работ, посвященных промоторно-полимеразному узнаванию, сконцентрирована на выделении и анализе функциональных сигналов в последовательности промоторов, которые отвечают за те или иные особенности взаимодействия ДНК-белок.

Основой всего анализа функциональных последовательностей служит предположение о том, что последовательность участков ДНК, ответственных за функционально-важные взаимодействия, более консервативна по сравнению с окружающими участками, так как содержит сигналы, узнаваемые белком. Таким образом поиск промоторных детерминант с точки зрения статистики заключается в выделении в ряду функционально активных последовательностей мотивов, вероятность обнаружения которых достоверно отличается от вероятности, предсказываемой стохастической моделью содержащей эти мотивы последовательности, например генома в целом. Чаще всего сигналы выделяют из фрагментов, которые в достаточной степени охарактеризованы биохимически, однако, в литературе описаны случаи, когда статистически достоверный сигнал в последовавтельности пока не может быть ассоциирован с какой-либо фукнцией [26].

Все сигналы, выделяемые в первичной структуре промоторных фрагментов ДНК, можно разделить на две большие группы: явные, получаемые методами статистического анализа последовательности, и неявные, которые чаще всего являются результатом обучения программ распознавания образов.

Простейший явный сигнал — это невырожденная консенсусная последовательность [27, 28]. По определению, консенсусная последовательность наилучшим образом согласуется с любой последовательностью исследуемого набора. Консенсус является невырожденным, если использует только базовые буквы алфавита (А, Т, G, С). Наиболее известными примерами невырожненной консенсусной последовательности является, так назывемый, ТАТА-бокс, AT обогащенный фрагмент в промоторах как покариот (ТАТААТ Е. coli), так и эукариот (ТАТААААТ) [28, 29].

В случае, когда несколько букв с равной вероятностью занимают некоторое положение в большинстве последовательностей исследуемой выборки, можно использовать вырожденный алфавит (W=A/T, R=A/G, М=А/С, K=T/G, Y=T/C, S=G/C, B=T/G/C, Y=A/G/C, D=A/T/G, N=A/T/G/C). Примером вырожденного консенсуса может служить консенсусная последовательност UP-элемента рибосомальных промоторов [24]. Различные методы выделения консенсусных последовательностей рассмотрены в работе [27].

Основным недостатком консенсусного метода описания функциональных сигналов в промоторах является его неоднозначность. Так, из 12 пар оснований в двух консенсусных гексануклеотидах промоторной последовательности Е. coli в реальном промоторе обнаруживается в среднем 7.3 п.о. С другой стороны, если мы разрешим совпадения только в 7 позициях из 12, мы получим "промотор" каждые 200 п.о. и при этом пропустим некоторые реальные промоторы, например (весь класс "extended -10").

Естественным обобщением понятия консенсусной последовательности является весовая матрица (PWM, position weight matrix) — матрица, содержащая веса всех возможных букв алфавита во всех положениях исследуемого сигнала. В этом случае весом произвольного фрамента ДНК будет сумма значений в ячейках матрицы, соответствующих буквам последовательности этого фрагмента. В настоящее время разработан ряд алгоритмов, позволяющих эффективно искать в базах данных последовательности, вес которых превышает установлений порог [30].

В качестве весов матрицы можно использовать отрицательный логарифм вероятности, с которой буква появляется в данном положении в наборе исследуемых фрагментов, таким образом вес последовательности даст отрицательный логарифм вероятности обнаружения данной последовательности в исследуемом наборе в предположении независимости распределений соседних букв [31]. Было показано, что построенный таким образом вес последовательности коррелирует со свободной энергией комплекосообразования в ДНК-белковом комплексе. Следовательно, можно сделать наоборот, если известны данные об активности исследуемых последовательностей, можно построить весовую матрицу так, чтобы веса последовательностей наилучшим образом коррелировали с экспериментальными данными [31].

Berg и von Hippel, используя аппарат статистической механики, показали, что логарифм частоты встречаемости пары должен быть пропорционален вкладу этой пары в суммарное взаимодействие с белком (цитируется по [31]). Таким образом, для описания аффинности белка к исследуемой последовательности можно использовать информационное содержание этой последовательности [32-34], которое в этом случае коррелирует со средней энергией взаимодействия белка с набором исследуемых сайтов. Информационное содержание в положении i вычисляется по формуле: С iW = 2 + X/w1°g ifbj b=А где i-положение внутри исследуемого сайта, Ь- пробегает весь алфавит от А до С, fb,i. — вероятность обнаружить букву b в положении i. В случае, когда частоты оснований в геноме отличаются от 1/4, вместо информационного содержания может быть использована K-L энтропия, учитывающая разницу в распределении различных букв.

Основным недостатком как консенсусной последовательности, так и весовых матриц является предположение об аддитивности вклада каждого нуклеотида в общую энергию взаимодействия. В работе [35] для выделения сигналов в промоторных последовательностях Е. coli использовалась корреляция нуклеотидов, расположенных рядом. Для этого анализировались наборы всех возможных пар, расположенных на фиксированном растоянии. При этом удалось выделить гораздо более протяженный консенсус для промоторной последовательности.

Другим способом выявить взаимозависимость вероятности обнаружения нуклеотидов, расположенных в соседних положениях, является использование методов распознавания образов, таких как нейронные сети и неявные марковские модели. В настоящее время они представляют собой большинство среди используемых методов предсказания промторов по первичной структуре [29, 36-41]. С их помощью точность предсказания промоторов достигает 7080%, при этом в случайной последовательности "промотор" распознается каждые 800-1000 п.о. Однако в работе [38] на примере эукариотических промоторов было показано, что изменение набора исследуемых последовательностей приводит к катастрофическому снижению точности предсказаний, делаемых такими моделями. При этом их точность снижается до уровня точности, достижимого при использовании частотного словаря гексануклеотидов в качестве критерия принадлежности последовательности к промоторам [42].

Во многих случаях при проведении адекватного деления общей промоторной выборки на функционально однородные части удается существенно улучщить качество описания особенностей последовательности. Так, O'Neill [43], разбив промоторы на классы в соответствии с длиной спейсерного участка выделил более протяженный и точный консенсус для каждого класса. В работе [35] промоторы были разбиты на классы в соответствии с функциями генов, активность которых регулируется данным промотором. При этом наихудшим получилось описание класса DNA, в который просто поместили промоторы, не относящиеся к другим функционально определенным классам (таким как промоторы генов домашнего хозяйства, рибосомальные промоторы и т.д.). При использовании такого подхода основной проблемой остается сложность предварительного деления общей промоторной выборки и сильная зависимость получаемых результатов от качества проведенного деления.

Анализ протяженных фрагментов ДНК с помощью методов поиска сигналов затруднен тем, что большинство программ дает ошибку второго рода (обозначает промотором непромоторный фрагмент) примерно каждые 1000 п.о. [29, 38]. Для дальнейшего выделения промоторов необходимы дополнительные критерии.

В целом, методы анализа строк достигли, по-видимому, максимально возможной точности описания и предсказания функциональных сигналов. Ошибки, возникающие при использовании таких методов неизбежны, поскольку распознаваемое белком при поиске сайта определенное пространственное расположение химических групп и физико-химических параметров двойной спирали может быть закодировано в последовательностях с различной первичной структурой [44-46]. С другой стороны физико-химические свойства последовательности зависят от состава ее окружения [47].

Анализ физических свойств

Исследование физико-химических свойств промоторных фрагментов ДНК началось еще до того, как была сформулирована сама концепция промотора. Исходя из того, что для чтения генетической информации необходимо образование расплетенного участка длиной 12-18 пар оснований, первые работы по анализу физико-химических свойств, определяющих взаимодействие РНК-полимеразы и ДНК, были посвящены анализу легкоплавких участков ДНК [48]. Разработка алгоритма вычисления вероятности нахождения пары в открытом состоянии [49] позволила находить участки термодинамически менее стабильные, чем окружающие фрагменты ДНК. Однако, использование этого алгоритма не дало заметного улучшения параметров предсказания активности промоторных участков[50].

Сходный подход использовал ВепЬат. В его работах рассматривались термодинамические характеристики суперспиральной ДНК [51]. В качестве меры термодинамической стабильности ДНК использовался избыток свободной энергии, который надо передать фрагменту ДНК, чтобы перевести его в расплетенное состояние. При этом оказалось, что наименее стабильные участки на плазмиде рВЯ322 и в ряде других последовательностей расположены непосредственно в районе расположения функциональных сигналов, таких как промоторы и точки старта трансляции [52, 53].

Анализ термодинамической стабильности ДНК целых геномов, проведенный в работах [54, 55], показал, что существуют организмы, в которых термодинамическая стабильность хорошо коррелирует с кодирующими свойствами последовательности таким образом, что в межгенной области практически всегда расположен легкоплавкий участок, тогда как кодирующие фрагменты целиком термодинамически стабильны. В других же организмах такая корреляция отсутствует [54].

Другой характеристикой, которую всегда привлекали для описания функциональных свойств ДНК, является геометрия двойной спирали [56-61]. В самых ранних работах рассматривали "фазировку" сигналов, размещая функционально значимые нуклеотиды на спиральной проекции идеальной В-формы ДНК [60, 61]. Позже, после описания номенклатуры геометрических свойств ДНК [62, 63] и появления различных геометрических шкал [58, 64-67] геометрические параметры ДНК стали использовать для количественного предсказания функциональных свойств фрагментов ДНК [56-59].

В настоящее время активно обсуждается влияние геометрии ЦР элемента (участка ДНК расположенного выше -35 консенсусного гексануклеотида) на активность ряда промоторов [68-72]. Экспериментально показано, что вставка в этот район последовательности, обладающей собственной кривизной, изменяет активность промотора в соответствии со знаком "фазы" получившейся конструкции. Если вставка усиливает общий изгиб фрагмента (находится в фазе с промотором), активность промотора возрастает, в противном случае активность снижается [73]. Кроме собственной кривизны ДНК в этой области многие регуляторные белки, взаимодействующие с этой областью (в том числе и а-субъединица РНК-полимеразы), приводят к искривлению двойной спирали [47, 68, 74]. Поэтому кроме статической геометрии двойной спирали, на активность полимеразно-промоторного взаимодействия влияет, по-видимому, гибкость (Ьепс1аЫШу) соответствующего фрагмента промотора [23, 72].

Большинство теоретических работ, описывающих физико-химические особенности промоторных фрагментов описывают последовательность с помощью аддитивных шкал [59, 64, 67, 75, 76], когда в соответствие каждому ди- или тринуклеотиду ставится усредненный параметр. Это связано, по-видимому, с тем, что очень сложно построить модель промотора, так как по длине промоторы занимают промежуточное положение между фрагментами, моделируемыми методами молекулярной динамики, и участками, поведение которых описывается непрерывной моделью ДНК.

Основная масса работ по молекулярной динамике ДНК сосредоточена на моделировании коротких 10-20 п.о. фрагментов, тогда как непрерывная модель ДНК рассматривает фрагменты длиной в несколько тысяч п.о. В последнее время появились работы, в которых для моделирования поведения последовательностей такой промежуточной длины и их взаимодействия с белками и низкомолекулярными лигандами используется броуновская динамика [77-81 ].

Задача поиска функционально важных физико-химических характеристик промоторных последовательностей осложняется еще и тем, что на поведение промоторного участка могут оказывать влияние фрагменты ДНК, расположенные за пределами собственно промотора (нуклеотиды в положении -60 — +25 относительно точки старта транскрипции). В работе [47] показано, что кооперативные эффекты могут приводить к образованию доменов размером 50-100 п.о., которые передают возмущение вдоль двойной спирали за счет модуляции вторичной структуры ДНК без ее плавления. При этом размер и характер поведения определяется, собственно, первичной структурой исследуемого фрагмента. Оценка значений свободной энергии, необходимой для организации таких доменов, показывает, что большинство эффектов дальнодействия, обнаруженных на ДНК, должны объясняться наличием в природной ДНК корреляции между соседними нуклеотидами, обеспечивающей наличие в соответствующем положении протяженных, мультистабильных доменов, способных обеспечить передачу управляющих сигналов на значительные расстояния вдоль двойной спирали.

Анализ корреляционных свойств последовательностей

При выделении сигналов в промоторных последовательностях одна из основных возникающих задач — это адекватное описание последовательности генома в целом, небходимое как для построения статистической модели при проверке гипотезы об отличии распределения того или иного сигнала от случайного, так и в качестве отрицательных примеров при обучении программ распознавания образов и тестировании программ поиска детерминированных сигналов. Появление полного генома Е. coli заметно облегчило эту задачу [8285].

Другой задачей, для анализа которой требуются длинные последовательности, является исследование корреляционных свойств первичной структуры нативной ДНК [86-98]. В литературе высказывается мнение, что основная масса кооперативных эффектов и эффектов дальнодействия, обнаруженных при исследовании природной ДНК, связаны именно с дальними корреляциями между нуклеотидными парами в первичной структуре [47]. С другой стороны, сам факт существования таких корреляций подвергается сомнению [92]. Braun и Muller[99], опираясь на результаты Karlin и Brendel[92] считают, что не стоит ради достаточно сложной и трудной в интерпертации модели дальних корреляций отказываться от модели мозаичной структуры генома (patchiness of genome sequence), которая имеет под собой реальные биологические основания. При этом корреляционные эффекты в такой модели возникают из-за нестационарного распределения нуклеотидов вдоль геномной последовательности [92, 99].

С задачами анализа корреляций, таким образом тесно переплетаются задачи разделения последовательности на однородные, в некотором смысле фрагменты [89, 99-101]. При этом диапазон используемых методов чрезвычайно широк от статистического моделирования [99], до алгоритмов с использованием методов нелинейной динамики[89, 102] и теории информации [100, 101, 103]. Однако, хотя основная часть этих работ направлена на разделение кодирующих и некодирующих частей в эукариотических последовательностях, представленные методы могут с успехом применяться для предварительного отделения кодирующих областей и формирования выборок функционально-значимых сайтов и статистического контроля [82].

Появление полного генома поставило ряд новых задач, решение которых было невозможно на отдельных его фрагментах. Так в работе [104] рассмотрена фрактальная модель генома E.coli. Рассматривая частоту встречаемости строк длины к в последовательности генома, можно построить отображение, описывающее динамику этих частот при увеличении длины исследуемой строки от к=1. При этом полученное отображение будет порождать самоподобную фрактальную структуру за счет возникновения запрещенных строк (строк, ни разу не встречающихся на хромосоме). Полученное таким образом отображение может быть использовано, например, для графического представления структуры хромосомы, для сравнения двух геномов по численным характеристикам порождаемых ими отображений. Наконец, эта информация может быть очень ценной при поиске функционально важных фрагментов последовательности, т.к. такое отображение и порождаемый этим отображением формальный язык содержит больше информации, чем марковская цепь фиксированной длины, обычно используемая в качестве отрицательного контроля.

Вообще в последнее время появилось несколько новых подходов к представлению первичной структуры ДНК в виде словаря. При этом, в отличие от рассмотренных ранее методов, исходная нуклеотидная последовательность разбивается на неперекрывающиеся слова [105-108]. Построение таких словарей с последующим анализом распределения слов по их характеристикам (частотам, физико-химическим параметрам окружения, встречаемости в регуляторных областях) может помочь в поиске регуляторных областей и предсказании их активности [106, 108].

Необходимо отметить еще один подход, использующий методы теории информации, в которых оценивается избыточность первичной последовательности [109, 110]. При исследовании результатов локального выравнивания большого количества последовательностей показано, что фрагменты ДНК с большой избыточностью могут маскировать статистически значимые функциональные сигналы. В работе [109] на основании меры сложности текста (complexity measure) разработан метод, позволяющий исключить из рассмотрения программой выравнивания фрагментов с большой избыточностью и, таким образом значительно повысить эффективность методов выделения функциональных сигналов.

Методы

Набор нуклеотидных последовательностей В настоящей работе использованы следующие нуклеотидные последовательности: полная последовательность хромосомы Е. coli К

12(GenBank U00096), набор из 359 промоторных последовательностей в диапазоне -250 +150 п.о. относительно точки старта транскрипции. В набор входили 315 промоторов, обозначенных на хромосоме Е. coli как экспериментально подтвержденные, 36 ранних промоторов фага Т4, 7 ранних промоторов фага Т7 и четыре последовательности рибосомальных промоторов: rrnABPl-3939139, rrnABPl-4032828, rrnABPl-4163946 и rrnG-Pl-2729469c.

Метод расчета профиля распределения электростатический потенциала молекулы ДНК

В работе использовали полноатомную модель молекулы ДНК, при построении которой учитывались вариации геометрии спирали (величины параметров Rise и Twist[63]) в зависимости от динуклеотидного состава [58, 76], при этом ось спирали сохраняли прямолинейной и структуру пары не меняли, выбрав ее геометрические параметры в соответствии с [66]. Заряды, представляющие сумму плотностей а- и л- электронных облаков, помещали в центре атома [111]. Для учета экранирования противоионами заряда на фосфатных группах, абсолютную величину заряда на атомах Ol и 02 этих групп уменьшали на 0.25е, что приводило к эффективному снижению заряда пары в целом с 2е до 1е. Диэлектрическая проницаемость выбиралась пропорциональной расстоянию до точки наблюдения. Распределение о потенциала рассчитывали на поверхности цилиндра радиуса 15А, соосного молекуле ДНК, с шагом 1А по оси спирали и 1° по азимутальному углу.

Потенциал вокруг молекулы ДНК вычисляли по кулоновской формуле:

У(Г) = 2

4i

Ге(г)\г-П\ где qi — заряд ьтого атома молекулы ДНК; 1— радиус-вектор ьтого атома; г— радиус-вектор точки наблюдения; — диэлектрическая проницаемость как функция расстояния.

Результаты представлялись в виде двумерной карты профиля электростатического потенциала (рис 1а). Разработка этого метода описана в нашей статье [46].

Для ускорения расчетов влиянием атомов, расположенных на расстоянии более чем 50А от точки наблюдения, пренебрегали.

Предварительная обработка профилей электростатического потенциала и классификация промоторных последовательностей на основе их электростатических характеристик.

Для сравнительного анализа электростатических свойств большого числа промоторов использование двумерных карт представляет большие трудности. В связи с этим была проведена предварительная обработка двумерных карт (рис 1а), позволяющая путем суммирования значений электростатического потенциала в точках имеющих одинаковую проекцию на ось спирали представлять распределение электростатического потенциала в виде р

100 200 300

Т., А V

-22 -22.5 -23 -23.5 -24 -24.5

100 200 300 400 500 600 700 800 900 1000 г, А рис. 1.

На рисунке показаны различные представления профиля электростатического потенциала вокруг фрагмента ДНК, содержащего промотор ПуСМЕОА Р1. а) двумерная карта распределения потенциала; ф-азимутальный угол, 7. расстояние вдоль оси спирали в А; б) одномерное представление: тонкая линия — профиль суммарного потенциала, толстая линия — тот же потенциал после сглаживания. По оси абсцисс расстояние вдоль оси спирали в А, по оси ординат суммарный потенциал. суммарного одномерного распределения (рис 16, тонкая линия). В дальнейшем использовали только такую форму представления результатов.

Для кластерного и факторного анализа электростатических характеристик промоторов проводили сглаживание профилей распределения электростатического потенциала. Для этого численно дифференцировали исходное распределение, а затем полученный ряд сглаживали с помощью адаптивного вейвлет фильтра в соответствии с [112]. Полученный сигнал интегрировали для восстановления профиля электростатического потенциала (Рис. 16, толстая линия).

100

200 300 400 500 600 700 800 900 1000

100 200 300 400

500

600 700 800 900 1000

Для выявления характерных особенностей в распределении электростатического потенциала вокруг промоторных ДНК была проведена классификация промоторов по характеру распределения электростатического о потенциала нуклеотидных последовательностей в области -500 -н -200А и о

300 что примерно соответствует участкам -140 -г- -50 п.о. и -90-Ы-1 п.о. относительно точки старта транскрипции. Для классификации использовался алгоритм агломеративно-иерархического кластерного анализа. Каждый класс описывался вектором центра масс в 300-мерном пространстве. Мерой близости между классами была выбрана обычная евклидова метрика, а в качестве критерия объединения классов использовался критерий максимизации центрального момента второго порядка разбиения в целом.

Заключение Диссертация по теме "Биофизика", Сорокин, Анатолий Александрович

Выводы

1. Проведено сравнительное исследование влияния вариации первичной структуры промоторного участка ДНК на распределение электростатического потенциала этого участка ДНК.

2. Показано, что незначительные перестройки первичной структуры могут приводить к заметным изменениям в электростатических свойствах окружающих фрагментов ДНК. Наряду с этим различные по первичной структуре фрагменты ДНК могут иметь сходные профили электростатического потенциала.

3. Проведена классификация промоторных последовательностей по характеру распределения электростатического потенциала в областях -120 -г- -50 и -90 -г- +1 п.о. Показано, что классификация промоторов по характеру распределения электростатического потенциала в дальней upstream области хорошо коррелирует с биохимическими данными об активности промоторов и о влиянии на их активность различных факторов.

4. Показано, что характер распределения электростатического потенциала вокруг промотора слабо зависит от первичной структуры соге-области промотора.

5. Показано, что на функциональную активность промотора оказывает влияние характер распределения электростатического потенциала в области, гораздо более далекой, по сравнению с традиционными границами промоторного участка.

6. Показано, что электростатический потенциал является новой характеристикой функционально значимых последовательностей.

7. Рассчитано распределение электростатического потенциала вокруг ДНК хромосомы Е. соИ. Показано, что двухточечая автокорреляционная функция потенциала мототонно убывает по степенному закону с показателем степени -0.525, что свидетельствует о существовании дальнодействующей корреляционной структуры в поведении потенциала.

8. Найдена линейная зависимость между отношением частоты встречаемости гексануклеотида в промоторной области к частоте встречаемости его на хромосоме в целом и средним потенциалом этого гексануклеотида. Полученная зависимость свидетельствует о том, что в процессе эволюции в промоторных областях отбирались фрагменты последовательности, имеющие пониженный электростатический потенциал.

Работа поддержана грантами РФФИ № 99-04-48177 и № 01-04-06408

Выражаю глубокую признательность моим научным руководителям, Светлане Григорьевне Камзоловой и Роберту Валентиновичу Полозову, за постоянное внимание, помощь и советы в работе. Хочу также выразить искреннюю благодарность B.C. Сивожелезову, H.H. Ивановой за помощь и сотрудничество, Г. Б. Постниковой и Д.П. Харакозу за полезные дискуссии и критические замечание во время подготовки диссертации, Э.Г. Савельевой и Т. Р. Джелядину за помощь, при подготовке диссертации.

В заключение, можно сделать следующие выводы: гексануклеотиды — это строки максимальной длинны, которые целесообразно использовать для описания первичной структуры хромосомы Е. соИ; промоторные последовательности отличаются по своему гексануклеотидному составу как от кодирующих, так и от некодирующих последовательностельностей. а) з о б) s О) ig я

Рис. 9. Зависимость частоты встерчаемости гексануклеотидов (ю) от ранга (R). Сплошной линией показан результат линейной регрессии гексануклеотидов младших рангов (R= 1-^-200); прерывистая линия — результат регрессии средней части кривой (R=10+1200) а) Хромосома Е. coli целиком; б) Кодирующая часть хромосомы Е. coli ig я

Рис. 9. Продолжение в) Некодирующая часть хромосомы Е. Coli; г) 359 экспериментально обнаруженных промоторов, узнаваемых РНК-полимеразой Еа70 д)

Ig Я

Рис. 9. Окончание д) 4180 промоторов, предсказанных на хромосоме Е. coli

Глава 4. Анализ распределения электростатического потенциала полной последовательности хромосомы E.coli

Для многих промоторов было показано, что мутации, приближающие последовательности -10 и -35 гексануклеотидов к их консенсусу, приводят к усилению мутантного промотора по сравнению с исходным, что указывает на функциональную значимость этих участков в определении промоторной активности [17]. В то же время единственный фрагмент хромосомы Е. coli, содержащий оба консенсусных гексануклеотида на расстоянии 18 п.о. друг от друга, расположен в межгенной области и промоторная активность в этой области не наблюдается. Таким образом, для предсказания промоторной активности промотороподобных последовательностей необходимо учитывать окружение, в котором находится исследуемый фрагмент ДНК. Приведенные ранее данные свидетельствуют о том, что профиль электростатического потенциала является одной из важных составляющих такого окружения.

Модификация метода расчета распределения электростатического потенциала позволила проводить анализ электростатических характеристик последовательностей длиной в несколько миллионов пар оснований. Это сделало возможным анализ целых геномов. Поскольку вся наша работа сконцентрирована вокруг промоторов, взаимодействующих с РНК-полимеразой Е. coli, нами был рассчитан профиль распределения электростатического потенциала вокруг полной последовательности хромосомы Е. coli.

На рисунке 10 приведены функции плотности вероятности распределения величины электростатического потенциала для полной хромосомы (сплошная линия) и для набора промоторных последовательностей (пунктирная линия). Видно, что оба распределения унимодальны и имеют колоколообразный вид (для хромосомы в целом <р>=-22.7982, а=0.5594, для промоторной области <р>=-23.0466, 0=0.5887), однако гипотеза о нормальности обоих распределений была отвергнута на уровне значимости 10"4 на основании критерия Колмогорова-Смирнова. Также необходимо отметить, что хотя распределение потенциала в промоторной области отличается от распределения на хромосоме в целом, но разность слишком мала для того, чтобы напрямую использовать ее для выявления промоторных областей.

Для исследования пространственных характеристик потенциала рассмотрим величину, называемую флуктуацией Б(Ь):

Ь+к-1 ]=к где Ь — ширина окна усреднения, N — длина исследуемого сигнала . Как видно из формулы, полученная величина представляет собой зависимость среднеквадратичного отклонения сигнала, сглаженного суммированием со скользяшим окном от ширины окна.

В работе [96] показано, что в случае стационарного процесса или процесса с короткой памятью, когда двухточечная автоковариационная функция У

Рис. 10. Плотность вероятности ЦУ) распределения величины электростатического потенциала \/для полной хромосомы и для набора промоторных последовательностей. процесса убывает экспоненциально (Ыф-а\ где 0<а< 1), флуктуация ведет себя пропорционально логарифму ширины окна с коэффициентом наклона равным 1/2:

1п(^(1))~0.51п Ь.

Однако, если автоковариационная функция убывает медленнее, чем экспонента (Я(])~]М~1), мы получаем процесс с длинной памятью. В этом случае логарифм флуктуации ведет себя линейно по отношению к логарифму ширины окна, однако угол наклона при этом равен с1+1/2 (рис. 11).

In L

Рис 11. Зависимость логарифма флуктуации F(L) от логарифма ширины окна L. — экспериментальные данные, линия - график линейной функции у= А*х + В, А=0.7376± 0.0056, d=A - 0.5=0.2376± 0.0056

Таким образом, из рисунка 11 видно, что угловой коэффициент зависимости отличается от 1/2, следовательно автоковариационная функция потенциала хромосомы имеет следующий вид:

Riß ~ У2"" где d = 0.2376, как определено из графика.

Выясним, насколько распределение электростатического потенциала в промоторной области характерно для хромосомы Е. coli в целом. Как показано выше, гексануклеотидный состав промоторных областей значительно отличается от состава хромосомы в целом. На рисунке 12 представлен график отношения частот встречаемости гексануклеотидов в промоторах и на хромосоме в целом (z), упорядоченный по убыванию, от ранга этого отношения

12 10 8 6

2 0

0 500 1000 1500 2000 2500 3000 3500 4000 R

Рис. 12. Зависимость отношения частот встречаемости гексануклеотидов в промоторах и на хромосоме в целом (z) от ранга этого отношения R

R. Видно, что более 500 шестичленников встречается в промоторах в два раза чаще, чем в целом на хромосоме.

Мы вычислили потенциал в центре гексануклеотида, усредненный по всем экземплярам на хромосоме. На рисунке 13 представлена зависимость оцененого таким образом потенциала от ранга отношения, представленного на рисунке 12. Отчетливо видна лиенйность полученной зависимости, коэффициент наклона линейной зависимости: а=(1.7+0.14)*10"4.

Полученная линейная зависимость подтверждает предположение о том, что электростатический потенциал играет важную роль в функционировании промоторов, поскольку в нуклеотидном составе промоторных областей преобладают олигонуклеотиды, находящиеся в более отрицательном окружении.

-21.5 -22 -22.5 -23 -23.5 -24 -24.5

О 500 1000 1500 2000 2500 3000 3500 4000 r

Рис. 13. Зависимость среднего потенциала ф гексануклеотида от ранга R отношения частоты встречаемости гексануклеотида в промоторной области к частоте встречаемости вцелом по хромосоме. Белая прямая — результат линейной регресси, коэффициент наклона а=(1.7+0.14)*10~4.

Для выяснения характера электростатического окружения, в котором находится тот или иной гексануклеотид мы вычислили потенциал в центре гексануклеотида, усредненный по всем экземплярам данного гексануклеотида на хромосоме. Полученная величина отражает величину электростатического потенциала, в котором находится большая часть гексануклеотидов данного типа. На рисунке 13 представлена зависимость оцененного таким образом потенциала от ранга отношения г. Видно, что гексануклеотиды, локализованные преимущественно в промоторных зонах, находятся в среднем в более электроотрицательном окружении. Отчетливо видна линейность полученной зависимости. Белая линия на графике отражает результат линейной регрессии, коэффициент наклона полученной зависимости а=(1.7+0.14)* 10"4.

Полученная линейная зависимость подтверждает предположение о том, что электростатический потенциал играет важную роль в функционировании промоторов, поскольку в нуклеотидном составе промоторных областей преобладают олигонуклеотиды, находящиеся в более отрицательном окружении. Эта зависимость также, по-видимому, свидетельствует о том, что в процессе эволюции в промоторных областях отбирались фрагменты последовательности, обладающие пониженным электростатическим потенциалом, что подтверждает предположение о важности той роли, которую играет электростатический потенциал в функционировании промоторов.

Библиография Диссертация по биологии, кандидата физико-математических наук, Сорокин, Анатолий Александрович, Пущино

1. В. F. Weston, I. Kuzmine, С. Т. Martin "Positioning of the start site in the initiation of transcription by bacteriophage T7 RNA polymerase". J. Mol. Biol, 1997. 272: p. 21-30.

2. С. Г. Камзолова, "РНК-полимераза E. coli и регуляция траскрипции", at . 1984, Институт молекулярной биологии АН СССР: Москва.

3. Р. Н. von Hippel "An integrated model of the transcription complex in elongation, termination, and editing". Science, 1998. 281: p. 660-665.

4. F. Julicher, R. Bruinsma "Motion of RNA Polymerase along DNA: A Stochastic Model". Biophys J., 1998. 74: p. 1169-1185.

5. I. Harada, T. Funatsu, K. Murakami, Y. Nonoyama, A. Ishihama, T. Yanagida "Single molecule image of RNA polymerase-DNA interactions in real time". Biophys J., 1999. 76: p. 709-715.

6. C. Bustamante, M. Gutholdi, X. Zhu, G. Yang "Facilitated Target Location on DNA by Individual Escherichia coli RNA Polymerase Molecules Observed with the Scanning Force Microscope Operating in Liquid". J. Biol Chem, 1999. 274(24): p. 16665-16668.

7. N. Shimamoto "One-dimensional Diffusion of Proteins along DNA. Its biological and chemical significance revealed by single-molecule measurements". J. Biol Chem, 1999. 274(22): p. 15293-15296.

8. P. H. von Hippel, O. G. Berg "Facilitated target location in biological systems". J. Biol. Chem, 1989. 264: p. 675-678.

9. A. Jeltsch, J. Alves, H. Wolfes, G. Maass, A. Pingoud "Pausing of the restriction endonuclease EcoRI during linear diffusion on DNA". Biochemistry, 1994. 33: p. 10215-10219.

10. O. G. Berg, R. B. Winter, P. H. v. Hippel "Diffusion-driven mechanisms of protein translocation on nucleic acids. 1. Models and theory". Biochemistry, 1981. 20: p. 6929-6948.

11. M. Ricchetti, W. Metzger, H. Heumann "One-dimensional diffusion of Escherichia coli DNA-dependent RNA polymerase: a mechanism to facilitate promoter location". Proc. Nat. Acad. Sei. USA, 1988. 85: p. 46104614.

12. R. A. Albright, M. C. Mossing, B. W. Matthews "Crystal structure of an engineered Cro monomer bound nonspecifically to DNA: possible implications for nonspecific binding by the wild-type protein". Protein Sei., 1998. 7: p. 1485-1494.

13. D. K. Hawley, W. R. McClure "Compilation and analysis of Escherichia coli promoter DNA sequences". Nucl. Acids Res., 1983. 11(8): p. 2237-2255.

14. S. Lisser, H. Margalit "Compilation of E. coli mRNA promoter sequences". Nucl. Acids Res., 1993. 21: p. 1507-1516.

15. W. Werel, P. Schickor, H. Heumann "Flexibility of the DNA enhances promoter affinity of Escherichia coli RNA polymerase". EMBO J., 1991. 10: p. 2589-2594.

16. M. Kobayashi, K. Nagata, A. Ishihama "Promoter selectivity of Escherichia coli RNA polymerase: effect of base substitutions in the promoter -35 region on promoter strength". Nucl. Acids Res., 1990. 18: p. 7367-7372.

17. M. Schölten, J. Tommassen "Effect of mutations in the -10 region of the phoE promoter in Escherichia coli on regulation of gene expression". Mol. Gen. Genet., 1994. 245: p. 218-223.

18. T. Ellinger, D. Behnke, H. Bujard, J. D. Gralla "Stalling of Escherichia coli RNA polymerase in the +6 to +12 region in vivo is associated with tight binding to consensus promoter elements". J. Mol. Biol., 1994. 239: p. 455465.

19. B. A. Beutel, J. M. T. Record "E. coli promoter spacer regions contain nonrandom sequences which correlate to spacer length". Nucl. Acids Res., 1990.18: p. 3597-3603.

20. B. Chan, A. Spassky, S. Busby "The organization of open complexes between Escherichia coli RNA polymerase and DNA fragments carrying promoters either with or without consensus -35 region sequences". Biochem. J., 1990. 270: p. 141-148.

21. W. Ross, S. E. Aiyar, J. Salomon, R. L. Gourse "Escherichia coli promoters with UP elements of different strengths: modular structure of bacterial promoters". J. Bacteriol., 1998. 180: p. 5375-5383.

22. K. Fredrick, J. D. Helmann "RNA polymerase sigma factor determines start-site selection but is not required for upstream promoter element activation on heteroduplex (bubble) templates". Proc. Nat. Acad. Sci. USA, 1997. 94: p. 4982-4987.

23. D. Negre, et al. "DNA flexibility of the UP element is a major determinant for transcriptional activation at the Escherichia coli acetate promoter". Nucl. Acids Res., 1997. 25(4): p. 713-718.

24. S. T. Estrem, T. Gaal, W. Ross, R. L. Gourse "Identification of an UP element consensus sequence for bacterial promoters". Proc. Nat. Acad. Sci. USA, 1998. 95: p. 9761-9766.

25. T. Belyaeva, L. Griffiths, S. Minchin, J. Cole, S. Busby "The Escherichia coli cysG promoter belongs to the 'extended -10' class of bacterial promoters". Biochem. J., 1993. 269: p. 851-857.

26. M. S. Gelfand "Prediction of function in DNA sequence analysis". J. Comp. Biol., 1995. 2(1): p. 87-115.

27. W. H. Day, F. R. McMorris "Critical comparison of consensus methods for molecular sequences". Nucleic Acids Res, 1992. 20(5): p. 1093-9.

28. D. Pribnow "Bacteriophage T7 early promoters: nucleotide sequences of two RNA polymerase binding sites". J Mol Biol, 1975. 99(3): p. 419-43.

29. A. G. Pedersen, P. Baldi, Y. Chauvin, S. Brunak "The biology of eukaryotic promoter prediction a review". Comput Chem, 1999. 23: p. 191207.

30. T. D. Wu, C. G. Nevill-Manning, D. L. Brutlag "Fast probabilistic analysis of sequence function using scoring matrices". Bioinformatics, 2000. 16(3): p. 233-244.

31. G. D. Stormo "DNA binding sites: representation and discovery". Bioinformatics, 2000.16(1): p. 16-23.

32. L. L. Gatlin "The information content of DNA". J. Theoret. Biol, 1966. 10: p. 281-300.

33. L. L. Gatlin "The information content of DNA. II". J. Theoret. Biol, 1968.18: p. 181-194.

34. M. Li, J. H. Badger, X. Chen, S. Kwong, P. Kearney, H. Zhang "An information-based sequence distance and its application to whole mitochondrial genome phylogeny". Bioinformatics, 2001. 17(2): p. 146-154.

35. F. Rozkot, P. Sazelova, L. Pivec "A novel method for promoter search enhanced by function-specific subgrouping of promoters—developed and tested on£. coli system". Nucl. Acids Res., 1989. 17(4799-4815).

36. P. Baldi, Y. Chauvin, T. Hunkapiller, M. McClure "Hidden Markov models of biological primary sequence information". Proc. Nat. Acad. Sci. USA, 1994. 91: p. 1059-1063.

37. B. Brejova, C. DiMarco, T. Vinar, S. R. Hidalgo, G. Holguin, C. Patten, "Finding Patterns in Biological Sequences", at . 2000, University of Waterloo, p. 1-49.

38. J. W. Fickett, A. G. Hatzigeorgiou "Eukaryotic Promoter Recognition". Genome Research, 1997. 7: p. 861-878.

39. A. Krogh, "An Introduction to Hidden Markov Models for Biological Sequences", in Computational Methods in Molecular Biology, S.L. Salzberg, D.B. Searls, and S. Kasif, Editors. 1998, Elsevier, p. 45-63.

40. A. V. Lukashin, V. V. Anshelevich, B. R. Amirikyan, A. I. Gragerov, M. D. Frank-Kamenetskii "Neural network models for promoter recognition". J Biomol Struct Dyn, 1989. 6(6): p. 1123-33.

41. M. C. O'Neill "Escherichia coli promoters: neural networks develop distinct descriptions in learning to search for promoters of different spacing classes". Nucleic Acids Res, 1992. 20(13): p. 3471-7.

42. G. B. Hutchinson "The prediction of vertebrate promoter region using differential hexamer frequency analysis". CABIOS, 1996.12(5): p. 391-398.

43. M. C. O'Neill "Escherichia coli promoters. I. Consensus as it relates to spacing class, specificity, repeat substructure, and three-dimensional organization". J. Biol. Chem, 1989. 264: p. 5522-5530.

44. J. M. Schurr, J. J. Delrow, B. S. Fujimoto, A. S. Benight "The Question of Long-Range Allosteric Transitions in DNA". Biopolymers, 1997. 44: p. 283-308.

45. А. С. Баев, JI. Любченко, С. Л. С., Э. Н. Трифонов, М. Д. Франк-Каменецкий "Изучение легкоплавких участков ДНК фага Т2 с помощью электронной микроскопии и кинетического формальдегидного метода". Мол. Биол., 1972. 6: р. 760-766.

46. D. Poland "Recursion relation generation of probability profiles for specific-sequence macromolecules with long-range correlations". Biopolymers, 1974.13(9): p. 1859-71.

47. К. Nakata, М. Kanehisa, J. V. Maizel, Jr. "Discriminant analysis of promoter regions in Escherichia coli sequences". Comput Appl Biosci, 1988. 4(3): p. 367-71.

48. C. J. Benham "Energetics of the strand separation transition in superhelical DNA". J Mol Biol, 1992. 225(3): p. 835-47.

49. C. J. Benham "Sites of predicted stress-induced DNA duplex destabilization occur preferentially at regulatory loci". Proc Natl Acad Sei U S A, 1993. 90(7): p. 2999-3003.

50. C. J. Benham "Duplex destabilization in superhelical DNA is predicted to occur at specific transcriptional regulatory regions". J Mol Biol, 1996. 255(3): p. 425-34.

51. E. Yeramian "Genes and the physics of the DNA double-helix". Gene, 2000. 255: p. 139-150.

52. E. Yeramian "The physics of DNA and the annotation of the Plasmodium falciparum genome". Gene, 2000. 255: p. 151-168.

53. H. А. Колчанов, M. П. Пономаренко, В. Пономаренко, H. JI. Подколодный, А. С. Фролов "Функциональные сайты геномов про- и эукариот: компьютерное моделирование и предсказание активности". Мол. Биол., 1998. 32(2): р. 255-267.

54. М. П. Пономаренко, В. Пономаренко, И. И. Титов, Н. А. Колчанов, А. В. Мазин, С. Ковальчиковски "Предпочтительность RecAфиламента к последовательностям ДНК коррелирует с генетическим кодом". ДАН, 1998. 363(1): р. 122-125.

55. M. P. Ponomarenko, I. V. Ponomarenko, А. Е. КеГ, N. A. Kolchanov, H. Karas, Е. Wingender, H.Sklenar "Computer analysis of conformational features of the eukaryotic TATA-box DNA promotors.". Mol Biol (Mosk), 1997. 31: p. 733-740.

56. M. P. Ponomarenko, A. N. Kolchanova, N. A. Kolchanov "Generating programs for predicting activity of functional sites". J. Сотр. Biol., 1997. 4(1): p. 83-90.

57. G. Duval-Valentin, R. Ehrlich "Interaction between E. coli RNA polymerase and tetR promoterfrom pSClOl: homologies and differences with other E. coli promoter systems from close contact point studies". Nucl. Acids Res., 1986.14(5): p. 1967-1983.

58. A. Chenchick, R. Bebelalashvilli, A. Mirzabekov "Topograpy of interaction of Escherichia coli RNA polymerase subunit with lac\JV5 promoter". FEBS Lett., 1981. 128(1): p. 46-50.

59. R. E. Dickerson "Definitions and nomenclature of nucleic acid structure components". Nucleic Acids Res, 1989. 17(5): p. 1797-803.

60. R. E. Dickerson "Definitions and nomenclature of nucleic acid structure parameters". J Biomol Struct Dyn, 1989. 6(4): p. 627-34.

61. R. E. Dickerson "Base sequence and helix structure variation in В and A DNA". J Mol Biol, 1983. 166(3): p. 419-41.

62. E. S. Shpigelman, E. N. Trifonov, A. Bolshoy "CURVATURE: software for the analysis of curved DNA". Comput Appl Biosci, 1993. 9(4): p. 435-40.

63. W. Saenger, ed. "Landolt-Bornstein Numerical Data and Functional Relationships in Science and Technology". New Series. Vol. VII/lb. 1989, Springer-Verlag: Berlin.

64. P. Baldi, P.-F. Baisnee "Sequence analysis by additive scales: DNA structure for sequences and repeats of all length". Bioinformatics, 2000. 16(10): p. 865-889.

65. W. Ross, et al. "A third recognition element in bacterial promoters: DNA binding by the alpha subunit of RNA polymerase". Science, 1993. 262(5138): p. 1407-13.

66. H. Giladi, K. Murakami, A. Ishihama, A. B. Oppenheim "Identification of an UP element within the IHF binding site at the PL1-PL2 tandem promoter of bacteriophage lambda". J. Mol. Biol., 1996. 260: p. 484-491.

67. B. F. Bauer, E. G. Kar, R. M. Elford, W. M. Holmes "Sequence determinants for promoter strength in the leuV operon of Escherichia coli". Gene, 1988. 63(1): p. 123-34.

68. K. K. Gosink, W. Ross, S. Leirmo, R. Osuna, S. E. Finkel, R. C. Johnson, R. L. Gourse "DNA binding and bending are necessary but not sufficient for Fis-dependent activation of rrnB PI". J Bacteriol, 1993. 175(6): p. 1580-9.

69. R. L. Gourse, W. Ross, T. Gaal "UPs and downs in bacterial transcription initiation: the role of the alpha subunit of RNA polymerase in promoter recognition". Mol Microbiol, 2000. 37(4): p. 687-95.

70. M. H. Werner, A. M. Gronenborn, G. M. Clore "Intercalation, DNA rinking, and the control of transcription". Science, 1996. 271: p. 778-784.

71. P.-F. Baisnee, P. Baldi, S. Brunak, A. G. Pedersen "Flexibility of the genetic code with respect to DNA structure". 2001.

72. H. Karas, R. Knuppel, W. Schulz, H. Sklenar, E. Wingender "Combining structural analysis of DNA with search routines for the detection of transcription regulatory elements.". Comput Appl Biosci, 1996. 12: p. 441-446.

73. J. Huang, T. Schlick, A. Vologodskii "Dynamics of site juxtaposition in supercoiled DNA". Proceedings of the National Academy of Sciences of the United States of America, 2001. 98(3): p. 968-973.

74. K. V. Klenin, J. Langowski "Diffusion-controlled intrachain reactions of supercoiled DNA: Brownian dynamics simulations". Biophys J., 2001. 80(1): p. 69-74.

75. N. Bruant, D. Flatters, R. Lavery, D. Genest "From atomic to mesoscopic descriptions of the internal dynamics of DNA". Biophys J 1999. 77(5): p. 2366-2376.

76. K. A. Thomasson, I. V. Ouporov, T. Baumgartner, J. Czlapinski, T. Kaldor, S. H. Northrup "Free energy of nonspecific binding of Cro repressor protein to DNA". Journal of Physical Chemistry B, 1997. 101(44): p. 91279136.

77. M. Baginski, F. Fogolari, J. M. Briggs "Electrostatic and non-electrostatic contributions to the binding free energies of anthracycline antibiotics to DNA". J. Mol. Biol, 1997. 274(2): p. 253-267.

78. L. J. Jensen, S. Knudsen "Automatic discovery of regulatory patterns in promoter regions based on whole cell expression data and functional annotation". Bioinformatics, 2000. 16(4): p. 326-333.

79. A. A. Mironov, E. V. Koonin, M. A. Roytberg, M. S. Gelfand "Computer analysis of transcription regulatory patterns in completely sequenced bacterial genomes". Nucl. Acids Res., 1999. 27(14): p. 29812989.

80. L. Pickert, I. Reuter, F. Klawonn, E. Wingender "Transcription regulatory region analysis using signal detection and fuzzy clustering". Bioinformatics, 1998. 14(3): p. 244-251.

81. T. Yada, M. Nakao, Y. Totoki, K. Nakai "Modeling and predicting transcriptional units of Escherichia coli genes using hidden Markov models". Bioinformatics, 1999.15(12): p. 987-93.

82. P. Allegrini, M. Buiatti, P. Grigolini, B. J. West "Fractional Brownian motion as a nonstationary process: An alternative paradigm for DNA sequences". Phys. Rev. E, 1998. 57(4): p. 4558-4567.

83. P. Allegrini, M. Buiatti, P. Grigolini, B. J. West "Non-Gaussian statistics of anomalous diffusion: The DNA sequences of prokaryotes". Phys. Rev. E, 1998. 58(3): p. 3640-3648.

84. A. Arneodo, Y. D'Aubenton-Carafa, B. Audit, E. Bacry, J. F. Muzy, C. Thermes "What can we learn with wavelets about DNA sequences?". Physica A, 1998. 249: p. 439-448.

85. P. Bernaola-Galvan, R. Roman-Roldan, J. L. Oliver "Compositional segmentation and long-range fractal correlations in DNA". Phys. Rev. E, 1996. 53(5): p. 5181-5189.

86. V. R. Chechetkin, A. Y. Turygin "Study of correlations in DNA sequences". J. Theoret. Biol., 1996. 178: p. 205-217.

87. V. R. Chechetkin, Y. V. Lobzin "Study of correlations in segmented DNA sequences: Application to strucutral coupling between exons and introns". J. Theoret. Biol., 1998.190: p. 69-83.

88. S. Karlin, V. Brendel "Patchiness and correlations in DNA sequences". Science, 1993. 259: p. 677-680.

89. W. Li "The study of correlation structures of DNA sequences: a critical review". Comput Chem, 1997. 21(4): p. 257-271.

90. L. Luo, W. Lee, L. Jia, F. Ji, L. Tsai "Statistical correlation of nucleotides in a DNA sequence". Phys. Rev. E, 1998. 58(1): p. 861-871.

91. R. F. Voss "Evolution of long-range fractal correlations and 1//noise in DNA base sequences". Phys. Rev. Let., 1992. 68(25): p. 3805-3808.

92. C. K. Peng, S. V. Buldyrev, A. L. Goldberger, S. Havlin, F. Sciortino, M. Simons, H. E. Stanley "Long-range correlation in nucleotide sequences". Nature, 1992. 356: p. 168-270.

93. A. K. Mohanty, A. V. S. S. N. Rao "Factorial Moments Analyses Show a Characteristic Length Scale in DNA Sequences". Phys. Rev. Let., 2000. 84(8): p. 1832-1835.

94. J. Maddox "Long-range correlations within DNA". Nature, 1992. 358: p. 103.

95. J. V. Braun, H.-G. Muller "Statistical methods for DNA sequence segmentation". Statistical Science, 1998. 13(2): p. 142-162.

96. P. Bernaola-Galvan, I. Grosse, P. Carpena, J. L. Oliver, R. Roman-Roldan, H. E. Stanley "Finding Borders between Coding and Noncoding DNA Regions by an Entropie Segmentation Method". Phys. Rev. Let., 2000. 85(6): p. 1342-1345.

97. R. Roman-Roldan, P. Bernaola-Galvan, J. L. Oliver "Sequence compositional copmlexity of DNA throught an entropic segmentation method". Phys. Rev. Let., 1998. 80(6): p. 1344-1349.

98. J. P. Barral, A. Hasmy, J. Jimenez, A. Marcano "Nonlinear modeling technique for the analysis of DNA chains". Phys. Rev. E, 2000. 61(2): p. 1812-1815.

99. I. Grosse, H. Herzel, S. V. Buldyrev, H. E. Stanley "Species independence of mutual information in coding and noncoding DNA". Phys. Rev. E, 2000. 61(5): p. 5624-5629.

100. B.-L. Hao "Fractals from genomes exact solutions of a biology-inspired problem". Physica A, 2000. 282: p. 225-246.

101. H. J. Bussemaker, H. Li, E. D. Siggia. "Regulatory Element Detection using a Probabilistic Segmentation Model", in Proc of Int Conf Intell Syst Mol Biol. 2000. San Diego p. 67-74

102. H. J. Bussemaker, H. Li, E. D. Siggia "Building a dictionary for genomes: Identification of presumptive regulatory sites by statistical analysis". Proc. Nat. Acad. Sci. USA, 2000.

103. B. Wang, "Mininum entropy approach to word segmentation problems", at 'arXiv:physics/008232'. 2000.

104. R. Hu, B. Wang, "Statistically signifacant strings are related to regulatory elements in the promoter regions of Saccharomyces cerevisiae", at. 2000.

105. V. J. Pomponas, et al. "CAST: an iterative algorithm for the complexity analysis of sequence tracts". Bioinformatics, 2000. 16(10): p. 915-922.

106. V. D. Gusev, L. A. Nemytikova, N. A. Chuzhanova "On complexity measures of genetic sequences". Bioinformatics, 1999.15(12): p. 994-999.

107. V. B. Zhurkin, V. I. Poltev, V. L. Florent'ev "Atom-atomic potential functions for conformational calculations of nucleic acids". Mol. Biol (Mosk), 1980. 14(5): p. 1116.

108. R. T. Ogden, E. Parzen "Data Dependent Wavelet Thresholding in Nonparametric Regression with Change-point Applications". Comput. Stat. Data Anal., 1996. 22: p. 53-70.

109. T. Ellinger, D. Behnke, R. Knaus, H. Bujard, J. D. Gralla "Context-dependent effects of upstream A-tracts: stimulation or inhibition of Escherichia coli promoter function". J. Mol. Biol., 1994. 239: p. 466-475.

110. H.-D. Liebig, W. Ruger "Bacteriophage T4 early promoter regions. Consensus sequences of promoters and ribosome-binding sites". J. Mol. Biol., 1989. 208: p. 517-536.

111. R. N. Mantegna, S. V. Buldyrev, A. L. Goldberger, S. Havlin, C.-K. Peng, M. Simons, H. E. Stanley "Linguistic features of noncoding DNA sequences". Phys. Rev. Let., 1994. 73(23): p. 3169-3172.

112. R. N. Mantegna, S. V. Buldyrev, A. L. Goldberger, S. Havlin, C.-K. Peng, M. Simons, H. E. Stanley "Systematic analysis of coding and noncoding DNA sequences using methods of ststistical linguistics". Phys. Rev. E, 1995. 52(3): p. 2939-2950.

113. С. А. Боринская, H. К. Янковский "Структура прокариотических геномов". Мол. Биол., 1999. 33(6): р. 941-957.

114. С. В. Harley, R. P. Reynolds "Analysis of Е. coli promoter sequences". Nucleic Acids Res, 1987. 15(5): p. 2343-61.

115. E. M. Crowley, K. Roeder, M. Bina "A Statistical Model for Locating Regulatory Regions in Genomic DNA". J. Mol. Biol., 1997. 268: p. 8-15.

116. N. E. Israeloff, M. Kagalenko, K. Chan "Can Zipf distinguish language from noise in noncoding DNA". Phys. Rev. Let., 1996. 76(11): p. 1976.

117. R. N. Mantegna, S. V. Buldyrev, A. L. Goldberger, S. Havlin, C.-K. Peng, M. Simons, H. E. Stanley "Reply". Phys. Rev. Let., 1996. 76(11): p. 1979-1981.

118. R. F. Voss "Comment on "Linguistic features of noncoding DNA sequences"". Phys. Rev. Let, 1996. 76(11): p. 1978.

119. S. Bonhoeffer, A. V. M. Herz, M. C. Boerlijst, S. Nee, M. A. Nowak, R. M. May "No signs of hidden language in noncoding DNA". Phys. Rev. Let., 1996. 76(11): p. 1977.