Бесплатный автореферат и диссертация по биологии на тему
Разработка компьютерного алгоритма поиска вегетативных промоторов в геноме Escherichia coli
ВАК РФ 03.00.03, Молекулярная биология

Автореферат диссертации по теме "Разработка компьютерного алгоритма поиска вегетативных промоторов в геноме Escherichia coli"

H» minii

Брок-Волчанский Антон Сергеевич

РАЗРАБОТКА КОМПЬЮТЕРНОГО АЛГОРИТМА ПОИСКА ВЕГЕТАТИВНЫХ ПРОМОТОРОВ В ГЕНОМЕ Escherichia coli

Специальность "Молекулярная биология" 03.00.03

Автореферат диссертации на соискание ученой степени кандидата биологических наук

Пущино 2004

Работа выполнена в Институте биофизики клетки РАН

Научный руководитель: доктор биологических наук

Озолинь О.Н.

Официальные оппоненты:

доктор биологических наук Белецкий И.Б.

кандидат физико-математических наук Комаров В.М.

Ведущая организация:

Институт молекулярной биологии им. В.А. Энгельгардта РАН

Защита состоится .05.2004 г. в 14.00 на заседании диссертационного совета Д.002.038.01 при Институте биофизики клетки РАН по адресу 142490, г. Пущине, ИБК РАН.

С диссертацией можно ознакомиться в центральной библиотеке НЦБИ РАН, Пущино.

Автореферат разослан .04.2004 г.

Ученый секретарь диссертационного совета,

кандидат биологических наук

£2£> ¿гг

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы

Необходимым условием для реконструкции функциональных взаимоотношений в живой клетке является полная аннотация всех регуляторных элементов генома (промоторов, регуляторных белков и РНК). Однако даже их идентификация является сложной биохимической задачей. Так, например, промоторные участки у Escherichia coli, за более чем 30 лет исследований, установлены менее чем для 15% генов. Использование информационных подходов, предсказывающих расположение промоторов, способно значительно облегчить и ускорить этот процесс. Кроме этого, построение корректного алгоритма поиска этих элементов и картирование с его помощью потенциально транскрибируемых участков в геноме позволяет обнаружить такие гены, идентификация которых стандартными методами затруднена. К ним относятся гены нетранслируемых РНК, а также гены, кодирующие короткие полипептиды и гены альтернативного кодирования.

Цель работы

Цепью работы было создание компьютерного алгоритма поиска ст70-специфичных (вегетативных) промоторов, картирование в геноме Е. coli промотор-подобных участков и изучение характера распределения транскрипционных сигналов относительно кодирующих областей генома.

Основные задачи нег^дмния;

1. определение границ промоторной области;

2. разработка компьютерного алгоритма посредством:

- построения и оптимизации весовых матриц, учитывающих узнаваемые <?-субъединицей РНК-полимеразы консенсусные элементы,

- учета элементов, взаимодействующих с а-субъединицами фермента,

- учета последовательностей, вызывающих анизотропные изгибы двойной

- учета легко деформируемых динуклеотидов, обеспечивающих конформационную подвижность ДНК,

- учета термодинамически нестабильных А/Т-треков, предположительно принимающих участие в поступательном движении фермента вдоль ДНК,

- учета прямых и инвертированных повторов, как потенциальных мишеней для взаимодействия с регуляторными белками;

3. сканирование генома для поиска потенциально транскрибируемых участков;

4. картирование промотор-подобных участков относительно известных структурных генов

Научная новизна

Вырожденность контекста узнаваемых РНК-полимеразой консенсусных последовательностей и ограниченность знаний о роли генетического окружения в формирований транскрипционного комплекса являются причинами низкой точности компькУгер ного предсказания промоторов. Для повышения этой точности были учтены элементы нуклеотидной последовательности, способные взаимодействовать с а-субъединицами РНК-полимеразы; последовательности

спирали,

формирующие устойчивые изгибы оси двойной спирали ДНК; динуклеотиды, обеспечивающие адаптивную изомеризацию ДНК; регулярно распределенные А/Т-треки, предположительно принимающие участие в поступательном движении РНК-полимеразы вдоль матрицы и повторяющиеся мотивы нуклеотидных последовательностей, находящиеся в участках взаимодействия с большинством регуляторных белков. Формализация этих параметров позволила создать эффективный компьютерный алгоритм, пригодный для полного сканирования бактериального генома. Все ранее предложенные программы использовались только для поиска наиболее вероятного промотора непосредственно перед структурными генами. В геноме было обнаружено более 90% известных промоторов и более чем в 80% предсказанная точка старта совпала с экспериментально установленным началом синтеза РНК. Это значит, что -80% промотор-подобных мест, найденных в других участках, могут оказаться настоящими промоторами. К ним в первую очередь относятся вероятные промоторы перед неизученными генами. Кроме этого, возможные промоторы были обнаружены в кодирующих последовательностях и в промежутках между генами, не предполагающими присутствия их промоторов. По крайней мере, часть из них могут контролировать экспрессию новых генов. Наибольший интерес представляют гены, кодирующие короткие полипептиды и нетранслируемые РНК, обнаружение которых биохимическими методами является исключительно сложной задачей.

Научно-практическая ценность

Скорость однозначной идентификации промоторов биохимическими методами ограничена и не превышает нескольких десятков в год. С помощью разработанного алгоритма было обнаружено 1981 потенциальных промоторов перед неизученными генами. Это облегчает их биохимическую идентификацию и уже сейчас создает основу для моделирования экспрессии некоторых генных ансамблей. Так как алгоритм учитывает несколько плохо исследованных, но функционально-значимых элементов, он может быть использован для оптимизации генетических модификаций, направленных на детальное их изучение. Наибольший научно-практический интерес представляют результаты глобального картирования транскрибируемых участков в геноме, указывающие на возможность существования новых генов и создающие основу для сравнительного эволюционного анализа.

Anpnfffliflpi пчуурптации

Основные результаты диссертационной работа были представлены на конференциях: «Научные исследования в наукоградах России» (2001, Пущино); «Artificial Intelligence and Heuristic Methods for Bioinformatics», (http://www.dsi.unifi.it/ai4bio/final-program.hönl. San Miniato, Italy 2001) и на «Биология-наука XXI века) (2002, Пущино).

Публикации

По теме диссертации подготовлено и опубликовано 6 печатных работ.

Структура и объем диссертации

Диссертация состоит из введения, обзора литературных данных, описания использованных баз данных и методических приемов, изложения полученных

4

результатов и их обсуждения, заключения, выводов и списка литературы. Диссертация изложена на 123 страницах и содержит 31 рисунок. Список литературы включает 187 наименований.

БАЗЫ ДАННЫХ И МЕТОДИЧЕСКИЕ ПРИЕМЫ

Базы данных

В работе использовались базы данных нуклеотидных последовательностей Regulon (http //www.cifn unani.mx/Computational Genomics/), Promec (http://bioinfo.md.huji.ac.il/marg/promec/) и полная нуклеотидная последовательность генома E.coli MG1655 (NC 000913.1 GI:16127994) (NCBI).

Нуклеотидные последовательности промоторов: В качестве исходных наборов были использованы опубликованные ранее компиляции (Ozoline, et al. 1997 NAR 25, 4703; Ozoline, et al. 1999 NAR 27, 4768; Часов и др. 2002 Мол. Биол. 36, 682). В обучающий набор было отобрано 400 неперекрывающихся и негомологичных между собой промоторов, имеющих только одну точку старта. Тестовый набор содержал 290 промоторных последовательностей, 222 из которых являются бактериальными, но имеют несколько стартовых точек, или перекрываются с последовательностями обучающего набора. Остальные 68 промоторов распознаются бактериальной РНК-полимеразой в ДНК бактериофагов, плазмид и транспозонов. Все матрицы содержали последовательности оснований от -255 до +155 относительно точки старта.

Контрольный набор включал 400 непромоторных фрагментов ДНК, равных по длине промоторным последовательностям. Он был составлен из последовательностей кодирующих областей последних генов конвергентно транскрибируемых оперонов.

Статистические подходы и программное обеспечение

Для определения границ промотора был использован метод кластерного анализа. Соответствующее программное обеспечение было разработано A.A. Деевым (Ozoline, et al. (1997) NAR 25,4703).

Для анализа характера распределения выявленных кластерным анализом неслучайных последовательностей вдоль промотора была использована разработанная A.A. Деевым программа DNA-Tools.

Для экстракции нуклеотидных последовательностей из генома; трансформации их в соответствии с заданным алфавитом; оценки частоты встречаемости учитываемых элементов в анализируемых наборах или геноме и сортировки последовательностей по коэффициентам подобия идеальному промотору были написаны вспомогательные программы (Perl v. 5.6 в среде UNIX (Debian Linux 2.0 Potato/3.0 Woody, kernel 2.2/2.4/2.8). При этом использовались регулярные выражения и модули, обеспечивающие визуализацию и управление работой скрипта (интерфейс - KOHConb(Getopt::Std)/CGI(httpd Apache)/Perl-Tk; для графиков - программа Gnuplot и модуль доступа к ее функциям из Perl -Chart: :Graph: :Gnuplot).

Алгоритм поиска промоторов написан на языке С++ в среде Win32 (MS Windows ХР РЕ; MS Visual С++ NET 2002; MFC 7 0; библиотека регулярных выражений boost::regex++ v. 3.31 (http //www boost org), созданная J. Maddock.

Программа поиска прямых и инвертированных повторов написана А А Деевым и интегрирована в основную программу.

Статистическая обработка полученных данных проводилась с использованием MS Excel.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ

Определение границ промоторной области

Традиционно промоторной областью считается участок непосредственного контакта с ферментом, обнаруживаемый методами нуклеазного футпринтинга (-60/+20). Однако в ряде случаев защищенными от действия нуклеазы являются более удаленные от старта транскрипции фосфодиэфирные связи (-70/-80). Физический размер РНК-полимеразы не позволяет ей контактировать с ними без существенной деформации ДНК. Это предполагает возможность существования в промоторах элементов, способных обеспечить прилегание удаленной ДНК к поверхности белка. Для анализа этой области был использован метод кластерного анализа. В ходе исследования оценивалась эффективность группировки промоторов по подобию их нуклеотидных последовательностей, выраженных посредством 17 различных вырожденных алфавитов (ATGC; А=Т, C=G; A=G, С=Т; только А(Т, G, С,); не А(Т, G, С); G, С, А=Т; А, Т, G=C; Т, С, A=G; A, G, Т=С; Т, G, А=С; А, С, T=G). Анализ проводился в заданной точке промотора для фиксированного по длине сегмента (2-6 пар оснований), а эффективность группировки определяли для всех позиций в диапазоне от -250 до +150, относительно старта транскрипции. Размер доминирующей группы, формируемой кластеризующей программой, был использован в качестве основного показателя эффективности группировки. Наибольшая протяженность эффективной кластеризации наблюдалась для алфавитов, различающих А/Т и G/C-пары (Рис. 1).

24 Рис. 1. Зависимость размера

А='Г I доминирующей группы, от

G=c позиции в промоторе. Пока-

заны данные, полученные с использованием алфавита А=Т, G=C при сравнивании сегментов длиной 5н.п.. Отклонение от случайного уровня оценивалось по данным, полученным для контрольного набора. Проведена процедура сглаживания по 3

Позиция 5'-конца н.ятмуклсотки СОСвДНИМ ПОЗИЦИЯМ, относительно стартовой точки i--------

Исходя из того, что значимыми для формирования транскрипционного комплекса могут быть позиции, для которых размер доминирующих групп выше случайного больше, чем на 3 Std, промоторной можно считать область от -210 до +75 относительно точки старта. Соответствующее перемещение границ объединяет в общую платформу места связывания РНК-полимеразы и регуляторов транскрипции.

Разработка алгоритма поиска промоторов

1. Построение и оптимизация весовых матриц, учитывающих узнаваемые ст-субъединицей РНК-полимеразы консенсусные элементы.

Для построения алгоритма в качестве базового был использован метод весовых матриц (Hertz, Stormo 1996, Methods. Enzymol. 273, 30). Эти матрицы содержат параметры, отражающие частоту присутствия каждого нуклеотида в каждой позиции учитываемого элемента. Для консенсусных мотивов, TTGACA и ТАТААТ, узнаваемых сг^-РНК-полимеразой, они включают 24 параметра kg (Табл. 1), рассчитываемых по формуле [1]. Суммарный показатель подобия (К) при таком способе алгоритмизации вычисляется как сумма вкладов всех учитываемых позиций.

кц = In (fy/nj) [1]

i - позиция канонической пары в элементе; j - конкретный нуклеотид (А, С, G или T);/j -частота встречаемости j в /; и, - нормировочный коэффициент, отражающий случайный уровень для присутствия J

Таблица 1. Весовые матрицы для консенсусных элементов -35 и -10

(Жирным шрифтом отмечены весовые коэффициенты консенсусных пар) __Элемент -35_ _Элемент -10_

i\J А | С | G Т

kg

1 -0,95 -1,44 -2,22 1,20

2 -0,85 -2,54 -1,04 1,16

3 -1,19 -1,19 0,89 -0,06

4 0,66 0,11 -2,54 -0,11

5 0,10 0,6 -1,16 -0,27

6 0,352 -0,578 -0,121 0,138

А1 А С G Т

ку

1 -1,26 -0,65 -1,16 1,07

2 1,33 -4,62 -2,22 -1,7

3 -0,02 -0,42 -0,61 0,61

4 0,77 -0,79 -0,44 -0,26

5 0,65 -0,04 -0,77 -0,39

6 -2,10 -2,42 -2,83 1,33

В исходной программе таких позиций было 56 и на первом этапе мы полностью воспроизвели алгоритм Hertz и Stormo (Рис. 2). Оказалось, что ~25% промоторов обучающей компиляции имеют коэффициенты подобия (Khs), превышающие значения этого параметра для всех непромоторных фрагментов. В дальнейшем этот процент будет называться «селективностью».

Увеличение числа доступных для анализа промоторов позволило уточнить числовые значения весовых коэффициентов. Дня этого была использована процедура циклической оптимизации. Расположение элементов -35 и -10 в

каждом промоторе первоначально определяли с помощью весовых матриц Hertz и Stormo. Учитывая допустимые вариации (15-21 н.п.) в расстоянии между консенсусными элементами (далее «спейсер») и расстояния между элементом -10 и точкой старта (4-8 н.п.) (далее «расстояние»), для каждого промотора это предполагает перебор 35 комбинаций. Соответствующие последовательности выравнивались по всему обучающему набору и определялись /¿, и % Полученные таким образом уточненные матрицы использовались для нового выравнивания промоторов и т.д. до полной стабилизации кц.

Было сопоставлено два способа расчета пу. средние по геному и средние по кодирующим последовательностям. Первый способ обеспечил более высокую разрешающую способность, поэтому именно он используется в конечной программе. При этом пА= пт = 0,246, а % = «с = 0,254.

Ряс. 2. Гистограмма распределения промоторов обучающей компиляции (серый) и непромоторных фрагментов контрольного набора (черный) по коэффициентам подобия, вычисленным с использованием алгоритма и весовых матриц Hertz и Stormo. Последовательности, имеющие близкие (±0,05) значения Кц5 объединяли в общую группу.

Суммарный показ »гель подобия (Khs)

Очевидно, что адекватность формируемых матриц зависит не только от размера обучающей компиляции, но и от точности оценки Ац на предварительном этапе. В работе Hertz и Stormo они были определены по контекстам консенсусных элементов 112 промоторов, а сами элементы были идентифицированы по максимальному числу нуклеотидов, совпадающих с ранее предложенными консенсусами. При этом не учитывается разница в степени доминирования разных пар (см. Табл. 1). Поэтому была построена новая исходная матрица, Ау для которой были вычислены с использованием только таких промоторов, положения элементов -35 и -10 в которых определено экспериментальным путем. Это увеличило селективность на несколько процентов. Рис. 3. иллюстрирует дискриминирующий потенциал оптимизированного с помощью описанных выше приемов алгоритма Hertz и Storno.

2. Учет длины спейсера и расстояния до стартовой точки

Элементы -35 и -10 узнаются двумя доменами ст70 и должны находится на приемлемом для взаимодействия расстоянии (15-21 н.п.). Оптимальный спейсер имеет 17 н.п. Отклонение от него снижает активность промоторов, поэтому все алгоритмы учитывают длину спейсера. Оптимальный спейсер обеспечивает нулевой вклад в суммарный К. Для остальных случаев по формуле [2] рассчитывали отрицательный инкремент (пенальти). Аналогичным образом

учитывали вариации в расстоянии между элементом -10 и стартом транскрипции, оптимальным для которого являются 6 н.п.

кт = 1п№0/К17()9) [2]

Б-длина спейсера, Е)-расстояние между элементом -10 и стартом транскрипции N17(6) и N8(0) - число промоторов, имеющих соответствующий спейсер (расстояние до точки старта).

Суммарный показатель подобия (Ккс)

Рис. 3. Гистограммы распределения промоторов обучающей (левая панель, серый) и тестовой (правая панель, темно серый) компиляций и непромоторных фрагментов контрольного набора (черный) по Кис- Способ представлений данных аналогичен рис.2

Было опробовано 3 способа учета обоих этих расстояний: во время процедуры оптимизации, когда отрицательные пенальти влияют на выравнивание; после оптимизации, когда пенальти не влияют на выравнивание и учет Факта отклонения длин от оптимума. Для обоих расстояний лучшие результаты были получены при снижении зависимости пенальти от длины. Поэтому для S=14-16 ks= -1,2; для S=18-21 ks = -1,4; доя D=2-4 kD = -1,7; для D=5 kD = -0,9 для D=7 kD = -0,4 доя D=8-9 kD = -1,4. При этом для спейсера лучшим оказался учет его длины во время поиска консенсусных элементов, а для расстояния между элементом -10 и стартом транскрипции - после. Эти модификации, совместно с небольшим измением области допустимых вариаций, повысили селективность алгоритма для тестовой компиляции до 49%. Это почти в 2 раза лучше, чем в первоначальном варианте (Рис. 2), но недостаточно для реального картирования промоторов в геноме. Для алгоритмизации структурных особенностей генетического окружения промоторов был отменен используемый алгоритмом Hertz и Stormo учет последовательностей вокруг консенсусных элементов и стартовой точки транскрипции. Оказалось, что их вклад в селективность составлял -16%.

3. Учет динуклеотидов в точке инициации транскрипции

Для комплементарного копирования матрицы необходимо локальное плавление ДНК вблизи точки старта. Это, по-видимому, является причиной обогащенности этого участка легко деформируемыми динуклеотидами С A, CG и ТА. Суммарное превышение случайного уровня для них составляет почти 17

9

(Рис. 4А), т.е. выше, чем отклонение от фонового уровня для частот присутствия обычно учитываемых в этой области пар (наиболее консервативна СЮ в позиции -1(9,8 Характер распределения динуклеотидов в позиции -1 учитывали с помощью одномерной матрицы (Рис. 4В), коэффициенты для которой вычисляли по формуле, аналогичной [1] и при определении коэффициента подобия добавлялись к общей сумме

20 -| [В]

[А] -1

§

II

0 '

I

1 г

.11 I ?

I £

и О

16

12 ■

В«сом» мярвд дга учета дкнуклапидм в нозяция -1

СА + СС + ТА

ЕИЯЭ Число -ТГ

АА 32 0,092

АС 3 -1,44

АС 13 -0,226

АТ 9 -1,069

СА 84 1,268

СС 14 -0,380

СС 73 0,846

ст 14 -0,422

вА 22 -0,149

СС 2 -2,853

еж 15 -0,612

ст 7 -1,192

ТА 46 0,923

тс 10 -0,720

Тс 30 -0,099

тт 22 -оде

-140 -120 -100 -80 -60 -40 -20 0 20 40

Позиция динукпеотидов в промоториой ДНК

Рис. 3. [А] Гисторграмма суммарного распределения СА+С(3+ТА вдоль промотора. Отмечено расположение элементов -35 и -10 и позиция -1. Для наглядности степень отклонения от случайного уровня выражена в стандартных отклонениях, определенных с использованием контрольного набора. [В] Весовая матрица, отражающая характер доминирования Число промоторов (средняя колонка), содержащих указанные динуклеотиды, было использовано для определения к*.

4. Учет динуклеотида Тв, фланкирующего 5'-конеи элемента -10

Помимо консенсусных элементов, активность вегетативных промоторов зависит от присутствия динуклеотида ТО в позиции, отстоящей от элемента -10 на 1 пару оснований. Также как и любая из консервативных пар, ТС не является обязательными элементами промоторов, но в о70 есть специальный модуль (домен 2.5), предназначенный для его специфического распознавания (Вате, е1 а1. 1997, ЕМВО1., 16,4034), а содержащие ТС промоторы сохраняют высокую активность даже в условиях полного отсутствия элемента -35. Он присутствует в 88 промоторах обучающей компиляции, что соответствует 8,9 81<1 превышению среднестатистического уровня. Целесообразность его учета, таким образом, не вызывает сомнений. Соответствующая весовая матрица была построена аналогично Рис. 4В, а способ его учета в суммарном показателе подобия (во ремя процедуры оптимизации с привязкой к элементу -10 или после нее) исследовался специально. Лучшие результаты были получены во

втором случае, поэтому в конечном счете динуклеотид Тв учитывается как независимый элемент.

5. Учет дискриминатора "строгого контроля"

Несмотря на общую обогащенность промоторов А/Т-парами, многие из них имеют О/С-богатую последовательность между точкой старта и элементом -10. Такие треки, например, находятся в промоторах генов, кодирующих рибосомальные и транспортные РНК, где их присутствие обеспечивает зависимость транскрипции от наличия в клетках эффекторной молекулы ррСтрр, синтезируемой в условиях аминокислотного голодания. Такую ситуацию принято называть "строгим контролем", в результате которого происходит переключение метаболизма клеток на ресурсосберегающий режим. Число промоторов, имеющих в/С треки в участке -6/-4 превышает случайный уровень на 3 БЙ (Рис. 5А). 4 •

Мятржця дл* учет* к утаспге отшкателыо старт* тршасртцп

л к,

П<4 0,014

4 0,011

5 0,134

б 0Д57

7 ОДМ

пгЯ од«с

-140 -120 -100 -80 -60 -40 -20 0 20 40 Позиция «'-конца $$8$8$-трек1 в промоторной ДНК

Рис. 5. [А] Распределение (в)б (8=<3=С) в промоторах. Проведена процедура сглаживания по 3 соседним позициям [В] Матрица, учитывающая присутствие (Б)« в участке -6/-А от точки старта

В отличие от предыдущих особенностей, обогащенность исследуемого участка в/С-парами нельзя оценить с использованием обычных весовых матриц. В таком случае, только для тетрануклеотидов нужно было бы определить частоту присутствия в промоторах 256 мотивов, что невозможно при наличии всего лишь 400 промоторов в обучающей компиляции. Поэтому вклад С/С-треков в суммарный показатель подобия рассчитывали с помощью редуцированных матриц (Рис. 5В), отражающих зависимость к, от длины трека. При наличии трека, позитивный вклад (к,) вычисляли следующим образом:

кт=15хШ15»Уг№), [3]

в отсутствии трека назначалось пенальти:

к1 = 1!1х1п((1-^я))/0-П(^)))

[4]

S„ - трек, содержащий n G/C или C/G-пар (n>4); ßJS„) - доля промоторов, имеющих начинающийся в участке -6/А ij(Sh) - частота присутствия S, в геноме, Is -нормализационный коэффициент, оценивающий информационное содержание учитываемой области промоторной ДНК.

Поправочный коэффициент Is был использован для учета этого и всех последующих особенностей промоторов для того, чтобы сбалансировать их вклады со вкладами консенсусных пар. В противном случае суммарный К мог бы оказаться мало зависимым от элементов, участвующих в специфическом взаимодействии. Is рассчитывали как среднее информационное содержание учитываемых позиций, нормализованное на информационное содержание в наименее консервативной позиции консенсусных гексамеров (шестая позиция в элементе -35, см. Табл. 1). Само информационное содержание определяли по стандартной формуле (Schneider, et al. 1986, J. Mol. Biol. 188, 415) с использованием соответствующего алфавита. Среднее / для позиций -6/-4, рассчитанное с использованием редуцированного алфавита WS равно 0,0289, что составляет 0,41 от информационной значимости последней позиции канонического элемента -35 (0,06932), поэтому Is = 0,41. Несмотря на функциональную значимость G/C-треков, их учет не оказал никакого влияния на селективность алгоритма. Отчасти это обусловлено функциональной ролью этих элементов, которые используются для подавления транскрипции с активно транскрибируемых генов, большинство из которых имеют высокие К. Соответствующий блок, тем не менее, оставлен в программе, так для даже небольшой инкремент может иметь значение не только для идентификации конкретного промотора, но и для правильного позиционирования его стартовой точки.

П тм п

Рис 6. Распределение (А)4[А1и(Т)4[В]в промоторах. Проведена процедура сглаживания по 3 [А] или 5 [В] соседним позициям Стрелками показаны учитываемые области.

5 -250 -200 -150 -100 -50 0 50 100 150 g Позщия 5'-конца АААА относительно ч»ц<» i

-250 -200 -150 -100 -50 0 50 100 150 Позиция ¡'-конца TTTT относительно старта транскрипции

6. Учет элементов, потенциально взаимодействующих с а-субъединицей

РНК-полимеразы.

Помимо ст, в контакт с промоторами вступают С-концевые домены одной или обеих а-субъединиц РНК-полимеразы. Степень влияния формируемых а контактов на матричную активность промотора может быть очень высокой и сопоставимой с самыми мощными регуляторными белками. Почти все вегетативные промоторы взаимодействуют с а, но механизм этого взаимодействия пока не до конца ясен. Точно установлено, что а способна связываться с протяженными А-треками, узнавая формируемую ими зауженную малую бороздку в ДНК. Гистограмма распределения А-треков в промоторах показана на рис. 6А Два участка их преимущественного присутствия (-44 и -55) расположены в местах ожидаемого контакта с а и около 15% промоторов, содержат в них АААА Один пик находится около позиции -31, которая также достижима для контакта с интегрированными в структуру РНК-полимеразы а-субъединицами. Еще два пика имеют максимумы вблизи -64 и -76. Физический размер РНК-полимеразы позволяет ей контактировать с этими участками только при наличии изгиба двойной спирали, однако, независимым образом с ними, также как с А-треками около позиций -113 (3,5 Std), -135 (4,6 Std) и +27 (4,0 Std) могут взаимодействовать свободные димеры а. Применение для формализации этих элементов того же алгоритма, что и для учета G/C-nap в позициях -6/-4 увеличило селективность компьютерной программы на 4%.

8. Учет последовательностей, вызывающих анизотропные изгибы двойной спирали.

Структурные особенности ДНК для АААА- и ТТТТ-треков аналогичны и отличаются только расположением места с наиболее суженной малой бороздки. Тем не менее, характер распределения (Tfo в промоторах и статистическая значимость их присутствия существенно отличаются от (А)4 (Рис. 6А и В). По-видимому, это отражает их востребованность для выполнения разных функций в промоторах, некоторые из которых зависят от ориентации этих элементов в ДНК. Так, в области возможного контакта с а (5 пиков с максимумами в позициях (-32, -42, -52, -62 и -73), они могут вступать в непосредственный контакт с ними. На Т-треках, находящиеся в ранней транскрибируемой области возможен, так называемый реитеративный синтез РНК-продукта, который используется для регуляции экспрессии многих генов. Основная часть Т-треков находится в области, более удаленной от старта. Гистограмма их распределения выявляет, по крайней мере, 11 максимумов. Функциональное значение этих элементов заключаться в формировании устойчивых изгибов ДНК, роль которых в активации транскрипции исследуется уже много лет (Travers 1987 CRC Crit. Rev. Biochem. 22,181; Bossi, Smith 1984 Cell 39, 643,Bertrand-Burgraff et. al. 1990 EMBO J. 9, 2265). Такую же функцию, по-видимому, выполняют Т-треки, расположенные в спейсере (—22). В комплексе с РНК-полимеразой этот участок находятся на границе формируемого ферментом изогнутого канала. Все установленные функции Т-треков предполагают строгую зависимость от

позиции и длины. Поэтому способ их учета был таким же, как для G/C- и А-треков. Это повысило селективность программы более, чем на 10%.

>■ Учет легко деформируемых динуклеотидов, обеспечивающих

конформационную подвижность ДНК

Кроме жестких А- и Т-треков, промоторы обогащены звеньями (ТА, TG, и СА), легко деформирующимися в условиях слабого изгибного напряжения. Такое напряжение может возникнуть при образовании бинарного комплекса с полимеразой, или тройного комплекса с регуляторными белками. Взаимодействие между соседними парами при этом может нарушиться с образованием 20-40° угла между плоскостями оснований соседних пар. В результате возникает резкий изгиб оси двойной спирали (кинк). Формирование кинков способствует более плотному контакту между поверхностью белка и промотором, а область деформации может быть мишенью для дополнительного контакта с белковой поверхностью. Гибкие звенья находятся в обоих консенсусных гексамерах, а динуклеотид ТА регулярно распределен в промоторах (Ozoline, et al. 1999 J.Biomol. Struct&Dynam. 16, 825). Максимумы в его распределении выражены слабее, чем в случае уже описанных элементов. Но средняя частота присутствия ТА в промоторах в полтора раза выше, чем в среднем по геному, что само по себе может внести заметный вклад в

селективность алгоритма. Таблица 2. Матрица для учета характера распределения в промоторах динуклеотидов ТА

Шш- Пмв-тя ктл

+ • •

-98 0,62 -0,04 -38 -31 0,59 0,62 -0,10

-94 0,81 -0,06

-84 0,65 -0,04 -32 0,39 -0,02

-78 0,62 -0,04 -27 0,50 -0,03

-72 0,71 -0,05 -18 -17 0,46 0,39 -0,06

-«8 0,59 -0,04

-62 -61 0,43 0,53 -0,04 -Тро)' 1,24 0,64 -0,17

-S7 0,53 -0,03 -6 0,78 0,06

-32 1,03 -0,09 +6 +7 0,78 0,56 -0,13

-49 -48 -47 0,39 0,53 0,53 -0,13

+1S 0,53 -0,03

+23 +24 0,56 0,62 -0,09

-43 -42 0,43 0,53 -0,06

+33 0,46 -0,03

Первоначально была предпринята попытка оценить вклад динуклеотидов ТА по соотношению общего числа их присутствия в промоторе и среднего числа их встречаемости в таком же участке непромоторных ДНК. Более эффективное разделение промотор ных и непромоторных последовательностей было получено, однако, при дифференцированном учете частоты присутствия ТА в каждой из предпочтительных позиций Полная матрица для их формализации приведена в Таблице 2. Соответствующие коэффициенты вычисляли по формулам аналогичным [3] и [4]. Эта модификация повысила селективность алгоритма более чем на 7%.

*ТС, доминирующий в позиции -7 наряду с ТА

10. Учет периодичности в распределении смешанных А/Т-треков

Кластерный анализ нуклеотидных последовательностей промоторов (Рис. 1) свидетельствует о неслучайным распределении А/Т и О/С пар в диапазоне от — 160 до +80. Оказалось, что во всех критических позициях доминирующие

группы промоторов содержат мотивы, состоящие только из А/Т или Т/А (V/-треки), а не какие-то другие комбинации А/Т и в/С-пар. Расположение участков преимущественного присутствия этих элементов (Рис. 1) не идентично, но очень похоже на распределение уже учтенных алгоритмом Т- и А-треков, хотя статистическая значимость и, соответственно, количество промоторов, содержащих смешанные \У-треки, гораздо выше. Большинство из них1 пока никак не учитывается. А- и Т-треки востребованы для формирования структурных особенностей двойной спирали (см. выше). Смешанные ^-треки могут выполнять совсем другую роль. Оказалось, что их распределение в промоторах представлено двумя периодами. Выше позиции -44 ^У-треки обычно находятся на расстоянии очень близком к одному витку спирали, тогда как ближе к точке старта они разделены более длинной дистанцией, равной, в среднем, 16.5 н. п.. Это свидетельствует против общности их функционального проявления в разных участках промотора. Экспериментальные данные (Часов и др. 2002 Мол. Биол. 36, 682) свидетельствуют об участии ^-треков транскрибируемой области, в переходе инициирующего комплекса к продуктивному синтезу РНК. ^У-треки, находящиеся выше элемента -35, могут использоваться ферментом для поиска промотора до ассоциации с ним. В любом случае, чрезвычайно высокая статистическая значимость \^Мреков не позволяет пренебречь их присутствием. Чтобы избежать тривиального перекрывания, был сделан акцент на регулярности распределения этих элементов. Для этого оценивали частоту присутствия не одного, а парных треков, находящихся на расстоянии 1 или 1,5 витков спирали.

Рис. 7. Распределение парных www(n)8www в промоторах. Проведена процедура сглаживания по трем соседним позициям

-200 -160 -120 -80

Позиция 5'-конца относительно старта транскрипции

На Рис. 7 показано распределение в промоторах (\умт(п)8\у^у) Основные максимумы находятся в позициях -54, -22 и -10. Практически такое же распределение имеют (\у\у\у(п)7\у\^), отражая периодичность в 1 виток спирали. Гисторгаммы для распределения и (^у\у(п)14лумту),

отражающие периодичность в 1,5 витка спирали, отличаются от них, но похожи между собой. Основные максимумы в этих случаях расположены в позициях -28, -12 и+8.

Способ учета парных треков отличался от других элементов. В Таблице 3 приведен пример каскадной матрицы, учитывающих присутствие («ш(п)7.

15

в участке -54/-51. Позитивные А* в ней рассчитывали по формуле, аналогичной [3], но для каждой позиции в отдельности. В соответствии с этим в каждом промоторе вначале искали парные треки в наиболее значимой позиции. Если находили, то к суммарному К прибавляли соответствующий £*>, если нет - искали следующий элемент и так далее, если не находили ничего, назначали пенальти, которое определяли по соотношению числа промоторов и непромоториых фрагментов, не содержащих указанный элемент ни в одной из

Таблица 3. Каскадная матрица для учета www(n ^www в участке-54/-51. (/>0,42)

Позиция Элемент К.ПЛ

-54 www(n),www 0,67

-53 www(n)7www 0,60

-54 www(n),www 0,58

-53 WWW(n)jWWW 0,57

-52 www(n),www 0,S7

-51 www(n)7www 0,57

-52 www(n>7www 0,56

-55 www(n),www 0,55

-55 WWW(B)|WWW 0,51

-51 www(n),www 0,50

-55-51 нет треков -0,12

позиций анализируемой области. Суммарный учет этих элементов повысил селективность алгоритма на 16%.

11. Учет прямых и инвертированных повторов, как потенциальных мишеней для взаимодействия с регуляторными белками.

Так как экспрессия большинства генов находится под контролем регуляторных белков, учет узнаваемых ими элементов может внести весомый вклад в разрешающий потенциал программы. Лучше всего это было бы сделать с использованием консенсусов, узнаваемых этими белками нуклеотидных последовательностей. Общее число регуляторов транскрипции у E.coli больше 260 и только для 30% из них определены узнаваемые мотивы хотя бы в 1 промоторе. Консенсусы известны только для регуляторов, контролирующих большие регулоны (АгсА, CRP, IHF, Lip, NarL). Расположение мест связывания регуляторных белков не фиксировано относительно стартовой точки транскрипции и это создает дополнительные трудности. Поэтому в программе по стандартному алгоритму в настоящее время учтены только наиболее консервативные мотивы, узнаваемые АгсА (АСАА) и CRP (TGTG и CACA), имеющие преимущественные позиции в промоторах. Кроме этого, так как большинство регуляторов транскрипции функционирует в виде димеров, в качестве потенциальных мишеней для взаимодействия с ними были учтены прямые и инвертированные повторы, частота присутствия которых в промоторах выше, чем в кодирующей ДНК. На Рис. 8 показана гистограмма распределения прямых повторов (не менее 5 пар основания), находящихся на расстоянии больше 4 н.п. Она, также как и аналогичная гистограмма для инвертированных повторов, выявляет несколько преимущественных позиций. Вклад повторов оценивали, как нормализованный на информационное содержание логарифм общей длины повторяющихся мотивов.

Рве. X. Распределение в

промоторах прямо повторяющихся последовательностей, имеющих длину не менее 5 н.п. и расположенных на расстоянии более 5 н п Статистическую значимость оценивали по числу промоторов, имеющих повторяющиеся мотивы в 5 соседних позициях.

" Позиция цетря прямого повтор« относительно старта трвиежрмлции

На Рис. 9 показаны гистограммы распределения промоторов и непромоторных фрагментов ДНК по суммарным показателям подобия. Оказалось, что конечный алгоритм позволяет с высокой степенью надежности идентифицировать около 85% этих регуляторных участков.

Суммарный показатель подобая (К^

Рис. 9. Гистограммы распределения промоторов обучающей (серый) и тестовой (темно-серый справа) компиляций и непромоторных фрагментов контрольного набора (черный) по Ки.

Сканирование генома для поиска потенциально транскрибируемых участков.

При сканировании генома показатель подобия К был определен для каждой из 9278442 позиций. Все точки, имеющие К > 3,7 считали потенциальными промоторами. При этом было идентифицировано 652 из 716 известных промоторов (около 6% из них находились на расстоянии 1-5 пар от экспериментально установленного старта), т е. реальная селективность алгоритма составляет -91%. На Рис. 10 показано несколько типичных примеров. Видно, что потенциальные промоторы часто формируют кластеры с минимальным расстоянием между соседними точками в 1 н.п. и более или менее выраженным максимумом вблизи реальной стартовой точки. О высокой плотности промотор-подобных сайтов перед генами уже сообщалось (Huerta, Collado-Vides 2003, 333, 261). Преимуществом нашего алгоритма является обнаружение вокруг стартовой точки транскритряг градиентного распределения К. Это облегчает предсказание и для 540 промоторов (-83%)

■14в -ЗМ -150 .120 -м

экспериментально найденные старты совпали с локальными максимумами в кластерах или находились в соседних позициях (±2). Ни один из существующих алгоритмов не может сделать это с такой точностью (<50% в лучшем случае). Это позволяет исследовать характер распределения потенциально транскрибируемых участков во всем геноме.

Картирование промотор-подобных участков относительно известных структурных генов

Использованный на предыдущем этапе критерий селекции промотор-подобных точек (имеющие ^Киаксимальдая для контрольного набора) обеспечивает 99,6%

Рис. 10. Примеры распределения промотор-подобных точек перед структурными генами. Координаты указаны относительно инициирующего кодона трансляции. Экспериментально установленные точки старта отмечены треугольниками. Вставка на центральной панели в увеличенном виде показывает структуру кластера вокруг промотора pyrD.

Поящие относмтеяыго нвчал» тршелпрт

достоверность для селекции промоторных сайтов. Для генома E.coli это означает, что около 6,5% из обнаруженных точек могут быть фальшивыми. С такой достоверностью можно анализировать прилегающие к кодирующим участкам последовательности для выявления наиболее вероятного промотора, но для надежного предсказания транскрибируемых участков в других местах был использован более строгий критерий (достоверность 99,994%). При этом фальшивыми могут быть лишь 0,66% обнаруженных точек.

Несмотря на то, что известные промоторы чаще всего находятся на расстоянии 20-70 н.п. от кодирующей последовательности (рис. 10), около 46% из них удалены на 71-750 н.п.. Поэтому при сортировке выявленных алгоритмом промотор-подобных точек, возможными промоторами считали сигналы, удаленные от начала трансляции не более чем на 750 н.п.. Остальные сортировали по четырем, представленным на Рис. 11 категориям. Всего было найдено 3936 независимых промотор-подобных участков, состоящих из одного или нескольких кластеров. Около 60% из них оказались расположенными перед структурными генами, причем промотор-подобный сайт с максимальным

ю

Множественные прожгтпры перед одним геном

Ч W

I

тм -ш .500 -«и же га>

Несколько стартовых точек в одном промоторе 10 -

Li

-« -я -» -и •

_L

М и

-■т -т -ж -4M -JM

Одна то«яс» инициации транскрипции

-Ж -Ш

■т I

-200 -1И

К=25,46 обнаружен перед гипотетическим геном Ь2353 На Рис. 12А показано распределении известных промоторов и промоторов, предсказанных по максимальному значению К в диапазоне 0-750 н.п. от старта трансляции. Они практически не отличаются, указывая на эвристическую ценность программы

1. Потенциальные промоторы между конвергентными генами

Участки между генами, транскрибируемыми навстречу друг другу (Рис 11, сектор 2 и Рис. 12В) могут содержать функциональные промоторы только в том случае, если между ними есть новые гены. В них обнаружено 150 промотор-подобных участков, а точка с максимальным К=20,9 находится между генами ygcE и yqeJ. Среднее расстояние между неперекрывающимися генами у E.coli 148 н.п., а средняя длина обсуждаемых областей, содержащих промотор-подобные участки - 440. Это соответствует возможности присутствия в них неизвестных пока генов. Расположение наиболее вероятных (максимальное значение К) промоторов относительно концов соседних генов, не выявляет существенного предпочтения к какому-либо участку (Рис. 12В). Это, также как и данные, представленные на Рис 12С, свидетельствует против возможности артефакгного обнаружения промоторов на концах генов. Основной массив (~65%) предсказываемых промоторов расположен таким образом, что возможна транскрипция РНК-продукта (>50 нуклеотидов) непосредственно из межгенной области. Такими продуктами могут быть мРНК для небольших белков, регуляторные или транспортные РНК. Так, например именно из такой области транскрибируется регуляторная РНК spf (109 н). Тем не менее, -25% промотор-подобных точек, обнаруженных в этих межгенных участках, находятся в непосредственной (0-40 н.п) близости от конца нижележащего гена. Это указавает на возможность альтернативной транскрипции этого гена. В геноме известно несколько таких случаев.

Рис. 11 Относительное число промотор-подобных участков обнаруженных в разных участках генома (см схемы на Рис 14)

1 Известные и предсказываемые промоторы перед генами,

2 Предсказываемые промоторы между конвергентно-транскрибируемыми генами,

3 Предсказываемые промоторы между генами, транскрибируемыми в обратном направлении,

4 Предсказываемые промоторы внутри генов, транскрибируемых в том же направлении

5 Предсказываемые промоторы внутри генов, транскрибируемых в обратном направлении,

2. Промотор-подобные участки между генами, транскрибируемым с противоположной нити

В 469 случаях точки с максимальным значением К в кластерах находятся между генами, транскрибируемыми в обратном направлении (Рис. 11, сектор 3). Средняя длина соответствующих областей - 298 н.п., что также, как и в предыдущем случае, указывает на возможность присутствия новых генов

Наиболее вероятный старт транскрипции (К=21,1) находится между генами ylcE (463 н.п. от его конца) и appY (158 н.п. до его начала). На Рис. 12С показана локализация предсказываемых в этих участках промоторов относительно соседних генов. Большинство из них расположено на некотором расстоянии от вышележащего гена, т.е. не перекрывается с участком, в котором обычно находятся промоторы, начинающие синтез РНК с противоположной нити. Почти в 70% случаев до конца следующего гена может быть синтезирована РНК длиной >50 нуклеотидов. Аналогичное расположение имеет, например, ген регуляторной РНК DsrA, состоящий из 87 н.п.

[А]

о J-

■ 1 . ■ Ч.И1

mMÎ

I

I

(hjl) -«во -m -2во о

m

||||1иш1 ,||м1м|

» 40 m «

H 10«l-

3* -20 M -

[С]

ihmillhl,

,1-^T- I

30 -20 -10 -

p>]

• 10 « « И 1M (%)

DE]

Г-

«■£-----1 -30

Относительные координаты внутри анализируемы* областей.

Рис. 12. Распределение известных (белые столбики) и предсказанных (черные столбики) промоторов относительно известных генов (схематически показаны прямоугольниками) Черные стрелки показывают направление транскрипции. Штриховыми стрелками обозначена ориентация предсказанных промоторов. [А] Зависимость процента известных и предсказанных промоторов от локализации относительно старта трансляции (сгруппированы в диапазоне 40 н.п.). [В-С]. Зависимость процента промоторов, найденных в межгенных участках от локализации относительно соседних генов. Длина межгенного участка в каждом случае принималась за 100%, а позиционные координаты определялись в % от вышележащего гена. [1>-Е]. Зависимость процента внутригенных промоторов от локализации относительно начала генов.

3. Потенциальные промоторы внутри кодирующих последовательностей

Около 10% промотор-подобных точек оказались расположенными внутри генов, транскрибируемых в том же направлении. Такие промоторы могут контролировать экспрессию следующих генов оперона и довольно часто обнаруживаются экспериментально. Промотор-подобный сайт с максимальным

К=18,4 находится на расстоянии 1679 н.п. от начала и на расстоянии 171 н.п. от конца гипотетического ген yjgL, который является последним в опероне. Ген, расположенный по ходу возможной транскрипции экспрессируется с противоположной нити, а ближайший ген, имеющий одинаковую с промотором ориентацию, находится на расстоянии 1382 н.п. и вряд ли может контролироваться этим промотором. Для объяснения функциональной роли найденного в гене yjgL промотора нужно, следовательно искать какое-то другое объяснение. Большинство анализируемых промотор-подобных точек, расположены, однако, не так, как в гене yjgL и находятся в самом начале транскрибируемой области. Такое расположение может быть результатом кластеризации промотор-подобных точек вокруг сильных промоторов. Некоторые из периферических точек таких кластеров могут оказаться внутри генов. Тем не менее, в 379 случаях из 606 точка с максимальным К находится внутри кодирующих последовательностей в кластерах. Гистограмма, характеризующая внутригенную локализацию таких максимумов (Рис 12D) выявляет ту же закономерность. Возможно, что некоторые из них контролируют транскрипцию укороченных РНК-транскриптов с основного гена. Другим возможным объяснением могут быть погрешности в картировании открытых рамок считывания. Так, неизученными в геноме E.coli в настоящее время являются около 51% генов, а для генов, имеющих потенциальные промоторы в кодирующих последовательностях, этот процент немного выше (63%). Не исключено, что уточнение мест инициации трансляции снизит число генов, содержащих внутренние промоторы.

4. Потенциальные промоторы для синтеза антисмысловых РНК

Около 18% потенциальных промоторов найдено внутри кодирующих последовательностей, транскрибируемых в направлении обратном ориентации обнаруженного промотора. Такие гены очень распространены в геномах высших организмов, а синтезируемые при этом антисмысловые РНК регулируют эффективность трансляции соответствующих мРНК за счет формирования непродуктивных РНК-РНК дуплексов. Двумя представителями истинных антисмысловых РНК у E.coli являются сорА (90 нуклетидов) и ssrA(tmRNA) (69 нуклеотидов), комплементарные мРНК, кодирующим фактор инициации репликации (RepA) плазмиды R1 и транспозазу (ТпрА) мобильного элемента IS10. Кроме этого у E.coli известно, по крайней мере, 3 транспортных РНК (glnW-, glnU- и glnX-tRNA), транскрибируемые с комплементарной нити гипотетических генов Ь0667, Ь0669 и Ь0663. Аналогичным образом расположен ген регулятора транскрипции HtgA. Тотальное сканирование генома свидетельствует о возможности существования потенциальных промоторных участков в 709 генах, из которых максимальный К=20,83 имеет позиция в ге#г rfaS (191 н.п. от конца и 744 н.п. от начала гена). Близкое к этому расположение характерно для большинства промоторов обсуждаемого типа (рис. 12Е) и ди всех указанных выше генов. Потенциальные промоторы, расположение в кодирующих участках генов, транскрибируемых в обратном напра^данЦЩ, могут, таким образом, контролировать экспрессию альтернативно ко&цммых. белков, антисмысловых и транспортных РНК.

ЗАКЛЮЧЕНИЕ

Главной целью работы была разработка эффективного компьютерного алгоритма, способного облегчить идентификацию регуляторных участков перед исследуемыми генами и создающего основу для тотального картирования транскрибируемых участков в бактериальном геноме. Помимо консенсусных элементов, узнаваемых <т70-субъединицей РНК-полимеразы, были учтены элементы, контактирующие с а-субъединицей фермента, последовательности формирующие устойчивые изгибы оси двойной спирали ДНК; динуклеотвды, обеспечивающие адаптивную изомеризацию ДНК; регулярно распределенные А/Т-треки, предположительно принимающие участие в поступательном движении РНК-полимеразы вдоль матрицы и повторяющиеся мотивы нуклеотидных последовательностей, находящиеся в участках взаимодействия с большинством регуляторных белков. Селективность разработанного алгоритма составила -91% при уникальной способности точно позиционировать точки инициации транскрипции. Высокие предсказательные возможности алгоритма позволили использовать его для предсказательного картирования регуляторных элементов в геноме. Это выявило вероятные промоторы перед 1981 не исследованным геном и предоставило информацию о распределении потенциальных промоторов в других местах. По крайней мере некоторые из них могут контролировать экспрессию новых генов.

ВЫВОДЫ

1. Впервые выявлена неслучайность в распределении А/Т и G/C-nap в диапазоне (-210/-70). Соответствующее расширение промоторной области объединяет в общую платформу участки связывания РНК-полимеразы и большинства регуляторов транскрипции.

2. Разработан компьютерный алгоритм, способный с достоверностью 99,6% идентифицировать -91% вегетативных промоторов в геноме и обеспечивающий высокую точность позиционирования стартовой точки транскрипции.

3. Впервые проведено полное сканирование генома E.coli, обнаружившее 3936 неперекрывающихся участков, способных с вероятностью 99,994% инициировать транскрипцию. Более 27% предсказанных промоторов расположено внутри кодирующих последовательностей, а более 15% находятся в участках, не предполагающих наличие промотора для известных генов. Выявленные промоторы могут контролировать экспрессию новых генов, в том числе генов нетранслируемых РНК, обнаружение которых другими методами является сложной задачей.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Озолинь О.Н., Деев A.A., Масулис И.С., Часов В.В., Костяницина Е.Г, Пуртов Ю.А., Архипов И.В., Брок-Волчанский A.C. 2002 "Уровни структурной организации промоторной ДНК E.coli" Биофизика 47, 809-819;

2. O.Ozoline, A.Brok-Volchanskv. A.Deev "Promoter-search algorithm based on canonical and non-canonical sequence elements of E.coli regulatory regions" 2003 J. Biomol. Struct.& Dynam. 20,905-906;

3. О. H. Озолинь, Ю. А. Пуртов, А. С. Брок-Волчанский. А. А. Деев, В. И. Лукьянов 2004 «Специфика ДНК-белковых взаимодействий в транскрипционных комплексах E.coli» Мол. Биол. 38, №5 (в печати).

4. Деев А.А., Крок-Волч^кий А С.. Озолинь О.Н. 2001 Аннотация промоторов E.coli: границы промоторной ДНК и присутствие прямых/инвертированных повторов. От современной фундаментальной биологии к новым наукоемким технологиям. Труды конференции «Научные исследования в наукоградах России» стр. 51.

5. Брок-Волчанский А.С.. Озолинь О.Н. 2002 "Аннотация промоторов E.coli: весовые матрицы для текстовых и позиционных параметров" в: Биология -наука XXI века т. 1, (6-ая Пущинская конференция молодых ученых), стр. 220;

6. Brok-Volchanski A.S.. Purtov Yu.A., Lukyanov V.I., Kostyanicina E.G., Antipov S.S., Deev A.A., Ozoline O.N. Genome-wide mapping of potentially transcribed regions by new promoter-search algorithm. In: "Bioinformatics of genome regulation and structure" Proceedings of the IV International conference Novosibirsk 2004 (in press)

Принято к исполнению 02/04/2004 Заказ № 124

Исполнено 02/04/2004 Тираж 80 экз

ООО «11-й ФОРМАТ» ИНН 7726330900 Москва, Балаклавский пр-т, 20-2-93 (095) 318-40-68 www.autoreferat ru

РНБ Русский фонд

2006-4 20990

2 ЗАО Р20М ЧС

Содержание диссертации, кандидата биологических наук, Брок-Волчанский, Антон Сергеевич

Список сокращений.

Список используемых терминов.

Содержание.

Введение.

1. Особенности структурной организации промоторов и способы ее учета в компьютерных алгоритмах поиска промоторов (обзор литературы).

1.1. Общая характеристика РНК-полимеразы R coli.

1.2. Стадии транскрипционного цикла.

1.3. Особенности нуклеотидной последовательности промоторов.

1.4. Консервативные элементы - главные детерминанты промоторной области.

1.5. Длина участка между консервативными элементами существенна для эффективного взаимодействия с РНК-полимеразой.

1.6. Неконсервативные участки промоторов.

1.6.1. Последовательности нуклеотидов вокруг стартовой точки транскрипции.

1.6.2. Функциональное значение динуклеотида TG, расположенного перед консервативным элементом -10.

1.6.3. Особенности структурной организации "upstream" области промоторов.

1.6.4. Взаимодействие "upstream" области промотора с а-субьединицами РНК-полимеразы.

1.6.5. Дополнительные структурные факторы, влияющие на матричную активность промоторов.

1.7. Методы алгоритмизации структурных особенностей промоторов для построения компьютерного алгоритма поиска промоторов.

Введение Диссертация по биологии, на тему "Разработка компьютерного алгоритма поиска вегетативных промоторов в геноме Escherichia coli"

Расшифровка полной нуклеотидной последовательности ряда геномов и наличие данных о зависимости генной экспрессии от целого ряда физико-химических факторов позволяют приступить к модельной реконструкции функциональных взаимоотношений в живой клетке. Необходимым условием для этого является полная аннотация всех регуляторных элементов генома (промоторов, регуляторных белков и РНК). Однако даже идентификация их является сложной биохимической задачей. Так, например, промоторные участки за более чем 30 лет установлены только для 10-15% генов. Использование информационных подходов, предсказывающих расположение регуляторных участков в геноме, способно значительно облегчить и ускорить этот процесс. Однако точность компьютерного предсказания промоторных участков до сих пор была очень низкой. Это обусловлено вырожденностью контекста консервативных элементов промоторов, специфически распознаваемых о-субъединицами РНК-полимеразы. Так, в бактериальной ДНК число мест, имеющих типичную для промоторов степень гомологии с их консервативными элементами, на несколько порядков превышает число генов. Абсолютное большинство этих мест не используется транскрипционным аппаратом клетки и, следовательно, текстуальное соответствие консенсусу не является достаточным для обозначения регуляторных участков.

Несмотря на то, что алгоритмы поиска промоторов, учитывающие характер доминирования нуклеотидных пар в консервативных элементах, уже много лет используются для предсказания потенциальных промоторов перед известными генами, они не пригодны для картирования транскрибируемых участков в геноме. В данной работе предпринята попытка учесть особенности генетического окружения консенсусных элементов. К этим особенностям, в первую очередь, относятся элементы нуклеотидной последовательности, способные взаимодействовать с а-субъединицами РНК-полимеразы. Кроме этого, учтены последовательности, формирующие анизотропные изгибы оси двойной спирали ДНК; гибкие динуклеотиды, обеспечивающие способность промоторов подвергаться адаптивным конформационным превращениям; А/Т-треки, предположительно принимающие участие в поступательном движении РНК-полимеразы вдоль матрицы; и повторяющиеся мотивы нуклеотидной последовательности, являющиеся потенциальными мишенями для взаимодействия с регуляторными белками. Формализация этих параметров позволила создать эффективный компьютерный алгоритм, пригодный для полного сканирования бактериального генома.

В процессе сканирования было обнаружено 3936 потенциальных промоторных участков, часть из которых могут контролировать экспрессию неизвестных пока генов. Значительная часть промотор-подобных участков была обнаружена в кодирующих участках генов и в промежутках между генами, не предполагающими наличие промоторов. Эти места могут кодировать синтез нетранслируемых РНК, обнаружение которых другими методами является исключительно сложной задачей. Предоставляя интегральную картину о распределении транскрибируемых участков в геноме, полученные данные создают основу для моделирования экспрессии генных ансамблей и могут послужить отправной точкой для сравнительного эволюционного анализа.

Заключение Диссертация по теме "Молекулярная биология", Брок-Волчанский, Антон Сергеевич

выводы

1. Впервые выявлена неслучайность в распределении А/Т и G/C-nap в диапазоне (-210/-70). Соответствующее расширение промоторной области объединяет в общую платформу участки связывания РНК-полимеразы и большинства регуляторов транскрипции.

2. Разработан компьютерный алгоритм, способный с достоверностью 99,6% идентифицировать ~91% вегетативных промоторов в геноме и обеспечивающий высокую точность позиционирования стартовой точки транскрипции.

3. Впервые проведено полное сканирование генома Kcoli, обнаружившее 3936 неперекрывающихся участков, способных с вероятностью 99,994% инициировать транскрипцию. Более 27% предсказанных промоторов расположено внутри кодирующих последовательностей, а более 15% находятся в участках, не предполагающих наличие промотора для известных генов. Выявленные промоторы могут контролировать экспрессию новых генов, в том числе генов нетранслируемых РНК, обнаружение которых другими методами является сложной задачей.

Благодарности

От всей души благодарю Ольгу Николаевну Озолинь, моего Научного Руководителя, за неоценимую помощь, выражавшуюся как в постоянных консультациях и обсуждении работы, так и в чутком человеческом отношении. А также за неизмеримое терпение!!! Работая с Ольгой Николаевной и наблюдая ее самоотверженный труд, глубочайшее понимание существа любого (!) вопроса, широчайшую эрудицию и, что, может быть, стоило бы поставить на первое место - личные душевные качества, я постоянно поражался этой Женщине! Для меня Ольга Николаевна - эталон Ученого и Человека!

Выражаю глубокую благодарность Александру Александровичу Дееву (ИТЭБ РАН) за предоставленный набор программ, с помощью которых была произведена вся предварительная оценка (а это немалая доля от общего времени, затраченного на работу) и часть заключительной работы, за его помощь и консультации и готовность в любой момент выделить в напряженном графике время и силы, чтобы разъяснить, показать, поправить. Огромное Вам спасибо, Александр Александрович!!!

Хочу поблагодарить всех сотрудников нашей группы за дружескую поддержку и атмосферу, располагающую к работе, не смотря на «высокую плотность населения» нашей лаборатории!

Искренне благодарен оппонентам и рецензентам - Игорю Петровичу Белецкому и Владиславу Михайловичу Комарову - за отмеченные недостатки и ошибки, за внимание, оказанное моей работе и время, потраченное на ее внимательное изучение, а также Виктору Ивановичу Попову за каверзные вопросы с целью научить на них отвечать.

Отдельное спасибо хочется сказать Татьяне Ивановне Смолихиной за организацию процесса подготовки к защите, благодаря ее усилиям с моих плеч было убрано множество организационных моментов, и высвобождено время на доработку и исправление ошибок и недочетов в работе.

Прошу прощения у своих близких - Мамы и Веры, за то, что так мало оказывал им внимания всё это время, и благодарю их за все, чем они могли мне помочь!!! Отдельная благодарность Вере за внимательное прочтение макета диссертации и поиск ошибок!

ЗАКЛЮЧЕНИЕ

Для масштабного моделирования клеточного метаболизма в условиях нормального роста и различных стрессов необходима идентификация всех регуляторных элементов генома (промоторов, регуляторных белков и РНК). Предварительное картирование промоторов с помощью информационных подходов существенно облегчает эту задачу и позволяет получать интегральную характеристику экспрессируемых в различных условиях генов. Необходимым условием является высокая селективность компьютерных алгоритмов, обеспечивающая эффективный поиск регуляторных участков на фоне кодирующей ДНК. Построение такого алгоритма и являлось главной целью данной работы. В отличие от ранее предложенных подходов, помимо консервативных элементов, распознаваемых о70-субъединицей РНК-полимеразы, были учтены элементы, контактирующие с а-субъединицей фермента; последовательности, формирующие устойчивые изгибы оси двойной спирали ДНК; динуклеотиды, обеспечивающие адаптивную изомеризацию ДНК; регулярно распределенные А/Т-треки, предположительно принимающие участие в поступательном движении РНК-полимеразы вдоль матрицы, и повторяющиеся мотивы нуклеотидных последовательностей, находящиеся в участках взаимодействия с большинством регуляторных белков. Высокие предсказательные возможности алгоритма позволили использовать его для тотального картирования вегетативных промоторов в геноме Kcoli, что предоставило интегральную информацию о распределении потенциальных регуляторных участков.

В результате полного сканирования бактериальной хромосомы было обнаружено ~91% известных промоторов, большинство которых входят в состав более или менее компактных кластеров промотор-подобных точек. При этом в ~83% случаях известные промоторы оказались локализованными в максимумах соответствующих кластеров. Это значит, что около 80% промотор-подобных сайтов, предсказанных по положению максимумов в распределении промотор-подобных сайтов, могут быть настоящими промоторами. Ни один из существующих алгоритмов не обладает таким предсказательным потенциалом.

Потенциальные промоторы были обнаружены перед 1981 неизученными пока генами. Все оцениваемые параметры этих предсказанных регуляторных участков оказались похожими на настоящие промоторы. Их предварительная локализация может облегчить идентификацию промоторов экспериментальными методами. Высокая достоверность полученной информации уже сейчас позволяет использовать ее для решения некоторых задач, например, для целенаправленного поиска генов, контролируемых определенными регуляторными белками, или для поиска корреляций с распределением в геноме некоторых структурных особенностей.

Около 16% промотор-подобных сайтов было обнаружено в участках между конвергентными генами или между генами, транскрибируемыми в обратном промотору направлении. Копирование таких генов осуществляется с промоторов, расположенных совсем в других участках хромосомы, или на другой нити ДНК. Наличие явно выраженных промотор-подобных сигналов указывает на возможность существования в этих местах новых генов, обнаружение которых может стать задачей специального исследования.

По крайней мере, некоторые из промоторов, обнаруженных в кодирующих участках генома, могут контролировать синтез антисмысловых РЖ. Другие могут быть местами альтернативного копирования новых белковых продуктов. Для дальнейшего анализа каждого из таких участков необходим поиск потенциальных мест терминации транскрипции, возможных открытых рамок считывания и гомологичных последовательностей в банках данных. Необходимо экспериментальное тестирование транскрипционной активности in vivo и in vitro и полная характеристика РНК-продукта, если таковой будет обнаружен.

Важным результатом проведенного исследования является весомость регулярно распределенных элементов в спецификации промоторных участков. Даже если какие-то из этих элементов (динуклеотиды ТА, А-, Т- или W-треки) непосредственно контактируют с РНК-полимеразой, очевидно, что большинство не специфически влияет на комплексообразование. Указывая на значительность неспецифических взаимодействий при формировании транскрипционного комплекса, это свидетельствует о целесообразности использования регулярно распределенных свойств для идентификации промоторов, распознаваемых другими а-факторами.

Библиография Диссертация по биологии, кандидата биологических наук, Брок-Волчанский, Антон Сергеевич, Пущино

1. Alcxandrov N.N., Mironov А. А. (1990) Application of a new method of pattern recognition in DNA sequence analysis: a study of E. coli promoters. NAR, 18, 1847-1852

2. Лоуата Т., Takanami M. (19S5) Essential structure of К coli promoter. П. Effect of the sequences around the RNA start point on promoter function. NAR, 13, 4085-4096

3. Auble, D.T., Alien, T.L., dellaseth, P.L. (i986) Promoter recognition by Escherichia coli RNA polymerase . Effect of substitutions in the spacer DNA separating the -10 and -35 regions. J. Biol. Chem., 261, 11202-11206

4. Ayers, D.G., Auble, D.T., deliascth, P.L. (1989) Promoter recognition by Escherichia coli RNA polymerase. Role of the spacer DNA in functional complex formation. J. Mol. Biol., 207, 749-756

5. Barker M.M., Gaal Т., and Course R.L. (2001) Mechanism of regulation of transcription initiation by ppGpp. II. Models for positive control based on properties of RNAP mutants and competition for RNAP. J Mol Biol, 305, 689-702

6. Berg O.G. and von Ilippel P.II. (1987) Selection of DNA binding sites by regulatory proteins. Statistical-mechanical theory and application to operators and promoters. J.Mol.Biol., 193, 723-750

7. Bertrand-BurgrafFE., Dunard J., Fuchs R. P. P., and Lefevre (1990) Kinetic studies of the modulation of ada promoter activity by upstream elements. The EMBO Journal, 9, 2265-2271

8. Beutel B.A. and Record M.T. (1990) E. coli promoter spacer regions contain nonrandom sequences which correlate to spacer length. NAR, 18, 3597-3603

9. Blomberg P., Nordstrom K. and Wagner E.G.II. (1992) Replication Control of Piasmid Rl: RepA Synthesis is Regulated by CopA RNA Through Inhibition of Leader Peptide Translation. EMBO J. 11,2675-2683

10. Bossi, L., Smith, D.M. (1984) Conformational changein the DNA associated with an unusual promoter mutation in a tRNA operon of Salmonella. Cell, 39, 643-652

11. Bown J., Barne K., Minchin S., Busby S. (1997) Extended -10 promoters. Nucl. Acids Mol. Biol. 11,41-52

12. Brosius, J., Erfle, M., Storella, J. (1985) Spacing of the -10 and -35 regions in the tac promoter. Effect on its in vivo activity. J. Biol. Chem. 260, 3539-3541

13. Bruncr, M., Bujard, II. (1987) Promoter recognition and promoter strength in Escherichia coli system EMBO J., 6, 3139-3144

14. Carpousis, A. J., Gralla, J.D. (1980) Cycling of ribonucleic acid polymerase to produce oligonucleotides during initiation in vitro at the lacUV5 promoter. Biochemistry, 19, 32453253

15. Carpousis, A.J., Stcfano, J.E., Gralla, J.D. (19S2) 5'-NucIeotide heterogeneity and altered initiation of transcription at mutant lac promoters. J. Mol. Biol., 157, 619-633

16. Cashel M., Gentry D.R., Hernandez V.J., Vinella D. (1996) "The stringent response" in

17. Escherichia coli and Salmonella Typhimurium" ed. Neidhardt F.C. American society of Microbiol. Washington D.C.

18. Chan, В., Spassky, A., Busby, S. (1990) The organization of open complex between E. coli RNA polymerase and DNA fragments carrying promoter either with or without consensus — 35 region sequence. Biochem. J., 270, 141-148

19. Chiang, L.W., Howe, M.M. (1993) Mutational analysis of a C-dependent late promoter of bacteriophage Mu. Genetics, 135, 619-629

20. Collado-Vides J., Magasanik В., Gralla J.D. (199!) Control Site Location and Transcriptional Regulation in Escherichia coli. Microbiol. Rev. 55, 371-394

21. Craig, M.L., Suh, W.-C., Record, M.T.Jr. (1995) HO* and DNase I probing ofEa70 RNA polymerase-XPR promoter open complex: Mg2+ binding and its structural consequences at the transcription start site. Biochemistry, 34, 15624-15632

22. Crothers, D.M., Haran, Т.Е., Nadean, J.G. (1990) Intrinsically bent DNA. J. Biol. Chem., 265, 7093-7096

23. Danot, O., Raibond, O. (1994) Multiple protein-DNA and protein-protein interactions are involved in transcriptional activation by MalT. Mol. Microbiol. 14, 335-346

24. Danot, O., Raibond, O. (1994) Which nucleotides in the "-I0" region are crucial to obtain a fully active MalT-dependent promoter. J. Mol. Biol. 238, 643-648

25. Darst, S.A., Kubalek, E.W., Kornberg, R.D. (1989) Three-dimensional structure of Escherichia coli RNA polymerase holoenzyme determined by electron crystallography. Nature, 340, 730-732

26. DeHaseth, P.L., Zupancic, M.L., Record, M.T.Jr. (1998) RNA polymerase-promoter interactions: the coming and goings of RNA polymerase. J. Bacterid., 180, 3019-3025

27. Deuschle, U., Kammerer, W., Gentz, R., Bujard, II. (1986) Promoters of Escherichia coli: a hierarchy of in vivo strength indicates alternate structures. EMBO J., 5, 2987-2994

28. Dickerson, R.E., Drew, H.R. (1981) Structure of a B-DNA dodecamer. II. Influence of base sequence on helix structure. J. Mol. Biol., 149, 761-786

29. Dickson R.R., Gaal T.,deBoer H.A.,deHaseth P. L., and Gourse R.L. (1989) Identification of promoter mutants defective in growth-rate-dependent regulation of rRNA transcription in Escherichia coli. J Bacteriol. 171,4862-4870

30. Ellinger, Т., Behnke, D., Bujard, H., Gralla, J.D. (1994) Stalling of Escherichia coli RNA polymerase in the +6 to +12 region in vivo is associated with tight binding to consensus promoter elements. J. Mol. Biol. 239, 455-465

31. Estrem S.T., Gaal Т., Ross W., Gourse R.L. (1998) Identification of an UP element consensus sequence for bacterial promoters. Proc. Natl. Acad. Sci. USA. 95, 9761-9766

32. Fukushima A., Ikemura Т., Kinouchi M., Oshima Т., Kudo Y., Mori H. and Kanaya S. (2002) Periodicity in prokaryotic and eukaryotic genomes identified by power srectrum analysis. Gene. 300, Issues 1-2,203-211

33. Gaal Т., Ross W., Blatter E.E., Tang H., Jia X., Krishnan V.V., Assa-Munt N. Ebright R.H., Gourse R.L. (1996) DNA-binding determinants of the a subunit of RNA polymerase: novel DNA-binding domain architecture. Genes Devel. 10, 16-26

34. Gaal, Т., Barkei, J., Dickson, R.R., deBoer, H.A., deHaseth, P.L., Alavi, II., Gourse,R.L. (1989) Saturation mutagenesis of Escherichia coli rRNA promoter and initial characterization of promoter variants. J. Bacteriol., 171,4852-4861

35. Geiselmann, J. (1997) The role of DNA conformation in transcriptional activation in Escherichia coli. J. Biol. Chem. 378, 599-607

36. GifFord C.M. and Wallace S.S. (2000) The genes encoding endonuclease VIII and endonuclease III in Escherichia coli are transcribed as the terminal genes in operons. NAR, 28, 762-769

37. Glass, R.E., Jones, S.T., Ishihama, A. (1986) Genetic studies on the P-subunit of Escherichia coli RNA polymerase. VII. RNA polymerase is a targed for ppGpp. Mol. Gen. Genet. 203, 265-268

38. Grana, D., Gardella, Т., Susskind, M.M. (1988) The effect of mutations in the ant promoter of phage P22 depend on context. Genetics, 120, 319-327

39. Harley C.B., and Reynolds R.P. (1987) Analysis of£l coli promoter sequences. NAR, 15, 2343-2361

40. Hawley D.K. and McClure W.R. (1983) Compilation and analysis of Escherichia coli promoter DNA sequences. NAR, 11, 2237-2254

41. Helmann J.D. (1995) Compilation and analysis of Bacillus subtilis sigma A-dependent promoter sequences: evidence for extended contact between RNA polymerase and upstream promoter DNA. NAR, 23, 2351-2360

42. Hertz G.Z., Stormo G.D. (1996) Escherichia coli promoter sequences: analysis and prediction. Methods Enzymol. 273, 30-42

43. Heumann, H., Ricchetti, M., Werel, W. (1988) DNA-dependent RNA polymerase of Escherichia coli induces bending or an increased flexibility of DNA by specific complex formation. EMBO J. 7, 4379-4381

44. Hidalgo, E., Demple, B. (1997) Spacing of promoter elements regulates the basal expression of the soxS gene and converts SoxR from a transcriptional activator into a repressor. EMBO J., 16, 1056-1065

45. Hivzer J., Rozenberg H., Frolow F., Rabinovich D., Shakked Z. (2001) DNA bending by an adenine-thymine tract and its role in gene regulation. Proc.Natl.Acad.Sci.USA. 98, 84908495

46. Hofer, В., Muller, D.t Koster, H. (1985) The pathway of E. coli RNA polymerase promoter complex formation as visualized by footprinting. NAR 13, 5995-6013

47. Horwitz, A.H., Morandi, C., Wilcox, G. (1980) Deoxyribonucleic acid sequence of araBAD promoter mutants of Escherichia coli. J. Bacteril. 142, 659-667

48. Horwitz, HS. (1989) Transcription regulation in vitro by an E. coli promoter containing a DNA cruciform in the-35 region. NAR 17, 5537-5545

49. Horwitz, M.S.Z., Loeb, L.A. (1988) DNA sequences of random origin as probes of Escherichia coli promoter architecture. J. Biol. Chem. 263, 14724-14731

50. Horwitz, M.S.Z., Loeb, L.A. (1988b) An E. coli promoter that regulates transcription by DNA superhelix-induced crucifirm extrusion. Science, 241, 703-705

51. Hsu, L.M., Gannini, J.K., Leung, T.-W.C., Crosthwaite, J.C. (1991) Upstream sequence activation of Escherichia coli argT promoter in vivo and in vitro. Biochemistry, 30, 813-822

52. Huerta A.M. and Collado-Vides J. (2003) "Sigma70 Promoters in Escherichia coli: Specific Transcription in Dense Regions of Overlapping Promoter-like Signals" J.Mol.Biol.333, 261278

53. Jacques, J.P., Susskind, M.M. (1990) Pseudo-templated transcription by Escherichia coli RNA polymerase at a mutant promoter. Genes. Devel. 4, 1801-1810

54. Jacquet, M.A., Ehrich, R., Reiss, C. (1985) In vivo and in vitro effect of mutations in tetA promoter from pSClOl: insertion of polydA*dT stretch in the spacer regiondoes notir '' ' $ the promoter. Biochimie, 67,987-997

55. Jacquet, M.A., Reiss, C. (1990) Transcription in vivo directed by consensus sequences of Escherichia coli promoters: their context heavily affects efficiencies and start sites. NAR, 18,

56. Jeon Y.H., Negishi Т., Shirakawa M., Yamazaki Т., Fujita N., Ishihama A., Kyogoku Y. (1995) Solution structure of the activator contact domain of the RNA polymerase alpha subunit. Science. 270, 1495-14971137-1143

57. Jeong, W., Kang, C. (1994) Start site selection at IacUV5 promoter affected by the sequence context around the initiation sites. NAR 22,4667-4672

58. Jin, D.J. (1996) A mutant RNA polymerase reveals a kinetic mechanism for the switch between nunproductive sruttering synthesis and productive initiation during promoter clearance. J. Biol. Chem. 271, 11659-11667

59. Jin, D.J., Turnbough, C.L. (1994) An Escherichia coli RNA polymerase defective in transcription due to its overproduction of abortive initiation products. J. Mol. Biol. 236, 72-80

60. Jishage, M., Ishihama, A. (1995) Regulation of RNA polymerase sigma subunit synthesis in Escherichia coli: intracellular levels of o70 and a38. J. Bacteriol. 177, 6832-6835

61. Kabata, H., Kurosava, O., Arai, I., Washizu, M., Margarson, S.A., Glass, R.E., Shimamoto, N. (1993) Visualization of single molecules of RNA polymerase sliding along DNA. Science, 262, 1561-1563

62. Kabsch, W., Sander, C., Trifonov, E.N. (1982) The ten helical twist angles of B-DNA. NAR, 10, 1097-1104

63. Keen J., Williams J., Busby S. (1996) Location of essential sequence elements at the Escherichia coli melAB promoter. Biochem. J., 318, 443-449

64. Keiler,K.C., Waller,P.R. & Sauer,R.T. (1996) Role of a peptide tagging system in degradation of proteins synthesized from damaged messenger RNA. Science 271, 990-993

65. Keilty, S., Rosenberg, M. (1987) Constitutive function of a positively regulated promoter reveals new sequence essential for activity. J. Biol. Chem., 262, 6389-6395

66. Kim S., Sim S. and Lee Y. (1999) In vitro analysis of processing at the З'-end of precursors of Ml RNA, the catalytic subunit of Escherichia coli RNase P: multiple pathways and steps for the processing. NAR, 27, 895-902

67. Kobayashi, M., Nagata, K., Ishihama, A. (1990) Promoter selectivity of E. coli RNA polymerase: effect of base substitutions in the promoter-35 region on promoter strength. NAR, 18, 7367-7372lis

68. Koo, H.S., Drak, J., Rice, J.A., Crothers, D.M. (1990) Determination of the extent of DNA bending by an adenine-thymine tract. Biochemistry, 29,4227-4234

69. Kovacic, R.T. (1987) The 0°C closed complexes between Escherichia coli RNA polymerase and two promoters T7-A3 and lac UV5. J. Biol. Chem., 262, 13654-13661

70. Kuhnke, G., Fritz, H.-J., Ehring, R. (1987) Unusual properties of promoter-up mutations in the Escherichia coli galactose operon and evidence suggesting RNA polymerase-induced DNA bending. EMBO J., 6, 507-513

71. Kuhnke, G., Theres, C., Fritz, K.-J., Ehring, R. (1989) RNA polymerase and gal repressor bind simultaneously and with DNA bending in the control region of the E. coli galactose operon. EMBO J., 8, 1247-1255

72. Kumar, A., Malloch, R.A., Fujita, N., Smillie, D.A., Ishihama, A., Hayward, R.S. (1993) The -35 recognition region of E. coli o70 is inessential for initiation of transcription at an "extended minus 10" promoter. J. Mol. Biol., 232,406-418

73. Lavigne, M., Herbert, M., Kolb, A., Buc, H. (1992) Upstream curved sequence influence the initiation of transcription at the E. coli galactose operon. J. Mol. Biol., 224,293-306

74. Lawrence and Reilly, 1990 Lawrence, C. & Reilly, A. (1990). An expectation maximization (EM) algorithm for the identification and characterization of common sites in unaligned biopolymer sequences. Proteins, 7 (1), 41-51

75. Lawrence С., Altschul S., Boguski M., Liu J., Neuwald A., & Wootton J. (1993). Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment. Science, 262 (5131), 208-14

76. Lease, Belford (2000) A trans-acting RNA as a control switch in E. coli. PNAS, 97, 99199924

77. Lio P. (2003) Wavelets in bioinformatics and computational biology: state of art and perspectives. BIOINFORMATICS REVIEW, 19,2-9

78. Lisser S., Margalit H. (1993) Compilation of E. coli mRNA promoter sequences. NAR, 21, 1507-1516

79. Liu J., Turnbough C.L.Jr. (1994) Effects of transcriptional start site sequence and position on nucleotide-sensitive selection of alternative start site at the pyrC promoter in Escherichia coli. J. Bacteriol. 176, 2938-2945

80. Loneto M., Gribskov M., Gross C.A. (1992) The a70 family: sequence conservation and evolutionary relationships. J. Bacteriol., 174, 3843-3849

81. Lozinski Т., Adrych-Rozek K., Markiewicz W.T., Wierzchowski K. (1991) Effect of DNA bending in various regions of a consensus-like E. coli promoter on its strength in vivo and structure of the open complex in vitro. NAR, 19, 2947-2953

82. Lukashin A.V., Anshelevich V.V., Amikikyan B.R., Gragerov A.J., Frank-Kamenetsky M.D. (1989) Neural network models for promoter recognition. J. Biomol. Struct. Dynam. 6, 11231133

83. Ma C., Simons RW. (1990) The IS 10 antisense RNA blocks ribosome binding at the transposase translation initiation site. The EMBO Journal. 9, 1267-1274

84. MacDonald D., Herbert K., Zhang X., Polgruto T. (2001) Solution structure of an A-tract DNA bend. J.Mol. Biol. 306, 1081-1098

85. Mack D.R., Chiu Т.К., Dickerson R.E. (2001) Intrinsic bending and deformability at the T-A step of CCTTTAAAGG: a comparative analysis of T-A and A-T steps within A-tracts. J. Mol.Biol. 312, 1037-1049

86. Majdalani N, Chen S, Murrow J, St John K, Gottesman S (2001) "Regulation of RpoS by a novel small RNA: the characterization of RprA." Mol Microbiol, 39, 1382-1394

87. Mandecki, W., ReznikofF, W.S. (1982) A lac promoter with a changed distance between -10 and -35 region. NAR, 10,903-912

88. McClure, W.R. (1985) Mechanism and control of transcription initiation in procaryotes. Annu.Rev. Biochem. 54, 171-204

89. McNamara P.T., Bolshoy A., Trifonov E.N.,Harrington R.E. (1990) Sequence-dependent kinks induced in curved DNA. J. Biomol. Struc. Dyn. 8, 529-539

90. Mecsas, J., Cowing, D.W., Gross, C.A. (1991) Development of RNA polymerase-promoter contacts during open complex formation. J. Mol. Biol., 220, 587-597

91. Mellies J., Brems R. and Villarejo M. (1994) The Escherichia coli proU promoter element and its contribution to osmotically signaled transcription activation. J. Bacteriol., 176, 3638-3645

92. Minakhin L., Severinov K. (2003) On the role of Escherichia coli RNA polymerase o70 region 4.2 and a subunit C-terminal domains in promoter complex formation on the extended -10 galPl promoter. J. Biol. Chem. 278, 29710-29718

93. Mailer Т., Franch Т., Hojrap P., Keene D.R., Bachinger H.P., Brennan R.G. and Valentin-Hansen P. (2002) Hfq: a bacterial Sm-like protein that mediates RNA-RNA interaction. Mol. Cell, 9, 23-30

94. Moyle, H., Walburger, C., Suskind, M.M. (1991) Hierarchies of base pair preferences in the P22 ant promoter. J. Bacteriol., 173, 1944-1950

95. Mulligan M.E., Hawley D.K., Entriken R., McClure W.R. (1984),"Escherichia coli promoter sequences predict in vitro RNA polymerase selectivity", NAR, 12:789-800

96. Murakami K., Fujita N., Ishihama A. (1996) Transcription factor recognition surface on the RNA polymerase alpha subunit is involved in contact with the DNA enhancer element. EMBOJ. 15,4358-4367

97. Murakami К., Kimura M., Owens J.T., Meares C.F., Ishihama A. (1997) The two a subunits of Escherichia coli RNA polymearse are assymetrically arranged and contact different halves of the DNA upstream element. Proc.Natl.Acad.Sci.USA. 94, 1709-1714

98. Murakami K.S., Masuda S., Campbell E.A., Muzzin O., Darst S.A (2002b) Structural basis of transcription initiation: an RNA polymerase holoenzyme/DNA complex at 6.5 A resolution. Science 296, 1285-1290

99. Murakami K.S., Masuda S, Campbell EA, Muzzin O, Darst SA. (2002a) Structural basis of transcription initiation: an RNA polymerase holoenzyme-DN A complex. Science. 296, 1285-1290

100. Nakata K., Kanehisa M. and Maizel J.V. (1988) Discriminant analysis of promoter regions in Escherichia coli sequences. NAR, 4, 367-371

101. Nickerson, C.A., Achberger, E.C. (1995) Role of curved DNA in bending of Escherichia coli RNA polymerase to promoters. J. Bacteriol. 177, 5756-5761

102. O'Halloran, T.V., Frantz, В., Shin, M.K., Ralston, D.M., Jeffrey, J.G. (1989)TheMerR heavy metal receptor mediates positive activation in a topologically novel transcription complex. Cell. 56,119-129

103. O'Neill M.C. (1992) Escherichia coli promoters: neural networks develop distinct descriptions in learning to search for promoters of different spacing classes. NAR, 20, 34713478

104. O'Neill, M.C. (1989) Consensus methods for finding and ranking DNA binding sites.Application to Escherichia coli promoters. J. Mol. Biol., 207, 301-311

105. O'Neill, M.C. (1989) Escherichia coli promoters. I. Consensus as it relates to spacing class, specificiety repeat substructure and three-dimensional organization. J. Biol. Chem., 264, 5522-5531

106. O'Neill, M.C., Chiafari, F. (1989) Escherichia coli promoters. П. A spacing class-dependent promoter search protocol. J. Biol. Chem., 264, 5531-5534

107. Oliphant, AR., Struhl, K. (1988) Defining the consensus sequences of Escherichia coli promoter elements by random selection. NAR, 16,7673-7683

108. Ozawa, Y., Mizuno, Т., Mizushima, S. (1987) Roles of Pribnow box in positive regulation of the ompC and ompF in Escherichia coli. J. Bacterid. 169, 1331-1334

109. Ozoline O.N., Deev A. A., Arkhipova M.V. (1997) Noncanonical sequence elements in the promoter structure. Cluster analysis of promoters recognized by E. coli RNA polymerase. NAR 25,4703-4709

110. Ozoline O., Deev A., Arkhipova M., Chasov V., Travers A. (1999a) Proximal transcribed regions of bacterial promoters have non-random distribution of A/T-tracts. NAR, 27,47684774

111. Ozoline O.N., Deev A. A., Trifonov E.N. (1999b) DNA bendability a novel feature in E. coli promoter recognition. J. Biomol. Struct Dynamics. 16, 825-831

112. Ozoline O.N., Fujita N., Ishihama A. (2000) Transcription activation mediated by the carboxy-terminal domain of RNA polymerase a-subunit. Multipoint monitoring by fluorescent probe. J. Biol. Chem. 275, 1119-1127

113. Ozoline O.N., Fujita N., Ishihama A. (2001) Mode of DNA-protein interaction between the C-terminal domain of Escherichia coli RNA polymerase usubunit and T7D promoter UP element. NAR, 29, 4909-4919

114. Ozoline O.N., Tsyganov M. A. (1995) Structure of open promoter complexes with E. coli RNA polymerase as revealed by DNAse 1 footprinting technique. Compilation analysis. NAR, 23, 4533-4541

115. Parekh, B.S., Hatfield, G.W. (1996) Transcriptional activation by protein-induced DNA bending: evidence for a DNA structural transition model. Proc. Natl. Acad. Sci. USA, 93, 1173-1177

116. Parkhill, J., Brown, N.L. (1990) Site-specific insertion and deletion mutants in the mer promoter operator region of Tn501; the nineteen base-pair spacer is essential for normal induction of the promoter by MerR. NAR, 18, 5157-5162

117. Pedersen A.G. and Engelbrecht J. (1995) Investigation of Escherichia coli Promoter Sequences With Artificial Neural Networks: New Signals Discovered Upstream of the Transcriptional Startpoint. Mol. Biol., 292-299

118. Perez-Martin, J., Espinosa, M. (1994) Correlation between DNA bending and transcriptional activetion at a plasmid promoter. J. Mol. Biol., 241, 7-17

119. Perez-Martin, J., Rojo,F., deLorenzo, V. (1994) Promoter responsive to DNA bending: a common theme in prokaryotic gene expression. Microbiol. Rev., 58, 268-290

120. Plakson, R.R., Wartell, R.M. (1987) Sequence distribution associated with DNA curvature are found upstream of strong Escherichia coli promoters. NAR, 15,785-796

121. Ponnambalam, S., Chan, В., Busby, S. (1988) Functional analysis of different sequence elements in the Escherichia coli galactose operon P2 promoter. Mol. Microbiol., 2, 165-172

122. Ponnambalam, S., Webster, C., Bingham, A., Busby, A. (1986) Transcription initiation at the Escherichia coli galactose operon promoters in the absence of the normal -35 region sequence. J. Biol. Chem., 261, 16043-16048

123. Pribnow, D. (1975) Nucleotide sequence of an RNA polymerase binding site at an early T7 promoter. Proc. Natl. Acad. Sci. USA, 72, 784-788

124. Prosen, D.E., Cesh, C.L. (1985) Bacteriophage T7 E promoter: identification and measurement of kinetic of association with E. coli RNA polymerase. Biochemistry, 24, 22192227

125. R Harr, M Haggstrom and P Gustafsson. (1983) Search algorithm for pattern match analysis of nucleic acid sequences. NAR, 11, 2943-2957

126. Rees, W.A., Keller, W.R, Vesenka, J.P., Yang, G., Bustamante, C. (1993) Evidence for DNA bending in transcription complexes imaged by scanning force microscopy. Science, 260, 1646-1649

127. Retallack D.M., Friedman D.I. (1995) A role for a small stable RNA in modulating the activity of DNA-binding proteins. Cell 83, 227-235

128. Ricchetti, M., Metzger, W., Heumann, H. (1988) One-dimensional diffusion of Escherichia coli DNA-dependent RNA polymerase: a mechanism to facilitate promoter location. Proc. Natl. Acad. Sci. USA, 85, 4610-4614

129. Roberts, C.W., Roberts, J.W. (1996) Base-specific recognition of the nontemplate strand of promoter DNA by E. coli RNA polymerase. Cell, 86, 495-501

130. Robison K., McGuire A.M., Church G.M. (1998) A comprehensive library of DNA-binding site matrices for 55 proteins applied to the complete Escherichia coli K-12 genome. J Mol. Biol. 284, 241-254

131. Rosenberg, M., Court, D. (1979) Regulatory sequences involved in the promotion and termination of RNA transcription. Ann. Rev. Genet., 13, 319-353

132. Ross W., Aiyar S.E., Salomon J., Gourse RL. (1998) Escherichia coli promoters with UP elements of different strengths: modular structure of bacterial promoters. J. Bacteriol. 180, 5375-5383

133. Ross W., Ernst A., Gourse R.L. (2001) Fine structure of E. coli RNA polymerase-promoter interactions: alpha subunit binding to the UP element minor groove. Genes Dev. 15, 491-506

134. Ross W., Gosink K.K., Salomon J., Igarashi K., Zou C., Ishihama A., Severinov K., Gourse RL. 1993. A third recognition element in bacterial promoters: DNA binding by the alpha subunit ofRNA polymerase.Science. 262, 1407-1413

135. Rozkot F., Sazelova P., Pivec L. (1989) A novel method for promoter search enhanced by function-specific subgrouping of promoters-developed and tested on Escherichia coli system. NAR, 17, 4799-4815

136. Savery N.J., Rhodius V.A., Wing H.J., Busby S.J. (1995) Transcription activation at Escherichia coli promoters dependent on the cyclic AMP receptor protein: effects of binding sequences for the RNA polymerase a subunit. Biochem. J., 309,77-83

137. Scherer G.E.F., Walkinshaw M.D., Arnott S.A. (1978) A computer aided oligonucleotide analysis provides a model sequence for RNA polymerase promoter recognition in Escherichia coli. Nuc. Acids Res., 5, 3759-3773

138. Schickor P., Metzger W., Werel W., Lederer H., Heumann H. (1990) Topography of intermediates in transcription initiation of E. coli. EMBO J., 9, 2215-2220

139. Schmitt В., Reiss C. (1995) Kinetic study in vitro of Escherichia coli promoter closure during transcription initiation. Biochem. J., 306, 123-128

140. Schneider T.D., Stormo G.D., Gold L. 1986 Information content ofbindibg sites on nucleotide sequences. J. Mol. Biol. 188,415

141. Seeburg P.H, Nuesslein C. and Schaller H (1977). Interaction of RNA polymerase with promoters from bacteriophage fd. Eur. J. Biochem. 74,107-113

142. Siegele, D.A., Hu, J.C., Walter, W.A., Gross, C. (1989) Altered promoter recognition by mutant forms of the o70 subunit of Escherichia coli RNA polymerase. J. Mol. Biol., 206, 591-604

143. Singer, P., Wu, C.-W. (1987) Promoter search by Escherichia coli RNA polymerase on a circular DNA template J. Biol. Chem., 262, 14178-14189

144. Singer, P., Wu, C.-W. (1988) Kinetic of promoter search by Escherichia coli RNA polymerase. Effect of monovalent and divalent cations and temperature. J. Biol. Chem., 263, 4208-4214

145. Smith, T.L., Sauer, R.T. (1996) Dual regulation of open-complex formation and promoter clearance by Arc explains a novel repressor to activator switch. Proc. Natl. Acad. Sci. USA 93, 8868-8872

146. Staden R. (1984) Computer methods to locate signals in nucleic acid sequences. NAR.12, 505-519

147. Stefano, J.E., Gralla, J.D. (1982) Spacer mutations in the lac ps promoter. Proc. Natl. Acad. Sci. USA, 79, 1069-1072

148. Stormo G.D., Schneider T.D. and Gold L. (1986) Quantitative analysis of the relationship between nucleotide sequence and functional activity. NAR. 14, 6661-6679

149. Stormo G.D., Schneider T.D., Gold L., Ehrenfeucht A. (1982) Use of "Perceptron" algorithm to distinguish transcription sites in E. coli. NAR, 10,2997-3011

150. Stormo G.D. (1990) Consensus patterns in DNA. Methods Enzimol. 183, 211-222

151. Studnicka, G.M. (1988) Escherichia coli promoter-10 and -35 region homologies correlate with binding and isomerisation kinetics. Biochem. J., 252, 825-831

152. Szarniecki D., Noel R.J., Reznikoff W.S. (1997) The -45 of the Escherichia coli lac promoter: CAP-dependent and CAP-independent transcription. J. Bacterid. 179, 423-429

153. Tanaka, J., Applet, K., Dijkt, J., White, S.W., Wilson, K.S. (1991) Systematic characterization of curved DNA segments randomly cloned from Escherichia coli and their functional significance. Mol. Gener. Genet., 226, 367-376

154. Tjaden В., Saxena R.M., Stolyar S., Haynor D.R., Kolker E. and Rosenow C. (2002) Transcriptome analysis of Escherichia coli using high-density oligonucleotide probe arrays. NAR, 30, 3732-3738

155. Travers, A.A. (1987) Structure and function of£. coli promoter DNA. CRC Crit. Rev.Biochem., 22, 181-219

156. Travers, A.A. (1990) Why bend DNA. Cell, 60, 177-180

157. Tu, A.H., Turnbough, C.L.J. (1997) Regulation of upp expression in Escherichia coli by UTP-sensitive selection of transcriptional start sites coupled with UTP-dependent reiterative transcription. J. Bacteriol., 179, 6665-6673

158. Van Wye, J.D., Branson, E.C., Anderson, J.N. (1991) Species-specific patterns of DNA bending and sequence.NAR, 19, 5253-5261

159. Waldburger, C., Gardella, Т., Wong, В., Susskind, M.M. (1990) Changes in the conserved region 2 of Escherichia coli o70 affecting promoter recognition. J. Mol. Biol. 215, 267-276

160. Warae, deHaseth (1993) Promoter recognition by Escherichia coli RNA polymerase. Effects of single base pair deletions and insertions in the spacer DNA separating the -10 and -35 regions are dependent on spacer DNA sequence. Biochemistry. 32, 6134-6140

161. Xiong, X.F., de la Cruz, N., ReznikofF, W.S. (1991) Downstrem deletion analysis of the lac promoter. J. Bacteriol., 173,4570-4577

162. Xiong, X.F., Reznikoff, W.S. (1993) Transcriptional slippage during the transcription initiation process at a mutant lac promoter in vivo. J. Mol. Biol. 231, 569-580

163. Yada Т., Nakao M.,. Totoki Y and Nakai K. (1999) Modeling and predicting transcriptional units of Escherichia coli genes using hidden Markov models. Bioinformatics, 15, 987-993

164. Young M.A., Beveridge D.L. (1998) Molecular Dynamics stimulations of an oligonucleotide duplex with adenine tracts phased by a full helix turn. J. Mol. Biol. 281, 675687

165. Zinkel, S.S., Crothers, D.M. (1987) DNA bend direction by phase sensitive detection. Nature 328, 178-181

166. Zuber, P., Healy, J., Carter, H.L., Cutting, S., Moran, C.P.Jr., Losick, R. (1989) Mutation changing the specificity of an RNA polymerase sigma factor. J. Mol. Biol. 206, 605-614

167. Кутузова Г.И., Франк Г.К., Макеев В.Ю., Есипова Н.Г., Полозов Р.В. (1997) Фурье-анализ нуклеотидных последовательностей. Периодичности в промоторных последовательностях Е. coli. Биофизика, т. 42, вып.2, с.354-362

168. Никифоров, В.Г. (1987) РНК-полимераза бактерий: сравнительные исследования. Успехи микробиологии,21,105-150

169. Озолинь О.Н., Камзолова С.Г. (1986) Роль р-субъединицы РНК-полимеразы в специфическом узнавании промоторов. Мол. Биол. 20, 471-476

170. Озолинь О.Н., Утешев Т.А., Камзолова С.Г. (1986) РНК-полимераза рифампицин-устойчивого мутанта Escherichia coli имеет измененную специфичность к промоторам ДНК фага Т7. Мол. Биол., 22, 384-392

171. Часов В., Деев А., Масулис И. и Озолинь О. "А/Т-треки в структуре промоторов Е. coli: зарактер распределения и функциональное значение" 2002 Мол. Биол., т.36, С. 682-688

172. Ярчук О.Б., Трояновская И.Н, Матвиенко Н.И. (1986) Репрессия синтеза (3-галактизидазы изопропилтиогалактозидом за счет индукции «антисмысловых РНК» Докл.АН СССР, 290, 1499-1502