Бесплатный автореферат и диссертация по биологии на тему
Электростатические свойства геномной ДНК
ВАК РФ 03.00.28, Биоинформатика

Автореферат диссертации по теме "Электростатические свойства геномной ДНК"

На правах рукописи £

Осипов Александр Александрович

ЭЛЕКТРОСТАТИЧЕСКИЕ СВОЙСТВА ГЕНОМНОЙ ДНК

03.00.28 - Биоинформатика

Автореферат диссертации на соискание ученой степени кандидата биологических наук

Москва 2009

003463555

Работа выполнена в Учреждении Российской академии наук Институте биофизики клетки РАН.

Научные руководители: доктор биологических наук

Кашолова Светлана Григорьевна

кандидат физико-математических наук Сорокин Анатолий Александрович

Официальные оппоненты: кандидат физико-математических наук, доктор

биологических наук, профессор Миронов Андрей Александрович Московский государственный университет имени М.В. Ломоносова

кандидат физико-математических наук Есипова Наталия Георгиевна Учреждение Российской академии наук Институт молекулярной биологии им. В А. Энгельгардта РАН

Ведущая организация: Учреждение Российской академии наук Институт

теоретической и экспериментальной биофизики РАН

Защита диссертации состоится 20 марта 2009 года в 14 часов на заседании диссертационного совета Д002.077.02 при Учреждение Российской академии наук Институте проблем передачи информации им. A.A. Харкевича РАН по адресу: 127994, г. Москва, ГСП-4, Большой Каретный переулок, д.19. стр. 1.

С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Института проблем передачи информации им. A.A. Харкевича РАН

Автореферат разослан 19 февраля 2009 года

Ученый секретарь диссертационного совета

доктор биологических наук, профессор (Ät/у/й^ Рожкова Г.И.

Общая характеристика работы

Актуальность темы

На данный момент существует дисбаланс между большим и постоянно растущим количеством секвенированных геномов и недостатком их биологического описания. Невозможность эффективного биохимического и генетического изучения такого количества геномов, лишь отчасти компенсируемая современными высокопроизводительными методами исследований, диктует необходимость развития методов анализа и интерпретации текстов первичной последовательности ДНК. Одним из направлений такого анализа является предсказание функций по первичной структуре специфических участков ДНК. Было разработано много инструментов, основанных на текстовом анализе последовательности ДНК, для предсказания некоторых ключевых свойств, таких как распределение и функции открытых рамок считывания, промоторов и других регуляторных элементов.

Однако, несмотря на накопленную информацию о структуре последовательностей, до сих пор представляется затруднительным выделить исключительно на ее основе регуляторные элементы, такие как промоторы, или предсказать их функциональные характеристики. Множество алгоритмов поиска промоторов, основанных на текстовом анализе последовательностей, неудовлетворительно справляются с этой задачей.

Известно, что дополнительная информация для распознавания и модуляции активности промоторов может заключаться в физических свойствах ДНК, таких как общая геометрия двойной спирали, ее деформируемость, температурная стабильность и динамические свойства. В нашей лаборатории был предложен новый подход к этой проблеме на основе анализа электростатических свойств промоторной ДНК (Сорокин A.A., 2001, Джелядин Т.Р., 2001), для чего был разработан упрощенный метод вычисления распределения электростатического потенциала вокруг молекул ДНК величиной до целых геномов (Polozov R.V., 1999). С его помощью были проведены исследования электростатических свойств некоторых геномов, которые показали важность электростатических взаимодействий промоторной ДНК и РНК-полимеразы для регуляции функций промоторов. Электростатические свойства промоторной ДНК характеризуются выраженными паттернами, специфичными для различных групп промоторов, которые могут играть роль сигнальных элементов в дифференциальном распознавании соответствующих промоторов РНК-полимеразой.

Другим важным результатом было открытие нелинейной зависимости профиля потенциала от последовательности ДНК, означающей, что данное свойство обусловлено всей последовательностью целиком, в том числе фланкирующими регионами, нежели ее текстом в непосредственной точке рассмотрения, и для некоторых систем было показано, что биохимические свойства промоторов имеют гораздо лучшую корреляцию с их электростатикой, чем с текстом последовательностей.

Таким образом, электростатические свойства геномной ДНК весьма важны для ее биологических функций, и информация о них имеет большое значение для функциональной, сравнительной и эволюционной геномики, будучи представлена для значительного количества геномов, особенно интегрированной с возможно более полной аннотацией уже известных для них биохимических функций.

Цель и задачи исследования

В соответствии с обозначенной проблемой были установлены следующие цели:

1. создать инструмент, предоставляющий доступ к биологическим и электростатическим свойствам ДНК, и набор инструментов для анализа этих свойств

2. исследовать закономерности формирования электростатических свойств ДНК и общие электростатические свойства природных геномов

3. исследовать электростатические свойства промоторной ДНК Т7-подобных бактериофагов

Для достижения этих целей были сформулированы конкретные задачи:

1. разработать базу данных, содержащую последовательности геномов с биологической аннотацией и систематическим положением, и их электростатические свойства

2. разработать инструменты для визуализации электростатических свойств последовательностей геномов, сопоставления с аннотацией, проведения анализа и представления результатов

3. оценить взаимосвязь нуклеотидного состава последовательности ДНК и ее электростатических свойств и влияние на них окружения последовательности

4. провести исследование общих электростатических свойств природных геномов

5. провести исследование связи биологической функции и электростатических свойств последовательности на примере промоторов Т7-подобных бактериофагов, взаимодействующих с РНК-полимеразой бактерии-хозяина и с нативиой фаговой РНК-полимеразой

6. провести исследование роли электростатических свойств в дифференциальном распознавании промоторов РНК-лолимеразами фагов Т7 и ТЗ на примере описанного в литературе эксперимента с мутантом Т7, приспособившимся к росту на РНК-полимеразе фага ТЗ

Научная новизна и практическое значение

Впервые создана база данных, содержащая электростатические свойства ДНК природных геномов, включающая сведения о всех полностью секвенированных бактериальных и вирусных геномах, а также ряде расчетных последовательностей.

Впервые исследованы сравнительные электростатические свойства полных геномов и обнаружена близкая к линейной зависимость среднего потенциала природных геномов и сбалансированных случайных последовательностей от содержания в них СС пар, а также рассчитаны ее параметры для разных таксономических групп. Установлено, что величина этой зависимости коррелирует с содержанием вС пар.

Установлен ряд закономерностей формирования электростатического потенциала вокруг молекулы ДНК природных геномов и случайных и регулярных последовательностей. Показана неоднозначная зависимость потенциала и его разброса от содержания йС пар и ее зависимость от сбалансированности и трековости последовательности, а также возможность формирования принципиально различающегося потенциала идентичными по составу фрагментами ДНК и идентичного - разными.

Впервые произведен количественный анализ и выявлена степень влияния фланкирующих участков и единичных замен на формирование потенциала в области рассмотрения. Показано, что окружение способно полностью видоизменить электростатический профиль участков ДНК, равных известным консервативным регулятор-ным последовательностям, а единичные замены могут как проходить бесследно, так и полностью менять профиль. Продемонстрировано благоприятное влияние естественного окружения на примере промоторов бактериофага ТЗ.

2

Высказана гипотеза, что в сдвиг распределения природных геномов в АТ-бога-тую область могли внести вклад большие возможности формирования выраженных электростатических элементов АТ-обогащенными последовательностями по сравнению с GC-обогащенными.

Показано различие в масштабах, на которых проявляются закономерности распределения потенциала для промоторов, взаимодействующих с бактериальными и фаговыми полимеразами, величины которых различается почти на порядок, что отражает физическую картину взаимодействия Д1ПС с белком.

Показано, что приспособление продюторов бактериофага Т7 к взаимодействию с РНК-полимеразой бактериофага ТЗ сопровождается изменением электростатического потенциала в районе 0 - -5 п.о., приводящим к формированию профиля, идентичного промоторам ТЗ, что свидетельствует о возможной зависимости от него дифференциального распознавание промоторов РНК-полимеразой ТЗ, при этом указанные отличия потенциала мало влияют на распознавание промоторов РНК-полимеразой Т7, но играют для нее регуляторную роль.

Результаты работы могут быть использованы при создании искусственных геномов с заданными свойствами, в частности, при разработке экспрессионных систем, а также при проведении научных исследований в области биофизики, биологии клетки, биоинформатики и сравнительной, функциональной и эволюционной геномики.

Апробация работы

Материалы диссертации докладывались на следующих конференциях:

III съезд биофизиков России. Воронеж, 2004; 4-я международная конференция «Bioinformatics of genome regulation and structure» BGRS-2004, 2004, Новосибирск; XII симпозиум по межмолекулярному взаимодействию и конформациям молекул. Пущи-но, 2004; Albany 2005, The 14th Conversation, 2005; International Moscow Conference on Computational Molecular Biology (MCCMB'05), Moscow, Russia, 2005; XIII Симпозиум по межмолекулярному взаимодействию и конформациям молекул. Санкт-Петербург, 2006; The fifth international conference on bioinformatics of genome regulation and structure (BGRS-2006), 2006; International Moscow Conference on Computational Molecular Biology (MCCMB'07), Moscow, Russia, 2007; Albany 2007, The 15th Conversation, 2007; International Workshop on Integrative Bioinformatics, 4th annual meeting, University of Ghent, Belgium, 2007; 11 Международная Путинская школа-конференция молодых ученых «Биология наука XXI века» (2007 г, Пущино); International Conference on Computational Phylogenetics and Genosystematics, Moscow, Russia, 2007; European conference on synthetic biology (ECSB): Design, programming and optimisation of biological systems, Spain, 2007; XIV Симпозиум по межмолекулярному взаимодействию и конформациям молекул, 2008, Челябинск; Межинститутский научный семинар ИБК РАН и ИТЭБ РАН, 2008, Пущино; 16 Международная конференция "Математика. Компьютер. Образование", Пущино, 2009 г.

По материалам диссертации опубликовано 13 статей в рецензируемых журналах, 1 раздел в монографии, 3 статьи в научных сборниках и периодических научных изданиях и 20 публикаций в материалах научных мероприятий.

Структура и объем диссертации

Диссертация включает в себя обзор литературы, описание методов, 3 главы, посвященные изложению результатов и их обсуждению, заключение, выводы, список литературы и приложите. Работа изложена на 102 страницах и содержит 4 таблицы и 25 рисунков. Список литературы содержит 153 наименования.

Содержание работы

Материалы и методы

Для разработки базы данных электростатических свойств геномной ДНК (DEPPDB) и анализа данных использовались следующие материалы и методы.

Нуклеотидные последовательности и элементы геномов и их аннотации

Последовательности всех полных секвенированных бактериальных и вирусных геномов и их аннотации взяты из базы данных NCBI RefSeq (ftp://ftp.ncbi.nih.i;ov/ refseq/) и частично из BioCyc (http://BioCyc.orgI Данные в форме текстовых файлов взяты с ftp сайта и разбирались специально написанным набором программ на языке Perl. Ряд данных был получен из литературных источников и внесен в базу через интерфейс ее управления, также написанный на Perl.

Таксономический раздел

Описания таксонов и идентификаторы, позволяющие сформировать иерархическую древовидную структуру раздела и приписать геномы таксонам, взяты из базы данных NCBI Taxonomy (ftp://ftp.ncbi.nih.gov/pub/taxoriomy/) в виде текстовых файлов и разбирались специально написанным набором программ на языке Perl.

Генерация случайных и регулярных последовательностей ДНК

С помощью специально написанной программы было рассчитано по 10 случайных последовательностей с содержанием каждого нуклеотида с шагом в 10% и длиной последовательности от 1000 до 100000 с шагом в порядок, результат статистических расчетов сохранен в базе, а также по одной последовательности длиной 1000000 с сохранением текста последовательностей для дальнейшего изучения, и набор последовательностей с равным содержанием всех 4 нуклеотидов.

С помощью специально написанной программы на языке Perl был рассчитан набор регулярных (периодических) последовательностей следующего вида: полину-клеотнды с периодом в 1 и 2 пары каждого вида, и все перестановки из 4, 8 и 12 пар с равным количеством нуклеотидов А, Т, G и С. Из анализа исключались циклические перестановки (дающие при повторении одинаковые последовательности), из поли-12 нуклеотидов брались по 100 вариантов, имеющих максимальные и минимальные значения среднего потенциала.

Расчет электростатических свойств ДНК

Электростатический потенциал (ЭП) вокруг молекул геномной ДНК рассчитывался с помощью оригинального метода (Polozov et al., 1999), использующего расчет по закону Кулона полноатомной модели ДНК с использованием подгоночных параметров зарядов и диэлектрической проницаемости для согласования с расчетами, полученными решением уравнения Пуассона-Больцмана.

Вычислялось значение электростатического потенциала на поверхности соос-ного двойной спирали молекулы ДНК цилиндра, радиусом 15 ангстрем, что составляет около 5 ангстрем от ее поверхности, то есть примерно соответствует расстоянию, на котором, предположительно, белки неспецифически взаимодействуют с ДНК. Далее значение потенциала усреднялось по угловой переменной для получения одномерного распределения потенциала вдоль молекулы ДНК, т.е. профиля ЭП, который и использовался для заполнения базы и дальнейшего анализа.

Для получения линейных координат пар оснований вдоль молекулы ДНК генома и усредненных по углу значений электростатического потенциала вокруг молекулы ДНК в линейных координатах вдоль молекулы (т.е. профиля ЭП), использовалась программа А. Сорокина (Sorokin, 2001), модифицированная для пакетной обработки целых геномов и вычисления ряда дополнительных параметров распределения электростатического потенциала.

Вычислялись следующие показатели распределения усредненного потенциала вдоль целой последовательности: минимум, максимум, среднее арифметическое, геометрическое и гармоническое, медиана, дисперсия и стандартное отклонение, коэффициент асимметрии и эксцесс распределения.

Программное обеспечение СУБД, публикации данных и инструментов обработки и анализа

Хранение данных

Большая часть данных хранится в реляционной базе под управлением СУБД MySQL v5.0 в таблицах типа MyISAM.

Заголовочные части записей БД NCBI RefSeq, относящиеся к геному, хранятся в текстовых файлах операционной системы в формате ASCII, по одной записи на файл.

Тексты последовательностей хранятся в текстовых файлах в формате ASCII, непрерывной строкой, по одной последовательности на файл.

Линейные координаты (в ангстремах) пар оснований вдоль молекулы ДНК генома хранятся в бинарных файлах форматом 4 байта на основание.

Усредненные по углу значения электростатического потенциала вокруг молекулы ДНК в линейных координатах вдоль молекулы хранятся в нормализованном виде в бинарных файлах форматом 2 байта на 1 ангстрем.

Доступ к данным н инструменты анализа: веб-публикация

Пользовательский доступ к данным и инструментам анализа осуществляется через веб-интерфейс по протоколу http с помощью динамической системы публикаций, основанной на веб-сервере Apache v.2.2, СУБД MySQL v5.0 и программах, написанных на языке Perl. Система включает стандартную поставку ActiveState Perl v. 5.8 с рядом дополнительных модулей, один из которых модифицирован, и набор скриптов, написанных для БД DEPPDB.

Динамически генерируемые страницы в формате html содержат ряд интерактивных элементов, написанных на языке Javascript v. 1.2 и тестировались в браузерах MS IE w. 6,7, Mozilla Firefox w. 2,3, Opera v. 9 и Google Chrome v.1.0.154.36. Графики строятся «на лету» в формате PNG с помощью модулей Perl GD и GD::Graph.

Кроме того, часть инструментов анализа используют расширение языка Perl PDL (Perl Data Language) v. 2.4.3 с графическим модулем PGPLOT v.2.19.

База данных доступна для академического использования через веб-интерфейс по адресу http://promodel.icb.psn.ru.

Следует отметить, что некоторые намеченные оптимизации программного и аппаратного обеспечения позволят кардинально улучшить возможности обработки данных.

Представление данных в работе

На всех рисунках, представляющих профили ЭП, по вертикальной оси отложена величина ЭП в единицах заряда электрона на ангстрем (е/А), по горизонтальной —

расстояние вдоль оси молекулы ДНК в ангстремах. Вертикальной линией по центру отмечена точка, по которой выравнивались последовательности.

Выравнивание по номеру нуклеотида не соответствует выравниванию в физическом пространстве из-за разницы расстояния между парами оснований. Все графики. в т.ч. и содержания вС нар, строились в реальном физическом пространстве.

В случае, когда на графике присутствуют 3 панели, на верхней дан электростатический потенциал, горизонтальные линии - среднее значение потенциала всего ге-нома(ов); на средней - стандартные отклонения для каждой группы, горизонтальные линии - среднее значение для каждого генома (группы); на нижней - содержание вС пар в процентах для каждой группы. Для отображения йС состава делалось усреднение окном в несколько пар вокруг каждой точки.

Результаты и обсуждение

1. База данных свойств электростатического потенциала геномной ДНК ОЕРРОВ

Общее описание данных

БЕРРОВ - база данных смешанного реляционно-файлового типа, содержащая информацию о геномной ДНК и ее свойствах, прежде всего электростатических, и ряд инструментов для работы с этой информацией. На данный момент база охватывает все полные секвенированные прокариотические - бактериальные, включая плазми-ды, и вирусные геномы.

Основной объект базы - геном, представляющий собой непрерывную последовательность секвенированной единой молекулы ДНК биологического организма, с известными свойствами. Геном имеет набор общих свойств, характеризующих его как целое, и ряд свойств, приписанных его элементам, которые определяются позициями на его последовательности.

Геномы организованы с помощью таксономического раздела базы, основным объектом которого является таксон в общепринятом биологическом смысле. Таксоны организованы в иерархическую древовидную структуру, при этом с каждым таксоном связаны все геномы, относящиеся непосредственно к нему, а также всем дочерним таксонам.

Кроме того, база содержит ряд данных, рассчитанных для набора случайных и регулярных последовательностей ДНК, включая некоторые из самих последовательностей.

Общая характеристика генома

Общая характеристика генома включает идентификаторы (ОЕРРОВ, >ГСВ1 11е£5ея, ОепВапк); характеристику записи в базе МСВ111е£5ея: дата; код раздела; характеристики геномной последовательности: длину; тип нуклеиновой кислоты, количество нитей, топология молекулы, количество оснований А, Т, в и С; процентное содержание вС, рассчитанное для всего генома, длину молекулы в ангстремах. Для геномов, содержащих в своей последовательности неопределенные позиции, приведен их список.

Описание генома и организма включает определение генома, название организма и его систематическое положение, аннотацию генома как целого (из БД 1\1СВ1 11сКец), включая описания литературных источников.

Последовательность молекулы ДНК генома (для РНК-содержащих вирусов записана эквивалентная последовательность ДНК).

Линейные координаты пар оснований вдоль молекулы ДНК генома (для РНК-содержащих вирусов рассчитаны для эквивалентной последовательности ДНК).

Усредненные по углу значения электростатического потенциала вокруг молекулы ДНК в линейных координатах вдоль молекулы (для РНК-содержащих вирусов рассчитаны для эквивалентной последовательности ДНК).

Свойства распределения усредненного по углу электростатического потенциала вокруг молекулы ДНК: минимум; максимум; медиана; среднее арифметическое, геометрическое и гармоническое; дисперсия и стандартное отклонение; эксцесс; асимметрия.

Элементы генома

Элементы генома взяты из БД NCBI ReiSeq и, как правило, имеют какую-либо выраженную биологическую функцию или структурную особенность.

Для каждого экземпляра элемента указаны его координаты в последовательности: ведущая или обратная цепь; позиции в п.о. относительно начала последовательности начала и конца всех сегментов последовательности, к которым относится данный элемент; общее начало и конец элемента; количество концов сегментов для протяженных (1 - для точечных) элементов.

Кроме того, для каждого экземпляра элемента приведена его полная структурированная аннотация по БД NCBI RefSeq, включающая описание его биологических функций и структурных особенностей, названия генов и белков и их транслируемые последовательности, экспериментальные сведения, комментарии и пр. В отдельную таблицу также вынесены ссылки из аннотации на внешние БД.

Таксономия

Таксономический раздел базы служит для организации геномов по таксономическому принципу. Основным объектом раздела является таксон в общепринятом биологическом смысле. Для каждого таксона имеется идентификатор в БД DEPPDB, NCBI Taxonomy его самого и родительского таксона; основное научное и ряд дополнительных названий с указанием их типа; ранг; код раздела; ссылка на литературное описание и ряд других параметров, взятых из БД NCBI Taxonomy.

Ссылка на родительский таксон и указание ранга позволяет организовать иерархическую древовидную структуру всего таксономического дерева.

Непосредственная принадлежность геномов таксонам низкого ранга определяется прямым соответствием идентификатора таксона идентификатору нуклеотидной последовательности по GenBank, взятыми из БД NCBI Taxonomy. Как правило, таким таксонам соответствуют полные геномы индивидуальных организмов, в свою очередь, геномы плазмид, особенно неспецифичных по отношению к хозяину, могут непосредственно принадлежать таксонам более высокого ранга.

Кроме того, все таксоны высшего ранга содержат ссылки на все геномы дочерних таксонов. Это позволяет рассчитывать и показывать для каждого таксона ряд обобщенных свойств входящих в него геномов и их элементов, что может служить для решения задач сравнительной и эволюционной геномики.

Инструменты анализа данных

Инструмент визуализации и анализа множественных электростатических профилей

Данный инструмент служит для визуализации и анализа множественных графиков электростатических профилей избранных участков геномов. В анализ входит вычисление и построение арифметического среднего для графиков и их групп, стандартного отклонения, среднего взвешенного и среднего взвешенного стандартного отклонения для всех участвующих в анализе геномов по профилям электростатического потенциала, а также арифметического среднего по содержанию вС пар с выбором окна предварительного усреднения для индивидуальных последовательностей.

Инструмент визуализации электростатических профилей (упрощенный вариант)

Данный инструмент строит графики электростатических профилей для выбранных геномов и позиций, позволяющие выбрать различные режимы сглаживания, расчета содержания ОС пар и ряд других параметров.

Инструмент визуализации и анализа отношений среднего потенциала генома к содержанию СС пар для множественных геномов

Данный инструмент строит графики отношений среднего потенциала генома к содержанию ОС пар для множественных геномов и рассчитывает прямые линейной регрессии для выбранных наборов геномов. Инструмекг доступен по прямой ссылке с главной страницы и на страницах описаний таксонов. Интерфейс инструмента позволяет выбирать наборы данных, включать и выключать расчет прямых линейной регрессии и регулировать размеры графика и величину точек, представляющих каждый геном.

Основная статистика

Статистика по геномам и таксонам на текущий момент в базе приведена в та^ блице 1.

Таблица 1. Сводная статистика по геномам и таксонам базы._

Объекты Количество

Индивидуальные таксоны всего 4393

Индивидуальные геномы всего 4528

Геномы с рассчитаными электростатическими свойствами 4266

Бактерии и плазмиды 1533

Вирусы 2733

2. Зависимость электростатических свойств последовательности ДНК от ее состава

Для выяснения закономерностей формирования электростатического потенциала были исследованы природные геномы и ряд последовательностей, рассчитанных по заранее заданным свойствам, таким как содержание нуклеотидов А, Т, й и С и равномерность их распределения. Анализировалась зависимость среднего потенциала от содержания вС пар для разных вариантов его распределения. Результаты анализа представлены в таблице 2 и на рисунке 1.

Случайные последовательности ДНК

Случайные последовательности ДНК демонстрируют близкую к линейной зависимость среднего электростатического потенциала от содержания GC пар с весьма значительным разбросом значений (рис. 1, серые точки, таблица 2). При этом разброс значений среднего электростатического потенциала плавно уменьшается с ростом содержания GC пар от 0 до 100% с 1.59 до 1.0023 е/А, т.е. более чем в полтора раза. Таким образом, выявляется закономерность, заключающаяся в том, что большее содержание АТ пар обеспечивает большие возможности изменений значения электростатического потенциала последовательности.

Рассмотрим зависимость формирования среднего потенциала от сбалансированности последовательности, т.е. отношения содержания А к Т и G к С. Случайные последовательности, имеющие эти отношения в пределах 0.5 - 2 (рис. 1, синие точки, таблица 2), что близко к наблюдаемому в природных геномах, имеют в среднем в 5-6 раз меньший разброс и демонстрируют значительно более пологий график зависимости потенциала от GC состава, чем выходящие за эти пределы. При этом становится заметной отклонение от линейной зависимости в сторону уменьшения ее в АТ-бога-той области и увеличения в GC-богатой, что демонстрирует еще один аспект закономерности зависимости возможности изменений значения электростатического потенциала от GC состава последовательности.

Следует отметить также (очевидную) обратную зависимость величины разброса от величины исследуемой случайной последовательности, тем более выраженную, чем более сбалансирована последовательность.

Очевидным следствием случайного характера последовательностей является повышение вероятности образования треков нуклеотидов одного вида для несбалансированных последовательностей по сравнению со сбалансированными, что указывает на еще одну закономерность при рассмотрении разбросов - чем больше треков, тем более выражена зависимость потенциала от GC состава последовательности.

Регулярные последовательности ДНК

Наиболее интересным результатом анализа регулярных последовательностей является демонстрация возможностей формирования сильно различающегося потенциала идентичными по составу последовательностями. Диапазон средних потенциалов последовательностей, содержащих равное количество А, Т, G и С (рис. I, вертикальный ряд точек в положении GC=50%, таблица 2) в пределах соседних 4 нуклеотидов равен диапазону среднего значения для природных геномов от 27 до 65% GC (1.3064 е/А); диапазон для 8 - перекрывает вообще все значения для всех природных геномов (2.0834 е/А), достигая 2.2343 е/А, а размах минимальных и максимальных значений для 12 (3.9776) больше среднего размаха минимумов и максимумов (3.9374) внутри индивидуальных природных геномов. При этом характерные величины амплитуды особенностей электростатического потенциала, исследованных для регуля-торных элементов природных геномов, составляют от 0.3 до 2-2.5 е/А.

Таким образом, однородные по составу даже в пределах 4 (тем более - 8) соседних пар нуклеотидов последовательности способны сформировать электростатические элементы, по выраженности равные природным регуляторным структурам или превосходящие их. При этом однородность включает не просто процент GC пар, а распространяется на содержание каждого нуклеотида в равной пропорции.

Рассмотрим другой крайний случай, а именно последовательности, содержащие только один или два нуклеотида. Диапазон средних значений для последовательностей, построенных исключительно из А и Т (поли-А и поли-АТ) равен 2.7959, что в

Рисунок 1. Средний электростатический потенциал и содержание GC пар для различных групп последовательностей.

Серый - все случайные последовательности, синий - сбалансированные; красный -природные геномы. Вертикальный ряд точек в положении GC=50% - регулярные последовательности с соотношением A/T/G/C = 1/1/1/1. Каждая точка соответствует одной последовательности.

Вертикальные линии показывают деление на группы по 30 и 65 процентам, горизонтальные - значения потенциала полинуклеотидов указанного состава. Наклонные прямые линии - графики линейной регрессии для соответствующих групп. По правому краю сверху вниз: все случайные, сбалансированные случайные с GC>65%, природные с GC>65%, сбалансированные случайные с 30%<GC<65%, природные с 30%<GC<65%, сбалансированные случайные с GC<30%, природные с GC<30%/ По вертикальной оси - значение среднего потенциала последовательности в е/А, по горизонтальной - содержание GC пар в процентах.

1.4 раза больше, чем для G и С (1.9898), что подтверждает большую гибкость в формировании электростатического потенциала АТ последовательностями, чем GC. Показательно, что поли-АС и поли-GT (50% GC) имеют значительно больший средний потенциал (-24.1867), чем поли-АТ (-22.6485,0% GC), см. рис.1.

Большая по сравнению с соответствующими случайными последовательностями величина диапазона еще раз указывает на значение «трековости» для формирования потенциала. Рассмотрим этот показатель подробнее на примере полинуклеотидов с длиной повтора 12 п.о. У последовательностей с наименьшим потенциалом нуклео-тиды G и С организованы в треки, а А и Т - перемежаются, с наибольшим - вся последовательность равномерно перемешана с преобладанием сочетаний АС и GT, что демонстрирует совокупное действие факторов трековости, гибкости формирования

потенциала парами АТ и GC, а также большей величины потенциала для поли-АС (поли-GT), чем поли-АТ.

Все это демонстрирует недостаточность учета одного лишь содержания GC для анализа формирования электростатических свойств.

ДНК природных геномов

Природные геномы (рис. 1, красные точки, таблица 2) демонстрируют близкую к линейной зависимость среднего значения электростатического потенциала от содержания GC нар с линейными коэффициентами, близкими для разных групп геномов, незначительно выделяющимися у архсбакгерий.

Разброс значений небольшой, с размахом в 0.5065 е/А (от -0.2249 до 0.2816) и стандартным отклонением 0.0545.

Следует отметить, что распределение геномов по содержанию GC пар несимметрично и имеет сдвиг в область пониженного содержания (среднее 45.0056, стандартное отклонение 10.1139, минимум 17, максимум 76, размах 59, все в процентах GC). При этом для геномов с пониженным содержанием GC пар зависимость среднего значения электростатического потенциала от него выражена менее, чем в среднем, а с повышенным — более, аналогично сбалансированным случайным последовательностям, однако эта закономерность более выражена у природных геномов, незначительно в области высокого содержания GC и сильно - в области низкого. Можно предположить, что в сдвиг распределения природных геномов в АТ-богатую область внесли вклад большие возможности формирования выраженных электростатических элементов АТ-обогащенными последовательностями по сравнению с GC-обогащен-ными.

Группа последовательностей а b

Природные геномы

Бактерии 0.0336 -24.4403

Архебактерии 0.0307 -24.2732

Плазмиды 0.0337 -24.4474

Вирусы 0.0337 -24.4555

Все геномы 0.0336 -24.4480

Сравнение со сбалансированными случайными последовательностями

Природные с содержанием 30%< вС< 65% 0.0339 -24.4670

Случайные с содержанием 30%< вС< 65% 0.0344 -24.4569

Природные с содержанием вС <30% 0.0245 -24.1549

Случайные с содержанием БС <30% 0.0273 -24.1981

Природные с содержанием 65%< ОС 0.0460 -25.2738

Случайные с содержанием 65%< ОС 0.0452 -25.1393

Несбалансированные случайные 0.0483 -25.0789

Все случайные 0.0437 -24.8360

Регулярные с п=1, 2 0.0340 -24.5733

Регулярные с п=1,2,4, 8,12 0.0340 -24.5155

Таблица 2. Линейные коэффициенты зависимости среднего значения электростатического потенциала от содержания ОС пар для различных групп последовательностей. Уравнение зависимости у=ах+Ь, где у - среднее значение потенциала последовательности и х - содержание ОС пар в процентах. Чем больше а, тем больше наклон прямой и сильнее выражена зависимость.

Электростатический потенциал пар А, Т, G и С

Электростатический потенциал в центрах пар А, Т, G и С анализировался для первых 100000 п.о. генома Е. coli (GC=51%) и случайной последовательности с соотношением A/T/G/C = 1/1/1/1, а также целого генома бактериофагов T7(GC=48%), phiMFVl (GC=25%) и mul/6 (GC=71%). Данные представлены на рис.2. Абсолютные значенга максимумов, минимумов и средних выше для пар А и Т и ниже для пар G и С в пределах одного организма, однако средние отличаются менее, чем на величину стандартного отклонения (0.2 - 0.5), а у организмов, сильно отличающихся по среднему содержанию GC пар, эти параметры могут быть для пар А и Т даже ниже (на > 1), чем для G и С.

Таким образом еще раз демонстрируется крайне слабая зависимость величины потенциала от нуклеотидного состава в точке рассмотрения, недостаточная для формирования электростатических элементов, по выраженности равных природным регу-ляторным структурам.

Рисунок 2. Электростатический потенциал в центрах пар А, Т, G и С в последовательностях ДНК: максимум, минимум и среднее со стандартным отклонением. Последовательности: геномы бактериофага phiMFVl (GC=25%), Е. coli (GC=51%), бактериофага Т7 (GC=48%), случайная последовательность с соотношением A/T/G/C = 1/1/1/1, бактериофаг mul/6 (GC=71%). По вертикальной оси - значение потенциала в е/А

Зависимость от контекста в природных геномах и случайных последовательностях

Для изучения влияния окружения на формирование электростатического потенциала последовательности, была исследована зависимость от длины фрагмента разброса потенциала в центре разных экземпляров одинаковых фрагментов ДНК. Анализировался электростатический потенциал в центрах фрагментов ДНК длиной от 1 до 40 п.о. для первых 100000 п.о. генома Е. coli и случайной последовательности с соотношением A/T/G/C = 1/1/1/1, а также целого генома бактериофага Т7. Для анализа отбирались фрагменты, представленные не менее чем в трех экземплярах. Данные представлены на рис.3.

Абсолютные значения разницы между максимумами и минимумами для всех экземпляров каждого вида фрагментов и их среднее стандартное отклонение плавно уменьшаются с ростом длины фрагмента. Следует отметить, что в природных последовательностях эти показатели для длинных фрагментов маскируются их включением

в участки больших повторов или дупликаций, что заметно при сравнении величин их размахов.

Показательно, что максимальные разбросы сохраняют величину, достаточную для формирования электростатических элементов, по выраженности равных известным природным регуляторным структурам, вплоть до максимальной исследованной длины в 40 и.о., а до длины 8 п.о. - превосходящих большинство из них.

Анализ консенсусного промотора бактериофага ТЗ (23 и.о.), помещенного в контекст ряда различных регулярных последовательностей, показал, что средний разброс в его центре составил около 0.2 е/А, а максимальный - около 1.1 е/А, притом что величина между максимумом и минимумом усредненного профиля реальных промоторов ТЗ в контексте его генома составляет около 1 е/А, средний разброс в центре -0.15, а максимальный — 0.5, то есть в два раза меньше, несмотря на имеющиеся отличия этих промоторов от консенсуса. Хотя в среднем промотор сохраняет свою характерную картину распределения электростатического потенциала, в ряде случаев она меняется кардинально, гораздо более, чем необходимо для потери узнавания на-тивной РНК-полимеразой (~ 0.5 е/А от среднего). Показательно, что в данном случае средний и максимальный разброс не уменьшаются равномерно к центру, а имеют минимум в точке старта (6 п.о. от края), и небольшой локальный максимум в области -3 п.о. от точки старта, что говорит о сложном характере влияния окружения на потенциал последовательности.

Таким образом, окружение последовательности длиной более, чем длина консервативных участков известных регуляторных элементов, способно сформировать в ней электростатические элементы, по выраженности равные природным регуляторным структурам или превосходящие их, или помешать формированию таких элементов.

• 6. col! ni OTTm«

1 2 3 4 S « 7 в в 10 11 1! 13

Рисунок 3. Разброс значений электростатического потенциала в центрах одинаковых фрагментов ДНК длиной п от 1 до 40 п.о. Столбцы: 1-10 — п=1-10, 11-13 -п=20, 30, 40.

Последовательности: геномы Е. coli, бактериофага Т7 и случайная последовательность с соотношением A/T/G/C = 1/1/1/1; большие столбцы - максимальный разброс, малые - среднее стандартное отклонение. По вертикальной оси - значение потенциала в е/А.

3. Особенности электростатических свойств промоторов ряда Т7-подобных фагов и рибосомальных промоторов E.coli

Рассмотрим особенности организации генома 'Г7-подобных фагов на примере бактериофага Т7, заражающего Е. coli. Во время инфекции Е. coli ранняя область Т7 генома транскрибируется хозяйской РНК-полимеразой (Еп70) с трех тандемно распо-

ложенных на левом конце сильных промоторов AI, А2, A3. Одним из основных генных продуктов этой области является фаговая РНК-полимераза, которая осуществляет транскрипцию средних (класс И) и поздних (класс III) генов Т7-ДНК.

Известно, что более 20% из всех ~4000 промоторов Е. coli также расположены тандемно, в частности, таковы сильные рибосомальные промоторы. Такая организация промоторной зоны, по-видимому, способствует повышению надежности системы распознавания генетических элементов, особенно важных для организма.

Следует отметить, что в отличие от мультисубъединичной РНК-полимеразы Е. coli, являющейся одним из самых больших бактериальных белков, Т7-специфичный фермент состоит из одной небольшой субъединицы. Соответственно и промоторы, кативные к этим двум ферментам, отличаются прежде всего по своим размерам. Если для РНК-полимеразы £ coli контактная промоторная площадка составляет >150 п.о. (~510 ангстрем), то для Т7-специфичного фермента она равна 23 нуклеотидным парам (~80 ангстрем), к тому же находящимся в составе нуклеотидспецифичного кон-сенсусного элемента. Это априори указывает на принципиальное отличие в характере электростатических взаимодействий при узнавании нативных промоторов этими двумя ферментами.

Ранние промоторы Т7-подобных фагов и рибосомальные промоторы E.coli

Результаты, полученные при анализе особенностей электростатического потенциала промоторных участков бактериофага Т7, показали наличие выраженных неод-нородностей профиля в районе группы ранних промоторов, взаимодействующих с бактериальной РНК-полимеразой организма хозяина на ранних этапах фагового заражения, проявляющихся в виде характерной серии изменений потенциала с большой амплитудой при малой частоте, с наиболее ярко выраженной первой волной, где каждая волна соответствует сильному промотору (рис. 4.а.). Такой характер электростатического профиля промоторной зоны, по-видимому, служит для повышения надежности узнавания промоторов хозяйской полимеразой, что, в свою очередь, повышает шансы успешности фаговой инфекции. Изменения потенциала находятся в одном масштабе с контактной площадкой молекулы бактериальной РНК-полимеразы (-500 ангстрем).

Анализ ранних областей геномов группы Т7-подобных фагов ТЗ, phiAl 122, phiYe03-12 (рис. 4.а.), К1-5 и SP6 (рис. 4.6.) показал у них наличие точно такой же картины, причем для фагов Т7 и ТЗ в базе данных NCBI Reßeq, откуда бралась исходно биологическая аннотация, указано наличие промоторов бактерии-хозяина, для фага phiYe03-12 оно указывалось как предположительное, а для фагов Kl-5, SP6 и phiAl 122 такой информации не было вовсе. Тем не менее, для них для всех было обнаружено поразительное сходство картины распределения электростатического потенциала, что позволяет предположить, что данные промоторы там присутствуют и выполняют свою биологическую функцию.

Интересно сравнить профиль этих областей с районами рибосомальных промоторов E.coli, для которых характерно наличие тандема из двух сильных промоторов и перед которыми также стоит задача максимизации надежности их узнавания. Хорошо видно, что профили этих областей имеют между собой определенное сходство (рис. 4.в.). Это может отражать общность их биологических функций.

Следует отметить, что нуклеотидные последовательности всех этих районов значительно различаются между собой, что указывает на важность анализа физических свойств в дополнении к традиционному текстовому анализу нуклеотидной последовательности.

Т7, ТЗ, phiЙ1122, phiYe03

а

200 if/It

1Р0Й 1200 И0О 1600 1SOO 2000

500 п.с.

Рисунок 4 а, б. Электростатические профили ранних промоторов фагов Т7, ТЗ, рЫА] 122 и рЫУеОЗ-12 (а) и К1-5 и ЭР6 (5), взаимодействующих с бактериальной РНК-гюлимеразой. Серый - индивидуальные профили, черный - усредненные, длина участков - 500 п.о. По вертикальной оси - величина ЭП в е/А, по горизонтальной - расстояние вдоль оси молекулы ДНК в ангстремах.

E.coli rrn

Рисунок 4 в. Электростатические профили тандемных рибосомальных промоторов Е. coli, вертикальными линиями отмечены положения первых и вторых промоторов тандемных пар.

Серый - индивидуальные профили, черный - усредненные, длина участков - 500п.о. По вертикальной оси - величина ЭП в е/А, по горизонтальной - расстояние вдоль оси молекулы ДНК в ангстремах.

Промоторы Т7-подобных фагов, взаимодействующие с фаговой РНК-по-лимеразой

Общая характеристика ЭП промоторов фагов Т7, ТЗ, phiYe03-12 и VP4

При анализе распределения электростатического потенциала вокруг промоторов, взаимодействующих с нативными фаговыми РНК-полимеразами, выявляется общая картина сходства, выражающегося в наличие синхронизированных неоднородно-стей (подъемов и спадов) одного масштаба с молекулой полимеразы и, в частности, в переходе графика потенциала от спада непосредственно перед точкой старта к его подъему сразу за ней, а для фагов ТЗ, phiYe03-12, VP4 - двух волн таких переходов (рис. 5). Наряду со сходством, видно различие однородности характеристической картины для разных фагов, от наиболее однородного фага ТЗ до наименее - Т7.

На примере фагов ТЗ и рЫУеОЗ-12 (рис. 6) хорошо видно различие в устойчивости картины электростатического профиля к нуклеотидным заменам на разных его участках. В районе точки старта профиль устойчив к присутствующим там единичным и двойным заменам, в районе первого upstream пика (-30 ангстрем от точки старта) - гиперчувствителен даже к единичной замене С на А, которая совершенно элиминируют этот пик (рис. 6, линия 2). Это указывают на необходимость дополнения тестового анализа нуклеотидных последовательностей анализом физических свойств ДНК.

.....

f \

-1 CU173 2 EJX14 3

Рисунок 5. Усредненные ЭП нативных промоторов бактериофагов Т7 (1), ТЗ (2), рЫУеОЗ-12 (3) и УР4 (4). Длина участков - 50 и.о., окно ОС состава - ! п.о. По вертикальной оси - величина ЭП в е/А, по горизонтальной - расстояние вдоль оси молекулы ДНК в ангстремах.

T i 11 1 —г 1 -) > О 1/ Л

N vt Гх .___

- 7 W к-7 Л"^ \

Ж lili ■ ffíllmw лп ¡i п . Hl i И Ilill ,

- 1 С2У27 3

- 2 С2/21

Рисунок 6. Усредненные ЭП промоторов с С (1) и А (2) в -10 позиции. Длина участков - 50 п.о., окно GC состава - 1 п.о.

По вертикальной оси - величина ЭП в е/А, по горизонтальной - расстояние вдоль оси молекулы ДНК в ангстремах.

Промоторы мутантного штамма бактериофага Т7, приспособленного к РНК-полимераае бактериофага ТЗ

Для выявления электростатических элементов, потенциально могущих иметь значения для функционирования промоторов, распознающихся фаговыми РНК-поли-меразами, был выбран мутантный штамм бактериофага Т7, приспособившийся к росту на РНК-полимеразе родственного бактериофага ТЗ (J.J. Bull et al., 2007).

Как известно, РНК-полимеразы этих фагов крайне слабо взаимодествуют с промоторами друг друга, тем не менее, рост фага Т7 с делецией гена РНК-полимеразы возможен в клетках Е. coli, экспрессирующих РНК-полимеразу фага ТЗ. В эксперименте с такой системой было показано (J.J. Bull et al., 2007), что при исключении возможности приспособительных мутаций в гене РНК-полимеразы происходит постепенное восстановление жизнеспособности (рис. 7) мутантного фага за счет накопления мутаций в промоторных регионах.

Авторами была произведена делеция области 3343-5878 генома бактериофага Т7, включающая ген РНК-полимеразы и ранний промотор phi 1.1 А (рис. 9).

В ходе приспособления к росту на РНК-полимеразе бактериофага ТЗ, у мутантного штамма бактериофага Т7 произошли следующие дополнительные мутации (таблица 3), затрагивающие промоторные области (следует обратить внимание на переход к консенсусному промотору бактериофага ТЗ):

1. промотор репликации (phiOL) - в позиции 394 А -> С и делеция Т в позиции 403 (обе - к консенсусу ТЗ);

2. промотор класса II phil.5-в позиции 7768 А-> С (к консенсусу ТЗ);

3. промотор класса II phil.6 - в позиции 7884 Г -> А (не к консенсусу ТЗ);

4. промотор класса II рЫ2.5 - в позиции 9105 Т -> А (к консенсусу ТЗ);

5. промотор класса III рЫ6.5 - в позиции 18534 Г -> А (не к консенсусу ТЗ) и в позиции 18543 Т -> А (к консенсусу ТЗ);

6. промотор класса III рЫ9 - в позиции 21863 Т -> А (к консенсусу ТЗ);

7. промотор класса III phi 10 — в позиции 22893 Г-> А (не к консенсусу ТЗ) и в позиции 22902 Т -> А (к консенсусу ТЗ);

8. промотор класса III рЫ 13 — в позиции 27265 С -> Т (от консенсуса Т3)\

9. промотор репликации (phiOR) - в позиции 39218 Г-> А (не к консенсусу ТЗ) и в позиции 39227 Т -> А (к консенсусу ТЗ).

Таким образом, в промоторных областях возникло 13 мутаций (рис. 10, 11), только 7 из которых являются переходом к консенсусному промотору бактериофага ТЗ, а одна из оставшихся 6 - переходом от консенсусного к неконсенсусному. При этом в известной своей консервативности и считающейся важной для различения промоторов полимеразами ТЗ и Т7 позиции -11 от точки старта только одна из 6 мутаций была в сторону консенсуса ТЗ.

Следует отметить, что полученный мутант хорошо рос на нативной полимеразе Т7.

50

Рисунок 7. Восстановление жизнеспособности мутантного фага во время эксперимента (из J.J. Bull et al., 2007, с изменениями)

Время адаптации (ч)

-21.5 -

-22 -

1 —2 —3 —* —Е —6

Рисунок 8. Графики электростатического потенциала вокруг промоторов бактериофага Т7 и его мутанта и бактериофага ТЗ, усредненные по следующим группам:

1. Промоторы бактериофага ТЗ (14 шт.)

2. Промоторы бактериофага Т7, мутировавшие в ходе эксперимента (9 шт.)

3. Промоторы бактериофага Т7, не мутировавшие в ходе эксперимента (7 шт.)

4. Промоторы мутанта Т7, мутировавшие в ходе эксперимента (9 шт.)

5. Промоторы мутанта Т7, не мутировавшие в ходе эксперимента (без phil.3) (6 шт.)

6. Промотор phil.3 мутанта Т7 По вертикали:

Верхняя часть графика - электростатический потенциал в е/А, горизонтальные линии - среднее значение потенциала всего генома исследованных фагов Средняя часть графика - стандартные отклонения для каждой группы, горизонтальные линии - среднее значение для каждого генома исследованных фагов Нижняя часть графика - содержание GC пар в процентах для каждой группы, усреднение в окне по 3 пары вокруг каждой точки По горизонтали:

Расстояние вдоль последовательности 50 п.о. вокруг точки старта (+1, вертикальная линия), в ангстремах

Цвет каждого графика соответствует своей группе.

VI р. л: V-

41.1В »1.5

Clh

-flFlFT

W с ♦]» «i;

МИМ-Ы1 ■ III

EM

Рисунок 9. Диаграмма генома мутантного штамма бактериофага Т7 (из J.J. Bull et al„ 2007).

Элемент Функция Мутация

ins а 1 340

0OL промотор репликации 394 А-С

del 403 Т

0.6В незначимая 1878 A-G Q8IQ

1" РНК полимераза tic 1 3343-5878

Ы5 промотор класса П 7768 А-С

01.6 промотор классаП 7884 G-> А

1.7 незначимая 8335 А-С N57T

о!5 промотор класса П 9105 Т—А

25 1нДНК-связывающий белок 9529 А —С HI24P

35 лизоцим 10736 Т—>С S11P

5 ДНК полимераза 14811 А-С E153D

1 )65 промотор класса Ш 18534 G-A

18543 Т—А

73 инициация инфекции 19632 G — A G33D

8 соединитель головки и хвоста 21749 G-»A G504S

о У промотор класса Ш 21863 Т-А

»10 промотор класса Ш 22893 С. -. А

22902 Т-»А

10В* малый капсидный белок 24088 G-A Е375К*

То* терминатор фаговой РНАП ins 24200 G*

12* белок хвоста 26586 С—Т A582V*

»13 промотор класса Ш 27265 С—Т

13* внутренний белок головки 27706 А-С 1I34L*

14* внутренний коровий белок 27782 G-»A GI9S*

16* внутренний коровый белок 33068 А-С К825Т*

34042 Т-»С Fl 150L*

175* холин 36414 Т-С V24A*

19 терминаза 37715 С-»Т P116S

Ю195 38793 A-»G

ОOR промотор репликации 39218 G->A

39227 Т-» А

Таблица 3. Список всех мутаций исследуемого штамма бактериофага Т7. Позиции нуклеотидов указаны для дикого штамма Т7 (Genbank V01146). Звездочками помечены мутации не строго компенсаторные для взаимодействия с РНАП ТЗ. Также указана начальная делеция гена 1 (РНАП). Вставка ins #1 после позиции 340 составляет ACTACATAAAGACCAGACCTAAAGAC. (из J.J. Bull et al., 2007, с изменениями)

Группа ' -20

Последовательность -10

1 - я

;2 Cattaatacg acrcaetsga

4 tattaaracc. acrcactaaa

{3 aa-caacacg acrcac

Точка старта

t-1 +10 т20

I 1...... I

Aggagagaca 405

Ggagagacaa cttaaagaga 431

UTT

Позиция Название Класс

3 ggctaacacg acrcac-a-a 5 ggccaaracg actcac*ar-a

aagtaaracg actcagta'sa aagtaat-acg acr-agcata

2 tgg-aa-acg ^cccaccaaa

4 tggxaa-acg ccrcaccaaa 2 :rc--aat-acy асссас-£.аа 4 gcct-aataca ac-cactaaa

2 aagcaacacg acccacca^jc

4 aagcaatacg actcaccaa-■3 aa-t;aat.vga actcac^aaa '5 aattaatrja acccactaaa

3 agacaatccg actcac-aaa

5 agacaacccg actcacraaa

2 ttct-aa-acg асгсасгаа.а 5 ^ictaatacg ac-jactaaa

3 at.actat^cg ac-.cact.a-a 5 acacracccg acccacrata ;2 aat-taaiadci acccac'-ajja

4 aatt-aataca actcacraaa 2 a-t-aacacg acccac-rajja 4 atctaacacg actcaccaaa 2 aa-raacarigj aet-cact^Ja ;4 aat-taataca actcacsaaa £ aa-taa-acg ap-cactata 4 aa-raa-acg a~^cac~aca ;3 aaataaracg actcae-ata i5 aaataatacg actcacia^a 2 aa^raaiaqg act-caccajja 4 aa-caacaca a3tcac*;aaa

Saggga

sagg^c

phiOS . early phxl ,1A] early ^ ^

Ggagaac~r aaggCccaac 5S2 3

Ggagaaccc- aagg--caac 3412

-Gggacaa"5gc z-aaggt-cgc 640S

Gggacaatgc г^ааддгедс .3698

Ggagg-acac accatga7.g- 7773

Ggaggcacac acca^gatgt. -2 £7

Ggagacact-a -a-gt.crcga" 7355

Ggagacac-a tatg-ttcga 53S4

Лдддаадас- ccc-ccgaga 3107

AgggaagacP cceicrcgaga 653S

Sggagaccac agcggic.p-cc 111E0'

Gggagaccac agcggrttcc EiSS

Gagagagat- atcgagaacg 12571

Gagagagact; accgagaacg 1C1ED

Ggagacacac cat-gtt-caaa 13341

Ggagacacac catgrrcada 10333

Sgagatat-a cca-.gcg^ga 13515

Ggagatatia ccatgcgtga 114 04

Gggaga-'agg ggc-cic-acg .....IS545

Gggagatagg ggcetccacg 1S034

Gggagacc-c accT.tt.gaaa 213 65

Gggagacccc at:ct-tcgaaa 15=354

Gggagaccac aacggirc'cc ' 22904"

Gggagaccac aacggcttcc 203S3

Gggagaacaa ta-cgaccaog £7274 Gggagaacaa racgactacg Gggagaggcg aaataac-ct,-Gggagaggcg aaat-aatct-t-Gggagaggag ggaccaaacrg Gggagaggag ggacgaaagg

247S4

згоге 3S22? 35713

1 g-С- at.P-а с cctcac7.aaa Gggaacaagg cggacacc^a 383 phi Ob

1 tagcattaac cctcac^aac Gggagact-ac "aaggtctc 5€5S phil.O

1 tacagt.t.aac cct-cact-aac Gggagag-.ta aac-taaggc €-001 phil.l

1 aagtaacaac ccrcaccaac Aggagaat-cc ctaaggtcac 6515 phi1.3

1 gggcat/caac ccpcaccaac Aggagacaca caccatgcgg 7700 phil.5

1 gcctaa-tac cctcaccaaa Gggaacaacc саасссзсса £8 51 phi2.5

1 agtaa~-aac ac-cac^aaa Gggagac--a acg+ccccct 10620 phi3.3

1 actaat-^aac cctcaccaac Gggaacaacc tcaaaccata 12435 phi4.3

1 racaafrtaac cctcaccaaa Gggaagaggg agcccr-a-g 17177 phi«.5

1 acctaactac cctcaccaaa Gggagac"c a-cstt-gaaa 15715 phiS

1 t-rtaatcaac ccceac-aaa Gggagagacc acagatgccc 20750 philO

1 tt-gctfiaac ccrcaccaac Aggaggcaac accargcgcc 22412 chill

1 gcgaaccaac ccccaccaaa Gggagacact aataga-acg 25474 phi 13

1 ctgca-ttaac cct-actaaa Gggagagagg ggacttaaag 3-449 phi OR

phil.15 early

phi1.3 : early

phii.5 class II

's'hil.S class II ■ :

phi2.5 class II phij.S : class II phi4c class II phi4.3 class II phi4.7 class II '.phi?'.'5' ; class III

phis....... class HI

philO.....: class III

phil3- class III "phil7 class III phiCR class III

T3

Рисунок 10. Последовательности промоторов бактериофага Т7 и его мутанта (попарно), и бактериофага ТЗ.

Прямоугольниками выделены мутации, черными - к консенсусу ТЗ

Пт 21

•17 .10 -2 41 «6

Will tiiuialed promoters 5 11 6

pnimok-n} imitation to T3 oiiisctisu:. 1 1 Q 5

Рисунок 11. Логотип промоторов дикого типа бактериофагов Т7 и ТЗ. Величина букв пропорциональна частоте встречаемости данного нуклеотида в обозначенной позиции.

Под ним указано количество мутаций в этой позиции, в верхней строке - общее, в нижней - к консенсусу ТЗ (из J.J. Bull et al., 2007).

Появившиеся в ходе эксперимента мутации в промоторах Т7 не могут быть полностью объяснены переходом к консенсусному по тексту последовательности промотору для РНАП ТЗ, поэтому мы произвели анализ свойств электростатического потенциала вокруг промоторов бактериофага ТЗ, бактериофага Т7 и его мутанта, полученного в ходе эксперимента. Результаты анализа отображены на рис. 8.

Основные отличия электростатических профилей промоторов бактериофага Т7, с одной стороны, и промоторов бактериофага ТЗ, а также мутантного штамма Т7, с другой, находятся в области точки старта. На графике (рис. 8) хорошо видно, что в районе -5 - -15 ангстрем от точки старта, что соответствует примерно -2 - -5 парам оснований, электростатический профиль промоторов бактериофага Т7 значительно выше, чем у ТЗ и мутантного штамма (см. также рис. 5, линии 1 и 2).

Мутировавшая группа промоторов (рис. 8, линия 2) демонстрирует наибольшее отклонение потенциала, вне зависимости от позиции мутации. Показательно, что промоторы, не подвергшиеся мутациям, изначально (рис. 8, линия 3) демонстрировали профиль, близкий к профилю ТЗ, однако они также изменили профиль в сторону соответствия ТЗ, хотя и весьма незначительно (рис. 8, линия 5), несмотря на отсутствие мутаций в самих этих промоторах, что показывает влияние на электростатические свойства последовательности ее окружения.

Особняком стоит не мутировавший ранний промотор phi 1.3 (рис. 8, линия 6). Картина его электростатического профиля изменяется в сторону от общей, что приводит к ухудшению показателей соответствующей группы. Однако следует отметить, что его роль в жизнедеятельности фага, по-видимому, незначительна, так как он расположен в самом конце ранней области генома Т7, как известно находящейся под контролем сильных промоторов бактериальной РНК-полимеразы, и считывающейся

ею в составе одного транскрипта, что допуска« возможность выделения его в отдельную группу.

Принимая во внимание интегральный показатель активности промоторов мутировавшего штамма, выраженный не в их силе непосредственно, а в общем влиянии на жизнеспособность, можно тем не менее сделать вывод, что дифференциальное распознавание промоторов РНК-полимеразой бактериофага ТЗ возможно зависит от характеристик электростатического потенциала в районе -5 - -15 ангстрем от точки старта, что соответствует примерно -2 —5 парам оснований, при этом электростатический потенциал должен быть достаточно высок, в то время как указанные отличия потенциала мало влияют на распознавание промоторов РНК-полимеразой бактериофага Т7, но, по-видимому, играет для нее регуляторную роль.

Выводы

1. Разработана база данных электростатических свойств ДНК природных геномов («DEPPDB» - DNA Electrostatic Potential Properties DataBase), содержащая интегрированные данные о последовательности, биологическую аннотацию, таксономическое положение и электростатические свойства всех полностью секвенироваиных бактериальных и вирусных геномах, а также ряда расчетных случайных и регулярных последовательностей.

2. На основе DEPPDB разработаны инструменты, позволяющие проводить сравнительный, функциональный и эволюционный анализ свойств электростатического потенциала генома и его элементов на уровне как отдельных геномов, так и целых таксономических групп.

3. Обнаружена близкая к линейной зависимость среднего потенциала природных геномов от содержания в них GC пар. Установлено, что величина этой зависимости коррелирует с содержанием GC пар.

4. Изучены закономерности формирования электростатического потенциала вокруг молекулы ДНК. Выявлена сложная зависимость распределения потенциала от состава и организации ее последовательности. Показано влияние окружающих последовательностей на формирование локального потенциала в области рассмотрения.

5. Высказана гипотеза, что в сдвиг распределения природных геномов в АТ-богатую область могли внести вклад большие возможности формирования выраженных электростатических элементов АТ-обогащенными последовательностями по сравнению с GC-обогащенными.

6. Показано различие в масштабах, на которых проявляются закономерности распределения потенциала для промоторов, взаимодействующих с бактериальными и фаговыми полимеразами, что отражает физическую картину взаимодействия ДНК с белком.

7. Показано, что приспособление промоторов бактериофага Т7 к взаимодействию с РНК-полимеразой бактериофага ТЗ сопровождается изменением электростатического потенциала в районе 0 - -5 п.о., приводящим к формированию профиля, идентичного промоторам ТЗ, что свидетельствует о возможной зависимости от него дифференциального распознавание промоторов РНК-полимеразой ТЗ. При этом указанные отличия потенциала мало влияют на распознавание промоторов РНК-полимеразой Т7, но играют для нее регуляторную роль.

Я выражаю глубокую благодарность Светлане Григорьевне Камзоловой за чуткое научное руководство, понимание и всестороннюю поддержку, Анатолию Александровичу Сорокину за саму неоценимую возможность работать над данной темой, а также искреннюю признательность Элеоноре Григорьевне Савельевой за постояшгую помощь в работе, Тимуру Рустемовичу Джслядину за ценные советы при подготовке диссертации и всем моим коллегам за плодотворные дискуссии и критические замечания, а жене, друзьям и детям- за поддержку.

А еще - спасибо моему деду и моей маме - без них ничего бы не было.

Список работ, опубликованных по теме диссертации

публикации в рецензируемых журналах:

1. Osypov A.A., Beskaravainy P.M. Sorokin A.A., Kamzolova S.G. Electrostatic Potential Map of the Whole Genome DNA of T7 Bacteriophage. Electrostatic Properties and Function of its Promoter Regions. J. Biomol. Struct. Dyn, 2007,24(6), p. 714-715

2. Sorokin A.A., Osypov A.A., Kamzolova S.G. Comparative Analysis of Electrostatic and Functional Properties of Some Synthetic A-Tracts Containing Promoters. J. Biomol. Struct. Dyn, 2007, 24(6), p.657-658

3. Камзолова С.Г., Осипов A.A., Бескаравайный П.М., Джелядин Т.Р., Сорокин A.A., Регуляция активности промоторной ДНК через электростатические взаимодействия с РНК-полимеразой. Биофизика, 2007, 52(2), с.228-236.

4. Сорокин A.A., Осипов A.A., Бескаравайный П.М., Камзолова С.Г., Анализ распределения нуклеотидной последовательности и электростатического потенциала генома E.coli. Биофизика, 2007, 52(2), с.223-227.

5. Камзолова С.Г., Бескаравайный П.М., Осипов A.A., Джелядин Т.Р., Сорокин A.A., Сравнительный анализ электростатических и функциональных свойств а70-специфичных промоторов, содержащих олиго dA-последовательности. Вестник биотехнологии им. Овчинникова, 2006, 2(1), с.5-10.

6. Sorokin A.A., Osypov A.A., Dzhelyadin T.R., Beskaravainy P.M., Kamzolova S.G., Electrostatic properties of promoters recognized by E.coli RNA polymerase Ea70 J. Bioinf. Comp. Biol., 2006, vol.4, no.2, p.455-467.

7. Sorokin A.A., Osypov A.A., Beskaravainy P.M., Kamzolova S.G., Oligonucleotide analysis of E.coli promoters recognized by CT70-RNA polymerase., J.Biomol.Struct.Dyn., 2005, v.22(6), p.821.

8. Камзолова С.Г., Сорокин A.A., Осипов A.A., Бескаравайный П.М., Общие закономерности формирования о70-специфичных промоторов в геноме E.coli на основе электростатических характеристик промоторной ДНК, Биофизика, 2005, 50(3), с.444-449.

9. Kamzolova S.G., Sorokin A.A., Dzhelyadin T.R., Beskaravainy P.M., Osypov A.A., Electrostatic potentials of E.coli genome DNA., J.Biomol.Struct.Dyn., 2005, v.23(3), p.341-346.

10. Sorokin A.A., Beskaravainy P.M., Osypov A.A., Kamzolova S.G., Electrostatic map of E.coli genome DNA. Specific features of electrostatic potential of promoter and nonpromoter regions., J.Biomol.Struct.Dyn., 2005, v.22(6), p.791-792.

11. Камзолова С.Г., Сорокин A.A., Осипов A.A., Бескаравайный П.М., Сравнительный анализ электростатических и функциональных свойств промоторов Т7 ДНК, взаимодействующих с РНК-полимеразой Е coli. Вестник биотехнологии и физико-химической биологии им. IO.А.Овчинникова, т.4 №1, стр. 5-13, 2008

12. Камзолова С.Г., Сорокин A.A., Осипов A.A., Бескаравайный П.М., Электростатическая карта генома бактериофага Т7. 1. Сравнительный анализ электростатических свойств ст70-специфических промоторов Т7 ДНК, взаимодействующих с РНК-полимеразой E.coli., Биофизика, 2008, (в печати).

13. Камзолова С.Г., Бескаравайный П.М., Осипов A.A., Сорокин A.A., Электростатическая карта генома бактериофага Т7. 2. Сравнительный анализ электростатических свойств промоторов Т7 ДНК, контролируемых Т7 РНК-полимеразой., Биофизика, 2008, (в печати).

раздел в монографии:

1. Kamzolova S.G., Sorokin А.А., Beskaravainy P.M., Osypov A.A., Comparative analysis of electrostatic patterns for promoter and non promoter DNA in E.coli. In: Bioinformatics of Genome Regulation and Structure II. Eds. N.Kolchanov and Hofestaedt. Springer Science Business Media Inc., 2005, p.67-74.

статьи в научных сборниках и периодических научных изданиях:

1. Kamzolova S.G., Osypov А.А., Dzhelyadin T.R., Beskaravainy P.M., Sorokin Л.Л., Context-Dependent Effccts of Upstream A-Tracts on Promoter Electrostatic Properties and Function, Proceedings of the fifth international conference on bioinformatics of genome regulation and structure, BGRS-2006, Vol.1, p.56-60, 2006.

2. Kamzolova S.G., Sorokin A.A., Dzhelyadin T.R., Beskaravainy P.M., Osypov A.A. Electrostatic properties of E.coli genome DNA. Proceedings of the 4th international conference of bioinformatics of genome regulation and structure BGRS-2004, Vol.1, p. 80-83, 2004.

3. Kamzolova S.G., Sorokin A.A., Dzhelyadin T.R., Osypov A.A., Beskaravainy P.M. Analysis of oligonucleotide composition in DNA of E.coli genome and promoter sites. Proceedings of the 4th international conference of bioinformatics of genome regulation and structure, BGRS-2004, Vol.1, p. 77-79,2004.

публикации в материалах научных мероприятий:

1. Осипов А.А., Бескаравайный П.М., Джелядин Т.Р., Камзолова С.Г., Сорокин А.А., Электростатические свойства промоторов ДНК мутантного штамма бактериофага Т7, приспособившегося к РНК-полимеразе ТЗ. 16 Международная конференция "Математика. Компьютер. Образование", Пущино, 19-24 января 2009 г. Тезисы, вып.16, ч.1, стр.277

2. Бескаравайный П.М., Осипов А.А., Джелядин Т.Р., Камзолова С.Г., Сорокин

А.А., Электростатические свойства промоторов Т7 ДНК, взаимодействующих с РНК-полимеразой E.coli. 16 Международная конференция "Математика. Компьютер. Образование", Пущино, 19-24 января 2009 г. Тезисы, вып.16, ч. 1, стр.233

3. Джелядин Т.Р., Бескаравайный П.М., Осипов А.А., Камзолова С.Г., Сорокин А.А., Сравнительный анализ электростатических и функциональных свойств промоторов Т7 ДНК, контролируемых Т7 РНК-полимеразой. 16 Международная конференция "Математика. Компьютер. Образование", Пущино, 19-24 января 2009 г. Тезисы, вып.16,4.1, стр.241

4. С.Г.Камзолова, А.А.Осипов, П.М.Бескаравайный, А.А.Сорокин, Сравнительный анализ электростатических свойств с70-специфичных промоторов Т7 ДНК, взаимодействующих с РНК-полимеразой E.coli. В сборнике тезисов XIV Симпозиума по межмолекулярному взаимодействию и конформациям молекул. (15-21 июня 2008 г., Челябинск), стр. 141 (Б-43).

5. А.А.Осипов, С.Г.Камзолова, П.М.Бескаравайный, Исследование промоторных областей группы Т7-подобных фагов. В сборнике тезисов XIV Симпозиума по межмолекулярному взаимодействию и конформациям молекул. (15-21 июня 2008 г., Челябинск), стр. 142 (Б-44).

6. А.А.Осипов, С.Г.Камзолова, П.М.Бескаравайный, Анализ электростаических свойств ТЗ ДНК, контролируемых ТЗ РНК-полимеразой и сравнение с Т7 фагом. В сборнике тезисов XIV Симпозиума по межмолекулярному взаимодействию и конформациям молекул. (15-21 июня 2008 г., Челябинск), стр. 143 .

7. Osypov, A. A., Beskaravainy, P. M., Sorokin, A. A., Kamzolova, S. G. DEPPDB -DNA electrostatic potential properties database and its use in functional, comparative and evolutionary genomics, International Conference on Computational Phylogenet-ics and Genosystematics, conference proceedings, p.1-3, 2007

8. Осипов A.A., Бескаравайный П.М., Сорокин A.A, Камзолова С.Г. База данных свойств электростатического потенциала ДНК. 11 Международная Пущинская школа-конференция молодых ученых «Биология наука XXI века», Тезисы, стр. 13, 2007.

9. Бескаравайный П.М., Осипов А.А., Сорокин А.А, Камзолова С.Г Электростатическая карта генома бактериофага Т7.11 Международная Пущинская школа-конференция молодых ученых «Биология наука XXI века», Тезисы, стр.6,2007.

10. Осипов А.А., Панюков В.В. Вычислительный подход к анализу свойств профиля электростатического потенциала ДНК. 11 Международная Пущинская школа-конференция молодых ученых «Биология наука XXI века», Тезисы, стр. 59-60, 2007.

11. Osypov, А. А-, Beskaravainy, P. М., Sorokin, A. A., Kamzolova, S. G. DEPPDB -DNA Electrostatic Potential Properties Database. International Workshop on Integrative Bioinformatics, 4th annual meeting, abstract №249,2007

12. Osypov A.A., Beskaravainy P.M., Kamzolova S.G., Sorokin A.A., DNA Electrostatic Potential Database. Proceedings of the third Moscow Conference on Computational Molecular Biology (MCCMB'07), p.241-243,2007

13. Osypov A. A., Panjukov V. V., Computational approach to the analysis of the properties of electrostatic potential profile of genome DNA. Moscow Conference on Computational Molecular Biology (MCCMB'07), p.243-244, 2007

14. A.A. Сорокин, A.A. Осипов, П.М. Бескаравайный, С.Г. Камзолова, Анализ распределения нуклеотидной последовательности и электростатического потенциала генома E.coli, Тезисы докладов XIII Симпозиума по межмолекулярному взаимодействию и конформациям молекул, с. 177, 2006.

15. С.Г. Камзолова, А.А. Осипов, Г1.М. Бескаравайный, Т.Р. Джелядин, А.А. Сорокин, Регуляция активности промоторной ДНК через электростатические взаимодействия с РНК-полимеразой. Тезисы докладов XIII Симпозиума по межмолекулярному взаимодействию и конформациям молекул, с.66,2006.

16. Sorokin А.А., Osypov А.А., Beskaravainy P.M., Kamzolova S.G., Promoter recognition by electrostatic properties of DNA helix. Proceedings of the International Moscow conference on Computational Molecular Biology, p.379-380, 2005.

17. Sorokin A.A., Dzhelyadin T.R., Osypov A.A., Beskaravainy P.M., Kamzolova S.G., Electrostatic properties of promoters recognized by RNA polymerase Ec70. New promoter determinants. Proceedings of the International Moscow conference on Computational Molecular Biology, p.381-382, 2005.

18. A.A. Сорокин, Т.Р. Джелядин, П.М. Бескаравайный, А.А. Осипов, С.Г. Камзолова. Общие закономерности электростатических взаимодействий промоторной ДНК с РНК-полимеразой E.coli., Тезисы докладов ХП симпозиума по межмолекулярному взаимодействию и конформациям молекул, стр.115,2004.

19. А.А. Сорокин, Т.Р. Джелядин, П.М. Бескаравайный, А.А. Осипов, С.Г. Камзолова. Сравнительный анализ электростатических свойств различных промоторов рибосомальных оперонов Е. coli. Ill съезд биофизиков России. Тезисы докладов, т. II, с. 797-798, 2004.

20. А.А. Сорокин, Т.Р. Джелядин, А.А. Осипов, П.М. Бескаравайный, С.Г. Камзолова. Электростатические свойства нуклеотидной последовательности генома Е. coli. Ill съезд биофизиков России, Тезисы докладов, т. II, с. 798, 2004.

Осипов Александр Александрович

ЭЛЕКТРОСТАТИЧЕСКИЕ СВОЙСТВА ГЕНОМНОЙ ДНК

Электростатические свойства геномной ДНК влияют на ее взаимодействие с различными белками, в частности, могут принимать участие в регуляции транскрипции РНК-полимеразами. Была создана база данных электростатических свойств ДНК всех полных секвенированных геномов прокариот и вирусов DEPPDB, с биологической аннотацией их элементов, и инструменты анализа этих данных.

Сравнения электростатических свойств полных геномов выявило близкую к линейной зависимость их среднего потенциала от содержания GC пар. Были рассчитаны ее параметры для разных таксономических групп. Установлено, что величина этой зависимости коррелирует с содержанием GC пар.

Изучены закономерности формирования электростатического потенциала ДНК. Выявлена сложная зависимость распределения потенциала от состава и организации ее последовательности. Показано влияние флангоз на локальный потенциал.

Высказана гипотеза, что в сдвиг распределения природных геномов в АТ-богатую область могла внести вклад большая гибкость формирования электростатических элементов АТ-обогащенными последовательностями.

Показано различие в масштабах электростатических элементов промоторов бактериальных и фаговых полимераз, что отражает физические свойства этих белков.

Показано, что приспособление промоторов бактериофага Т7 к РНК-полимеразе ТЗ сдвигает электростатический потенциала в районе 0 - -5 п.о. в сторону ТЗ, что свидетельствует о возможной зависимости от него дифференциального распознавание промоторов РНК-полимеразой ТЗ.

Osypov Alexander Alexandrovich ELECTROSTATIC PROPERTIES OF GENOME DNA

Electrostatic properties of genome DNA influence its interactions with different proteins, in particular transcription regulation by RNA-polymerases. We developed DNA Electrostatic Potential Properties Database, DEPPDB, of all complete genomes of procaryotes and viruses, with biological annotations of their elements, and analytical tools.

Electrostatic properties of all available natural genomes were compared that revealed close to linear dependence of the genome mean potential on the GC content and the correlation of the dependence strength with the GC content. DNA electrostatic potential formation principles were studied and its complicated dependence on the composition and structure of the sequence was revealed. The flanking regions influence on the local potential is shown.

We hypothesize the possibility of the AT-rich sequences flexibility in the electrostatic potential formation contribution to the distribution shift of the natural genomes to AT-richness.

The scale difference of the electrostatic potential elements of the promoters for bacterial and viral RNA-polymerases was shown that reflects physical properties of the proteins.

Also was shown that T7 bacteriophage with its RNA polymerase deleted and supplied in trans by T3 one, evolved its promoters so that their electrostatic profiles moved to that of T3 in 0 - -5 .b.p. region, suggesting its possible role in their differential recognition.

Подписано в печать: 18.02.2009

Заказ № 1605 Тираж -100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru

Содержание диссертации, кандидата биологических наук, Осипов, Александр Александрович

Содержание.

Введение.

Актуальность проблемы.

Цель и задачи исследования.

Обзор литературы.

Ыовьте подходы в изучении механизмов узнавания промоторной ДНК РНК-полимеразой

E.coli ГЕст7(П. функциональная значимость тгуклеотидной последовательности промоторной ДНК.

Канонические гексануклеотиды в-10 и -35 областях промоторной ДНК.

Спейсерный участок промоторной ДНК.

Динуклеотид TG — характеристический сигнальный элемент промоторов «extended—

UP—элемент промоторной ДИК.

Роль физико-химических свойств промоторной ДНК в функциональной активности промоторов.

Легкоплавкие участки в промоторной ДНК.

Формирование устойчивого изгиба в промоторной ДНК.

Электростатические свойства промоторной ДНК.

Материалы и методы.

Нуклеотидные последовательности и элементы геномов и их аннотации.

Таксономический раздел.

Генерация случайных и регулярных последовательностей ДНК.

Расчет электростатических свойств ДНК.

Программное обеспечение СУБД, публикации данных и инструментов обработки и анализа.

Хранение данных.

Доступ к данным и инструменты анализа: веб-публикапия.

Представление данных в работе.

Результаты и обсуждение.

Глава 1. База данных свойств электростатического потенциала геномной ДНК DEPPDB

Общее описание данных.

Общая характеристика генома.

Элементы генома.

Таксономия.

Пользовательский интерфейс.

Стандартные элементы интерфейса.

Главная страница.

Таксономический раздел.

Раздел описания геномов.

Инструменты анализа данных.

Инструмент визуализации и анализа множественных электростатических профилей

Инструмент визуализации электростатических профилей (Упрощенный вариант). 38 Инструмент визуализации и анализа отношений среднего потенциала генома к содержанию GC пар для множественных геномов.

Основная статистика.

Глава 2. Зависимость электростатических свойств последовательности ДНК от ее состава.

Случайные последовательности ДНК.

Регулярные последовательности ДИК.

ДНК природных геномов.

Электростатический потенциал пар А. Т. й и С.

Зависимость от контекста в природных геномах и случайных последовательностях.

Глава 3. Особенности электростатических свойств промоторов ряда Т7-подобных фагов и рибосомальных промоторов Е.соН.

Ранние промоторы Т7-подобных фагов и рибосомальные промоторы Е.соН.

Промоторы Т7-подобных фагов, взаимодействующие с фаговой РНК-полимеразой.

Общая характеристика ЭП промоторов фагов Т7. ТЗ. рЫУеОЗ-12 и УР4.

Промоторы мутантного штамма бактериофага Т7. приспособленного к РНК-полимеразе бактериофага ТЗ.

Введение Диссертация по биологии, на тему "Электростатические свойства геномной ДНК"

Актуальность проблемы На данный момент существует дисбаланс между большим и постоянно растущим количеством секвенированных геномов и недостатком их биологического описания. Невозможность эффективного биохимического и генетического изучения такого количества геномов, лишь отчасти компенсируемая современными высокопроизводительными методами исследований, диктует необходимость развития методов анализа и интерпретации текстов первичной последовательности ДНК. Одним из направлений такого анализа является предсказание функций по первичной структуре специфических участков ДНК. Было разработано много инструментов, основанных на текстовом анализе последовательности ДНК, для предсказания некоторых ключевых свойств, таких как распределение и функции открытых рамок считывания, промоторов и других регуляторных элементов.Однако, несмотря на накопленную информацию о структуре последовательностей, до сих пор представляется затруднительным выделить исключительно на ее основе регуляторные элементы, такие как промоторы, или предсказать их функциональные характеристики. Множество алгоритмов поиска промоторов, основанных на текстовом анализе последовательностей, неудовлетворительно справляются с этой задачей.Известно, что дополнительная информация для распознавания и модуляции активности промоторов может заключаться в физических свойствах ДНК, таких как общая геометрия двойной спирали, ее деформируемость, температурная стабильность и динамические свойства. В нашей лаборатории был предложен новый подход к этой проблеме на основе анализа электростатических свойств промоторной ДНК [147, 152], для чего был разработан упрощенный метод вычисления распределения электростатического потенциала вокруг молекул ДНК величиной до целых геномов [146]. С его помощью были проведены исследования электростатических свойств некоторых геномов, которые показали важность электростатических взаимодействий промоторной ДНК и РНК-полимеразы для регуляции функций промоторов.Электростатические свойства промоторной ДНК характеризуются выраженными паттернами, специфичными для различных групп промоторов, которые могут играть роль сигнальных элементов в дифференциальном распознавании соответствующих промоторов РНК-полимеразой.Другим важным результатом было открытие нелинейной зависимости профиля потенциала от последовательности ДНК, означающей, что данное свойство обусловлено всей последовательностью целиком, в том числе фланкирующими регионами, нежели ее текстом в непосредственной точке рассмотрения, и для некоторых систем было показано, что биохимические свойства промоторов имеют гораздо лучшую корреляцию с их электростатикой, чем с текстом последовательностей.Таким образом, электростатические свойства геномной ДНК весьма важны для ее биологических функций, и информация о них имеет большое значение для функциональной, сравнительной и эволюционной геномики, будучи представлена для значительного количества геномов, особенно интегрированной с возможно более полной аннотацией уже известных для них биохимических функций.Цель и задачи исследования В соответствии с обозначенной проблемой были установлены следующие цели: 1. создать инструмент, предоставляющий доступ к биологическим и электростатическим свойствам ДНК, и набор инструментов для анализа этих свойств 2. исследовать закономерности формирования электростатических свойств ДНК и общие электростатические свойства природных геномов 3. исследовать электростатические свойства промоторной ДНК Т7-подоб-ных бактериофагов Для достижения этих целей были сформулированы конкретные задачи: 1. разработать базу данных, содержащую последовательности геномов с биологической аннотацией и систематическим положением, и их электростатические свойства 2. разработать инструменты для визуализации электростатических свойств последовательностей геномов, сопоставления с аннотацией, проведения анализа и представления результатов 3. оценить взаимосвязь нуклеотидного состава последовательности ДНК и ее электростатических свойств и влияние на них окружения последовательности 4. провести исследование общих электростатических свойств природных геномов 5. провести исследование связи биологической функции и электростатических свойств последовательности на примере промоторов TV-подобных бактериофагов, взаимодействующих с РНК-полимеразой бактерии-хозяина и с нативной фаговой РНК-полимеразой 6. провести исследование роли электростатических свойств в дифференциальном распознавании промоторов РНК-полимеразами фагов Т7 и ТЗ на примере описанного в литературе эксперимента с мутантом Т7, приспособившимся к росту на РНК-полимеразе фага ТЗ Обзор литературы Новые подходы в изучении механизмов узнавания про-моторной ДНК РНК-полимеразой E.coli (Ео70) Избирательное использование генетического потенциала, адекватное моменту времени и условиям внешней среды, лежит в основе жизнедеятельности любой клетки. Регуляция экспрессии клеточной генома осуществляется на всех этапах синтеза макромолекул, однако в случае прокариот основные регуляторные механизмы действуют на стадии дифференцированной транскрипции разных генов [1]. Бактериальные клетки используют для этой цели сложную сеть различных систем индивидуального контроля эффективности синтеза РНК с определенных генов или оперонов и системами глобального переключения спектра синтезируемых в клетке мРНК вместе с системами координированной регуляции эффективности транскрибируемых генов.Несмотря на многообразие регуляторных систем и различие в молекулярных механизмах их действия, общим для них является то, что в конечном итоге все они оказывают влияние на характер взаимодействия РНК-полимеразы с промоторной ДНК на конкретных промоторах. Поэтому понятен многолетний интерес исследователей к выяснению принципов кодирования промотор-но-полимеразного узнавания и механизмов их реализации в процессах специфического комплексообразования РНК-полимеразы с промоторной ДНК для конкретных промоторов.Согласно современным оценкам, количество промоторов, с которыми in vitro взаимодействует РНК-полимераза E.coli (Еа70), составляет более 3000, включая промоторы геномов E.coli и родственных колифагов. В настоящее время из них выделено и охарактеризовано более 400 промоторов [2].Отличительной особенностью охарактеризованных промоторов является большая вариабельность их нуклеотидных последовательностей. Таким образом, наиболее необычным свойством РНК-полимеразы E.coli (Ес70) является ее способность к узнаванию многочисленных сильно варьирующих по структуре промоторных участков. Эта особенность РНК-полимеразы (Ео70) отличает ее как от других сайт-специфических ДНК-связывающих белков, таких как рестриктазы, белки-активаторы, репрессоры и др., так и от некоторых просто организованных РНК-полимераз, таких как фаговые РНК-полимеразы. Возможность узнавания разнообразных промоторов одним и тем же белком — РНК-полимеразой (Еа70) — указывает на сложность механизмов, вовлеченных в процесс белково-нуклеинового узнавания в этом случае. Можно предположить, что не только нуклеотидная последовательность, но и физико-химические характеристики промоторной ДНК, задаваемые этой последовательностью, вносят вклад в обеспечение специфичности взаимодействия РНК-полимеразы с разными промоторами.Выяснению роли нуклеотидной последовательности промоторной ДНК в промоторно-полимеразном узнавании посвящено большое количество исследований, проводимых в течение более 30 лет, и несколько обзоров, написанных в разные годы [3-19]. Также имеется множество работ, связанных с изучением некоторых физико-химических свойств ДНК и особенностей ее геометрии [13, 55, 80, 96-145] и их влияния на функциональную активность промоторов, в том числе — роль электростатических характеристик промоторной ДНК в обеспечении дифференцированного кодирования промоторных свойств [20-25, 146-152].Функциональная значимость нуклеотидной последовательности промоторной ДНК Канонические гексануклеотиды в-10 и -35 областях промоторной ДНК При специфическом взаимодействии с промотором РНК-полимераза образует контакты одновременно с -35 и -10 областями промоторной ДНК [26-33]. В этих областях при статистической обработке нуклеотидных последовательностей всех известных промоторов было выявлено два консенсусных гексануклеотида TTGACA и ТАТААТ, расположенных на расстоянии 35 и 10 оснований от стартовой точки транскрипции [2]. Последовательность реальных промоторов, однако, сильно варьирует даже в этих консенсусных областях, большинство индивидуальных промоторов (80%) содержит только 6-8 канонических нуклеотидов из 12. Степень консервативности отдельных нуклеотидов -10 и -35 областей и их функциональная значимость различаются для 12 консенсусных нуклеотидов [2, 11]. Наиболее консервативными в -12-ТАТААТ-7 блоке являются Т-12, Т-7 и А-11, а наименее консервативными Т-10 и А8. Для -35-TTGACA-30 блока наиболее часто встречается Т-34, а наименее консервативны С-31 и А-30.Анализ нескольких сотен генетических мутаций, оказывающих влияние на активность промоторов, выполненный на нескольких десятках разных промоторов во многих лабораториях, несомненно подтверждает функциональную значимость консенсусных гексануклеотидов [9, 11, 15, 19, 34-35].Для многих промоторов было показано, что мутации, приближающие последовательность -10 и -35 гексануклеотидов к их консенсусу, приводят к усилению мутантного промотора и, наоборот, мутации, которые вызывают уменьшение промоторной силы, как правило, удаляют нуклеотидную последовательность промоторов от канонической [10, 11, 19, 40]. Однако известно немало примеров отклонения от этого правила [8, 11, 41-43]. Например, замена канонического А-32 на неканонический G в TTGACA блоке оказывает акти-ваторное действие для промоторов araBAD [41] и lacUV [11]. Для промоторов А.Р2 [8], 1рр [42] и lacPl [43] мутации, приводящие к формированию канонических гексануклеотидов, не оказывали максимального стимулирующего эффекта на промоторную функцию, и некоторые мутантные варианты этих промоторов, содержащие 1 или 2 неканонические пары, были более активны, чем их консенсусные аналоги. Интересно отметить, что «неправильное» поведение в большинстве случаев наблюдалось у менее консервативных канонических нуклеотидов. С некоторой осторожностью, по-видимому, можно заключить, что наиболее функционально значимыми являются высококонсервативные канонические Т-12, А-11 и Т-7 нуклеотиды в -10 блоке и Т-34 в -35 блоке; замена их на неканонические нуклеотиды приводила к существенному ингибированию активности многих промоторов [11].В настоящее время известно, что две канонические области промоторной ДНК узнаются двумя разными доменами а-субъединицы РНК-полимера-зы [26-33]. Во взаимодействии с -10 блоком участвует домен 2.4 [27-29, 32, 33]. Имеющиеся данные указывают на то, что с этим доменом взаимодействуют наиболее консервативные нуклеотиды -10 блока Т-12 и А7, а со стороны белка в формирование специфических связей с функциональными группами канонических нуклеотидов вовлечены Gin 437 и Thr 440 [27-29], входящие в состав а-спирали 2.4 домена [44]. Во взаимодействии с -35 каноническим элементом участвует домен 4.2 а-субъединицы, содержащий классический для комплексообразования с ДНК мотив «спираль-поворот-спираль» [26, 30, 31, 33]. Из 20 аминокислот, образующих данный мотив (ак 570-590), существенными для узнавания канонических нуклеотидов этого промоторного участка являются Arg 584 и Arg 588.Спейсерный участок промоторной ДНК Поскольку положение доменов 2.4 и 4.2 в а-субъединице нативной РНК-полимеразы фиксировано, следует ожидать, что и взаимное положение двух консенсусных блоков, с которыми взаимодействуют эти домены, должно быть также достаточно сильно детерминировано. Действительно, для 80% промоторов длина спеисерного участка, находящегося между консенсусными гексануклеотидами, составляет 16-18 нуклеотидных пар, при этом оптимальной для активности промотора является длина 17 п.о. Мутации, изменяющие длину спейсера до 17 п.о, как правило, увеличивают активность промотора, а любые отклонения от этого значения ослабляют промотор [45, 46]. Более того, при неидеальной длине спейсера в его нуклеотидной последовательности обнаруживаются некоторые закономерности, не наблюдающиеся в спей-серных участках длиной 17 п.о. [47]. В частности, при длине спейсера менее 17 п.о в области, примыкающей к - 35 гексамеру, преобладают пурин-пури-новые и пиримидин-пиримидиновые гомодинуклеотиды, а в более длинных спейсерах в этой области преобладают пурин-пиримидиновые гетеродину-клеотиды [47]. Назначение этих особенностей в структурной организации спеисерного участка состоит в том, чтобы компенсировать неблагоприятную разницу в относительном расположении канонических блоков при неидеальной длине спейсера за счет изменения конформационной подвижности спейсерной ДНК, обусловленной её физическими свойствами, такими как торсионная жесткость, гибкость или способность к образованию кинков, которые отличаются у разных динуклиотидов [47-50]. Считается, что спейсерная ДНК не образует прямых контактов с РНК-полимеразой и не содержит никаких характеристических нуклеотидов, существенных для промоторной активности (исключение составляет особая группа промоторов, которая будет рассмотрена ниже). Важными для функциональной активности промоторов являются длина спейсерной ДНК и её физические свойства, определяющие подвижность спеисерного участка. Основная роль спейсера заключается в правильной ориентации —10 и —35 консенсусных областей, чтобы их канонические нуклеотиды в комплексе с РНК-полимеразой могли образовать специфический набор контактов с основными функциональными группами аминокислот двух активных участков промоторсвязывающего центра фермента.Таким образом, канонические нуклеотиды промоторной ДНК и их фиксированное взаимное расположение являются важными промоторными детерминантами. Они были первыми сигнальными элементами, обнаруженными в промоторах, и в течение многих лет считались единственными функционально значимыми компонентами промоторной ДНК. Это привело к формированию концепции универсального кодирования полимеразного узнавания для всех промоторов. Согласно концепции универсального кода предполагалось, что существует корреляция между активностью промоторов и их структурной близостью к каноническим элементам [11, 14, 16]. При этом многочисленные усилия исследователей были направлены на выяснение вклада каждого из канонических нуклеотидов и их неканонических замен в промоторную силу [9, 11, 15, 16].Однако по мере исследования всё большего числа промоторов появлялись факты, не согласующиеся с концепцией универсального кода: 1) было показано, что по сравнению со многими нативными промоторами консенсус-ный промотор не является максимально активным [51, 52]; 2) для ряда промоторов не наблюдалось прямой корреляции между активностью и соответствием структуры их гомологичных областей консенсусному промотору [11, 52-54]; 3) было показано, что функционально значимые участки различались у разных промоторов и их групп [55-61]; 4) были обнаружены промоторы, у которых отсутствовали или были крайне слабо выражены консенсусные гек-сануклеотиды [62, 63]; 5) были найдены новые активные сайты в а- и а-субъ-единицах РНК-полимеразы, которые участвовали в образовании контактов с нуклеотидами промоторной ДНК, не входящими в состав —10 и —35 консен-сусных областей [58, 64].Все эти данные свидетельствуют о том, что промоторная ДНК должна содержать какие-то дополнительные сигнальные элементы, которые, возможно, присутствуют не во всех промоторах. Это привело к формулированию новой концепции, основанной на принципе дифференцированного кодирования промоторно-полимеразного узнавания для разных групп промоторов.Принцип дифференцированного кодирования предполагает, с одной стороны, существование альтернативных сигнальных элементов у разных промоторов и их групп, а с другой стороны — возможность формирования в РНК-полимеразах альтернативных промоторсвязывающих центров, содержащих разные наборы активных доменов [5, 51, 53, 56, 58, 63-66].Ряд литературных данных подтверждает оба эти предположения. В настоящее время в промоторной ДНК найдены новые функционально значимые участки, нуклеотиды которых способны формировать дополнительные связи с РНК-полимеразой при взаимодействии фермента с некоторыми определенными группами промоторов.Динуклеотид TG - характеристический сигнальный элемент промоторов «extended-10» Одним из примеров неканонических нуклеотидов промоторной ДНК, которые важны для функционирования целой группы промоторов, является динуклеотид TG (Т—15, G-14), расположенный в спейсерной области через один нуклеотид от -10 канонического блока [64]. Функциональная значимость этого динуклеотида была обнаружена у промоторов (10), которые имели низкую степень гомологии с каноническими нуклеотидами в -35 области или вообще не содержали этого сигнального элемента [53, 54, 60, 62, 63].Несмотря на отсутствие -35 промоторной детерминанты, все эти промоторы были достаточно активны. Биохимический и генетический анализ выявил несколько необычных структурных и функциональных особенностей этих промоторов [53, 54, 56, 60, 63, 67-69]. Все они имели достаточно высокую степень гомологии с каноническим элементом в -10 области, рядом с которой в строго фиксированном положении находилась дополнительная консервативная последовательность TGN. Таким образом, эта группа промоторов характеризуется протяженной консенсусной последовательностью TGNTATAAT в -10 области («extended-10»).Замена TG динуклеотида на любые другие сочетания нуклеотидов имела явно выраженный ингибиторный эффект на промоторную активность, что указывает на функциональную значимость этого элемента. Об этом свидетельствует также анализ структуры комплексов РНК-полимеразы с промоторами этой группы. Было найдено, что фермент образует прямые контакты с основаниями TG динуклеотидов [63, 64, 70]. Участок РНК-полимеразы, контактирующий с этим динуклеотидом, расположен в домене 2.5 с-субъедини-цы и отличается от участков, взаимодействующих с —10 и —35 промоторными элементами [64, 70]. Во взаимодействии с данным промоторным элементом, вероятно, принимает участие глутаминовая кислота, расположенная в 458 положении 2.5 домена [70]. Замена этой аминокислоты на глицин влияет на активность промоторов «extended-10» и способна компенсировать ингибитор-ный эффект мутационных замен гуанинового компонента динуклеотида (TG ->ТТ или TG^TC).Таким образом, TG динуклеотид, расположенный в спейсерной области через 1 нуклеотид от-10 блока, является новой промоторспецифичной детер-минантой промоторной ДНК, для узнавания которой в РНК-полимеразе есть специальный активный сайт.Интересно отметить, что введение в область —35 одного из «extended— 10» промоторов (galPl) последовательности, близкой к канонической, приводило к образованию контактов РНК-полимеразы с этой промоторной детер-минантой, не влияя при этом на взаимодействие фермента с TG динуклеоти-дом [59]. Таким образом, два этих сигнальных элемента промоторной ДНК являются независимыми промоторными детерминантами, которые могут использоваться ферментом по отдельности или аддитивно в зависимости от их наличия в структуре промотора. UP-элемент промоторной ДНК Почти через 20 лет после выявления функциональной роли а-субъединицы как фактора, отвечающего за специфичность взаимодействия РНК-полимеразы с промоторной ДНК, и обнаружения канонических —10 и —35 элементов и неканонического TG динуклеотида, узнаваемых этой субъединицей, было найдено, что в прямом взаимодействии с некоторыми промоторами участвует также а-субъединица [58]. Показано, что это взаимодействие осуществляется с «upstream» областью промоторной ДНК, расположенной левее —35 элемента (район -35 60), вследствие чего участок получил название UP- элемента [58, 71, 72]. Типичным представителем промоторов этой группы является промотор rrnBPl, контролирующий синтез рибосомальных РНК [58]. Делеция участка промоторной ДНК, содержащей последовательности — 36 — 5 8 , приводила к 30-кратному ингибированию активности rrnBPl [58]. С другой стороны, при сохранении интактной структуры rrnBPl, аналогичное ингибирование его активности вызывало использование мутантной РНК-полимеразы, содержащей делецию С-концевого домена в а-субъединице [58].Таким образом, высокая активность рибосомальных промоторов, которые являются одними из наиболее сильных в геноме E.coli, обеспечивается в значительной степени за счет взаимодействия С-концевого домена а-субъединицы (а CTD) с UP-элементом промоторной ДНК. К настоящему времени этот тип промоторно-полимеразного взаимодействия обнаружен и изучен для 10 промоторов [52, 72]. UP—элементы могут функционировать независимо от других сигнальных элементов промоторов, стимулируя транскрипцию с оли-гонуклеотидов, содержащих неспаренный участок, в отсутствие а-субъеди-ницы [75].Трехмерная структура С-концевого домена а-субъединицы установлена [74, 75], и найдены аминокислоты, участвующие в узнавании UP-элементов промоторной ДНК [75, 76]. Семь аминокислот в a CTD являются наиболее критичными для взаимодействия с ДНК и функционирования UP-элемента: Leu262, Arg265, Asp268, Cys269, Gly296, Lys298, Ser299 [75, 77]. Замена любой из этих аминокислот на аланин приводила к существенному ингибирова-нию активности rrnBPl промотора [75]. Пространственное расположение этих аминокислот формирует узкую, слегка удлиненную компактную площадку, удобную для взаимодействия как с короткими, так и с достаточно протяженными участками ДНК [74]. Важной структурной особенностью а CTD является то, что в белковую глобулу он встроен с помощью другого домена а-субъединицы а NTD, с которым соединяется через гибкий линкер величиной в 15 аминокислот [74]. Это позволяет варьировать положение a CTD в upstream области ДНК промоторно-полимеразного комплекса в достаточно широких пределах (до 44 А).В последние годы были предприняты попытки определить конкретные функционально значимые нуклеотиды UP-элементов, взаимодействующие с контактной площадкой a CTD [77, 78]. Трудность состояла в том, что промоторы, во взаимодействии с которыми участвует a CTD, не проявляют никакой гомологии в нуклеотидной последовательности промоторной ДНК в «upstream» области [58]. Единственной общей структурной особенностью всех известных UP-элементов является обогащённость их АТ-парами.При исследовании синтетических промоторов, полученных методом случайного мутагенеза «upstream» области rrnBPl, оказалось, что существует множество активирующих последовательностей (> 30), большинство из кото-рык являются более активными, чем UP—элемент естественного промотора [78]. Анализ этих последовательностей выявил консенсус —59-(А/Т)—38, который был предложен авторами в качестве консенсусного UP—элемента [77, 78]. По мнению авторов, консенсусный UP—элемент состоит из двух участков, каждый из которых взаимодействует с одной из двух а-субъединиц нативной РНК-полимеразы. Первый участок (- 46 - - 38) содержит консерва-тивный олиго А — трек (- 44—41, АААА); второй участок (-59 - - 46) содержит 11-членный блок, состоящий исключительно из AT (ТА) пар: —57-ААА(АЯ) (А/Т)Т(А/Т)ТТТТ-47.Следует, однако, отметить, что из 10 известных к настоящему времени естественных UP- промоторов только rrnBPl и rrnDPl имели в upstream области относительно высокую степень гомологии с UP—элементом, описанным как консенсусный [58, 77, 78]. Остальные UP—элементы не проявляли текстуальной гомологии ни между собой , ни с консенсусной последовательностью. Это означает, что функционально значимая площадка а-субъедини-цы может взаимодействовать с разными нуклеотидными последовательностями. Это заставило исследователей рассмотреть возможность, что в роли сигнальных элементов различающихся UP-последовательностей могут быть какие-то их общие физические свойства или сходные особенности пространственной структуры (гибкость двойной спирали, наличие изломов, локальные термодинамические параметры и т.д.).Эксперименты по депуринизации оснований, входящих в состав UP— элементов, показали, что увеличение гибкости ДНК за счет удаления некоторых оснований приводит к увеличению активности соответствующих промоторов, причем контакты а-субъединицы с UP-элементом при этом сохраняются [79]. Таким образом, локальная подвижность ДНК UP-элемента может быть одним из факторов, существенных для взаимодействия с а-субъедини-цей.Наличие олигоадениновых-олиготимидиновых треков в составе U P элементов может способствовать формированию устойчивого изгиба оси двойной спирали, который, как будет рассмотрено дальше, считается важным элементом промоторно-полимеразного узнавания [80, 81]. Кроме того, такие треки характеризуются относительно узкой малой бороздкой, с которой, по-видимому, связывается a CTD [58, 77, 78]. Известно, что от ширины малой бороздки зависит гидратация её оснований [82], которая играет важную роль в узнавании нуклеотидных последовательностей ДНК-связывающими белками. Возможно, что эта особенность малой борозды олигоА- олигоТ треков или еще какие-то необычные свойства двойной спирали этих участков U P -последовательностей также являются сигнальными элементами, узнаваемыми a CTD [77, 78].Таким образом, по крайней мере несколько физических факторов, возможно участвуют во взаимодействии UP-элементов с a CTD. Однако все они не могут объяснить исключительной прочности связей, формируемых a CTD с промоторной ДНК, на что указывает высокая стабильность комплексов UP— содержащих промоторов с а-субъединицей, находящейся как в составе на-тивной РНК-полимеразы, так и в индивидуальной форме [77, 83, 87]. Очевидно, что важным элементом этих комплексов является взаимодействие а-субъ-единицы с некоторой последовательностью нуклеотидов, функциональные группы которых образуют контакты с боковыми цепями аминокислот, однако, конкретные молекулярные механизмы такого взаимодействия пока неизвестны. Учитывая отсутствие гомологии в нуклеотидных последовательностях UP—элементов, вступающих в контакт с а-субъединицей, можно предположить дифференцированный характер её взаимодействия с альтернативными наборами функционально значимых оснований для различных UP—содержащих промоторов. Здесь нужно отметить, что большой размер UP—элементов и их повышенная локальная подвижность с одной стороны, а с другой стороны, большое число различных реакционноспособных аминокислот, входящих в состав активного центра а-субъединицы, и её способность варьировать расположение a CTD на промоторной ДНК в широких пределах, являются хорошей основой для формирования разнообразных альтернативных взаимодействий РНК-полимеразы с различными UP—содержащими промоторами.Таким образом, в промоторной ДНК к настоящему времени найдено 4 сигнальных элемента, нуклеотидная последовательность которых узнается специальными активными участками РНК-полимеразы: -10 и -35 канонические гексануклеотиды считаются универсальными промоторными детерминантами, присущими в той или иной степени большинству промоторов; неканонические TG динуклеотид и UP-элемент являются специфическими промоторными детерминантами, характерными для отдельных промоторных групп.Было высказано предположение, что слабая выраженность канонических -10 и -35 гексамеров в промоторной ДНК может быть скомпенсирована присутствием альтернативных сигнальных элементов, специфических для соответствующих промоторов. Предполагается, что кроме двух уже обнару-женных неканонических промоторных детерминант, существуют и другие, пока еще неизвестные.Статистическая обработка нуклеотидных последовательностей всех известных промоторов с использованием математических методов, таких как Фурье-анализ, кластерный анализ, метод нейронных сетей и др., выявила возможность классификации промоторов — разделения их на группы, отличающиеся друг от друга консенсусными участками, и обнаружила большое количество новых неканонических последовательностей с преобладающим содержанием их в промоторной ДНК отдельных промоторных групп [85-88]. Кроме того, разделение общей промоторной подборки на функционально однородные группы в соответствии со специально подобранными признаками привело к обнаружению дополнительных неканонических элементов, характерных для этих групп [89-92].Таким образом, к настоящему времени известна большая серия неканонических консенсусных последовательностей, выявленных в различных промоторных группах. Однако остаётся неизвестным, являются ли эти последовательности (или какие-то из них) сигнальными элементами промоторной ДНК, участвующими во взаимодействии с РНК-полимеразой. В литературе нет никаких биохимических или генетических данных, подтверждающих их функциональную значимость. Повышенная частота их присутствия в определенных местах промоторной ДНК тех или иных промоторных групп, косвенно может свидетельствовать об их функциональной значимости. Однако при этом нужно учитывать зависимость полученных результатов от способа деления промоторов на группы. При использовании одной и той же исходной подборки промоторов результаты их классификационного анализа сильно отличались у разных авторов и зависели от используемых методов [85-91]. В разных работах одни и те же промоторы оказались в разных группах, отличающихся своими неканоническими консенсусными последовательностями.Неоднозначность в отнесении индивидуальных промоторов к классам затрудняет выбор предполагаемых характеристических неканонических последовательностей для конкретных промоторов с целью дальнейшей экспериментальной проверки их в качестве возможных промоторных детерминант, чем, вероятно, и объясняется отсутствие таких исследований в литературе.Ранее нами был проведен анализ нуклеотидной последовательности полного генома Е. coli на содержание всех возможных пента—, гекса— и гепта-нуклеотидов в промоторах и целом геноме [151]. Оказалось, что олигоиу-клиотидный состав промоторных областей E.coli значительно отличается от состава как хромосомы в целом, так и её кодирующих участков. Так, например, около 500 различных гексануклеотидов (25 % от их полного набора) встречается в промоторах в два раза чаще, чем в целом по хромосоме. Совершенно очевидно, что этот набор является излишним с точки зрения функциональной значимости всех выявленных олигонуклеотидов в качестве возможных олигонуклеотидспецифичных детерминант. Интересно, что канонические гексануклеотиды -10 и -35 блоков промоторной ДНК не стоят первыми в этом списке. Ясно, что в этом списке могут оказаться элементы, чья функциональная роль основана на физических свойствах, задаваемых последовательностями (легкоплавкость, изгибность, величина электростатического потенциала и др.).Роль физико-химических свойств промоторной ДНК в функциональной активности промоторов Знание нуклеотидной последовательности нескольких сотен промоторов, учет всех канонических и неканонических нуклеотидных детерминант промоторной ДНК не привели к разработке эффективного алгоритма корректной идентификации известных и поиска новых промоторов в нуклеотидной последовательности ДНК генома. А все попытки сформулировать общие правила, связывающие нуклеотидную последовательность промотора с его функциональными характеристиками, такими как «промоторная сила» или температура образования открытого промоторного комплекса, оказались безуспешными. Стало очевидным, что не только первичная структура промоторов ответственна за их взаимодействие с РНК-полимеразой.Наиболее наглядно это было продемонстрировано на примере промоторов «ранних генов» ДНК фага Т4. Расшифровка нуклеотидной последовательности более 30 промоторов «ранних генов» Т4 показала, что все они обладают высокой степенью гомологии на протяженных участках и могут быть разбиты на 4 группы с коэффициентом подобия внутри группы > 75 % [92].Однако было показано, что промоторы, относящиеся к одной и той же группе по нуклеотидной последовательности, отличались по функциональному поведению: по своей силе [93], а также по ответу на АДФ-рибозилирование а-субъединицы [94] и мутационные изменения Р-субъединицы гроЕИОЗ и rpoB409 [5, 95]. В то же время промоторы фага Т4, более далекие по нуклео-тидной последовательности, обладают сходными функциональными характеристиками. Эти данные свидетельствуют о том, что какие-то другие детерминанты, помимо первичной структуры промоторов, вносят вклад в обеспечение их функциональной активности.В настоящее время известно, что существенное влияние на силу промоторов и характер их взаимодействия с РНК-полимеразой оказывают такие физико-химические характеристики промоторной ДНК, как геометрия двойной спирали, её изгибность или наличие изломов [96-100], наличие легкоплавких участков [101-104], электростатические свойства промоторов и окружающих участков, а также динамические свойства как промоторных участков ДНК, так и макромолекулы в целом [105,106].Легкоплавкие участки в промоторной ДНК Исследование роли легкоплавких участков ДНК во взаимодействии с РНК-полимеразой началось ещё до того, как была сформулирована сама концепция промотора [107-112]. Основанием для этих исследований послужили экспериментальные данные, свидетельствующие о большем сродстве РНК-полимеразы к денатурированной ДНК и однонитевым полинуклеотидам по сравнению с нативной ДНК. Кроме того, с помощью электронной микроскопии было показано, что 10-20-членные олиго-АТ последовательности, содержащиеся в ДНК Т-четных фагов и являющиеся наиболее легкоплавкими участками этих матриц, могут использоваться РНК-полимеразой для инициации синтеза РНК [107, 108, 112]. Было также известно, что поли-ё(АТ) является более эффективной матрицей по сравнению с естественными ДНК, что в свою очередь, объяснялось большей лёгкостью раскрытия AT пар по сравнению с GC парами [110, 111].Исследования нуклеотидной последовательности многих промоторов выявили две АТ-обогащенных области в промоторной ДНК. К ним относится рассмотренный выше -10 канонический гексануклеотид. Предполагалось, что эти участки по своему составу могли бы обладать пониженной стабильностью. Однако этот вопрос требовал специального исследования.Стабильность двойной спирали ДНК была оценена для 168 индивидуальных промоторов, находящихся в естественном окружении во фрагментах величиной в 500 п.о. [113]. Было найдено, что -10 участок промоторной ДНК является, как правило, менее стабильным, чем соседние области.Известно, что для инициации синтеза РНК необходима транзиция первоначально образованного закрытого промоторно-полимеразного комплекса в открытый, сопровождающаяся локальным плавлением промоторной ДНК с появлением однонитевых участков около точки старта транскрипции. Сейчас показано, что плавление ДНК начинается с -11 положения и распространяется в сторону точки старта [114, 115], причем расплавленная область составляет 12-18 п.о. и включает практически полностью -10 участок промоторной ДНК. Очевидно, что нестабильность этого участка важна для эффективной транзиции закрытого промоторного комплекса в открытый, таким образом обеспечивая вклад этого фактора в активность промотора через влияние на данную стадию промоторно-полимеразного взаимодействия.Поскольку -10 участок промоторной ДНК является также сигнальным элементом, идентифицируемым РНК-полимеразой по его нуклеотидной последовательности, встает вопрос о корреляции этих двух факторов (нуклеотидной последовательности и локальной стабильности) для функциональной активности промоторов. Для установления этого было изучено влияние 68 известных функционально значимых точечных мутационных замен в —10 области у 22 индивидуальных промоторов на стабильность ДНК этого участка [113]. Оказалось, что для 13% мутаций характер функционального ответа промоторов имеет прямую корреляцию между активностью промоторов и соответствием их нуклеотидной последовательности -10 консенсусному гекса-нуклеотиду. В некоторых случаях фактором, определяющим характер функционального ответа мутантных промоторов, было соответствие мутационной замены консенсусному нуклеотиду, не коррелирующее строго с характером изменения стабильности ДНК -10 участка; в ряде других случаев определяющим фактором в изменении активности промоторов было изменение в локальной стабильности ДНК. Полученные данные подтверждают функциональную значимость не только самой нуклеотидной последовательности -10 участка, но и локальной стабильности двойной спирали ДНК, определяемой этой последовательностью. Роль этих факторов во взаимодействии с РНК-полимеразой различна.Если нуклеотидная последовательность в -10 области промотора является промоторной детерминантой, т.е. элементом, узнаваемым РНК-полимеразой при идентификации промотора в геноме, то пониженная стабильность ДНК этого участка является фактором, облегчающем локальное плавление двухце-почечной ДНК в комплексе с ферментом при образовании открытого промо-торного комплекса.Известно, что около 70% охарактеризованных промоторов имеют повышенное содержание АТ-пар в upstream области. Однако только для промоторов ранних генов Т-четных фагов показано, что существует корреляция между AT- богатым составом, наличием легкоплавких участков этих областях генома и их значимостью для промоторной функции [101, 103, 107-109].В частности, это было подтверждено с помощью спиновой метки, взаимодействующей с основаниями легкоплавких участков нативной ДНК. Модификация данной меткой Т2-ДНК приводила к нарушению взаимодействия спин-меченой ДНК с РНК-полимеразой и существенному ингибированию синтеза РНК [103, 106]. Модифицируемые спиновой меткой легкоплавкие участки Т2-ДНК, которые принимают участие во взаимодействии с РНК-полимеразой, располагаются в upstream области промоторов ранних генов Т-четных фагов (-40 — -10 п.о.) и состоят более чем на 80% из АТ-пар [93]. Интересно отметить, что промоторы Т-четных фагов являются одними из самых сильных промоторов, утилизируемых РНК-полимеразой E.coli [94], несмотря на то, что их последовательность в — 35 области достаточно далека от консен-сусной. По-видимому, легкоплавкие АТ-богатые участки в upstream области этих промоторов являются дополнительным узнаваемым элементом, присутствие которого может компенсировать слабую выраженность —35 промоторной детерминанты.Разработка новых методов для оценки термодинамической стабильности двойной спирали ДНК [118-120] позволила проанализировать термодинамические характеристики ДНК целых небольших геномов и плазмид [120-123]. Оказалось, что наименее стабильные участки на плазмиде pBR322, которая является эффективной матрицей для РНК-полимеразы E.coli, находятся непосредственно в районе расположения функциональных сигналов, таких как промоторы и точки старта транскрипции [121, 122]. Для некоторых исследованных геномов, также найдена хорошая корреляция между термодинамической стабильностью ДНК и её функционально значимыми участками, на что указывало наличие легкоплавких доменов в межгенных областях и отсутствие термодинамически нестабильных участков в кодирующих генах [120, 123]. Однако такая корреляция характерна не для всех организмов [120].В целом, все эти данные свидетельствуют о том, что легкоплавкие участки ДНК могут играть важную роль в формировании промоторов, выступая в качестве дополнительного сигнального элемента, идентифицируемого РНК-полимеразой в термодинамическом профиле ДНК. Очевидно, что такой сигнал не является общим для всех промоторов. Он характерен для промоторов, ДНК которых содержит легкоплавкий участок. Следует отметить, что термодинамический профиль ДНК определяется в большей степени последовательностью оснований, а не их составом, при этом участки с одинаковой стабильностью могут задаваться разными нуклеотидными последовательностями [113, 119]. Таким образом, функционально значимые легкоплавкие участки могут отличаться по первичной структуре в разных промоторах. Это означает, что термодинамический профиль промоторной ДНК может служить дополнительной характеристикой, описывающей активность промотора, выявляющей свойства, которые не могут быть непосредственно обнаружены при анализе нуклеотидной последовательности.Формирование устойчивого изгиба в промоторной ДНК Еще одной характеристикой, считающейся важной для описания функционально значимых свойств ДНК, является геометрия двойной спирали [124-128]. В ранних работах рассматривали «фазировку» сигналов, размещая функционально значимые нуклеотиды на спиральной проекции идеальной В-формы ДНК [127, 128]. Даже при таком упрощенном подходе была выявлена одна важная особенность промоторно-полимеразного взаимодействия, свидетельствующая о том, что в закрытом промоторном комплексе РНК-полимера-за образует контакты только с одной стороной двойной спирали ДНК [127].Позже, после описания номенклатуры геометрических свойств ДНК [129] и появления различных геометрических шкал [125, 130-132], стал возможным детальный, с количественными характеристиками, анализ пространственной конфигурации двойной спирали ДНК, а геометрические параметры ДНК стали использоваться для количественного предсказания функциональных свойств фрагментов ДНК [124-126, 100]. Для очень многих промоторов такой анализ выявил наличие в их «upstream» области последовательностей, способных формировать устойчивый изгиб, а в ряде случаев образование этого изгиба было подтверждено экспериментально [13, 133, 135, 55, 80]. В этой связи следует отметить, что поиски потенциально изогнутых фрагментов ДНК в банке нуклеотидных последовательностей бактерий показали, что в 50 % случаев они находятся в промоторных участках в районе -50 п.о. [136]. Интересно, что большинство случайно клонированных изогнутых сегментов ДНК также оказывались в «upstream» области промоторов [137]. Таким образом, стабильный изгиб ДНК является, по-видимому, существенным элементом в структурной организации бактериальных промоторов. При этом возникают два вопроса, один из которых относится к механизмам возникновения изгибов в двойной спирали ДНК, а второй связан с выявлением их роли в функционировании промоторов.В настоящее время известно, что стабильный изгиб двойной спирали может возникнуть при наличии в структуре ДНК некоторых последовательностей оснований, список которых еще нельзя считать завершенным. Повышенной анизотропной гибкостью обладают отдельные динуклеотиды, такие, например, как ТрА [138, 139], или СрА [140], и некоторые другие , которые вследствие низкой энергии стэкинга азотистых оснований являются наиболее легко деформируемыми звеньями в структуре двойной спирали. Хотя сами динуклеотиды вызывают очень небольшой изгиб, присутствие таких гибких звеньев в двойной спирали ДНК может способствовать адаптивным конфор-мационным изменениям промоторной ДНК при взаимодействии с РНК-поли-меразой.Электростатические свойства промоторной ДНК В последнее время стало известно, что регуляция активности промоторной ДНК может осуществляться также через электростатические взаимодействия с РНК-полимеразой [20-25, 146-155].В частности, в электростатическом профиле дальней upstream области промоторных ДНК ранних генов генома Т4 фага были обнаружены специфические элементы, которые могут выступать в роли новых промоторных де-терминант, внося свой вклад в промоторно-полимеразное узнавание через электростатические взаимодействия с а-субъединицей РНК-полимеразы [22-24, 148]. Установлено, что характер этих взаимодействий определяет функциональное поведение ранних Т4 промоторов и контролируемых ими генов в ответ на физиологический сигнал, связанный с АДФ-рибозилирова-нием а-субъединицы РНК-полимеразы [22, 24], который действует путем изменения заряда на ней. Показательно, что наблюдается непосредственная корреляция как между исходной силой этих промоторов и соответствием выраженности up-элемента в виде повышения электростатического потенциала и исходным зарядом а-субъединицы, так и скоординированное изменение их силы в ответ на изменение знака заряда при АДФ-рибозилировании. При этом указанная корреляция не соответствует описанному выше распределению промоторов по классам сходства нуклеотидной последовательности, что в явном виде указывает на роль физических (электростатических) свойств в функционировании этих промоторов в противовес взаимодействию полиме-разы с индивидуальными консервативными нуклеотидами.Интересно, что аналогичные электростатические элементы были найдены в рибосомальных промоторах Е. coli [149, 150] и некоторых о"70-специ-фичных синтетических промоторах, содержащих олиго-А треки в upstream области [22]. И в этих случаях была найдена корреляция между типом специфических электростатических элементов и характером функционального по-ведения промоторов.При анализе ранних промоторов бактериофага Т7, взаимодействующих с хозяйской РНК-полимеразой E.coli, было показано, что наличие в дальней upstream области электростатических профилей сильных промоторов Al, А2 и A3 специфических электростатических элементов, сходных с вышеописанными, позволяет предположить их функциональную роль в формировании промоторной активности через участие в электростатических взаимодействиях с а-субъединицей. Важно отметить, что Al, А2 и A3 содержат разные специфические электростатические элементы, что указывает на разный характер их взаимодействия с а-субъединицей, объясняя тем самым различия в их функциональном поведении. Al, А2 и A3 расположены тандемно в начале одного и того же оперона Т7 ДНК. Предполагается, что наличие дублирующих сильных промоторов необходимо не столько для увеличения суммарной скорости синтеза соответствующей мРНК, сколько для обеспечения эффек-тивной транскрипции этого оперона в разных условиях, что в свою очередь предполагает различие в механизмах взаимодействия РНК-полимеразы с данными промоторами [154]. Аналогичная картина электростатических свойств наблюдается у тандемных рибосомальных промоторов E.coli, перед которыми также стоит задача максимизации надежности узнавания в разных условиях [149, 150].Анализ распределения электростатического потенциала минорных промоторов свидетельствует о том, что их профили в дальней upstream области существенно отличаются от тех, которые обнаружены у основных промоторов, как по наличию самих характеристических элементов, так и их величине и локализации. Так, у промотора D(A0) в этой области потенциал колеблется в пределах средней величины, не формируя никаких специфических элементов. Профиль В промотора имеет хорошо сформированный электростатический элемент с максимумом в районе -60 п.о. Данный элемент гораздо меньше по размерам положительно заряженного участка и величине его потенциала по сравнению с аналогичными элементам у А2 и A3. Кроме того, они отличаются и по их локализации в дальней upstream области промоторной ДНК. Положительно заряженные элементы с двумя максимумами в исследуемой области промоторов С и Е отличаются по форме (положению максимумов), по величине потенциала и размеров положительно заряженного участка, как между собой, так и от положительно заряженных специфических элементов А1 и А2. Все это демонстрирует существенные различия электростатических характеристик основных и минорных промоторов Т7-ДНК в той области ДНК, которая может участвовать в формировании электростатических сигнальных элементов, вносящих вклад в определение промоторной активности через электростатические взаимодействия с а-субъеди-ницей. Предполагается, что различия электростатических элементов, выявленных у минорных и основных промоторов Т7-ДНК, определяют разный характер взаимодействия этих промоторов с РНК-полимеразой и ответственны (во всяком случае, частично) за разницу в их активности и поведении [154].Анализ промоторов, взаимодействующих с фаговой Т7 РНК-полимеразой, позволяет сгруппировать их в классы в зависимости от характера и времени экспрессии генов, которые они контролируют. Все эти промоторы демонстрируют принципиальное отличие распределения электростатического потенциала по сравнению с «бактериальными» промоторами. Оно выража-ется в значительно более короткой области постоянства проявлений характеристических свойств потенциала, что близко соответствует различию размеров бактериальной и фаговой РНК-полимераз [155].Сравнительный анализ электростатических свойств промоторов, относящихся к разным подклассам и внутри классов, свидетельствует о существенных различиях электростатических характеристик промоторов разных классов. Промоторы, относящиеся к одному и тому же классу, характеризуются сходными, хотя и неидентичными, профилями распределения электростатического потенциала.Несмотря на то, что нуклеотидная последовательность всех ранних промоторов Т7 бактериофага высокогомологична с консенсусной последовательностью для Т7 РНК-полимеразы и отличается от нее в такой же степени, как и у большинства промоторов II класса, электростатические свойства этих групп весьма различны. Кроме того, последовательности консенсусной области промоторов III класса полностью идентичны друг другу, однако профиль электростатического потенциала в этой области заметно различается у разных промоторов, что подтверждает выявленную ранее неоднозначность соотношения электростатических свойств и текста последовательности ДНК [24, 146]. Как неоднократно было показано нами ранее, сильно различающиеся по своему составу последовательности могут иметь сходные профили электростатического потенциала, и, наоборот, небольшие различия нуклео-тидного состава, в том числе в окружающих фланкирующих областях, могут вызывать значительное изменение профиля. Все это может указывать на разный характер узнавания РНК-полимеразой этих промоторов и быть одной из причин различий в их временном и функциональном поведении во время инфекции Е. coli Т7 бактериофагом.Это подтверждает роль электростатических свойств промоторной ДНК в определении характера функционального поведения промотора и указывает на возможный вклад электростатической компоненты в формирование промоторной активности нативных промоторов Т7 бактериофага [155].Все это указывает на широкое распространение и большое значение в промоторах сигнальных элементов, формируемых на основе электростатических характеристик ДНК. Полученные недавно результаты, показывающие, что в процессе эволюции в промоторах отбирались фрагменты последовательности с пониженным электростатическим потенциалом, подтверждают предположение о важности той роли, которую играет электростатический потенциал ДНК в формировании промоторной функции [151].Таким образом, исследование электростатических свойств промоторной ДНК является перспективным подходом для поиска новых сигнальных элементов, вносящих вклад в формирование промоторной активности, что служит хорошим примером нового направления изучения биологической роли физических свойств геномной ДНК. Материалы и методы Для разработки базы данных электростатических свойств геномной ДНК DEPPDB и анализа данных использовались следующие материалы и методы.Нуклеотидные последовательности и элементы геномов и их аннотации Последовательности всех полных секвенированных бактериальных и вирусных геномов и их аннотации взяты из базы данных NCBI RefSeq (ftp://ftp.ncbi.nih.gov/refseq/) и частично из BioCyc (http://BioCyc.org). Данные в форме текстовых файлов взяты с ftp сайта и разбирались специально написанным набором программ на языке Perl. Ряд данных был получен из литературных источников и внесен в базу через интерфейс ее управления, также написанный на Perl.Таксономический раздел Описания таксонов и идентификаторы, позволяющие сформировать иерархическую древовидную структуру раздела и приписать геномы таксонам, взяты из базы данных NCBI Taxonomy (ftp://ftp.ncbi.nih.gov/pub/ taxonomy/) в виде текстовых файлов и разбирались специально написанным набором программ на языке Perl.Генерация случайных и регулярных последовательностей ДНК С помощью специально написанной программы было рассчитано по 10 случайных последовательностей с содержанием каждого нуклеотида с шагом в 10% и длиной последовательности от 1000 до 100000 с шагом в порядок, результат статистических расчетов сохранен в базе, а также по одной последовательности длиной 1000000 с сохранением текста последовательностей для дальнейшего изучения, и набор последовательностей с равным содержанием всех 4 нуклеотидов.С помощью специально написанной программы на языке Perl был рассчитан набор регулярных (периодических) последовательностей следующего вида: полинуклеотиды с периодом в 1 и 2 пары каждого вида, и все перестановки из 4, 8 и 12 пар с равным количеством нуклеотидов А, Т, G и Из анализа исключались циклические перестановки (дающие при повторении одинаковые последовательности), из поли-12 нуклеотидов брались по 100 вариантов, имеющих максимальные и минимальные значения среднего потенциала.Расчет электростатических свойств ДНК Электростатический потенциал вокруг молекул геномной ДНК рассчитывался с помощью оригинального метода [146], использующего расчет по закону Кулона полноатомной модели ДНК с использованием подгоночных параметров зарядов и диэлектрической проницаемости для согласования с расчетами, полученными решением уравнения Пуассона-Больцмана.Потенциал вокруг молекулы ДНК вычисляли по кулоновской формуле: v(n = х я, e(r) \F — И где qi — заряд i-того атома молекулы ДНК; г — радиус-вектор 1-того атома; ' — радиус-вектор точки наблюдения; GOz> — диэлектрическая проницаемость как функция расстояния.Вычислялось значение электростатического потенциала на поверхности соосного двойной спирали молекулы ДНК цилиндра, радиусом 15 ангстрем, что составляет около 5 ангстрем от ее поверхности, то есть примерно соответствует расстоянию, на котором, предположительно, белки неспецифически взаимодействуют с ДНК. Далее значение потенциала усреднялось по угловой переменной для получения одномерного распределения потенциала вдоль молекулы ДНК, т.е. профиля ЭП, который и использовался для заполнения базы и дальнейшего анализа.Для получения линейных координат пар оснований вдоль молекулы ДНК генома и усредненных по углу значений электростатического потенциала вокруг молекулы ДНК в линейных координатах вдоль молекулы (т.е. профиля ЭП), использовалась программа А. Сорокина [147], модифицированная для пакетной обработки целых геномов и вычисления ряда дополнительных параметров распределения электростатического потенциала.Также вычислялись следующие показатели распределения усредненного потенциала вдоль целой последовательности геномной ДНК: минимум, максимум, среднее арифметическое, геометрическое и гармоническое, ме-диана, дисперсия и стандартное отклонение, коэффициент асимметрии и эксцесс распределения.Программное обеспечение СУБД, публикации данных и инструментов обработки и анализа Хранение данных Большая часть данных хранится в реляционной базе под управлением СУБД MySQL v5.0 в таблицах типа MylSAM.Заголовочные части записей БД NCBI RefSeq, относящиеся к геному, хранятся в текстовых файлах операционной системы в формате ASCII, по одной записи на файл.Тексты последовательностей хранятся в текстовых файлах в формате ASCII, непрерывной строкой с переводом строки в конце, по одной последовательности на файл.Линейные координаты (в ангстремах) пар оснований вдоль молекулы ДНК генома хранятся в бинарных файлах форматом 4 байта на основание.Усредненные по углу значения электростатического потенциала вокруг молекулы ДНК в линейных координатах вдоль молекулы хранятся в нормализованном виде в бинарных файлах форматом 2 байта на 1 ангстрем.Доступ к данным и инструменты анализа: веб-публикация Пользовательский доступ к данным и инструментам анализа осуществляется через веб-интерфейс по протоколу http с помощью динамической системы публикаций, основанной на веб-сервере Apache v.2.2, СУБД MySQL v5.0 и программах, написанных на языке Perl. Система включает стандартную поставку ActiveState Perl v. 5.8 с рядом дополнительных модулей, один из которых модифицирован, и набор скриптов, написанных для БД DEPPDB.Динамически генерируемые страницы в формате html содержат ряд интерактивных элементов, написанных на языке Javascript v. 1.2 и тестировались в браузерах MS IE w . 6,7, Mozilla Firefox w . 2,3, Opera v. 9 и Google Chrome v. 1.0.154.36. Графики строятся «на лету» в формате PNG с помощью модулей PerlGDnGD::Graph.Кроме того, часть инструментов анализа используют расширение языка Perl PDL (Perl Data Language) v. 2.4.3 с графическим модулем PGPLOT v.2.19.База данных доступна для академического использования через веб-интерфейс по адресу http://promodel.icb.psn.ru. Язык интерфейса английский.Следует отметить, что некоторые намеченные оптимизации программного и аппаратного обеспечения позволят кардинально улучшить возможности обработки данных.Представление данных в работе На всех рисунках, представляющих профили ЭП, по вертикальной оси отложена величина ЭП в единицах заряда электрона на ангстрем (ё/А), по горизонтальной — расстояние вдоль оси молекулы ДНК в ангстремах. Вертикальной линией по центру отмечена точка, по которой выравнивались последовательности.Все графики, в т.ч. и содержания GC пар, строились в реальном физическом пространстве. Выравнивание по номеру нуклеотида не соответствует выравниванию в физическом пространстве из-за разницы расстояния между парами оснований. Из-за этого также возникают ошибки усреднения по краям графиков, которые исключались из визуального анализа.В случае, когда на графике присутствуют 3 панели, на верхней дан электростатический потенциал, горизонтальные линии — среднее значение потенциала всего генома(ов); на средней — стандартные отклонения для каждой группы, горизонтальные линии — среднее значение для каждого генома (группы); на нижней - содержание GC пар в процентах для каждой группы.Для отображения GC состава делалось усреднение окном в несколько пар вокруг каждой точки.Результаты и обсуждение

Заключение Диссертация по теме "Биоинформатика", Осипов, Александр Александрович

1. Разработана база данных электростатических свойств ДНК природных гено мов («DEPPDB» - DNA Electrostatic Potential Properties DataBase), содержа щая интегрированные данные о последовательности, биологическую аннота цию, таксономическое положение и электростатические свойства всех пол ностью секвенированных бактериальных и вирусных геномах, а также ряда расчетных случайных и регулярных последовательностей.2. На основе DEPPDB разработаны инструменты, позволяющие проводить сравнительный, функциональный и эволюционный анализ свойств электро статического потенциала генома и его элементов на уровне как отдельных геномов, так и целых таксономических групп.3. Обнаружена близкая к линейной зависимость среднего потенциала природ ных геномов от содержания в них GC пар. Установлено, что величина этой зависимости коррелирует с содержанием GC пар.4. Изучены закономерности формирования электростатического потенциала во круг молекулы ДНК. Выявлена сложная зависимость распределения потен циала от состава и организации ее последовательности. Показано влияние окружающих последовательностей на формирование локального потенциала в области рассмотрения.5. Высказана гипотеза, что в сдвиг распределения природных геномов в АТ-бо гатую область могли внести вклад большие возможности формирования вы раженных электростатических элементов АТ-обогащенными последователь ностями по сравнению с GC-обогащенными.6. Показано различие в масштабах, на которых проявляются закономерности распределения потенциала для промоторов, взаимодействующих с бактери альными и фаговыми полимеразами, что отражает физическую картину взаи модействия ДНК с белком.7. Показано, что приспособление промоторов бактериофага Т7 к взаимодей ствию с РНК-полимеразой бактериофага ТЗ сопровождается изменением электростатического потенциала в районе 0 — 5 п.о., приводящим к фор мированию профиля, идентичного промоторам ТЗ, что свидетельствует о возможной зависимости от него дифференциального распознавание промото ров РНК-полимеразой ТЗ. При этом указанные отличия потенциала мало влияют на распознавание промоторов РНК-полимеразой Т7, но играют для нее регуляторную роль.Я выражаю глубокую благодарность Светлане Григорьевне Камзоловой за чуткое научное руководство, понимание и всестороннюю поддержку, Анато лию Александровичу Сорокину за саму неоценимую возможность работать над данной темой, а также искреннюю признательность Элеоноре Григо рьевне Савельевой за постоянную помощь в работе, Тимуру Рустемовичу Джелядину за ценные советы при подготовке диссертации и всем моим кол легам за плодотворные дискуссии и критические замечания, а жене, друзьям и детям - за поддержку.А еще — спасибо моему деду и моей маме — без них ничего бы не было.

Библиография Диссертация по биологии, кандидата биологических наук, Осипов, Александр Александрович, Москва

1. Шемякин М. Ф., Басе И. А., Камзолова Г., Горленко Ж. М., Астаурова О. Б., Хесин Р. Б. О специфичности синтеза РНК при фаговой инфекции. — Биохимия, 1966, т. 31, с.910-917.

2. Jisser S., MargalitH. Compilation of Е. coli mRNA promoter sequences. Nucl. Acids Res., 1993,v.21,p. 1507-1516.

3. Aoyama Т., Takanami M. Essential structure of E. coli promoter. II. Effect of sequences around the RNA start point on promoter function. Nucl. Acids Res., 1985, 13, 4085-4096.

4. Никифоров В. Г. РНК-полимераза бактерий: сравнительные исследования. Успехи микробиологии, 1987,21, 105-160.

5. Камзолова Г., Взаимодействие РНК-полимеразы Escherichia coli с ромо- торами. Необходимость классификационного подхода в изучении кода про-моторно-полимеразного узнавания. Биохимия, 1995, 60, 387-394.

6. Auble D. Т., deHaseth P. L. Promoter recognition by Escherichia coli RNA polymerase. Influence of DNA structure in the spacer separating the -10 and -35 regions. J. Mol. Biol., 1988, 202, 471-483.

7. Bruner M., Bujard H. Promoter recognition and promoter strength in Escherichia coli system. EMBOJ., 1987, 6, 3139-3144.

8. Grana D., Gardella Т., Susskind M. M. The effect of mutations in the ant promoter of phage P22 depend on context. Genetics, 1988, 120, 319-327.

9. Harley В., Reynolds R. Analysis of Escherichia coli promoter sequences. Nucl. Acids Res., 1987, 15, 2343-2361.

10. Kobayashi M., Nagata K., Ishihama A. Promoter selectivity of Escherichia coli RNA polymerase: effect of base substitutions in the promoter -35 region on promoter strength. Nucl. Acids Res., 1990, 18, 7367-7372.

11. Leirmo S., Record M. T. Jr. Structural, thermodynamic and kinetic studies of the interaction of Es70 RNA polymerase with promoter DNA. Nucl. Acids and Mol. Biol. Eckstein F., Lilley D. M. J. eds.; 1990, v. 4, 123-151.

12. Liebig H. D., Ruger W. Bacteriophage T4 early promoter regions consensus sequences of promoters and ribosome-binding sites. J. Mol. Biol., 1989, v. 208, 517-537.

13. McClure W. R. Mechanism and control of transcription initiation in procary- otes. Annu. Rev. Biochem., 1985, v. 54, 171-204.

14. Moyle H., Walburger C, Susskind M. M. Hierarchies of base pair preferences in the P22 and promoter. J. Bacteriol., 1991, 173, 1944-1950.

15. Mulligan M. E., Hawley D. K., Entriken R., McClure W.R. Escherichia coli promoter sequences predict in vitro RNA polymerase selectivity. Nucl. Acids Res., 1984, v.12, 789-800.

16. O'Neill M.C. Escherichia coli promoters. I. Consensus as it relates to spacing class, specificity repeat substructure and three-dimensional organisation. J. Biol. Chem., 1989, v. 264, 5522-5531.

17. Szoke P. A., Allen T.A., deHaseth P. L. Promoter recognition by Escherichia coli RNA polymerase. Effect of base substitution in the -10 and -35 regions. Biochemistry, 1987, v. 26, 6188-6194.

18. Youderian P., Bouvier S., Susskind M. M. Sequence determinants of promoter activity. Cell, 1982, 30, 843-853.

19. Камзолова Г., Осипов A.A., Бескаравайный П.М., Джелядин Т.Р., Сорокин А.А., Регуляция активности промоторной ДНК через электростатические взаимодействия с РНК-полимеразой. Биофизика, 2007, 52(2), с.228-236.

20. Sorokin А.А., Osypov А.А., Dzhelyadin T.R., Beskaravainy P.M., Kamzolova S.G., Electrostatic properties of promoters recognized by E.coli RNA polymerase Es70 J. Bioinf. Сотр. Biol., 2006, vol.4, no.2, p.455-467.

21. Kamzolova, S.G. et al. (2000) RNA polymerase-promoter recognition. Specific features of electrostatic potential of "early" T4 phage DNA promoters, J. Biomol. Struct. Dyn., 18(3): 325-334.

22. Sorokin, A. A. et al. (2001) The quest for new forms of promoter determinants. Relationship of promoter nucleotide sequences to their electrostatic promoter distribution. J.Biomol.Struc.Dyn., v. 18, p. 1020

23. Chan C. L., Lonetto M. A., Gross С A. Sigma domain structure: one down, one to go. Structure, 1996, 4, 1235-1238.

24. Waldburger C, Grdella Т., Wong В., Susskind M. M. Changes in the conserved region 2 of Escherichia coli s70 affecting promoter recognition. J. Mol. Biol., 1990,215,267-276.

25. Siegele D. A., Hhu J. C, Walter W. A., Gross С Altered promoter recognition by mutant forms of the s70 subunit of Escherichia coli RNA polymerase. J. Mol. Biol., 1989, 206, 591-606.

26. Zuber P., Healy J., Carter H. L., Cutting S., Moran P. Jr., Losick R. Mutation changing the specificity of an RNA polymerase sigma factor. J. Mol. Biol., 1989, 206, 605-614.

27. Gross C.A., Lonetto M., Losick R. Sigma factors. In: Transcription regulation. McbCnight S. L., Yamamoto K. R. eds. Cold Spring Harbor Laboratory Press Plain review, N. Y., 1991, 129-176.

28. Loneto M., Gribskov M., Gross C. A. The s70 family: sequence conservation and evolutionary relationships. J. Bacteriol., 1992, 174, 3843-3849.

29. Dombroski A. J. Recognition of the -10 promoter sequence by a partial polypeptide of s70 in vitro. J. Biol., 1997, 272, 3487-3494.

30. Dombroski A. J., Walter W. A., Record M. T. Jr., Siegele D. A., Gross A. Polypeptides containing higly conserved regions of transcription factor s70 exhibit specificity of binding to promoter DNA. Cell, 1992, 70, 501-512.

31. Dickerson R. R., Gaal Т., deBoer H. A., deHaseth P. L., Gourse R. L. Identification of promoter mutants defective in growth rate dependent regulation of rRNA transcription inE. coli. J. Bacteriol., 1989, 171, 4862-4870.

32. Maguat L. E., Thornton K., Reznikoff W. S. lac promoter mutations located downstream from the transcription start site. J. Mol. Biol., 1980, 139, 537-549.

33. Xiong X. F., de la Cruz N., Reznikoff W. S. Downstream deletion analysis of the lac promoter. J. Bacteriol., 1991, 173, 4570-4577.

34. Xiong X. F., Reznikoff W. S. Transcriptional slippage during the transcription initiation process at a mutant lac promoter in vivo. J. Mol. Biol., 1993, 231, 569-580.

35. Lorimer D. D., Cao J., Revzin A. Specific sequences downstream from -6 are not essential for proper and efficient in vitro utilization of the E. coli lactose pro moter. J. Mol. Biol., 1990, 216, 275-287.

36. Rothmel R. K., LeClerc J. E. Mutational analysis of the lac regulatory region: second-site changes that activate mutant promoters. Nucl. Acids Res., 1989, 17, 3909-3925.

37. Scholten M., Tomassen J. Effect of mutations in the -10 region of the phoE promoter in Escherichia coli on regulation of gene expression. Mol. Gen. Genet., 1994,245,218-223.

38. Horwitz A. H., Morandi C , Wilcox G. Deoxyribonucleic acid sequence of araBAD promoter mutants of Escherichia coli. J. Bacteriol., 1980, 142, 659-667.

39. Inouye S., Inouye M. Up-promoter mutations in the lpp gene of Escherichia coli. Nucl. Acids Res., 1985, 13, 3101-10.

40. Mandecki W., Goldman R. A., Powell B. S., Carathers M. H. lac Up-promoter mutants with increased homology to the consensus promoter sequence. J. Bacteri ol, 1985, 164, 1353-1355.

41. Malhotra A., Severinova E , Darst S. A. Crystal structure of a sigma 70 subunit fragment from E. coli RNA polymerase. Cell, 1996, 87, 127-136.

42. Mandecki W, Reznikoff W. S. A lac promotor with a changed distance be tween -10 and -35 regions. Nucl. Acids Res, 1982, 10, 903-912.

43. Mulligan M. E , Brosius J , McClure W. R. Characterization in vitro of the ef fect of spacer length on the activity of Escherichia coli RNA polymerase at the TAC promoter. J. Biol. Chem, 1985, 260, 3529-3538.

44. Beutel B. A , Record M. T. Jr. E. coli promoter spacer regions contain nonran- dom sequences which correlate to spacer length. Nucl. Acids Res, 1990, 18, 3597-3603.

45. Kabsch W , Sander C , Trifonov E. N. The ten helical twist angles of B-DNA. Nucl. Acids Res, 1982, 10, 1097-1104.

46. Dickerson R. E , Drew H. R. Structure of a B-DNA dodecamer. II. Influence of base sequence on helix structure. J. Mol. Biol, 1981, 149, 761-786.

47. McNamara P. T , Bolshoy A , Trifonov E. N , Harrington R. E. Sequence-de pendent kinks induced in curved DNA. J. Biomol. Struct. Dyn, 1990, 8, 529-538.

48. Deuschle U., Kammerer W., Gentz R., Bujard H. Promoters of Escherichia coli: a hierarchy of in vivo strength indicates alternate structures. EMBOJ., 1986, 5, 2987-2994.

49. Brunner M, Bujard H. Promoter recognition and promoter strength in the Escherichia coli system. EMBO J., 1987, 6, 3139-3144.

50. Keilty S, Rosenberg M. Constitutive function of a positively regulated promoter reveals new sequences essential for activity. J Biol Chem., 1987, 262, 6389-6395.

51. Chan B, Spassky A, Busby S. The organization of open complexes between Escherichia coli RNA polymerase and DNA fragments carrying promoters either with or without consensus -35 region sequences. Biochem J., 1990, 270, 141-148.

52. McAllister CF, Achberger EC. Effect of polyadenine-containing curved DNA on promoter utilization in Bacillus subtilis.J Biol Chem., 1988, 263, 11743-11749.

53. Chan B, Busby S. Recognition of nucleotide sequences at the Escherichia coli galactose operon PI promoter by RNA polymerase. Gene., 1989, 84, 227-236.

54. Bertrand-Burggraf E, Dunand J, Fuchs RP, Lefevre JF. Kinetic studies of the modulation of ada promoter activity by upstream elements. EMBO J., 1990, 9, 2265-2271.

55. Ross W, Gosink KX, Salomon J, Igarashi K, Zou C, Ishihama A, Severinov K, Gourse RL. A third recognition element in bacterial promoters: DNA binding by the alpha subunit of RNA polymerase. Science., 1993, 262, 1407-1413.

56. Belyaeva T, Griffiths L, Minchin S, Cole J, Busby S. The Escherichia coli cysG promoter belongs to the 'extended -10' class of bacterial promoters. Biochem J., 1993,296, 851-857.

57. Ponnambalam S, Webster C, Bingham A, Busby S. Transcription initiation at the Escherichia coli galactose operon promoters in the absence of the normal -35 region sequences. J Biol Chem., 1986, 261, 16043-16048.

58. Kumar A, Malloch RA, Fujita N, Smillie DA, Ishihama A, Hayward RS. The minus 35-recognition region of Escherichia coli sigma 70 is inessential for initiation of transcription at an "extended minus 10" promoter. J Mol Biol., 1993, 232, 406-418.

59. Камзолова Г., Озолинь O.H. Специфические конформационные переходы РНК-полимеразы при образовании открытых промоторных комплексов с Т7-ДНК. ДАН СССР, 1986, 287, 731-734.

60. Ozoline ON, Uteshev ТА, Masulis IS, Kamzolova SG. Interaction of bacterial RNA-polymerase with two different promoters of phage T7 DNA. Conformational analysis. Biochim Biophys Acta., 1993, 1172, 251-261.

61. Kuhnke G, Fritz HJ, Ehring R. Unusual properties of promoter-up mutations in the Escherichia coli galactose operon and evidence suggesting RNA polymerase-inducedDNA bending. EMBO J., 1987, 6, 507-513.

62. Hellinga HW, Evans PR. Nucleotide sequence and high-level expression of the major Escherichia coli phosphofhictokinase. Eur J Biochem., 1985, 149, 363-373.

63. Negre D, Oudot C, Prost JF, Murakami K, Ishihama A, Cozzone AJ, Cortay JC. FruR-mediated transcriptional activation at the ppsA promoter of Escherichia coli. J Mol Biol., 1998, 276, 355-365.

64. Barne KA, Bown JA, Busby SJ, Minchin SD. Region 2.5 of the Escherichia coli RNA polymerase sigma70 subunit is responsible for the recognition of the 'extended-10' motif at promoters. EMBO J., 1997, 16, 4034-4040.

65. Ross W, Aiyar SE, Salomon J, Gourse RL. Escherichia coli promoters with UP elements of different strengths: modular structure of bacterial promoters. J Bacteri-ol., 1998, 180,5375-5383.

66. Fredrick K, Helmann JD. RNA polymerase sigma factor determines start-site selection but is not required for upstream promoter element activation on heterodu-plex (bubble) templates. Proc Natl Acad Sci U S A., 1997, 94, 4982-4987.

67. Jeon YH, Negishi T, Shirakawa M, Yamazaki T, Fujita N, Ishihama A, Kyo- goku Y. Solution structure of the activator contact domain of the RNA polymerase alpha subunit. Science. 1995 Dec 1;270(5241): 1495-7.

68. Gaal T, Ross W, Blatter ЕЕ, Tang H, Jia X, Krishnan W , Assa-Munt N, Ebright RH, Gourse RL. DNA-binding determinants of the alpha subunit of RNA polymerase: novel DNA-binding domain architecture. Genes Dev. 1996 Jan l;10(l):16-26.

69. Murakami K, Fujita N, Ishihama A. Transcription factor recognition surface on the RNA polymerase alpha subunit is involved in contact with the DNA enhancer element. EMBO J. 1996 Aug 15;15(16):4358-67.

70. Gourse RL, Ross W, Gaal T. UPs and downs in bacterial transcription initiation: the role of the alpha subunit of RNA polymerase in promoter recognition. Mol Microbiol. 2000 Aug;37(4):687-95.

71. Estrem ST, Gaal T, Ross W, Gourse RL. Identification of an UP element consensus sequence for bacterial promoters. Proc Natl Acad Sci U S A . 1998 Aug 18;95(17):9761-6.

72. Perez-Martin J, Rojo F, de Lorenzo V. Promoters responsive to DNA bending: a common theme in prokaryotic gene expression. Microbiol Rev. 1994 Jun;58(2): 268-90.

73. Perez-Martin J, Espinosa M. Protein-induced bending as a transcriptional switch. Science. 1993 May 7;260(5109):805-7.

74. Phan AT, Leroy JL, Gueron M. Determination of the residence time of water molecules hydrating B'- DNA and B-DNA, by one-dimensional zero-enhancement nuclear Overhauser effect spectroscopy. J Mol Biol. 1999 Feb 19;286(2):505-19.

75. Lukashin AV, Anshelevich W , Amirikyan BR, Gragerov AI, Frank- Kamenetskii MD. Neural network models for promoter recognition. J Biomol Struct Dyn. 1989 Jun;6(6): 1123-33.

76. Озолинь О. H., Деев А. А. Неканонические структурные элементы промо- торной ДНК и их роль в комплексообразовании с РНК-полимеразой. Мол. биол. 1998, 32, 441-446.

77. Кутузова Г. К., Франк Г. К., Макеев В. Ю., Есипова Н. Г., Полозов Р. В. Фурье-анализ нуклеотидных последовательностей. Периодичность в промо-терных последовательностях Е. coli. Биофизика, 1997, 42, 354-362.

78. Weller К, Recknagel RD. Promoter strength prediction based on occurrence frequencies of consensus patterns. J Theor Biol. 1994 Dec 21;171(4):355-9.

79. Rozkot F, Sazelova P, Pivec L. A novel method for promoter search enhanced by function-specific subgrouping of promoters - developed and tested on E.coli system. Nucleic Acids Res. 1989 Jun 26;17(12):4799-815.

80. O'Neill M. C. Escherichia coli promoters. I. Consensus as it relates to spacing class, specificity repeat substructure and three-dimensional organization. J. Biol. Chem., 1989, 264, 5522-5531.

81. O'Neill MC, Chiafari F. Escherichia coli promoters. II. A spacing class-dependent promoter search protocol. J Biol Chem. 1989 Apr 5;264(10):5531-4.

82. Сорокин А. А. Функциональный анализ промотерных последовательностей E.coli. Новые промотерные детерминанты. Автореферат дисс. канд. ф.-м. наук, 2001, Пущино, ИТЭБ РАН.

83. Wilkens К., Ruger W. Transcription from early promoters. In: Bacteriophage T. Eds: Mathews К., Kutter E. M., Mosig G., Berget P. В., American Society for Microbiology, Washington D. C, 1994, 132-141.

84. Камзол ова Г. Изучение регуляторных свойств РНК-полимеразы из ри- фампицинустойчивого штамма Е. coli rpo В403. Биохимия, 1996, 61, 1128-1131.

85. Travers A. A. DNA conformation and protein binding. Annu. Rev. Biochem., 1989,58,427-453.

86. Travers A. A. Why bend DNA. Cell, 1990, 60, 177-18.

87. Gaal T, Rao L, Estrem ST, Yang J, Wartell RM, Gourse RL. Localization of the intrinsically bent DNA region upstream of the E.coli rrnB PI promoter. Nucleic Acids Res. 1994 Jun 25;22(12):2344-50.

88. Kamzolova S. G., Postnikova G. B. Spin-labeled nucleic acids. Quart. Rev. Biophys., 1981, 14,223-228.

89. Margalit H, Shapiro BA, Nussinov R, Owens J, Jernigan RL. Helix stability in prokaryotic promoter regions. Biochemistry. 1988 Jul 12;27(14):5179-88.

90. Камзолова Г., Иванова Н. Н., Камзолов С, Якушевич Л. В. Кон- формационный анализ продуктивных комплексов РНК-полимеразы E.coli с ДНК. Биофизика, 1998, 43, 433-437.

91. Yeramian Е. Genes and the physics of the DNA double-helix. Gene, 2000, 255, 139-50.

92. Yakushevich L. Non-linear DNA dynamics and problems of gene regulation Nanobiology, 1992, 1, 343-350

93. Иванова H. H. Конформационный анализ Т2-ДНК в комплексе с РНК- полимеразой E.coli. Канд. дисс. ИБК РАН, Пущино, 1999, 152.

94. Баев А .С, Любченко Ю. Л., Лазуркин Ю. С , Трифонов Э. Н., Франк- Каменецкий М. Д. Изучение легкоплавких участков ДНК фага Т2 с помощью электронной микроскопии и кинетического формальдегидного метода. Мол. Биол., 1972, 6, 760-766.

95. Pribnov D. Genetic control signals in DNA. In: Biological Regulation and Development. Ed. Goldberger R. F., Plenum Press, N. Y., 1979, v. 1, 219-257.

96. Камзолова Г., Артюх Р. И., Елфимова Л. И. Изучение матричных свойств Т2-ДНК, модифицированных 2,2',6,6'-тетрометил-4-бром-ацетокси-пиперидин-1-оксилом, в PFfK-полимеразной системе Е. coli. Биохимия, 1977, 42, 1117-1122.

97. Margalit Н, Shapiro В A, Nussinov R, Owens J, Jernigan RL. Helix stability in prokaryotic promoter regions. Biochemistry. 1988 Jul 12;27(14):5179-88.

98. Guo Y, Gralla JD. Promoter opening via a DNA fork junction binding activity. Proc Natl Acad Sci U S A . 1998 Sep 29;95(20): 11655-60.

99. Travers A. A. DNA bending and kinking. Curr. Opin. Struct. Biol., 1991, 1, 114-122.

100. Travers A. A., Muskhelishvili G. DNA microloops and microdomains: a general mechanism for transcription activation by torsional transmission. J Mol Biol. 1998 Jun 26;279(5): 1027-43.

101. Benham CJ. Energetics of the strand separation transition in superhelical DNA. J Mol Biol. 1992 Jun 5;225(3):835-47.

102. Breslauer KJ, Frank R, Blocker H, Marky LA. Predicting DNA duplex stability from the base sequence. Proc Natl Acad Sci U S A . 1986 Jun;83(l l):3746-50.

103. Yeramian E. Genes and the physics of the DNA double-helix. Gene, 2000, 255, 139-50.

104. Benham CJ. Sites of predicted stress-induced DNA duplex destabilization occur preferentially at regulatory loci. Proc Natl Acad Sci U S A . 1993 Apr 1;90(7): 2999-3003.

105. Benham CJ. Duplex destabilization in superhelical DNA is predicted to occur at specific transcriptional regulatory regions. J Mol Biol. 1996 Jan 26;255(3): 425-34.

106. Yeramian E. The physics of DNA and the annotation of the Plasmodium falciparum genome. Gene. 2000 Sep 19;255(2):151-68.

107. Колчанов H. А., Пономаренко M. П., Пономаренко И. В., Подколодный Н. Л., Фролов А. Функциональные сайты геномов про- и эукариот: компьютерное моделирование и предсказание активности. Мол. Биол., 1998, 32, 255-267.

108. Ponomarenko MP, Ponomarenko IuV, КеГ AE, Kolchanov NA, Karas H, Wingender E, SklenarH. Computer analysis of conformational features of the eukaryotic TATA-box DNA promoters Mol Biol (Mosk). 1997 Jul-Aug;31(4): 733-40

109. Ponomarenko MP, Kolchanova AN, Kolchanov NA. Generating programs for predicting the activity of functional sites. J ComputBiol. 1997 Spring;4(l):83-90.

110. Duval-Valentin G, Ehrlich R. Interaction between E. coli RNA polymerase and the tetR promoter from pSClOl: homologies and differences with other E. coli promoter systems from close contact point studies. Nucleic Acids Res. 1986 Mar ll;14(5):1967-83.

111. Chenchick A, Beabealashvilli R, Mirzabekov A Topography of interaction of Escherichia coli RNA polymerase subunits with lac UV5 promoter. FEBS Lett. 1981 Jun l;128(l):46-50.

112. Dickerson RE. Definitions and nomenclature of nucleic acid structure components. Nucleic Acids Res. 1989 Mar 11;17(5): 1797-803.

113. Dickerson RE Base sequence and helix structure variation in В and A DNA. J Mol Biol. 1983 May 25;166(3):419-41.

114. Shpigelman ES, Trifonov EN, Bolshoy A. CURVATURE: software for the analysis of curved DNA. Comput Appl Biosci. 1993 Aug;9(4):435-40.

115. Baldi P, Baisnee PF. Sequence analysis by additive scales: DNA structure for sequences and repeats of all lengths. Bioinformatics. 2000 Oct;16(10):865-89.

116. Bossi L, Smith DM. Conformational change in the DNA associated with an unusual promoter mutation in a tRNA operon of Salmonella. Cell. 1984 Dec;39(3 Pt 2):643-52.

117. Plaskon RR, Wartell RM. Sequence distributions associated with DNA curvature are found upstream of strong E. coli promoters. Nucleic Acids Res. 1987 Jan 26;15(2):785-96.

118. Adhya S, Gottesman M, Garges S, Oppenheim A. Promoter resurrection by activators—a minireview. Gene. 1993 Sep 30;132(l):l-6.

119. Van Wye JD, Bronson EC, Anderson JN. Species-specific patterns of DNA bending and sequence. Nucleic Acids Res. 1991 Oct 11;19(19):5253-61.

120. Tanaka K, Muramatsu S, Yamada H, Mizuno T. Systematic characterization of curved DNA segments randomly cloned from Escherichia coli and their functional significance. Mol Gen Genet. 1991 May;226(3):367-76.

121. McAteer K, Ellis PD, Kennedy MA The effects of sequence context on base dynamics at TpA steps in DNA studied by NMR. Nucleic Acids Res. 1995 Oct ll;23(19):3962-6.

122. Lyubchenko YL, Shlyakhtenko LS, Appella E, Harrington RE. CA runs increase DNA flexibility in the complex of lambda Cro protein with the OR3 site. Biochemistry. 1993 Apr 20;32(15):4121-7.

123. Burley SK X-ray crystallographic studies of eukaryotic transcription initiation factors. Philos Trans R Soc Lond В Biol Sci. 1996 Apr 29;351(1339):483-9.

124. Suzuki M, Yagi N. An in-the-groove view of DNA structures in complexes with proteins. J Mol Biol. 1996 Feb 9;255(5):677-87.

125. Darst SA, Kubalek EW, Kornberg RD. Three-dimensional structure of Escherichia coli RNA polymerase holoenzyme determined by electron crystallography. Nature. 1989 Aug 31;340(6236):730-2.

126. Rees WA, Keller RW, Vesenka JP, Yang G, Bustamante C. Evidence of DNA bending in transcription complexes imaged by scanning force microscopy. Science. 1993 Jun ll;260(5114):1646-9.

127. Ramstein J, Lavery R. Energetic coupling between DNA bending and base pair opening. Proc Natl Acad Sci U S A . 1988 Oct;85(19):7231-5.

128. Polozov, R.V. et al. (1999) Electrostatic potentials of DNA. Comparative analysis of promoter and nonpromoter nucleotide sequences, J. Biomol. Struct. Dyn., 16(6): 1135-1143.

129. Сорокин А.А. Функциональный анализ промоторных последовательностей Е. coli. Новые промоторные детерминанты, Канд. дисс, Пущино, ИТЭБ РАН, 2001

130. Dzhelyadin Т. R., Sorokin A. A., Ivanova N. N., Sivozhelezov V. S., Kamzolova S. G., Polozov R. V. // Biophysics (Moscow). 2001. V. 46. P. 972-976.

131. Камзолова Г., Сорокин A.A., Осипов A.A., Бескаравайный П.М. //Биофизика. 2006 Т. 50(3). 444-449.

132. Kamzolova S.G., Sorokin А.А., Dzhelyadin T.R., Beskaravainy P.M., Osypov A.A//J. Biomol. Struct. Dyn. 2005. V. 23(3). P. 341-346.

133. Сорокин A.A., Осипов A.A., Бескаравайный П.М., Камзолова Г., Анализ распределения нуклеотидной последовательности и электростатического потенциала генома Е.coli. Биофизика, 2007, 52(2), с.223-227.

134. Джелядин Т.Р. Электростатические свойства промоторов, взаимодействующих с РНК-полимеразой Е. coli Es70, Канд. дисс, Пущино, ИТЭБ РАН, 2001

135. J.J. Bull, R. Springman, I.J. Molineux, Compensatory Evolution in Response to a Novel RNA Polymerase: Orthologous Replacement of a Central Network Gene. Mol Biol and Evol, 2007 24(4):900-908

136. Камзолова Г., Бескаравайный П.М., Осипов А.А., Сорокин А.А., Электростатическая карта генома бактериофага Т7. 2. Сравнительный анализ электростатических свойств промоторов Т7 ДНК, контролируемых Т7 РНК-полимеразой., Биофизика, 2008, (в печати).