Бесплатный автореферат и диссертация по биологии на тему
ДНК-белковое узнавание
ВАК РФ 03.00.02, Биофизика

Автореферат диссертации по теме "ДНК-белковое узнавание"

Р Г Б ОД

о | ^ - о

На правах рукописи УДК 577.323

ПОЛОЗОВ РОБЕРТ ВАЛЕНТИНОВИЧ

ДНК-БЕЛКОВОЕ УЗНАВАНИЕ: АНАЛИЗ ПЕРВИЧНЫХ СТРУКТУР И ФИЗИКО-ХИМИЧЕСКОЕ ИЗУЧЕНИЕ

03.00.02-Биофюика

Автореферат

диссертации на соискание ученой степени доктора физико-математических наук

Пущино - 1998

Работа выполнена в Институте теоретической и экспериментальной биофизики РАН, г. Пущино

ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ

доктор физико-математических наук, профессор A.M. Молчанов доктор физико-математических наук, профессор В.И. Иванов доктор физико-математических наук Б.Н. Гольдштейн

ВЕДУЩАЯ ОРГАНИЗАЦИЯ:

Институт биофизики клетки РАН, г. Пущино

Защита состоится " Иг ^¡^Я 1998 г. в 'О часов на заседании диссертационного совета Д.200.22.01 в Институте теоретической и экспериментальной биофизики РАН по адресу: 142292 Московская обл., Пущино, ИТЭБ РАН

С диссертацией можно ознакомиться в библиотеке Института теоретической и экспериментальной биофизики РАН.

Ученый секретарь

диссертационного совета, кандидат биологических наук

П.А. Нелипович

Общая характеристика работы

Актуальность проблемы

Биолог сталкивается с проблемой специфических биологических реакций практически в любой своей деятельности. Специфические биологические реакции присущи многим процессам жизнедеятельности, от взаимодействий между ферментами и субстратами , между гормонами и их рецепторами, между антителами и антигенами, и вплоть до взаимодействий между клетками. Природа использует механизмы молекулярного узнавания генной экспрессии для того, чтобы достигнуть селективности, необходимой в естественном отборе. РНК-, ДНК-полимеразы. топоизомеразы. другие ферменты и регуляторные белки узнают и преимущественно связываются с вполне определенными нуклеотидными последовательностями ДНК генома, различая их среди большого числа других нуклеотидных последовательностей. Эти специфические первичные структуры отбирались в процессе эволюции, чтобы удовлетворить требованию функционально адекватного уровня связывания.

Специфическое узнавание. или селекция связывания нуклеотидных последовательностей ДНК-белком, основано на физико-химических взаимодействиях между ними. ДНК-белковое узнавание осуществляется на нескольких уровнях, характеризуемых различными взаимодействиями и шкалой расстояний : от электростатического взаимодействия на больших и средних расстояниях до узнавания белками вторичной и первичной структур ДНК. Этот многоуровневый механизм молекулярного узнавания обеспечивает высокую степень надежности, точности и воспроизводимости процесса генной экспрессии.

Первичные структуры ДНК часто интерпретируются как генетические тексты, написанные на неизвестном языке. Исследование генной экспрессии теоретическими и компьютерными методами имеет поэтому два аспекта: формальный, или информационный, и физико-химический. Формальный аспект проблемы включает в себя анализ символьных нуклеотидных последовательностей ( текст, записанный в четырехбуквенном алфавите ). Физико-химический же состоит в изучении структур ДНК. регуляторных белков, ферментов, их конформаций, физико-химических взаимодействий между ними. Эти два аспекта проблемы - текстологический и физико-

химический , тесно взаимосвязаны. Существует «тонкое и деликатное соответствие между организацией первичных структур и взаимодействиями, имеющими место при генной экспрессии.

Совершенно ясно, что организация экспрессии генов, и в частности процесса транскрипции, - одна из центральных проблем молекулярной биологии. Исследование ДНК-белковых взаимодействий, анализ и интерпретация генетических текстов, выработка самосогласованного описания биологических процессов узнавания на молекулярном уровне является несомненно актуальным как с научной, так и с прикладной точек зрения.

Цель и задачи исследования

Молекулярное узнавание промоторов РНК-полимеразой и регуляторными белками осуществляется на нескольких уровнях: на уровне первичной структуры, вторичной, и структур более высокого порядка. Каким образом белки узнают специфические, функционально значимые нуклеотидные последовательности ДНК и от каких формальных ( на уровне первичной структуры ДНК ), структурных и физико-химических свойств и характеристик зависит процесс молекулярного узнавания - это основные вопросы, которые возникают в проблеме ДНК-белкового узнавания.

Цель данной работы: нахождение и выявление значимых характеристик и параметров молекулярного процесса ДНК-белкового узнавания; их вычисление и анализ; компьютерное моделирование комплексов ДНК с белками; вычисление и изучение конформаций, характеристик гидратации двойной спирали ДНК, электростатических полей вокруг ДНК и белков.

Для достижения этой цели предлагается подход, комбинирующий текстологический ( информационный ) и физико-химический аспекты ДНК-белкового узнавания. При этом будем придерживаться требования проводить расчеты конформаций и физико-химических характеристик на атомном уровне и на всех пространственных шкалах - от взаимодействий на коротких расстояниях до электростатических взаимодействий на средних и больших расстояниях. Это поможет рассмотреть процесс молекулярного узнавания на всех уровнях с достаточной точностью.

Рассмотрим задачи, возникающие в связи с обсуждаемой проблематикой.

1. В настоящее время во взглядах на первичную структуру ДНК генома исходят из того, что геном представляет собой эволюционную, нелинейную динамическую систему, в символьной последовательности которой содержатся сведения о структуре и состоянии этой системы. Коль скоро принято это положение, дальнейшее исследование состоит в анализе и изучении организации и логики этой символьной последовательности. Это положение, подкрепленное многочисленными наблюдениями и опытными данными и принятое ныне в качестве парадигмы, сразу же позволяет применить к анализу нуклеотидных последовательностей методы теории динамических систем, теории информации, комбинаторики, теории хаоса, методы анализа сигналов и временных рядов.

.В первом разделе данной работе в связи с изучением организации первичных структур ДНК мы решаем следующие задачи ( в большей части это будет относиться к промоторам, терминаторам и кодирующим последовательностям ДНК генома Е.соИ ):

дадим доказательство того, что нуклеотидные последовательности ДНК геномов имеют фрактальные свойства. Основу доказательства составит метод вейвлет-преобразования;

вычислим Фурье- и вейвлет-спектры первичных структур промоторов , терминаторов, кодирующих участков ДНК генома Е.со1г,

методами статистической физики вычислим, а затем изучим статистические свойства промоторов, терминаторов, кодирующих участков ДНК Е.соИ;

решим задачу восстановления первичной структуры ДНК по ее перекрывающимся фрагментам.

2.В проблеме ДНК-белкового узнавания задача о зависимости структурных параметров двойной спирали ДНК от специфической последовательности нуклеотидов занимает важное место, т.к. структурные особенности двойной спирали узнаются белками и лигандами. Принцип комплементарного спаривания является ключевым в понимании структурной и функциональной организации нуклеиновых кислот. Исходно он базируется на предположении о плоском строении канонических азотистых оснований.

Задачи второго раздела работы следующие:

дадим доказательство того, что канонические азотистые основания , имеющие аминогруппы, неплоские;

- установим, что внутренняя геометрия пары азотистых оснований (пропеллер и другие углы) и геометрия пар азотистых оснований в двойной спирали ДНК определяется фактором неплоскости азотистых оснований, имеющих аминогруппу.

3. Электростатические потенциалы ДНК и белков являются важными характеристиками этих молекул, которые определяют первичное узнавание белками ДНК на средних расстояниях. Электростатическая комплементарность является важным механизмом молекулярного узнавания на средних расстояниях между белком и ДНК.

Задачи этого раздела следующие:

вычисление электростатических потенциалов белков, специфически взаимодействующих с ДНК;

вычисление электростатических потенциалов промоторов E.coli; сравнительный анализ потенциалов промоторов E.coli;

вычисление атом-атомных корреляционных функций системы ДНК-

вода;

построение компьютерной модели комплекса сигма 70 субъединицы РНК-полимеразы E.coli с ТАТА-боксом промотора lacUV5.

Научная новизна работы

Впервые вычислены Фурье - спектры нуклеотидных последовательностей ДНК промоторов и на их основе проведена классификация промоторов. Установлен и проанализирован набор периодов как для нуклеотидных последовательностей промоторов, так и для соответствующих им кодирующих участков ДНК. Показано принципиальное отличие одних групп промоторов от других. Показана периодическая структура расположения нуклеотидов в промоторах E.coli и H.Sapiens\ показана их высокая степень гетерогенности: Фурье - спектры последовательностей нуклеотидов в промоторах прокариот и человека отличаются как по набору величин периодичностей, так и по параметрам блочности определенных групп нуклеотидов.

Впервые обнаружены периодичности в расположении точек контакта РНК-полимеразы E.coli с промоторами. Показано, что боьшинство из них не совпадают с периодичностью сахарофосфатного остова канонической B-формы ДНК.

Показана возможность распознавания нуклеотидных последовательностей эукариот и прокариот как методами нейронных сетей, так и методами частотного анализа, причем последний оказывается не менее эффективным, чем первый.

Впервые также методами вейвлет - преобразования обнаружены и исследованы мультифрактальные свойства первичных структур ДНК. Впервые вычислены и изучены статистические характеристики нуклеотидных последовательностей промоторов, терминаторов и кодирующих участков ДНК генома E.coli: автокорреляционные функции, функция бинарной информации, вейвлет - спектры и их корреляции, масштабно - зависимая статистическая сумма. Показано, что по этим характеристикам все три класса первичных структур - промоторы, терминаторы и кодирующие участки -резко отличаются друг от друга.

Построен алгоритм восстановления первичной структуры по ее перекрывающимся фрагментам и показана его применимость к проблеме перекрывающихся генов.

Теоретически показано, что валентные взаимодействия, формирующие пирамидальное строение аминогрупп аденина, цитозина и гуанина, являются одним из главных факторов, определяющих зависимость вторичной структуры ДНК от первичной структуры.

Впервые вычислены атом - атомные корреляционные функции системы ДНК -вода. Предложенный численный алгоритм позволяет вычислять гидратацию ДНК без привлечения упрощающих допущений о структуре макромолекулы и рассчитывать параметры гидратации специфических, функционально важных участков двойной спирали ДНК.

Вычислены электростатические потенциалы промоторов E.coli и проведено их сравнительное изучение. Это открывает возможность построения моделей электростатического узнавания белками своих специфических участков на молекуле ДНК.

Вычислены электростатические потенциалы ( решение как линейного, так и нелинейного уравнения Пуассона-Больцмана ) нескольких регуляторных белков и узнающего -10- область промотора E.coli фрагмента сигма - 70 субъединицы РНК-полимеразы E.coli, — 10- участка нескольких промоторов генома E.coli.

Впервые построена компьютерная модель комплекса фрагмента сигма -70 субъединицы РНК-полимеразы E.coli и - 10-участком промотора lacUV5 генома . E.coli.

Впервые вычислены атом-атомные корреляционные функции системы фрагмент В-формы ДНК - вода.

Практическое значение работы

Результаты изучения первичных структур ДНК и физико-химических свойств ДНК, белков и их комплексов необходимы для выработки адекватных теоретических представлений и построения моделей процесса транскрипции. Развитые в работе методы могут быть применены в биотехнологических разработках, в проектировании новых лекарственных средств, в технологии ДНК-вычислений.

Апробация работы

Результаты работы докладывались на:

семинарах и годовых конференциях института;

10lh International Biophysics Congress, July 29, Augest 3,1990, Vancouver,. Canada;.

YIII Всесоюзном симпозиуме по межмолекулярному взаимодействию и конформациям молекул, 28 окт. - 1 нояб. 1990, Новосибирск;

Icfl Всесоюзной конференции " Геном человека ", 8-12 окт. 1990, Переяславль-Залесский;

International Conference " Modelling and Computer Methods in Molecular Biology and Genetics ", August 1990, Novosibirsk;

Международной конференции " Математические методы распознавания образов ", 25 - 30 сент. 1995, Пущино;

Workshop on Mathematical Analysis of Biological Sequences, Norwegian University of Science and Technology, August 4-6, 1996, Trondheim, Norway;

24th Aharon Katzir-Katchalsky Conference " Bioinformatics-Structure ", November 1721, 1996, Jerusalem, Israel;

Euroasian Symposium on Current Trends in Biotechnology, October 29 - November 6, 1995, Ankara;

на семинарах Международного Сольвеевского Института физики и химии , Брюссель, 1997- 1998.

Публикации

По материалам диссертации опубликованы 21 печатная работа в отечественных и зарубежных журналах и одна монография.

Структура н объем работы

Диссертация состоит из введения, семи глав, выводов и списка литературы из 170 наименований. Она содержит 147 страниц, 53 рисунка и 11 таблиц.

Содержание работы

В первой главе для распознавания и классификации нуклеотидных последовательностей ДНК применяются статистические методы ( кластерный анализ ), компьютерные методы нейронных сетей.

В первом параграфе этой главы изложены результаты анализа нуклеотидных последовательностей промоторов, терминаторов, кодирующих участков генома E.coli и некоторые последовательности геномов других видов ( B.subtilis, Н.sapiens ). По заданной нуклеотндпой последовательности вычислялись частота встречаемости нуклеотидов, корреляционные функции и некоторые другие.

Было найдено, что нуклеотидные последовательности промоторов обладают инвертированными поворотами длиной не менее четырех нуклеотидов. 14% из 290 последовательностей промоторов E.coli содержание прямые повторы длиной в шесть нуклеотидов, отделенных друг от друга участками длиной в 5-10 нуклеотидов, что указывает па возможность образования этими участками ДНК SLS структур. Точных прямых или инвертированных повторов длиной в восемь нуклеотидов оказалось 23% из исследованных промоторов E.coli. Вероятность найти один или более точный прямой или инвертированный повтор длиной в восемь нуклеотидов для случайной последовательности длиной в 101 нуклеотид равна 0,0026 ( вычисления проводились по схеме Бернулли ).

Показана обогащенность промоторов различными скоплениями одинаковых нуклеотидов и чередующихся А/Т и G/C богатыми блоками в предположении

независимости нуклеотидов ( цепь Маркова 0-го порядка ). В частности, замечена обогащенность промоторов E.coli А/Т-треками ( т.е. последовательностями, содержащих не менее четырех нуклеотидов А и Т, следующих друг за другом; без трека ТА ). Известно, что эти участки ДНК отличаются особым типом гидратации и образуют так называемый водный хребет в малой бороздке ДНК. Распределение А/Т-треков в нуклеотидных последовательностях промоторов несимметрично - большая часть А/Т-треков расположена выше точки старта транскрипции. Максимумы распределения А/Т-треков для компиляции из 290 промоторов E.coli, выравненных по точке старта транскрипции, находятся в положениях -73, -62, -55, -51, -44, -41, -31, -20, -10 относительно точки старта в сторону 5'-конца. Минимумы распределения находятся в положениях -67, -59, -57, -48, -42, -38, -25, -14, -13, где положение А/Т-трека задается положением его первого нуклеотида с 5'-конца. Почти полное отсутствие А/Т-треков с началом в позициях -14,-13, относительно точки старта возможно свидетельствует о том, что в этих областях промоторов запрещаются последовательности, способные образовывать водный хребет, характеризующийся более узкой малой бороздкой по сравнению с малой бороздкой канонической B-формы ДНК ( В'-форма ). На рис.1 приведена гистограмма отношения числа нуклеотидов А и Т к числу G и С. По оси абсцисс - значения величин (A+T)/(G+C) с шагом 0,1; по оси ординат - число случаев, попавших в данный диапазон значений. Для 10% E.coli (A+T)/(G+C)<1. Большая часть промоторов богаты А, Т нуклеотидами, однако существуют промоторы , у которых число А и Т букв превышает число G и С букв.

Второй параграф этой главы посвящен нахождению периодичностей в нуклеотидных последовательностях ДНК генома. E.coli, B.subtilis и H.sapiens. Обнаружение и изучение периодичностей в первичной структуре ДНК важно для понимания закономерностей формирования структур высших порядков и их стабильности. Характер распределения периодичностей важен также для заключения о распределении типов гидратации в бороздках ДНК, а это , в свою очередь, необходимо для оценки стабильности ДНК-белковых комплексов. Компоненты Фурье-спектра нуклеотидной последовательности вычислялись следующим образом:

N50 40 30 23 10 О

S

0.3 0.7 1.1 1.5 1.9 23 27 3.1 3.5 39

Рис. 1. Гистограмма отношения количества нуклеотидов А и Т к количеству G и С для выборки из 290 промоторов E.coli. По оси абсцисс - значения отношения количества А • Т к G+C с шагом 0.1. по осп ординат - количество случаев, попавших в данный диапазон значении. 10° о промоторов Е coli имеют

(A+T)/(C+G)<1

А/

" м

где q„ = 2рп/М, п=0,1,...,М-1, ае {А. Т, G. С). хш.а =1. если буква типа а расположена в m -ой позиции последовательности, в противном случае х,„ = 0.

Спектральная мощность гармоники . соответствующей период) Т„ = 2p'q. равна

и.|1

где Ьаь - корреляционная матрица . Решались следующие задачи:

1) с какими периодичностями распределяются отдельные нуклсотиды и динуклеотиды;

2) приводят ли периодичности, если они имеются, к фазировке соответствующих нуклеотидов и динуклеотидов по отношению к спиральному расположению нуклеотидов в двойной спирали ДНК:

3) нарушают ли наблюдаемые периодичности распределения нуклеотидов ось симметрии второго порядка, перпендикулярную оси двойной спирали ДНК;

4) как периодичности связаны друг с другом и с возможным блочным распределением нуклеотидов в промоторах:

5) какое значение в наблюдаемых периодичностях в распределении нуклеотидов

имеет скопление нуклеотидов или динуклботидов каждого сорта, и как можно по Фурье-спектрам их отличить.

Для решения этих задач был проведен статистический анализ расположения всех возможных динуклеотидо;1. вдоль нуклеотидных последовательностей промоторов генома E.coli. Максимумы частот встречаемости динуклеотидов расположены с периодичностью приблизительно соответствующей шагу спирали в B-форме ДНК заисключением -10 и -35 боксов ( рис.2 ).

На рис. 2 представлено распределение динуклеотидов АА/ТТ и CG в нуклеотидных

»

последовательностях промоторов E.coli длиной в 101 нуклеотид. По оси абсцисс -положение динуклеотида вдоль последовательности промотора; по оси ординат - число динуклеотидов определенного типа, встретившихся в данной позиции относительно точки старта транскрипции. Как легко видеть, говорить о периодичности распределения пар через 10,5 нуклеотидов не приходиться. На участках -10 и -35 боксов, т.е. в местах, важных для посадки РНК-полимеразы, симметрия явно нарушается. Очевидно, что нарушения в периодичности распределения нуклеотидов на суммарном графике само по себе не означает непериодического распределения нуклеотидов в индивидуальных промоторах. Рассуждения о точном соответствии симметрии сахарофосфатного остова симметрии расположения нуклеотидов, которое должно стабилизировать двойную спираль, осмыслены только для отдельно взятой последовательности. В тоже время

Рис.2. Распределение динуклеотидов АА/ТТ (верхняя кривая) и CG (нижняя кривая) для 290 промоторных последовательностей E.coli. характерные участки первичной структуры, состоящие из нуклеотидов одного типа, в

том числе повторяющихся периодически, будут либо дестабилизировать спираль, либо инициировать возникновение особенностей пространственной структуры ДНК ( суперспирализация, изгибы, кинки ). Все это скажется на функциональных свойствах промотора. Поэтому для более детального изучения каждой, отдельно взятой нуклеотидной последовательности промотора компиляции E.coli был получен ее Фурье-спектр по разным системам признаков: по отдельно взятым нуклеотидам A,C,G,T; по всем четырем нуклеотидам одновременно; по различным динуклеотидам, взятым по отдельности, и по всем динуклеотидам одновременно.

Фурье анализ показал, что имеются четкие, ясно выраженные периодичности, включающие и периодичность «10,5 ( периодичность, соответствующая сахарофосфатному остову B-формы ДНК), в расположении нуклеотидов промоторов. Разные промоторы имеют также и разные Фурье-спектры. На рис. 3 приведены Фурье-спектры нескольких промоторов по встречаемости всех четырех нуклеотидов. Небольшая спектральная мощность периодичности в промоторах E.coli наблюдается по динуклеотидам АА/ТТ ( и не только в силу заметной обогащенности промоторных последовательностей динуклеотидами АА/ТТ ). Промоторы Gal PI, Gal Р2, atp В PI имеют четко выраженную периодичность 13,5 встречаемости динуклеотидов АА/ТТ. Промоторы rplT и uvrC-рЗ имеют четко выраженную периодичность восемь встречаемости нуклеотидов AA/Tt. Промоторы gltA-Pl, ilvIH-P2, katE, lívj, livK, Ipp, melA, mtl, ompB, pabA-Pl, pckA, rpmH-P3, sdh-P2 имеют отчетливую периодичность 10,5 встречаемости динуклеотидов АА/ТТ.

Замечательным фактом является наличие периодичности "три" в некоторых промоторных последовательностях E.coli. Известно, что периодичность "три" характерна для кодирующих последовательностей ДНК ( в силу существования предпочтения в использовании определенных кодонов ). Поэтому те промоторы ( например, atpB, crr-P2-II, dna N-P2, dnaN-P3, grpE, relA, speB ), которые имеют периодичность "три" сразу по нескольким нуклеотидам, могут рассматриваться как произошедшие из кодирующих участков генов. Анализ данных о взаимном расположении генов E.coli, полученных из банка EMBL, позволил установить, что некоторые промоторы, имеющие четко выраженную периодичность "три" ( например, dnaN-P2, dnaN-P3, SpeB), лежат в кодирующей области предшествующих генов. Известно, что промоторы Р2 РЗ гена dnaN лежат в кодирующей части гена dnaA, предшествующего гену dnaN, а промотор гена SpeB находится в кодирующей части

гена SpeA, предшествующего гену SpeB.

hsd SucAB

pckA iagD

Рис.3. Разнообразие Фурье-спектров промоторов E.coli i Периодичности расположения нуклеотидов в промоторах отличаются от периодичностей расположения нуклеотидов в прилежащих к ним участках ДНК.

Фурье-спектры промоторов отличаются от Фурье-спектров соответствующих им генов ( см. на рис.4 усредненные Фурье-спектры для совокупности промоторов E.coli и совокупности фрагментов генов такой же длины, что и рассматриваемые промоторные последовательности ). Следует отметить, что четкая выраженная периодичность "три" на усредненном Фурье-спектре участков генов не означает, что каждый из этих участков имеет в своем спектре четко выраженную периодичность "три".

Промоторы

Гены

Рис.4. Средние Фурье-спектры для выборки промоторов E.coli (слева) и для выборки фрагментов кодирующих участков генов, соответствующих этим промоторам (справа) Было проведено разделение нуклеотидных последовательностей промоторов E.coli на классы по следующим системам признаков: 1 - числу пиков в Фурье-спектре; 2 -численным значениям величин периодов в первичной структуре промоторов и их сходству или различиям с периодичностью сахарофосфатного остова; 3 - наличию блоков из одинаковых нуклеотидов. Оказалось, что большинство промоторов имеют в своем спектре несколько гармоник. Однако существуют и промоторы, имеющие единственную четко выраженную гармонику, значительно выделяющуюся по спектральной мощности ( например, Фурье-спектры встречаемости 16 возможных динуклеотидов для промоторов put-P2 и put-P3 имеют три четко выраженных пика, соответствующих периодам 2; 5,5 и 11,5, а спектры промоторов hisA и рскА имеют по одному четкому пику: период 4 для hisA 10,5 - для рскА ). Ряд промоторов содержит периодичность, соответствующую периодичности сахарофосфатного остова ( промоторы gltA-Pl и другие ). Существуют промоторы, содержащие периодичности, отличные от периодичности сахарофосфатного остова ( например, промоторы hisA, SpeB, dna-P2, dnaN-P3, uvrC-P3, alkA, argF и др.).

Фурье-спектры промоторов Н.sapiens ( исследовано 122 pol-II промотора ) как и промоторы прокариот имеют разнообразное строение: от более сложных Фурье-спектров до простых ( рис.5 и рис.6). Для большинства спектров промоторов человека характерно наличие большого числа гармоник разной амплитуды, что свидетельствует о высокой степени гетерогенности нуклеотидных последовательностей промоторов человека и о более сложной регуляции транскрипции.

НЭиРНО!

Рис.5. Фурье-спектр для всех четырех иуклеотидов промотора генаН5ЫР01 человека

Рис.6. Фурье-спектр для всех четырех нуклеотидов промотора гена инсулина человека. В третьем параграфе приводятся результаты компьютерного анализа закономерностей распределения точек контактов между РНК-полимеразой и

некоторыми промоторами E.coli ( на основании известных, к сожалению немногочисленных экспериментальных данных ). Была обнаружена периодичность в распределении контактов между РНК-полимеразой и промоторами. В Фурье-спектре контактов полной РНК-полимеразы с промотором lacUV5 четко видны пики, соответствующие периодам в 7; 8; 10,5; 15 нуклеотидов ( рис. 7 ).

Так как в общей картине контактов РНК-полимеразы E.coli с несколькими промоторами видна некоторая гомология контактов на уровне индивидуальных

Рис. 7. Фурье-спектр промотора lac UV5 (сплошная линия) и Фурье-спектр контактов полной РНК-полимеразы с lac UV5 промотором (контакты для обеих цепей ). По оси абсцисс - длина периода Т, по оси ординат - соответствующая периоду спектральная мощность F. нуклеотидов, нами проведен статистический анализ нуклеотидов, находящихся в позициях, соответствующих ( с точностью до одного нуклеотида влево или вправо ) точкам контактов РНК-полимеразы с 1асиУ5-промотором, для компиляции промоторов E.coli, выравненных по точке старта транскрипции. Оказалось, что все исследованные промоторы имеют не менее 7 совпадений нуклеотидов с промотором lacUV5 в позициях, соответствующих точкам контактов полной РНК-полимеразы с промотором IacUV5. 98% промоторов содержат не менее 10 совпадений нуклеотидов с промотором lacUV5 в позициях, соответствующих точкам контактов полной РНК-полимеразы с промотором lacUV5. 87% исследованных промоторов содержат не менее 12 таких

совпадений.

Фурье-анализ нуклеотидных последовательностей промоторов Е.соИ, записанных в алфавите из "О" и "1" ( 1 - в позициях, в которых обнаружено совпадение с нуклеотидом, соответствующим контакту РНК-полимеразы с 1аЛ1У5 промотором, 0 - во всех остальных позициях ) показал, что 74% промоторов имеют в Фурье-спектре пик, соответствующий периоду в 15 нуклеотидов, 45% промоторов имеют в Фурье-спектре пик, соответствующий периоду в 1 ] нуклеотидов, 40% - 8 нуклеотидов, 27% - 6 нуклеотидов. Усредненный Фурье-спектр промоторов приведен на рис.8.

Рис.8. Усредненный Фурье-сгтекгр "контактов" полной РНК-полимеразы с промоторами для выборки из 290 промоторов E.coli. По оси абсцисс - длина периода Г, по оси ординат - соответствующая спектральная

мощность F

В четвертом параграфе представлены результаты классификации промоторных и терминаторных последовательностей Е. coli методами кластерного анализа и нейросетевого метода Кохонена. Эти методы классификации были выбраны потому, что а priori не были известны ни число классов, ни типичные представители искомых классов ( алгоритм Кохонена является самообучающимся, а метод кластерного анализа позволяет получать классификации без предварительного обучения ). По сути дела, решалась задача исследования структуры данных.

Использование метрики Хемминга в качестве расстояния между первичными структурами промоторов ( терминаторов ) E.coli привело к дендрограммам ,

отражающим размытую структуру данных. Применение алгоритма Кохонена также выявляет размытую картину данных ( первичных структур ). Четкие кластеры, однако, удается получить, если в качестве признаков для классификации использовать не первичные структуры, а их характеристики - пурин-пиримидиновую асимметрию, относительные частоты встречаемости динуклеотидов, периодичности нуклеотидов. динуклеотидов итринуклеотидов.

На рис.9 приведена дендрограмма, полученная методом кластерного анализа 290 промоторных последовательностей (компиляция Lisser ., Margit . 1993 ) В качестве признаков , по которым проводилась классификация, были выбраны Фурье-спектры промоторных последовательностей, отражающие суммарную периодичность встречаемости нуклеотидов А, Т, G, С. Промоторы, имеющие в своем спектре периодичность "три", выделились в отдельный кластер. В один кластер попадают также промоторы, у которых доминирующая периодичность совпадает с периодичностью сахарофосфатного остова B-формы ДНК.

Полученную классификацию можно проинтерпретировать, привлекая понятие ультраметрического пространства. Известно, что каждому элементу построенного дерева можно сопоставить точку ультраметрического пространства. Характерным свойством этого пространства является то. что точки этого пространства не могут образовывать треугольник так, чтобы все стороны треугольника были разные. Расстояние d между любыми узлами дендрограммы. принадлежащими данному уровню п, определяется числом шагов до общего предка, расположенного на уровне п - 1.

В ультраметрическом пространстве ( или на дендрограмме ) можно рассматривать совокупность кинетических и термодинамических констант ( Кь. кс ). которые характеризуют взаимодействие между РНК-полимеразой и промоторами, как функцию ультраметрических расстояний. Таким образом, кинетические и термодинамические константы , заданные на иерархическом дереве, оказываются не произвольными, а зависящими друг от друга . а их значения связанными ультраметрически. Если же неизвестна вся совокупность констант, то по их известному подмножеству и полученной дендрограмме можно найти значения величин неизвестных констант других промоторов. Можно обобщить этот подход, рассмотрев общую задачу о кинетике, заданной на ультраметрическом пространстве.

В конце этой главы описан алгоритм поиска специфических участков в длинных нуклеотидных последовательностях ДНК. основанный на простой геометрической

трактовке нуклеотидной последовательности как точке в многомерном пространстве. Тестирование алгоритма проведено на большой выборке нуклеотидных последовательностей генома человека. Проведено сравнение эффективности предложенного алгоритма с уже известным ранее нейросетевым алгоритмом и показано, что предложенный нами алгоритм дает те же результаты, что и нейросетевой , но требует меньше вычислительных затрат.

Вторая глава посвящена изучению другого важного свойства первичных структур ДНК - свойству самоподобия. В настоящее время вследствие достижений молекулярной биологии и смежных с ней наук стало совершенно ясно, что геном обладает экстраординарной сложностью. Этим объясняется широкое применение к анализу первичных структур как традиционных, так и нетрадиционных методов анализа сигналов. К последним относится метод вейвлет-преобразования, который является исключительно мощным средством анализа сигналов и широко применяется в самых различных областях науки и технологии - от изображений облаков или поверхности планеты до изучения турбулентных полей.

В отличие от Фурье-преобразования в вейвлет-преобразовании частота и координата рассматриваются как независимые переменные. Это дает возможность анализировать сигнал в физическом ( время, координаты ) и в спектральном ( частота ) пространстве. Иерархический базис вейвлетов позволяет сохранять хорошее разрешение на разных масштабах, находить внутреннюю структуру сложной системы и изучать ее скейлинговые свойства.

В силу этого вейвлет-преобразование является незаменимым средством анализа нестационарных сигналов или процессов, к которым с полным правом можно отнести и нуклеотидные последовательности ДНК геномов.

Метод вейвлет - преобразования был применен для доказательства того, что первичные структуры ДНК обладают фрактальными свойствами. Статистические длинноволновые корреляции наблюдались в нуклеотидных последовательностях ( Peng et. al , 1992; Voss, 1992 ), что указывало на то, что для нуклеотидных последовательностей характерны не только периодичности, но что они могут иметь и скейлинговые свойства.

Рис. 9. Дендрограмма агломеративно-иерархического кластерного анализа 290 промоторов E.coli по Фурье-спектрам для всех

четырех нуклеотидов..

Однако, точное доказательство того, что первичные структуры ДНК обладают фрактальными свойствами ( скейлинговые, фрактальные свойства и свойство самоподобия в данном контексте эквивалентны ) было дано методом вейвлет — преобразования в нашей работе и независимо в работах ( Tsonis et. al, 1996; Arneodo et. al, 1996 ). Метод вейвлет-преобразования является наиболее адекватным методом для нахождения самоподобия в структуре анализируемого сигнала ( в данном случае нуклеотидной последовательности ).

Наличие определенного типа нуклеотида, скажем А, на вполне определенном месте нуклеотидной последовательности может быть рассмотрено как случайный процесс Х(1), где I - длина последовательности. В случае четырехбуквенного алфавита W = {А, Т, G, С }, мы имеем дело с четырьмя случайными процессами

так что X:fl,w)=1, если w=z, (zeW фиксированный символ) и равно 0 в противном случае.

Вместо того, чтобы вычислять корреляции, как это было сделано в работах (Peng,1992, Voss, 1992), введем интегральную меру

Ц, = '¡Хг С'»')= )d ц,,

о о

которая дает число нуклеотидов данного типа вплоть до /-ого местоположения этого нуклеотида . ( Z = А, Т, G, С ).

Так как введенная мера является недифференцируемой, то для нее справедливо следующее поведение:

(М(х)-цЫ)~\х-хп\н где Я - показатель Липшица-Гельдера, зная который можно вычислить некоторые другие фрактальные характеристики. Извлечение показателя Липшица-Гельдера из экспериментальных данных есть типичная задача физики фракталов. Одним из самых надежных методов нахождения показателя Н является метод вейвлет-преобразования, который является сильным обобщением преобразования Фурье:

Т№МП= ' К* ■*)/<*)*.

ц П •> п

где Т (а,Ь)[/] - вейвлет-образ /(х) анализируемой функции, Ь - параметр

сдвига , а - параметр сжатия или растяжения. Пределы интегрирования определяются длиной нуклеотидной последовательности. В нашем анализе в качестве базисных функций g((x-Ь)/a) использовались функции, порождаемые стандартной материнской функцией вида:

(1-х2)ехр(-х2/2).

Были вычислены вейвлет-коэффициенты Т%(а,х) нуклеотидной последовательности гена родопсина китайского хомячка длиной 11838 нуклеотидов. Вейвлет-коэффициенты вычислялись на десяти шкалах: а=2', где (= 0,...,9 в 8192 точках; 8192 - максимальная степень двойки, которая не превосходит длину последовательности ( 11838 нуклеотидов ).

й-Р* с.р«

Рнс. 10. Скалограммы для А, Т, в, С-букв, соответственно.

Вычисленные показатели Липшица-Гельдера для букв А, Т, G, С близки к //в=1/2 броуновского движения, однако разность Hz - Не, где z= А, Т, G, С, (НА=0,60; Нт=0,43: Нс=0,60; Но=0,53) не может рассматриваться как малая величина. Эта разность может объясняться присутствием в анализируемой первичной структуре ветвящихся процессов на шкалах 27 или 28 ( см. Рис.10). Таким образом, мы заключаем, что скейлинг в первичных структурах ДНК реально существует.

Для изучения организации и свойств нуклеотидных последовательностей промоторов, терминаторов и кодирующих участков ДНК генома Е. coli наряду с методом вейвлет-преобразования мы используем также и другие основанные на нем методы, которые были применены к выборке промоторов (Ozoline ., 1997), являющейся расширенной версией выборки промоторов E.coli (Lisser., Margit., 1993). Для каждого элемента из указанных выборок - промотора, терминатора, кодирующей последовательности - вычислялись автокорреляционные функции, функция взаимной или бинарной информации, Фурье- и вейвлет-спектры, их корреляции и масштабно-зависимая статистическая сумма.

Автокорреляционная функция вычислялась следующим образом:

С(т) _(X(t + z)~~X)(X(t) - X) (I)

jDX(t + x)D(X(t))

где черта обозначает операцию усреднения, D(X(t)) - дисперсия X(t). Очень часто, особенно для нечисловых символьных последовательностей, вычисление только автокорреляционных функций оказывается недостаточным для выявления функциональных связей между различными частями последовательности. В этом случае используется средняя взаимная информация или функция бинарной информации:

где Рл(а) - вероятность нахождения элемента а из множества А, Рв(Ь) -вероятность нахождения элемента Ъ из множества В, Рлв(а.Ъ) - вероятность нахождения элементов а и b . Статистическая сумма определялась по поведению максимумов модуля вейвлет-коэффициентов для каждого масштаба а:

где суммирование проводится по всем экстремальным значениям I вейвлет-коэффициентов.

При исследовании мультифракталов применяется метод масштабно-зависимой статистической суммы, известный также как метод максимума модуля вейвлет-коэффициентов , предложенный в ( Мигу ,е1. а1., 1991).. Основным достоинством этого метода является его чувствительность к структуре сингулярностей сигнала.

Метод максимума модуля вейвлет-коэффициентов построен по аналогии с масштабно-зависимой статистической суммой ( НаЬеу е1 а1., 1986 ):

1=1 '

используемой для анализа зависимости поведения вероятностной меры //, при изменении масштаба покрытия е. Если, например, //,=ЛУЛ' есть отношение числа членов популяции М , попавших в данную клетку размера е к полному числу членов популяции, то, очевидно, что для ^ -со основной вклад будут давать клетки с минимальной заселенностью, а для ц —> +°о - с максимальной заселенностью; д=0 дает число клеток, в которых есть хоть один элемент популяции. То же самое, очевидно, относится и к статистической сумме ( 3 ).. Оба вида статистических сумм используются в исследовании процессов, имеющих фрактальную природу: ( гидродинамическая турбулентность, хаотические сигналы и т. п.). Функция бинарной информации и автокорреляционная функция, вычисленные по формулам (1) и (2) для выборок промоторов, ведут себя симбатно, но малы по величине, что показывает отсутствие существенных корреляций между буквами (А, Т) и (О, С) на расстояниях, превышающих 10-15 пар нуклеотидов ( в данном случае буквы А и 'Г отождествлялись и кодировались +1, а буквы О и С кодировались -1). Симбатность поведения функции взаимной информации и автокорреляционных функций указывает на отсутствие четких корреляционных закономерностей, что свидетельствует о грубости этих функций для характеристики промоторов. Поэтому были использованы более тонкие методы.

Были также вычислены автокорреляционные функции вейвлет-коэффициентов для различных масштабов ( а=2,...,27, с шагом 20,5 ) и последовательностей, составленных из всей компиляции промоторов. Оказалось, что единственным масштабом, на котором поведение корреляционных функций заметно отличается от случайного, является масштаб а=24. Были вычислены автокорреляционные функции вейвлет-коэффициентов случайной последовательности той же длины, что и последовательность, составленная из всех промоторов. Сравнение поведения автокорреляционных функций, полученных на реальной и случайной нуклеотидных последовательностях, позволяет выделить масштабы, на которых поведение символьной последовательности можно считать не случайным. В данном случае таким масштабом, по-видимому, является длина в 12-14 нуклеотидов, наблюдаемая по вейвлет-коэффициентам. Это свидетельствует о том. что автокорреляционные функции вейвлет-коэффициентов чувствительны к особенностям первичной структуры нуклеотидных последовательностей. Выделенные масштабы можно соотнести с размерами консенсус-последовательностей -35, -10 и спейсерной области промоторов.

Автокорреляционные функции вейвлет-коэффициентов всей компиляции терминаторов указывает на два различных масштаба длины, на которых возможны корреляции. Первый, как и для промоторов, состав'11 от -14 нуклеотидов, второй - около 30-35 нуклеотидов. Были построены карш рельефа

вейвлет-коэффициентов Ща,Ь) для различных нуклеотидных последовательностей промоторов, терминаторов и кодирующих последовательностей. Рельеф последней визуально не отличим от рельефа случайной последовательности, а карты последовательностей промоторов и терминаторов имеют некоторые характерные особенности. Более четко эти особенности прослеживаются в рельефе масштабно-зависимой статистической суммы, 1(а,д). Для терминаторов ( рис.11) в рельефе статистической суммы прослеживаются максимумы на масштабах, соизмеримых с характерной длиной терминатора, что возможно связано с наличием блоков из Т-нуклеотидов ( терминаторная шпилька ). У кодирующих последовательностей наблюдается монотонное падение значений статистической суммы с увеличением масштаба. У нуклеотидных последовательностей промоторов прослеживается наличие структур на всех масштабах.

Таким образом, можно заключить, что использование методов статистической физики позволяет выявлять такие закономерности в структуре нуклеотидных последовательностей ДНК геномов, которые не обнаруживаются другими методами.

В третьей главе рассматривается задача об определении первичной структуры ДНК по перекрывающимся ее фрагментам, нуклеотидные последовательности которых заданы. Эта задача сводится к задаче реконструкции слова по множеству его полслов. В данном случае произвольная конечная совокупность букв называется атфавитом. а любая линейная последовательность букв из данного алфавита называется словом, число входящих в слово букв - длиной слова. Любому линейному гетерополимеру ( в нашем случае ДНК ) соответствует слово в данном алфавите. Эта задача, поставленная и решенная еще в начале 70-х годов , приобрела в настоящее время новое значение в связи с задачами перекрывания генов ( Козлов . 1995) и ДНК-вычислениями, которые являются вариантами задач о молекулярном узнавании на уровне первичной структуры.

Наипростейший способ получить перекрывающиеся полслова слова X состоит в получении всех двубуквенных подслов с указанием сколько раз каждое двубуквенное слово входит в слово X. Это множество двубуквенных слов назовем составом второго ранга С2[Х] ( состав первого ранга - это число,

показывающее сколько раз каждая буква алфавита встречается в слове). Для нуклеиновых кислот С2[Х] - частоты ближайшего соседствования нуклеотидов.

Ключевым в реконструкции слова является преобразование слова X, которое не меняет его состав второго ранга. Неизвестное слово X можно представить в одной из следующих двух форм:

Х = Х|аРрХ2а(ЗрХз, X = .

где Хь Х2, Хз, Р, С>, '¿¡, Я, Э, Z2 - произвольные, возможно пустые (не содержащие ни одной буквы) слова, а, р, у - буквы алфавита. Тогда и У2 есть результат следующего преобразования слова X: У,=Х1аОрХ2аРрХ, Y2 = г^уЯугг.

Можно показать, что если слово не меняется указанным преобразованием, то оно восстановимо по своему составу второго ранга. Следствием этого является то, что каждое слово, восстановимое по своему составу С2, можно представить в виде:

Х = (5, Р, (ЬР2...<}Р*...(}пРп, где = А А"'А состоит из различных букв, А"' = А...А, А и А - начало и конец слова А. Слово Т = Р[ Р2.. .Р„ содержит не более двух вхождений каждой буквы полного алфавита. Слова Т и Ъ = С^ С>2. ..(2П не имеют общих букв.

На основании указанной процедуры можно построить алгоритм , сложность которого не превышает п4 операций, где п - длина слова X, а за элементарную операцию принято сравнение двух однобуквенных слов.

В четвертой главе рассматривается задача о зависимости вторичной структуры ДНК от первичной. Параметры и структурные особенности вторичной структуры ДНК во многих аспектах определяют характер ДНК-белкового узнавания. Задача о зависимости вторичной структуры от первичной до сих пор не решена. Трудности решения этой задачи обусловлены сложной внутренней геометрией двойной спирали и сложной природой физических взаимодействий в ДНК. В нашей работе мы выделим и рассмотрим один из факторов, который является определяющим для вторичной структуры ДНК -

неплоское строение уотсон-криковских пэр, обусловленное 5р3-гибридным характером связей аминогрупп аденина, гуанина и цитозина.

Принцип комплементарного спаривания является основой структурной и функциональной организации нуклеиновых кислот. Исходно он базируется на априорно плоском строении азотистых оснований, принимающих участие в водородном связывании. Рентгеноструктурные данные в целом согласуются с постулируемой конфигурацией оснований. Отклонение тяжелых атомов ( С, N, О ) от плоскости молекулы мало, составляет < 0,3 А, и обусловлено не столько собственным валентно-силовым полем молекулы, сколько возмущающими кристаллическими полями в исследуемых образцах.

Известно, что образование комплементарных пар уотсон-криковского или хугстиновского типа сопровождается поворотом плоскостей оснований друг относительно друга. Величина возникающего "пропеллерового поворота" (вр ) в среднем составляет ~ 10° . Распространена точка зрения о "стэкинговой" природе взаимодействий, формирующих и стабилизирующих упаковку таких складчато-слоистых структур. В нашей работе «пропеллеровое» спаривание и укладка оснований в ДНК обусловлены не только стэкингом, но и изначально неплоским строением аминопроизводных пуринов и пиримидинов. Из микроволновой спектроскопии известно, что 5р3-гибридное строение атома азота в простейших аминопроизводных ( NH3, NH2-, CH3-NH2, (СНз)2-МН ) всегда дает значение валентных углов < HNH (<HNC) в области 105° - 11 Io, а не 120°, как можно было бы ожидать. Переход от алифатических аминов к ароматическим и ненасыщенным ( таким как формамид, анилин ), несмотря на некоторое увеличение кратности C-N- связи, тоже не приводит к существенному изменению sp3 характера связи группы - NH2. В анилине, например, выход атомов водорода группы - NH2 из плоскости молекулы составляет -46°. Именно по этой причине мы считаем, что аминозамещение в пуринах и пиримидинах с неизбежностью должно приводить к их неплоскому строению.

С целью обоснования данного положения мы использовали метод PCILO, который считается наиболее адекватным для такого типа задач. Этим методом были просчитаны профили потенциальной энергии молекул формамида, анилина, аденина, гуанина и цитозина как функции угла р (выхода атомов

водорода группы -ЫН: из плоскости молекулы). Угол р варьировался от 0° до 90° , при этом валентный угол между связями -N11 менялся от 120° ( чистая ер2 - гибридизация атома Ы) до до 109° ( чистая ер3 - гибридизация ). Расчеты аденина. гуанина и цитозина показали, что эр3 - гибридное строение валентных связей аминогруппы является весьма характерным, с углом (3 £ 40о-50"(рис. 12).

/3"

Рис. 12 Профили потенциальной энергии молекул: 1. формамида, 2. цитозина, 3. аденина, 4. гуанина, 5. анилина

Таким образом, неплоское строение аденина, гуанина и цитозина есть следствие sp3 -гибридного характера валентных связей их аминогруппы. В последнее время были проведены расчеты более точными методами квантовой химии (ab initio - расчеты ) другими авторами, которые подтвердили этот результат. Поэтому можно считать неплоское строение аминозамещенных пуринов и пиримидинов теоретически установленным фактом и принимать его во внимание при изучении структуры и функции молекулы ДНК .

Рис. 13. Геометрия пары гуанин-цитозин, 9 - угол пропеллерового твиста

Пирамидальная структура аминогрупп аденина, цитозина и гуанина приводит к появлению пропеллерового твиста ( угла между плоскостями пурина и пиримидина в уотсон-криковской паре, рис. 13) в изолированных комплементарных парах , где нет никаких стэкинг-взаимодействий. Расчеты показывают, что угол "пропеллера" в паре не мал, достигая значений ~ 15°, рис. 14. Между парами А-Т и в-С наблюдается небольшое отличие. Это значение согласуется со значениями пропеллерова угла в нуклеозидных и нуклеотидных кристаллах.

-30 -20 -10 0 10 20 30 40

в"

Рис. 14. Профили потенциальной энергии изолированных пар А-Т и й-С как функции угла б. (—), (...) - планарная геометрия азотистых оснований, р=0; (-.-), (_) -

непланарная геометрия азотистых оснований, р « 40°

Традиционная планарная структура азотистых оснований должна давать компланарный тип комплементарного спаривания. Изменение энергии при образовании водородной связи Ецв равно 42кдж/моль для А-Т пары и бЗкдж/моль для О-С пары, что сравнимо с наблюдаемыми значениями величин 54 кдж/моль и 88кдж/моль, соответственно. Рассмотрение других степеней свободы пары азотистых оснований показывает, что их вклад в геометрию комплекса незначителен.

Основной вывод из проведенного анализа заключается в том, что некомпланарность есть внутреннее свойство уотсон-криковских пар, и это свойство обусловлено специфичностью водородного связывания при неплоских аминогруппах.

Пятая глава посвящена расчету атом-атомных корреляционных функций системы ДНК-вода. Взаимодействие нуклеиновых кислот с белками во многих аспектах определяется тем, как эти молекулы сольватируются, или гидратируются, как характеристики гидратации зависят от нуклеотидной или аминокислотной последовательности. В данной работе для расчета гидратации коротких фрагментов двойной спирали ДНК использовался метод интегральных уравнений теории жидкости в приближении МЭМ. Был разработан эффективный алгоритм ( Тихонов и др., 1997, Т1Июпоу е1 а1., 1998 ) решения интегральных уравнений, основанный на применении нестационарных итерационных методов решения больших систем линейных уравнений, к которым в конечном счете сводятся интегральные уравнения. Это дает возможность вычислять все атом-атомные корреляционные функции функционально значимых участков ДНК длиной до десятка нуклеотидных пар с водой. Предложенный метод позволяет изучать гидратацию макромолекул без упрощающих предположений о структуре макромолекулы. На рис.15 представлены графики атом-атомных корреляционных функций фрагмента В-формы ДНК с1(ООООС).с1(ССССС) и воды.

Гидратация атомов нуклеотидов ДНК зависит главным образом от пространственного положения соседних атомных групп, т.е. носит преимущественно локальный характер. Гидратация сахарофосфатного остова слабо зависит от специфической последовательности азотистых оснований, а влияние концевых нуклеотидов дуплекса на гидратацию центральных пар

Рис. 15 Атом-атомные корреляционные функции д(г) дуплекса (ЦССССв) В-формы ДНК с атомами воды.

нуклеотидов мало. Отсюда можно заключить, что гидратация нуклеотидов в коротких дуплексах мало отличается от гидратации нуклеотидов в длинных цепях ДНК.

В шестой главе представлены результаты компьютерного моделирования комплекса узнающего фрагмента сигмы 70 субъединицы РНК-полимеразы с ТАТА-боксом промотора 1асиУ5.

Рис. 16. Структура фрагмента сигма 70 субъединицы РНК-полимеразы.

Структура этого фрагмента была определена в работе (Darst, 1996 ), а его координаты имеются в Брукхевенском рентгеноструктурном банке данных. На рис.16 приведена молекулярная структура фрагмента сигма 70 субъединицы РНК-полимеразы. фрагмент двойной спирали ДНК промотора был взят размером в 22 нуклеотида (от точки -1 до точки -22 относительно точки старта транскрипции ). Начальная конформация фрагмента ДНК была канонической В-формой ДНК. Компьютерное моделирование (процедура докинга) проводилось с помощью программы молекулярной механики ICM (Abagyan, Totrov,

Кигпе1зоу, 1994). В качестве начальной конфигурации комплекса было выбрано расположение фрагмента промотора и сигма 70 субъединицы, которое максимально соответствовало экспериментально установленным контактам.

Рис. 17. Структура комплекса фрагмента сигма 70 субъединицы РНК-полимеразы с участком ТАТА-бокса промотора 1ас1Л/5.

Поиск оптимальной взаимной ориентации молекул и их конформаций был проведен методом Монте Карло с учетом подвижности как боковых радикалов белка в области предполагаемого контакта с промотором, так и с учетом гибкости сахарофосфатного остова и гликозидных связей ДНК. Общий вид полученной структуры приведен на рис. 17, 1В. На рис. 19 представлен фрагмент структуры полученного комплекса. Узнающий мотив сигма 70 субъединицы РНК-полимеразы - это две близко расположенные а-спирали, одна из которых помещается в большой бороздке, другая вдоль сахарофосфатного остова ДНК.

Интересной особенностью построенного комплекса является наличие двух узнающих мотивов - электростатического и гидрофобного (см. рис. 19 и рис.20).

Ароматические аминокислоты а - спирали являются гидрофобными, обращены в сторону большой бороздки ( аминокислоты У425, У430, W433, \V434 ) и образуют большое число вандерваальсовых контактов с основаниями ДНК и, как следствие этого расположения, могут способствовать плавлению пар оснований. Важно подчеркнуть, что плавление ДНК в области контакта с сигма 70 субъединицей, по-видимому, не случайно, а одна из стадий узнавания белком ДНК, за которой следует стадия образования комплекса с кодирующим участком ДНК и инициация процесса транскрипции.

Рис. 18. Структура комплекса фрагмента сигма 70 субъединицы РНК-полимеразы с участком ТАТА-бокса промотора 1асиУ5 (другой ракурс, стержневая модель).

Аминокислотные области другой а-спирали обращены в сторону сахарофосфатного остова ДНК ( аминокислоты К414, К418, И.423 ). Они образуют ионные пары с отрицательно заряженными фосфатными группами в 5' - положении от -12, -10, -9 нуклеотидов ( относительно точки старта транскрипции ) некодирующей цепи промотора, неспецифически стабилизируя образование комплекса. Участие этих фосфатных звеньев в образовании

контактов этого типа, предложенное на основании анализа модельной структуры комплекса, находится в хорошем согласии с экспериментальными данными.

Рис. 19. Взаимодействие фрагмента сигма- субъединицы РНК-полимеразы ( в виде стержневой модели) с -10 областью (ТАТА-бокс) промотора 1асЦУ5 (атомы промотора представлены сферами). Отмечены боковые радикалы аминокислотных остатков, участвующих в узнавании промотора 1асЦУ5 В седьмой главе вычисляются электростатические поля ДНК и белков. Электростатические поля белков и нуклеиновых кислот играют существенную роль в специфическом молекулярном узнавании и являются существенным фактором, определяющим комплексообразование биомолекул. Специфические электростатические поля в активных центрах белков регулируют их каталитические реакции. Поэтому вычисление и изучение электрических

свойств биомолекул, построение моделей электростатического узнавания, которые помогли бы выяснению принципов электростатического узнавания, является актуальным и необходимым.

Рис. 20. Взаимодействие фрагмента ст70- субъединицы РНК-полимеразы ( в виде стержневой модели) с -10 областью (ТАТА-бокс) промотора lacUV5 (атомы промотора представлены сферами). Отмечены боковые радикалы аминокислотных остатков, участвующих в узнавании

промотора lacUV5

В этой главе будут изложены результаты вычислений электоростатических потенциалов нескольких фрагментов ДНК, промоторов E.coli, в которые, как составляющие, войдут соответствующие ТАТА-боксы (длина фрагментов, соответствует десяти парам оснований, ТАТА-бокс-длиной шесть пар, с 5'- и 3'-концов были добавлены еще по два примыкающих нуклеотида из последовательности промотора). Вычислены также будут электростатические потенциалы фрагмента сигма 70 субъединицы РНК-полимеразы и нескольких регуляторных белков (Сто, САР и др.). Построим также очень простую модель

электростатического поля ДНК, в рамках этих моделей вычислим электростатические поля полных промоторных последовательностей ДНК E.coli и проведем сравнительный анализ электростатических свойств промоторов.

Распределение электростатического потенциала белка вычислялось путем решения уравнения Пуассона-Больцмана, связывающего потенциал с пространственным распределением зарядов белка или ДНК и пространственным распределением зарядов подвижных ионов в растворителе. В случае молекулы ДНК решалось как нелинейное линеаризованное уравнение Пуассона-Больцмана, в случае молекулы белка - линеаризованное уравнение. Растворитель, в данном случае вода, рассматривался как непрерывная среда с заданной диэлектрической проницаемостью (для воды е=80). Граничное условие для потенциала определяется тем, что на достаточном удалении молекулярной поверхности потенциал не зависит от диэлектрической проницаемости внутри глобулы ( по теореме Гаусса ).

Алгоритм решения уравнения Пуассона-Больцмана основан на работе (Федосеев, 1988). Приближенные решения ищутся в пространстве базисных функций. Применение метода Галеркина приводит к линейной алгебраической системе уравнений, которая решается многосеточным методом ( Федоренко, 1962, 1994 ). Идея метода состоит в том, чтобы высокочастотные ( быстро меняющиеся) компоненты поправки к текущему приближению искать на мелкой сетке, а для вычисления соответствующих гладких компонент использовать более грубые сетки. Заданная точность решения дискретной задачи при этом достигается за 0(N) арифметических операций ( N - число узлов сетки ). Такая высокая эффективность метода позволяет проводить расчеты даже на PC, в отличие от известных и широко используемых алгоритмов DELPHI ( Honig, Nicholls, 1995 ), которые требуют ресурсов высокопроизводительных станций.

Результатом вычислений является трехмерное распределение потенциала ip(x,y,z). Использовались два графических метода для трехмерного изображения потенциала. В одном из них строились эквипотенциальные поверхности ( ± 1кт/е ), где Т - абсолютная температура, е - заряд электрона. Другой метод визуализации состоит в вычислении потенциала во всех точках, находящихся на определенном фиксированном расстоянии от молекулярной поверхности.

Рассчитано распределение электростатического потенциала вокруг фрагмента сигма 70 субъединицы РНК-полимеразы Е.соИ в водно-солевом растворе с ионной силой 0,15. Известно, что именно этот фрагмент узнает ТАТА-бокс промотора. Структура этого фрагмента определена методом рентгеновского рассеяния ( МаШойа ег а1., 1996 ). На рис. 21 представлена потенциальная поверхность на расстоянии 5,5 Е. от молекулярной поверхности

Рис. 21 Поверхность электростатической энергии на расстоянии 5,5 А от молекулярной поверхности фрагмента сигма 70 субъединицы РНК-полимеразы Е.соИ

фрагмента. Оказалось, что распределение потенциала этого белка имеет четко выраженный дипольный характер, который может вносить существенный вклад в ориентацию КЫАР относительно сильно заряженной молекулы ДНК при сближении и комплексообразовании этих молекул. В рассчитанном распределении имеются две крупные области положительного потенциала, способные электростатически взаимодействовать с отрицательно заряженными сахарофосфатными группами нитей ДНК. Одна из этих областей располагается вблизи экспонированной в растворитель поверхности консервативного участка 2.4 ( 14-ая а-спираль ) аминокислотной последовательности ИКАР, играющего ключевую роль в узнавании промоторной последовательности ТАТА-бокса

Bacilus subtilis. РНК-полимераза Bacilus subtilis гомологична РНК-полимеразе E.coli именно в этом узнающем участке (Juang et al., 1994 ). Другая область положительного потенциала локализована у поверхностей а-спиралей 7, 6 и 11, две последние из которых обр^иуют антипараллельный димер.

Функциональное значение этой области не ясно, поскольку эти спирали не принадлежат к консервативным фрагментам последовательности РНК-полимеразы, а из некоторых видов отсутствуют вовсе. Между двумя упомянутыми областями положительного потенциала располагается область практически нулевого потенциала, примерно совпадающая с с поверхностью консервативной области 2.1 ( изгиб между а-спиралями 12а и 12Ь ). Последняя необходима для связывания сигма 70 субъединицы с корблоком fobb') РНК-полимеразы ( Lesley et al., 1989 ). Из этого следует, что электростатические силы не вносят существенного вклада в связывание сигма 70 субъединицы с агЬЬ', что согласуется с тем обстоятельством, что в этой области поверхности сигма 70 субъединицы в растворитель экспонированы гидрофобные группы нескольких аминокислот. Рассчитаны также ( решение уравнения Пуассона-Больцмана ) электростатические потенциалы нескольких регуляторных белков. Эквипотенциальные поверхности Cro-белка приведены на рис. 22.

Электростатическое поле вокруг молекулы ДНК ( ТАТА-боксы нескольких промоторов E.coli ) были вычислены в результате решений нелинейного и линейного уравнений Пуассона-Больцмана. Найдено, что значение величин потенциала и его форма зависят от последовательности нуклеотидов, в целом, значения потенциалов отрицательны, но имеются области положительного потенциала в середине желобов ( узкого и широкого ) вблизи групп азотистых оснований ( Jayram et al., 1989 ), причем широкий желоб имеет более положительный потенциал, чем узкий. Привести для иллюстрации рисунки потенциалов нет возможности, так как черно-белые рисунки не способны передать подробности изображения положительных, отрицательных и нейтральных потенциалов, если изображать их в цвете. Проведен расчет электростатического потенциала вокруг ДНК путем решения линейного уравнения Пуассона-Больцмана. Результаты расчетов, полученных решением нелинейного и линейного уравнений, сравниваются и анализируются.

Рис. 22. Эквипотенциальные поверхности Сго-белка . Темная область - отрицательный потенциал, ячеистая - положительный потенциал.

Для сравнительного изучения электростатических потенциалов была использована очень простая электростатическая модель ДНК. Принимались во внимание только заряды на атомах нуклеотидов и диэлектрическая проницаемость воды, которая выбиралась как e~R, где R - расстояние между атомами. Расчеты потенциалов регулярных последовательностей типа poIyd(AT).polyd(AT), poIyd(G).polyd(C) и других показали, что топология распределения потенциалов ДНК (а не численные значения) мало отличается от топологии распределения потенциалов перечисленных регулярных последовательностей, полученных другим, более строгим, методом в работе (Wagner et al., 1997).

На рис. 23 представлен расчет регулярной нуклеотидной последовательности polyd(AT).polyd(AT). Большое число проведенных расчетов показало, что потенциалы кодирующей области ДНК генома E.coli и потенциалы промоторов отличаются. Электростатические потенциалы кодирующей части, рис. 24, более монотонны, чередующиеся полосы

положительного и отрицательного потенциалов однородны, и положительный потенциал не закрывается отрицательными полосами потенциала узкой бороздки, как это имеет место для промоторов. Топологическая картина промоторов намного менее регулярна, рис. 25.

х 103 5

3 2 1 О ■1 ■2 ■3

'Ж* ш

-SS -«S

Helix axis

Рис. 23. Развертка электростатического потенциала poly(AT).poly(AT).

Кодирующая последовательность

-75 -85 -S3

-3S -2S -1S -S

Helix axis

Рис. 24. Развертка электростатического потенциала кодирующей последовательности гесА E.coli

Сравнение электростатических потенциалов промоторов, имеющих почти идентичные -10 й -35 области, показывает тем не менее сильное отличие в топологии распределения этих потенциалов. Это может свидетельствовать о том, что электростатическое поле может быть дополнительной компонентой, модифицирующей узнавание белками молекулы ДНК. Назначение такого рода простых моделей чисто эвристическое, на их основе можно проводить правдоподобные рассуждения, что может привести к разумным постановкам задач.

В работе также построена простая дипольная модель ДНК.

Рис. 25. Развертка электростатического потенциала промотора N25 E.coli.

Выводы

1. Впервые вычислены Фурье-спектры нуклеотидных последовательностей ДНК промоторов и на их основе проведена классификация промоторов. Установлен и проанализирован набор периодов как для

нуклеотидных последовательностей промоторов, так и для соответствующих им кодирующих участков ДНК. Показано принципиальное отличие одних групп промоторов от других.На основе Фурье-анализа впервые обнаружены периодичности в расположении точек контакта РНК-полимеразы E.coli с промоторами. Показано, что они в большинстве случаев не совпадают с периодичностью сахарофосфатного остова канонической В-формы ДНК.

Показана возможность распознавания нуклеотидных последовательностей эукариот и прокариот как методами нейронных сетей, так и методами частотного анализа, причем последний оказывается не менее эффективным, чем первый.

2. Впервые обнаружены и исследованы мультифрактальные свойства первичных структур ДНК методами вейвлет-преобразования. Показано, что использование автокорреляционных функций вейвлет-коэффициентов нуклеотидных последовательностей позволяет достичь высокой степени разрешения при распознавании трех типов первичных структур -промоторов, терминаторов и кодирующих последовательностей.

3. Построен алгоритм восстановления первичной структуры по ее перекрывающимся фрагментам и показана его применимость к проблеме перекрывающихся генов.

4. Теоретически показано, что валентные взаимодействия, формирующие пирамидальное строение аминогрупп аденина, цитозина и гуанина, являются возможно одним из основных факторов, определяющих зависимость вторичной структуры ДНК от первичной структуры.

5. Впервые вычислены атом-атомные корреляционные функции системы ДНК-вода. Предложенный численный алгоритм позволяет вычислять гидратацию ДНК без привлечения упрощающих допущений о структуре макромолекулы и рассчитывать параметры гидратации специфических, функционально важных участков двойной спирали ДНК. С использованием этого ■ алгоритма показано, что значения атом-атомных корреляционных функций гетероатомов азотистых оснований (узкий и широкий желоб) зависят от длины двуспиральной нуклеотидной цепочки, что свидетельствует о кооперативной природе взаимодействия молекул воды с гетероатомами. В то же время, атом-атомные корреляционные функции остальных атомов зависят лишь

от соседних нуклеотидных пар двойной спирали ДНК, т.е. гидратация этих атомов имеет локальный характер.

6. Численным интегрированием как линейного, так и нелинейного уравнений Пуассона-Больцмана вычислены электростатические потенциалы функционально значимых участков ДНК, нескольких регуляторных белков и фрагмента сигма 70 субъединицы РНК-полимеразы E.coli. Это открывает возможность построения моделей электростатического узнавания белками своих специфических участков на молекуле ДНК.

7. Впервые рассчитана структура комплекса, возникающего при посадке фрагмента сигма 70 субъединицы РНК-полимеразы E.coli на ТАТА-бокс промотора lacUV5 генома E.coli Приведенные расчеты впервые выявили картину специфических взаимодействий на начальной стадии инициации транскрипции.

Основные публикации по теме диссертации

1. Р.В. Полозов, Я.С. Сметанич, Б.И. Сухоруков. К определению первичной структуры линейных гетерополимеров. 1972. Биофизика, 17, N2, с.688-690.

2. R.V. Polozov, V.I. Poltev, B.I. Sukhorukov. Relation of the Interaction of Nucleic Acid Bases to the Helical Conformations of Polynucleotides. 1973. Studia Biophisica, 40, pp. 13-20.

3. R.V. Polozov, V.I. Poltev, B.I. Sukhorukov. The Influence of Nitrous Bases Interactions on the DNA Secondary Structure Formation. 1975. J. Theor. Biol. 55, pp. 491-503.

4. Ya.S. Smetanich, R.V. Polozov. On the Algorithms for Determining the Primary Structure of Biopolymers. 1979. Bull. Math. Biology, 41, pp. 1-20.

5. Р.В. Полозов. Метод полуэмпирического силового поля в конформационном анализе биополимеров. 1981. М.,Наука.

6. В.М. Комаров, Р.В. Полозов. О неплоском строении оснований нуклеиновых кислот. 1989. Депон. ВИНИТИ, N 12003-5214.

7. В.М. Комаров, Р.В. Полозов, Г.Г. Коноплев. Неплоское строение аминозамещенных азотистых оснований: PCILO конформационные исследования. 1989. Препринт НЦБИ, Пущино.

8. V.M. Komarov, R.V. Polozov. On the Nonplanar Structure of Aminosubstituted Nitrous Bases. 1990. 10-th International Biophysics Congress, July 29-August 3, Vancouver, Canada, Abstract, p.189.

9. V.M. Komarov, R.V. Polozov. On the Propeller Structure of Isolated Watson-Crick Base Pairs. 1990. Z. Naturforsh. 45C, p. 1080.

10. В.М. Комаров, Р.В. Полозов. Неплоское строение аминозамещенных азотистых основанийю 1990. Биофизика, 35 , N2, с.367-368.

11. V.M. Komarov, R.V. Polozov, G.G. Konoplev. Non-planar Structure of Nitrous Bases and Non-Coplanarity of Watson-Crick Pairs. 1992. J. Theor. Biol., 155, pp.281-294.

12. R.V. Polozov, D.A. Kuznetsov, V.G. Tumanyan, N.G. Esipova. Electrostatics of DNA. New Dipol Model ,1992, in " Modelling and Computer Methods in Molecular Biology and Genetics ", Nova Science Publishers, Inc.,N-Y, pp.97-102.

13. Г.И. Кутузова, Р.В. Полозов. Алгоритм поиска специфических участков в первичной структуре ДНК. 1995. Биофизика, 40, с. 209-211.

14. G.I. Kutuzova, L.A. Panchenko, V.Yu. Makeev, V.G. Tumanyan, R.V. Polozov. Classification and Analysis of E.coli Promoter and Terminator DNA Sequences, Based on Statistics and Artificial Neural Networks/Karadeniz Journal of Medical Sciences, 1995, V.8, N 4, pp.247-248.

15. M.Altaiski, O. Mornev., R. Polozov. Wavelet Analysis of DNA Sequences.

1995. B.M. Birla Science Centre Technical Report BSC-CAMCS-95-06-2.

16. G.I. Kutuzova, R.V. Polozov, V.G. Tumanyan. Classification of DNA Promoter and Terminator Sequences and Structure-Function Relationships/Abstract of the Workshop on Mathematical Analysis of Biological Sequences, Norvwegian University of Science and Technology, Trondheim, Norway August 4-6, 1996, p. 14.

17. G.I. Kutuzova, R.V. Polozov, V.Yu. Makeev, G.K. Frank, N.G. Esipova and V.G. Tumamyan. Classification, Fourier- and Wavelet -Transform of E.coli Promoter and Temiinator Sequences. 1996. Folding & Design, Vol. IS, p. 237

18. M. Altaiski, O. Mornev, R. Polozov. Wavelet Ananysis of DNA Sequences.

1996. Genetic Analysis: Biomolecular Engineering, 12, pp. 165-168.

19. Г.И. Кутузова, Г.К. Франк, В.Ю. Макеев, Н.Г. Есипова, Р.В. Полозов. Фурье-анализ нуклеотидных последовательностей. Периодичности в промоторных последовательностях. 1997. Биофизика, 42, N2, с. 354-362.

20. Д.А. Тихонов, Р.В. Полозов, A.B. Горелов, Е.П. Тимошенко, Ю.А. Кузнецов, Л.А. Панченко, JI.A. Доусон. Интегральные уравнения теории жидкости для изучения гидратации макромолекул. 1997. Биофизика, 42, N5, с. 1054-1065.

21. Д.А. Тихонов, Р.В. Полозов, A.B. Горелов, Е.Г. Тимошенко, Ю.А. Кузнецов, Л.А. Панченко, К.А. Доусон. Гидратация фрагмента d(GGGGG) В-формы ДНК. Интегральные уравнения теории жидкости. 1997, Биофизика, 42, №5, с.1066-1078.

22. D.A.Tikhonov, R.V.Polozov, E.G.Timoshenko, Yu.A.Kuznetsov, A.V.Gorelov, K.A.Dawson. Hydration of Atom-atom Correlation Functions with the Refrence Interaction Site Model Approximation, J.Chem.Phys. (in press).

Научное, издание

Антореферат Полозова Р.В.

Налоговая льгота - общероссийский классификатор продукции СЖ-005-93; том 2 : 953000 - книги и брошюры.

19.05.98 г. 3.8021Р. Т.100 экз. Усл.печ.л. 3,0.

Отпечатано с оригинала-макета в Отделе научно-технической информации Путинского научного центра РАН. 142292 г. Пущино Московской обл., проспект Науки, 3. ОНТИ ПНЦ РАН.

Текст научной работыДиссертация по биологии, доктора физико-математических наук, Полозов, Роберт Валентинович, Пущино

<$ ¿и * / л

%/ V/ ■ / / хУ,

ИНСТИТУТ ТЕОРЕТИЧЕСКОЙ И ЭКСПЕРИМЕНТАЛЬНОЙ БИОФИЗИКИ РАН

.¡м

еэ

¡1, ' -^г.

Т^^о,- /Г"'

авах рукописи

Полозов Роберт Валентинович

ДНК-белковое узнавание:анализ первичных структур и физико-химическое изучение

03.00.02- Биофизика

Диссертация

на соискание ученой степени доктора физико-математических наук

Пущино-1998

Оглавление

Введение..................................................................3

Глава 1. Анализ первичных структур промоторов, терминаторов и кодирующих участков генома E.coli: статистический анализ, Фурье-спектры и классификация........9

Глава 2. Анализ первичных структур промоторов, терминаторов и кодирующих участков генома E.coli: вейвлет-спектры, фрактальные свойства.............................................51

Глава 3. Определение первичной структуры биополимеров по ее перекрывающимся фрагментам..........................................63

Глава 4. Зависимость вторичной структуры ДНК от первичной: неплоское строение аминозамещенных азотистых оснований и уотсон-криковских пар.......................................72

Глава 5. Гидратация двойной спирали ДНК: атом-атомные корреляционные функции...................................................82

Глава 6. ДНК-белковые взаимодействия: комплекс сигма 70 субъединицы РНК-полимеразы с промотором.........................103

Глава 7. Электростатические потенциалы ДНК, регуляторных белков и РНК-полимеразы.................................................109

Выводы.................................................................132

Список литературы..................................................133

Общая характеристика работы Актуальность проблемы

Биолог сталкивается с проблемой специфических биологических реакций практически в любой своей деятельности. Специфические биологические реакции присущи многим процессам жизнедеятельности, от взаимодействий между ферментами и субстратами , между гормонами и их рецепторами, между антителами и антигенами, и вплоть до взаимодействий между клетками. Природа использует механизмы молекулярного узнавания генной экспрессии для того, чтобы достигнуть селективности, необходимой в естественном отборе. РНК-, ДНК-полимеразы, топоизомеразы, другие ферменты и регуляторные белки узнают и преимущественно связываются с вполне определенными нуклеотидными последовательностями ДНК генома, различая их среди большого числа других нуклеотидных последовательностей. Эти специфические первичные структуры отбирались в процессе эволюции, чтобы удовлетворить требованию функционально адекватного уровня связывания.

Специфическое узнавание, или селекция связывания нуклеотидных последовательностей ДНК-белком, основано на физико-химических взаимодействиях между ними. ДНК-белковое узнавание осуществляется на нескольких уровнях, характеризуемых различными взаимодействиями и шкалой расстояний : от электростатического взаимодействия на больших и средних расстояниях до узнавания белками вторичной и первичной структур ДНК. Этот многоуровневый механизм молекулярного узнавания обеспечивает высокую степень надежности, точности и воспроизводимости процесса генной экспрессии.

Первичные структуры ДНК часто интерпретируются как генетические тексты, написанные на неизвестном языке. Исследование генной экспрессии теоретическими и компьютерными методами имеет поэтому два аспекта: формальный, или информационный, и физико-химический. Формальный аспект проблемы включает в себя анализ символьных нуклеотидных последовательностей ( текст, записанный в четырехбуквенном алфавите ). Физико-химический же состоит в изучении структур ДНК, регуляторных белков, ферментов, их конформаций, физико-химических взаимодействий между ними. Эти два аспекта проблемы - текстологический и физико-химический , тесно взаимосвязаны. Существует тонкое и деликатное соответствие между организацией первичных структур и взаимодействиями, имеющими место при генной экспрессии.

Совершенно ясно, что организация экспрессии генов, и в частности процесса транскрипции, - одна из центральных проблем молекулярной биологии. Исследование ДНК-белковых взаимодействий, анализ и интерпретация генетических текстов, выработка самосогласованного описания биологических процессов узнавания на молекулярном уровне является несомненно актуальным как с научной, так и с прикладной точек зрения.

Цель и задачи исследования

Молекулярное узнавание промоторов РНК-полимеразой и регуляторными белками осуществляется на нескольких уровнях: на уровне первичной структуры, вторичной, и структур более высокого порядка. Каким образом белки узнают специфические, функционально значимые нуклеотидные последовательности ДНК и от каких формальных ( на уровне первичной структуры ДНК ), структурных и физико-

химических свойств и характеристик зависит процесс молекулярного узнавания - это основные вопросы, которые возникают в проблеме ДНК-белкового узнавания.

Цель данной работы: изучение первичных структур и физических факторов, обусловливающих процесс белок-нуклеинового узнавания.

Для достижения этой цели предлагается подход, комбинирующий текстологический (информационный) и физико-химический аспекты ДНК-белкового узнавания. При этом будем придерживаться требования проводить расчеты конформаций и физико-химических характеристик на атомном уровне и на всех пространственных шкалах - от взаимодействий на коротких расстояниях до электростатических взаимодействий на средних и больших расстояниях. Это поможет рассмотреть процесс молекулярного узнавания на всех уровнях с достаточной точностью.

Рассмотрим задачи, возникающие в связи с обсуждаемой проблематикой.

1 .В настоящее время во взглядах на первичную структуру ДНК генома исходят из того, что геном представляет собой эволюционную, нелинейную динамическую систему, в символьной последовательности которой содержатся сведения о структуре и состоянии этой системы. Коль скоро принято это положение, дальнейшее исследование состоит в анализе и изучении организации и логики этой символьной последовательности. Это положение, подкрепленное многочисленными наблюдениями и опытными данными и принятое ныне в качестве парадигмы, сразу же позволяет применить к анализу нуклеотидных последовательностей методы теории динамических систем, теории информации, комбинаторики, теории хаоса, методы анализа сигналов и временных рядов.

В первом разделе данной работе в связи с изучением организации первичных структур ДНК мы решаем следующие задачи ( в большей части это будет относиться к промоторам, терминаторам и кодирующим последовательностям ДНК генома E.coli):

дадим доказательство того, что нуклеотидные последовательности ДНК геномов имеют фрактальные свойства. Основу доказательства составит метод вейвлет-преобразования;

вычислим Фурье- и вейвлет-спектры первичных структур промоторов , терминаторов, кодирующих участков ДНК генома E.coli;

методами статистической физики вычислим, а затем изучим статистические свойства промоторов, терминаторов, кодирующих участков ДНК E.coli;

решим задачу восстановления первичной структуры ДНК по ее перекрывающимся фрагментам.

2.В проблеме ДНК-белкового узнавания задача о зависимости структурных параметров двойной спирали ДНК от специфической последовательности нуклеотидов занимает важное место, т.к. структурные особенности двойной спирали узнаются белками и лигандами. Принцип комплементарного спаривания является ключевым в понимании структурной и функциональной организации нуклеиновых кислот. Исходно он базируется на предположении о плоском строении канонических азотистых оснований.

Задачи второго раздела работы следующие:

дадим доказательство того, что канонические азотистые основания , имеющие аминогруппы, неплоские;

установим, что внутренняя геометрия пары азотистых оснований (пропеллер и другие углы) и геометрия пар азотистых оснований в двойной спирали ДНК определяется фактором неплоскости азотистых оснований, имеющих аминогруппу.

3. Электростатические потенциалы ДНК и белков являются важными характеристиками этих молекул, которые определяют первичное узнавание белками ДНК на средних расстояниях. Электростатическая комплементарность является важным механизмом молекулярного узнавания на средних расстояниях между белком и ДНК. Задачи этого раздела следующие:

вычисление электростатических потенциалов белков, специфически взаимодействующих с ДНК;

вычисление электростатических потенциалов промоторов E.coli; сравнительный анализ потенциалов промоторов E.coli;

вычисление атом-атомных корреляционных функций системы ДНК-вода; построение компьютерной модели комплекса сигма 70 субъединицы РНК-полимеразы E.coli с ТАТА-боксом промотора lacUV5.

Научная новизна работы

Вычислены Фурье - спектры нуклеотидных последовательностей ДНК промоторов и на их основе проведена классификация промоторов. Установлен и проанализирован набор периодов как для нуклеотидных последовательностей промоторов, так и для соответствующих им кодирующих участков ДНК. Показано принципиальное отличие одних групп промоторов от других. Показана периодическая структура расположения нуклеотидов в промоторах E.coli и Н.Sapiens; показана их высокая степень гетерогенности: Фурье — спектры последовательностей нуклеотидов в промоторах прокариот и человека отличаются как по набору величин периодичностей, так и по параметрам блочности определенных групп нуклеотидов.

Обнаружены периодичности в расположении точек контакта РНК-полимеразы E.coli с промоторами. Показано, что боьшинство из них не совпадают с периодичностью сахарофосфатного остова канонической B-формы ДНК.

Показана возможность распознавания нуклеотидных последовательностей эукариот и прокариот как методами нейронных сетей, так и методами частотного анализа, причем последний оказывается не менее эффективным, чем первый.

Методами вейвлет - преобразования обнаружены и исследованы мультифрактальные свойства первичных структур ДНК. Впервые вычислены и изучены статистические характеристики нуклеотидных последовательностей промоторов, терминаторов и кодирующих участков ДНК генома E.coli: автокорреляционные функции, функция бинарной информации, вейвлет - спектры и их корреляции, масштабно - зависимая статистическая сумма. Показано, что по этим характеристикам все три класса первичных структур - промоторы, терминаторы и кодирующие участки -резко отличаются друг от друга.

Построен алгоритм восстановления первичной структуры по ее перекрывающимся фрагментам и показана его применимость к проблеме перекрывающихся генов.

Теоретически показано, что валентные взаимодействия, формирующие пирамидальное строение аминогрупп аденина, цитозина и гуанина, являются одним из главных факторов, определяющих зависимость вторичной структуры ДНК от первичной структуры.

Вычислены атом - атомные корреляционные функции системы ДНК - вода. Предложенный численный алгоритм позволяет вычислять гидратацию ДНК без привлечения упрощающих допущений о структуре макромолекулы и рассчитывать параметры гидратации специфических, функционально важных участков двойной спирали ДНК.

Вычислены электростатические потенциалы промоторов E.coli и проведено их сравнительное изучение. Это открывает возможность построения моделей электростатического узнавания белками своих специфических участков на молекуле ДНК.

Вычислены электростатические потенциалы ( решение как линейного, так и нелинейного уравнения Пуассона-Больцмана ) нескольких регуляторных белков и узнающего -10- область промотора E.coli фрагмента сигма - 70 субъединицы РНК-полимеразы E.coli, - 10- участка нескольких промоторов генома E.coli.

Построена компьютерная модель комплекса фрагмента сигма -70 субъединицы РНК-полимеразы E.coli и - 10-участком промотора lacUV5 генома E.coli.

Практическое значение работы

Результаты изучения первичных структур ДНК и физико-химических свойств ДНК, белков и их комплексов необходимы для выработки адекватных теоретических представлений и построения моделей процесса транскрипции. Развитые в работе методы могут быть применены в биотехнологических разработках, в проектировании новых лекарственных средств, в технологии ДНК-вычислений.

Введение

Проблема молекулярного узнавания может быть поставлена следующим образом: молекула К (узнающая) должна «правильно» дискриминировать одну или несколько (узнаваемых) молекул (Р],..Р]) из определенного класса "похожих" молекул Рь..., Р[,..., Рп, причем вероятность направленного узнавания должна быть меньше определенной величины ро, порога узнавания. Трактовка слов «правильно» и «похожие» зависит от конкретной задачи узнавания. Степень специфичности будет зависеть как от числа п, так и от порога узнавания, определенного величиной ро.

Узнаваемые молекулы составляют набор близких по структуре молекул, имеющих как общие структурные особенности данного класса, так и специфические, характеризующие молекулярную индивидуальность. Узнающими молекулами могут быть как низкомолекулярные, так и высокомолекулярные соединения или их комплексы. В настоящее время стало совершенно ясно, что именно молекулы белков являются универсальными узнающими элементами. Нуклеиновые кислоты образуют значительно более узкий класс узнающих молекул, и в процессе белок-нуклеинового узнавания являются скорее узнаваемыми, чем узнающими молекулами. Биополимеры (белки и нуклеиновые кислоты) в противоположность малым компактным органическим молекулам имеют протяженную первичную структуру, которой соответствует уникальная пространственная структура. Такой способ организации пространственной структуры позволяет сформировать огромное число биополимеров с различными активными центрами или активными областями для выполнения определенных биологических функций.

Процесс узнавания характеризуется совокупностью организованных в пространстве и во времени физичеких и химических взаимодействий. Установление общих принципов этой физико-химической организации узнавания составляет проблему так называемого второго кода (в отличие от первого - генетического кода). И основная задача белок-нуклеинового узнавания состоит в выявлении физико-химических механизмов кодирования; в выяснении того, какие структурные и физические свойства белковых молекул и нуклеиновых кислот, отобранных

эволюционным процессом, позволяют им функционировать в качестве универсальных систем молекулярного узнавания.

Специфическое узнавание и селекция связывания осуществляются по следующему сценарию. Процесс узнавания начинается в ионном растворе на расстояниях, меньших 10А от молекулярной поверхности ДНК. Определяющими взаимодействиями, определяющими узнавание, что это ДНК, на этих расстояниях являются электростатические взаимодействия, а основными физическими факторами -электростатические потенциалы ДНК и белков. Следующий этап состоит в том, что регуляторные белки и ферменты, специфически взаимодействующие с ДНК, конденсируются на ней и затем за короткий промежуток времени находят соответствующие им специфические нуклеотидные участки и связываются с ними. Процесс этой быстрой диффузии не ясен. Гипотеза, которая здесь может быть высказана, состоит в том, что белки диффундируют по поверхности ДНК в ее электростатическом поле. Направление и величина этого эволюционно отобранного электростатического поля способствует нахождению белком своих специфических мест связывания, уменьшая время поиска по сравнению с простой диффузией. Поэтому можно полагать, что на этом, втором, этапе узнавания пространственно организованные электростатические поля ДНК и белков, также как и на стадии конденсации, являются основным фактором узнавания.

Третья стадия узнавания - это стадия образования интерфазы между белком и ДНК (расстояния ~1н-2А). Известно, что дегидратация ДНК и белков в области интерфазы играет доминирующую роль в связывании и образовании комплекса. Интерфаза образуется в результате процесса дегидратации как белка, так и ДНК. При дегидратации и образовании интерфазы происходит перераспределение молекул воды и ионов относительно не взаимодействующих друг с другом молекул ДНК и белка. Образование интерфазы сопровождается увеличением частоты колебаний атомов, находящихся в интерфазе, большой (отрицательной) по величине изменения удельной теплоемкости, тонкой зависимости изменения свободной энергии связывания от нуклеотидной последовательности. Дискриминация белком различных специфических мест связывания имеет энтропийный характер. Дегидратация и образование интерфазы сложным образом зависят от нуклеотидной последовательности и от деталей перераспределения молекул воды и ионов. На стадии дегидратации основным фактором, влияющим на образование интерфазы,