Бесплатный автореферат и диссертация по биологии на тему
Периодичности в структуре промоторных участков ДНК
ВАК РФ 03.00.02, Биофизика

Автореферат диссертации по теме "Периодичности в структуре промоторных участков ДНК"

МОСКОВСКИЙ ОРДЕНА ЛЕНИНА ОРДЕНА ОКТЯБРЬСКОЙ РЕВОЛЮЦИИ И ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ им. М.В. ЛОМОНОСОВА

Физический факультет

На правах рукописи

Кутузова Галина Ивановна Периодичности в структуре промоторных участков АН К

Специальность 03.00.02 - "Биофизика"

Автореферат

диссертации на соискание ученой степени кандидата физико-математических наук

С'ч

-9? 5?

£ Со

I

Москва - 1998

Работа выполнена в лаборатории компьютерного и структурного анализа биополимеров Института молекулярной биологии им. В.А. Энгельгардта РАН

Научные руководители: доктор физико-математических наук,

профессор В.Г. Туманян

кандидат физико-математических наук

Р.В. Полозов

Официальные оппоненты: доктор физико-математических наук,

профессор В.И. Иванов,

доктор физико-математических наук,

профессор В.И. Лобышев

Велушая организация: Институт математических проблем биологии РАН

Зашита состоится 16 апреля 1998 года в 15 часов 30 минут на заседании Диссертационного совета К.053.05.77 при МГУ им. М.В. Ломоносова по адресу: 119899, Москва, Воробьевы горы, МГУ им. М.В. Ломоносова, физический факультет, ЮФА.

С диссертацией можно ознакомиться в библиотеке физического факультета МГУ им. М.В. Ломоносова

Автореферат разослан 16 марта 1998 г.

Ученый секретарь

Диссертационного Совета кандидат физико-математических наук

О.А. Котельникова

Обшая характеристика работы Актуальность проблемы

Проблема анализа и интерпретации генетических текстов является одной из актуальных задач современной молекулярной биологии. Наиболее нетривиальными представляются задачи тонкой характеристики первичной структуры специфических участков ДНК в связи с их функцией, решение которых непосредственно связано с выяснением деталей взаимодействия нуклеиновых кислот с белками. Наиболее сложные задачи возникают в тех случаях, когда белок по особенностям своего функционирования должен взаимодействовать с большим количеством фрагментов ДНК, имеющих слабую гомологию. Одной из исключительно важных задач современной молекулярной биофизики этого класса является задача о взаимодействии 1'НК-полимеразы с промоторами. Многочисленные исследования первичной структуры промоторов показали, что несмотря на то, что все они выполняют одну и ту же функцию инициации транскрипции, промоторы отличаются высокой степенью разнообразия первичных структур. Несмотря на обилие экспериментального материала, детальный механизм узнавания промоторов РНК-полимеразой остается не выясненным. В частности, знание канонических участков нуклеотидной последовательности промотора до сих пор не позволяет нам безошибочно узнавать промоторы, рассматривая последовательность ДНК генома, в то время как РНК-полимераза делает это очень эффективно.

За последние несколько лет количество расшифрованного генетического материала возросло в несколько раз и продолжает стремительно расти. Экспоненциальный рост числа известных первичных структур фрагментов ДНК и даже целых геномов требует разработки эффективных компьютерных методов анализа и интерпретации генетических текстов.

Актуальность проблемы связи структуры функционально важных участков ДНК с их функцией в экспрессии генов требует разработки и использования все более новых изощренных методов компьютерного анализа их первичных структур.

Выявление и анализ периодичностей в первичной структуре ДНК важны для понимания законов формирования и стабильности структур ДНК более высоких порядков. Анализ периодичностей способствует пониманию процессов транскрипции и репликации ДНК. В данной работе предпринята попытка найти ключ к задаче о взаимодействии РНК-полимеразы с промоторами путем исследования периодичностей в первичной структуре индивидуальных промоторов.

Цель и задачи исследования

Уелью данной работы является изучение периодических свойств совокупности нуклеотидных последовательностей бактериальных промоторов, сравнительное исследование локальных и глобальных свойств первичной структуры, связанных с функционированием этих участков.

В связи с указанной целью задачами данной работы являлись:

1) выбор и разработка методов, адекватных для решения задач распознавания последовательностей с заданными структурно-функциональными свойствами;

2) создание комплекса программ на основе методов нейронных сетей, частотного анализа, кластерного анализа и матричного Фурье-анализа для исследования участков нуклеотидных последовательностей, характеризующихся регулярным строением различного типа;

3) выявление и изучение периодических свойств промоторов методом матричного Фурье-анализа, сравнение Фурье-спектров промоторов прокариот и эукариот ( Е.соИ, В.ъиЫШв и Н.вщж!к);

4) установление периодических свойств распределения нуклеотидов на участках связывания РНК-полимеразы метолами Фурье-анализа и корреляционного анализа, нахождение консенсусов;

5) установление связи между особенностями первичной структуры промоторных областей и определяемыми ими конформаиионными и физико-химическими свойствами, прежде всего, особенностями гидратации ДНК промоторов;

6) применение агломеративно-иерархического кластерного анализа и метода искусственных нейронных сетей для классификации последовательностей в ДНК промоторов.

Научная новизна работы

Продемонстрирована возможность проведения классификации промоторов по системам признаков, в основе которых лежат особенности распределения- частот встречаемости пар, троек и четверок нуклеотидов, что показало принципиальные отличия одних групп промоторов от других и позволило сделать вывод о том, что существенные закономерности регуляции считывания генов определяются свойствами участков специфического ДНК-белкового взаимодействия самих промоторных

участков ДНК с регуляторными белками, в то же время места посадки РНК-полимеразы не выявляются с помошью консенсусного анализа.

Таким образом, показано, что посадка РНК-полимёразы на промоторные последовательности отличается от принципов так называемого специфического узнавания, которое характерно для известных регуляторных белков, чьи операторные последовательности четко сохраняются в эволюционном ряду. Полученные данные свидетельствуют о том, что узнавание РНК-полимеразой зон посадки на промоторах определяется Специфическими физическими свойствами зон посадки (признаки, использовавшиеся при проведении классификации промоторов, включают параметры, связанные с физическими характеристиками участков сильного взаимодействия РНК-полимеразы с ДНК).

Для установления, с одной стороны, глобальных свойств последовательностей функционально важных участков полинуклеотидных цепей, а с другой стороны, -характеристики их конформационных и физико-химических особенностей впервые использован подход, основанный на сравнительном анализе периодичностей распределения нуклеотидов и их групп (в том числе и по отношению к периодичностям основных структур сахарофосфаткого остова АНЮ методом матричного Фурье-анализа.

Впервые установлен и проанализирован набор периодов как для промоторных последовательностей, так и для примыкающих к ним участков генома. Установлены периодическая структура и конкретные периодичности расположения нуклеотидов в промоторах из Е.соН и Н.вар/епв; показана высокая степень их гетерогенности.

Проведено разделение промоторных последовательностей Е.соН на классы по трем системам признаков: 1- числу пиков в Фурье-спектре промотора; 2- величине периодов в распределении нуклеотидов и их сходству и различиям с периодичностью сахарофосфатного остова; 3- наличию или отсутствию блоков из одинаковых нуклеотидов. По типам несовпадений периодичностей различных нуклеотидов и групп нуклеотидов с периоличностями в сахарофосфатном остове сделан вывод о различных формах стабилизации вторичных структур ДНК в различных промоторах. Установлены резкие различия в параметрах гидратации различных промоторов, что заставляет сделать вывод о роли воды в процессах узнавания белком ДНК. Показано, что Фурье-спектры последовательностей нуклеотидов в промоторах прокариот и человека отличаются как по набору величин периодичностей, так и по параметрам блочности для определенных групп нуклеотидов.

Обнаружены периодичности в расположении точек контактов РНК-полимеразы E.coli с промоторами, показано их несовпадение с периодичностями сахарофосфатного остова в канонической В-форме. Предложен механизм образования открытого комплекса промотора с РНК-полимеразой. Показано, что в большинстве промоторов нуклеотиды в позициях, соответствующих точкам контактов между РНК-полимеразой и 1ас-иУ5-промотором, имеют одинаковую периодичность.

Показана возможность распознавания нуклеотидных последовательностей эукариот и прокариот как методом нейронных сетей, так и методом частотного анализа, причем последний часто оказывается не менее эффективным, чем первый.

Практическое значение работы

Классификация и анализ функциональных участков геномов (таких как промоторы и терминаторы) важны для разметки полностью секвенированных геномов, а также для выяснения механизмов регуляции экспрессии генов. Полученные в данной работе результаты могут быть использованы при конструировании промоторных участков с заданной эффективностью функции.

Использованные в данной работе подходы могут быть применены для исследования других совокупностей последовательностей ДНК, выполняющих одну и ту же функцию, но не имеюших четко выраженного консенсуса в первичной структуре.

Разработанные методы анализа и классификации нуклеотидных

последовательностей могут быть применены для исследования любых биополимеров с любой последовательностью символов и в этом смысле могут быть распространены на белки, полисахариды и т.д.

Полученные результаты могут быть использованы в рамках программ "Геном человека", "Биоинженерия" и "Важнейшие проблемы генетики".

Апробация работы

Материалы диссертации были представлены на международной конференции "Математические методы распознавания образов'ЧПушино, 25-30 сентября 1995), на 24th Aharon Katzir-Katchalsky Конференции "Bioinformatics - Structure" (Иерусалим, Израиль, 17-21 ноября 1996), на международном семинаре "Mathematical Analysis of Bioîogical Sequences" (Norwegian University of Science and Technology, Trondheim, Norway, August 4-6 1996), на международном семинаре "Mathematical Analysis of Biologîca! Sequences"(Rouen University, France, August 27-29 1997).

Публикации

По теме диссертации опубликовано 9 печатных работ.

Структура и объем работы

Диссертация изложена на 104 страницах, включает 48 рисунков и 8 таблиц. Список литературы содержит 122 наименования. Диссертация состоит из введения, обзора литературы, пяти глав, в которых изложено современное состояние проблемы, основные результаты работы и их обсуждение, заключения, выводов и списка цитированной литературы.

Основные положения, выносимые на зашиту

1. Периодичности распределения нуклеотидов в промоторных последовательностях ДНК индивидуальны и оказывают существенное влияние на функциональные свойства промоторов.

2. Регуляторные свойства промоторов определяются соотношениями между периодичностями нуклеотидов и их групп на локальных участках ДНК, в частности, различием между конкретной периодичностью, определяющей посадку данного регуляторного белка, и средней периодичностью как в опероне, содержащем данный промотор, так и в ДНК данного генома в целом.

3. РНК-полимераза находит определенные периодические структуры в последовательностях нуклеотидов промоторов.

Содержание работы

Во введении обоснована актуальность темы диссертации, определены цели и задачи исследования, его научная новизна и практическая ценность.

В литературном обзоре проанализированы различные методы анализа нуклеотидных последовательностей. Для успешной идентификации функциональных участков в нуклеотидной последовательности генома и предсказания эффективности их функционирования важно знать, какие специфические ограничения накладываются на первичную структуру совокупности последовательностей, выполняющих одну и ту же функцию (например, промоторные или терминаторные последовательности). Особое внимание в обзоре литературы уделено анализу нуклеотидных последовательностей промоторов.

Первая глава содержит результаты статистического анализа промоторов E.coli и Н.sapiens. В качестве математического аппарата использован частотный анализ встречаемости нуклеотидов, аппарат иепей Маркова, а также корреляционный анализ. Выборки промоторов E.coli и H.sapiens исследованы на наличие прямых и инвертированных повторов разной длины с разной степенью точности повтора. Обнаружено, что все исследованные промоторы обладают точными инвертированными повторами длиной не менее 4 нуклеотидов. 14% из 290 исследованных в данной работе промоторов E.coli содержат прямые повторы длиной в шесть нуклеотидов, разделенные друг от друга участками длиной в 5-10 нуклеотидов, что, возможно, говорит о способности этих участков ДНК образовывать так называемые SLS-структуры ДНК.

23% исследованных нами промоторов E.coli содержат один или несколько точных прямых или инвертированных повторов длиной в восемь нуклеотидов. Вероятность найти один или более точный прямой или инвертированный повтор длиной в восемь нуклеотидов для случайной нуклеотидной последовательности длиной в 101 нуклеотид равна 0.0026 (вычисления проводились по схеме Бернулли в предположении цепи Маркова 0-го порядка).

Показана обогашенносгь промоторов различными скоплениями одинаковых нуклеотидов и чередующимися А/Т- и G/C-богатыми блоками в предположении независимости нуклеотидов (цепь Маркова 0-го порядка). В частности, замечена обогашенносгь промоторов E.coli А/Т-треками (т.е. последовательностями, содержащими не менее четырех нуклеотидов А и Т, следующих друг за другом с избеганием ТА). Известно, что эти участки ДНК отличаются особым типом гидратации и образуют так называемый водный хребет в малой бороздке ДНК. Распределение А/Т-треков вдоль промоторных последовательностей носит несимметричный характер -большая часть А/Т-треков расположена выше точки старта транскрипции. Максимумы на распределении А/Т-треков для выборки из 290 промоторов E.coli, выравненных по точке старта транскрипции, находятся в положениях -73, -62, -55, -51, -44, -41 ,-31, -20, -10 относительно точки старта транскрипции, минимумы распределения находятся в положениях -67, -59, -57, -48, -42, -38, -25, -14, -13 (положение А/Т-трека задается положением его первого нуклеотида с 5'- конца). Почти полное отсутствие А/Т-треков с началом в позициях -14, -13 относительно точки старта транскрипции возможно означает, что в этих областях промоторов избегаются последовательности, способные образовывать водный хребет, характеризующийся зауженной малой бороздкой ДНК и стабилизирующий В'-конформаиию ДНК.

N »

На рис.1 изображена гистограмма отношения количества нуклеотидов А и Т к количеству С и С для выборки из 290 промоторов Е.соН из компиляции

40 30 20 10

0 11 п 11»,

о.з 0.7 1.1 1.5 1.9 гз 2.7 ai 3.5 3.9 (Lisçer&Margali, 1993). По оси абсаисс -

Рис.1. Гистограмма отношения АТ-состава значения отношения количества А+Т к

диапазон значении. 10% промоторов Е.соН имеют (A+T)/(C+G}<1.

Рис.1 показывает, что большинство промоторов АТ-богаты, однако существуют промоторы, у которых CG-содержание превышает АТ-содержание. Но даже а этих промоторов есть А/Т -треки.

Во второй главе изложен метол матричного Фурье-анализа и результаты применения этого метода к промоторным последовательностям Е.соН, B.subtilis и H.sapiens. Получены Фурье-спектры промоторных нуклеотидных последовательностей. Проведено сравнение Фурье-спектров промоторов Е.соН и соответствующих им кодирующих участков ДНК. Более сложное строение Фурье-спектров промоторов H.sapiens по сравнению с Фурье-спектрами Е.соН отражает более сложную структурную организацию ДНК промоторов человека.

Обнаружение и изучение периодичностей в первичной структуре ДНК важно для понимания, закономерностей формирования структур высших порядков и их стабильности. Анализ величин периодичностей важен также для заключения о распределении типов гидратации о бороздках ДНК, а это, в свою очередь, необходимо для оценки стабильности ДНК-белковых комплексов.

В работах Макеева и др. (1995 г.) был развит новый метод Фурье-анализа -матричный Фурье-анализ, предназначенный для анализа последовательностей биополимеров. Этот метод позволил исследовать даже сравнительно короткие символьные последовательности и обнаруживать периодичности, встречающиеся в последовательности небольшое число раз.

Пусть дана нуклеотидная последовательность длиной М. Гармоники Фурье-спектра данной последовательности вычисляются следующим образом:

промоторов KGC-составу.

Сч-С с шагом 0.1, по оси ординат -количество случаев, попавших в данный

Zx^xpC-^m)

= ~ 4м

где д„=2яп! М, п=0, 1, ...,М-1, а е А = [а, с, I), т=1,..., М.

хаа = 1, если символ типа а расположен в т-той позиции последовательности, х „ а =0 - в других случаях.

Спектральная мощность гармоники, соответствующей периоду Тп-2я/д„, равна

£ ^хМх'Мп) >

где Ь^ - корреляционная матрица , знак " *■ " означает комплексное сопряжение.

Применяя метод матричного Фурье-анализа для исследования периодичностей в последовательностях Е.соН мы ставили перед собой следующие вопросы:

1) с какими периодичностями распределяются отдельные нуклеотиды и динуклеотиды;

2) приводят ли периодичности, если они имеются, к фазировке соответствующих нуклеотидов и динуклеотидов относительно поверхности ДНК;

3) нарушают ли наблюдаемые периодичности распределения нуклеотидов ось симметрии второго порядка, перпендикулярную оси спирали ДНК;

4) как наблюдаемые периодичности связаны друг с другом и с возможным блочным распределением нуклеотидов в промоторах;

5) какую роль в наблюдаемых периодичностях в распределении нуклеотидов играют скопления нуклеотидов или динуклеотидов каждого сорта, и как можно по Фурье-спектрам их отличать.

Статистический анализ расположения всех возможных динуклеотидов вдоль промоторных последовательностей Е.соН показал, что в полученных распределениях частот встречаемости динуклеотидов максимумы расположены с "периодичностью, приблизительно соответствующей шагу спирали в В-форме ДНК за исключением участков в районе -10 и -35 нуклеотидовДсм. рис.2). На рис.2 представлено распределение динуклеотидов АА/ТТ и СС для 290 промоторных последовательностей Е.соН одинаковой длины (101 нуклеотид) из компиляции [извег&Ма^аЬЧ]. По оси абсцисс отложено положение динуклеотида вдоль последовательности промотора.

9

По оси ординат -рбшее количество

динуклеотилов определенного типа,

встретившихся в данной позиции относительно точки старта транскрипции в 290 промоторах выборки.

Как легко видеть из данного графика, говорить о периодичности

Рис.2. Распределение динуклеотилов АД/ТТ (верхняя кривая) и СС распределения пар через (нижняя кривая) для 290 промоторных последовательностей Есо// 1 о 5 нуклеОТИДОВ было

преждевременно. Напротив, на участках около -10 и -35 нуклеотидов, т.е. в местах, важных для посадки РНК-полимеразы, как мы отметили выше, на нашем распределении, полученном по большой выборке, симметрия явно нарушается. Это видно и на другом интегральном распределении (Рис.2). Очевидно, что нарушения в периодичности распределения нуклеотидов на суммарном графике сами по себе не означают непериодического распределения нуклеотидов в . индивидуальных промоторах. Вместе с тем рассуждения о точном соответствии симметрии сахарофосфатного остова симметрии расположения нуклеотидов, которое должно стабилизировать классическую двойную спираль, осмысленны только для отдельно взятой последовательности АНК. В то же время характерные участки первичной структуры, состоящие из нуклеотидов одного типа, в том числе повторяющихся периодически, будут либо дестабилизировать спираль, либо инициировать возникновение особенностей пространственной структуры АНК ( суперспирализаиия, изгибы и кинки). Все это скажется на структурных, а, следовательно, на функциональных свойствах промоторов.

Поэтому для более летального и строгого изучения каждой промоторной последовательности Е.соН из компиляции Ц^ег&Ма^аМ был проведен матричный Фурье-анализ этих последовательностей по разным системам признаков ( по отдельно взятым нуклеотидам А, С, Т, С; по всем четырем нуклеотидам одновременно; по различным динуклеотилам, взятым по отдельности, и по всем динуклеотидам одновременно).

Наиболее неожиданным результатом Фурье-анализа промоторных последовательностей оказались различия в периодичностях, при их хорошей выраженности: кроме периодичности »10.5, совпадающей с периодичностью сахарофосфатного остова В-формы ДНК, в расположении нуклеотидов промоторов имеются периодичности, отличные от 10.5. Разные промоторы имеют также и разные Фурье-спектры . (На рис.3 приведены Фурье-спектры нескольких промоторов по встречаемости всех четырех нуклеотидов.)

Наибольшая спектральная мощность периодичности в промоторах E.coli наблюдается по динуклеотидам АА/ТТ (и не только в силу заметной обогащенности промоторных последовательностей динуклеотидами АА/ТТ). Промоторы Gal-P1, Gal -Р2, atpB Р1 имеют четко выраженную периодичность 13.5 встречаемости динуклеотидов АА/ТТ. Промоторы rpIT и uvrC-РЗ имеют четко выраженную периодичность 8 встречаемости динуклеотидов АА/ТТ. Промоторы gltA-P1, ilvlH-P2,

h»d eycAB

pckA "»AD

0 S W 19 Э> M j SO 0 J 10 20 23 -f 30

Рис.3. Разнообразие Фурье-спектров промоторов E.coli.

Рис.4. Фурье-спектр промотора гена speB для всех четырех нуклеотидов.

katE, livj, livK, Ipp, melA, mtl, ompB, sp<,B

pabA-P1, pckA, pgs A, rpmH-P3, sdh-P2 имеют отчетливую периодичность 10.5 встречаемости динуклеотидов АА/ГТ.

Замечательным фактом является наличие периодичности " три " в некоторых промоторных

последовательностях E.coli ( например, в промоторах atpB-P2, dnaN-P2 no динуклеотидам CC/GG; в промоторах carB, cir-P1, dapD, fur-Pa, dnaN-P2, dnaN-P3 по нуклеотиду А; в промоторах dnaN-P5, p-lnt~, ptsH во встречаемости нуклеотида С; в промоторах atpB-P2, dnaN-P2, dnaN-P3, dnaQ-Pl, fdhF, grpE, gyrA, gyrB, livj, putP-P5, recF-P2, rpsA-P3, rpsU-P2, speB, trp-P2, valS-P1 во встречаемости нуклеотида G; в промоторах ampC, araj, atpB-P2, crr-P2-ll, cysD, dnaN-P2, dnaN-P3, fad L, Turn A, ilvlH-РЗ', malK, nagD, рас, pncB, relA, rnh, rpoD-Phs, rpoD-Phs/min, str, tonB во встречаемости нуклеотида T). Известно, что периодичность "три" характерна для кодирующих последовательностей ДНК (в силу существования предпочтения в использовании определенных кодонов). Поэтому те промоторы (например, atpB, crr-P2-II, dnaN-P2, dnaN-РЗ, grpE, ptsH, relA, speB), которые имеют периодичность "три" сразу по нескольким нуклеотидам, могут рассматриваться как произошедшие из кодирующих участков генов. Анализ сведений о взаимном расположении генов E.coli, полученных из банка данных EMBL, позволил установить, что некоторые промоторы, имеющие четко выраженную периодичность " три" (например, dnaN-P2, dnaN-РЗ, SpeB), лежат в кодирующей области предшествующих генов. Известно, что промоторы Р2 и РЗ гена dnaN лежат в кодирующей части гена dnaA, предшествующего гену dnaN, а промотор гена SpeB находится п кодирующей части гена SpeA, предшествующего гену SpeB.

На рис. 4 приведен Фурье-спектр промотора SpeB для четырех возможных нуклеотидов.

Периодичности расположения нуклеотидов в промоторах отличаются от периодичностей расположения нуклеотидов в прилежаших к ним участках ДНК (рис.6). На рис. 5 кривая 1 соответствует Фурье-спектру (для динуклеотидов АА/ТТ) участка ДНК, длиной в 101 нуклеотид, предшествующего промотору гесА ; кривая 2 соответствует Фурье-спектру промотора гесА, кривая 3 соответствует Фурье-спектру участка ДНК, следующего за промотором гесА. По оси абсцисс - длина периода, по оси ординат - соответствующая спектральная мощность.

Рис.5. Фурье-спектры промотора гесА и примыкающих к нему участков генома Е.соИ.

Фурье-спектры промоторов отличаются от Фурье-спекгров соответствующих им генов (см. на рис.6 усредненные Фурье-спектры для совокупности промоторов Е.соИ и совокупности фрагментов генов такой же длины, что и рассматриваемые промоторные последовательности). Следует отметить, что четко выраженная периодичность "3" на усредненном Фурье-спектре участков генов не означает, что каждый из этих участков имеет в своем спектре четко выраженную периодичность

По виду Фурье-спектров проведено разделение промоторных последовательностей £соЛ на классы по трем системам признаков: 1- числу пиков в Фурье-спектре ; 2- численным значениям величин периодов в первичной структуре промоторов и их сходству или различиям с периодичностью сахарофосфатного остова; 3- наличию или отсутствию блоков из одинаковых нуклеотидов.

Оказалось, что большинство промоторов имеют а своем спектре несколько гармоник. Однако существуют и промоторы, имеющие единственную четко

Промсггссы Гены

Рис.6. Средние Фурье-спекгры для выборки промоторов Е.соП (слева) и для выборки фрагментов кодирующих участков генов, соответствующих этим промоторам (справа).

выраженную гармонику, значительно выделяющуюся по спектральной мощности (например, Фурье-спектры встречаемости 16 возможных динуклеотидов для промоторов put-P2 и put -РЗ имеют три четко выраженных пика, Соответствующих периодам 2, 5.5 и 11.5, а спектры промоторов hisA и рскА имеют по одному четкому пику : период 4 для hisA и 10.5 - для рскА).

Ряд промоторов содержит периодичность, соответствующую периодичности сахарофосфатного остова ( промоторы g!tA-P1, i!vlH-P2, kat-E, livj, livK, Ipp, melA, mtl, ompB, pabA-P1, pckA, pgsA, rpmH-P3, sdh-P2 имеют периодичность 10.5 встречаемости динуклеотидов АА/ГТ). Существуют промоторы, содержащие периодичности, отличные от периодичности сахарофосфатного остова (например, промоторы hisA, speB, dnaN-P2, dnaN-P3, uvrC-P3, alkA, argF и др.).

Фурье-спектры промоторов H.sapiens (исследовано 122 pol-ll промотора) как и

Рис. 7. Фурье-спектр промотора Н5ИРН01 человека.

промоторы прокариот имеют разнообразное строение: от более сложных Фурье-спектров до простых, как на рис.7. Для большинства спектров промоторов человека характерно наличие большого количества гармоник разной амплитуды, что свидетельствует.о высокой степени гетерогенности нуклеотидных последовательностей промоторов человека. По-видимому, изучение последовательностей промоторов эукариот должно проводиться индивидуально, с учетом механизмов их функционирования и предполагамых структурных особенностей ДНК-белковых комплексов.

В третьей главе диссертации приводятся результаты компьютерного анализа закономерностей распределения точек контактов между РНК-полимеразой и некоторыми промоторами Е.соИ (на основании ранее известных экспериментальных данных). Методами корреляционного анализа и Фурье-анализа обнаружена периодичность в распределении контактов между РНК-полимеразой и промоторами.

Так, например, в Фурье-спектре контактов полной РНК-полимеразы с промотором lac UV5 четко видны пики, соответствующие периодам в 7, 8, 10.5, 15 нуклеотидов (см. рис. 8). Фурье-спектр lac UV5- промотора содержит все периодики, наблюдающиеся в контактах, и ряд других

Рис.8. Фурье-спектр промотора lac UV5 (сплошная линия) и спектр контактов полной РНК-полимеразы с laclIVS промотором (контакты для обеих цепей ).По оси абсцисс - длина периода Г, по оси ординат - соответствующая периоду спектральная мощность F.

Т.к. в обшей картине контактов РНК-полимеразы Е.соЧ' с несколькими промоторами видна некоторая гомология контактов на уровне индивидуальных нуклеотидов, нами проведен статистический анализ нуклеотидов, находящихся в позициях, соответствующих (с точностью до одного нуклеотида влево или вправо) точкам контактов РНК-полимеразы с lac иУ5-промотором, для выборки из 290 промоторов Е.соЧ, выравненных по точке старта транскрипции. Оказалось, что все исследованные 290 промоторов E.coli имеют не менее 7 совпадений нуклеотидов с промотором lacUV5 в позициях, соответствующих точкам контактов полной РНК-полимеразы с промотором lacUV5. 98 % исследованных промоторов содержат не менее 10 совпадений нуклеотидов с промотором lacUV5 в позициях, соответствующих точкам контактов полной РНК-полимеразы с промотором lacUVS. 87% исследованных промоторов содержат не менее 12 таких совпадений.

Фурье-анализ выборки 290 промоторов E.coli в алфавите из "0 " и "1" ( 1- в позициях, в которых обнаружено совпадение с нуклеотидом, соответствующим контакту РНК-полимеразы с lac UV5 промотором, 0 - во всех остальных позициях)

показал, - что ' 74% исследованных

Рис.9. Усредненный Фурье-спектр "контактов" полной РНК-

промоторов имеют в полимеразы с промоторами для выборки из 290 промоторов ' г

E.coli. По оси абсиисс - длина периода Т, по оси ординат - Фурье-спектре пик,

соответствующая спектральная мощность F. соответствующий периоду

в 15 нуклеотидов, 45%

исследованных промоторов имеют в Фурье-спектре пик, соответствующий периоду в 11 нуклеотидов, 40% - 8 нуклеотидов, 27% - 6 нуклеотидов. Усредненный Фурье-спектр этой выборки промоторов приведен на рис.9.

В четвертой главе представлены результаты классификации промоторных и терминаторных последовательностей E.coli методами агломеративно-иерархического кластерного анализа и нейросетевого алгоритма Кохонена. Эти методы класификаиии были выбраны нами потому, что a priori не были известны ни количество классов, ни типичные представители искомых класов (алгоритм Кохонена является самообучающимся, а агломеративный кластерный анализ позволяет получать классификацию без предварительного обучения). Т. е. стояла задача исследования структуры данных.

Использование метрики Хэмминга в качестве расстояния между последовательностями нуклеотидов в промоторах и терминаторах E.coli привело к дендрограммам, отражающим размытую структуру данных. Применение нейросетевого алгоритма Кохонена также позволило выявить размытую структуру данных совокупности промоторных последовательностей.

Четкие кластеры удалось получить, если в качестве признаков для классификации использовались не нуклеотидные последовательности per se, а их характеристики, такие как пурин-пиримидиновая асимметрия, относительная частота

встречаемости динуклеотилов, периодичности встречаемости нуклеотидов, динуклеотидов и тринуклеотидов.

Евклидова метрика была использована в качестве меры расстояния между нуклеотидными последовательностями, представленными в терминах пурин-пиримидиноеой асимметрии, относительной частоты встречаемости динуклеотидов, периодичностей встречаемости нуклеотидов, динуклеотидов и тринуклеотидов.

Классификации промоторов и терминаторов, полученные в результате применения алгоритма Кохонена, не противоречат результам агломеративно-иерархического кластерного анализа.

Интерпретация результатов классификации проведена с использованием таких геометрических и функционально важных характеристик АНК, как способность к изгибам, сверхспирализапия, особенности гидратации.

На рис. 10 приведена дендрограмма агломеративно-иерархического кластерного анализа (метод Уорда, метрика Евклида) для 290 промоторных последовательностей Е.соЧ. В качестве признаков, по которым производилась классификация, выбраны Фурье-спектры промоторных последовательностей, отражающие суммарную периодичность встречаемости нуклеотидов A,C,G,T. Промоторы, имеющие в своем спектре четко выраженную периодичность "три" (speB, atpB-P2 и др.) выделились в отдельный кластер. В один кластер попадают также промоторы, доминирующая периодичность которых совпадает с периодичностью сахарофосфатного остова В-формы ДНК- 10.5 ( nusA, katE, argCBH и др.)

Кластерный анализ Фурье-спектров промоторов Eco/i для динуклеотидов АА/ТТ позволил выявить сходство Фурье-спектров промоторов, относящихся к одному оперону. Кроме того, в один кластер попадают промоторы, регулирующиеся сходным образом.

Рис.10. Денлрограмма згломеративно-иерархического кластерного анализа для Фурье-спектров 290 промоторов E.coli

Пятая глава диссертаииии носит в основном методологический характер. В ней дано подробное описание алгоритма самоорганизующейся нейронной сети Кохонена.

Самоорганизующееся отображение Кохонена представляет собой результат работы алгоритма векторного квантования: некое число эталонных векторов помешается во многомерное пространство входных данных и аппроксимирует эти данные некоторым упорядоченным образом. Таким образом определяется отображение из многомерного пространства данных на двумерную решетку точек. Это отображение может быть эффективно использовано для визуализации метрических отношений между данными.

В данной работе этот алгоритм был использован для разделения эукариотических и прокариотических нуклеотидных последовательностей. В качестве

ECAROD ECASCBFG ECDEADA ECEBG ECENVCD HSACTAR HSALDAR

ECASPC HSACHRB HSALDC HSALDCG

ECASPAG ECCADAB HSALDA1 HSALDOA

ЕСЕС02М ECECORV HSALDOB HSALDB1 HSALDB2

Рис 11. Самоорганизующееся отображение Кохонена (обрабатывающий слой сети Кохонена содержит 4X6 элементов ("нейронов")) для 10 последовательностей E.coli и 10 последовательностей H.sapiens. признаков использовали относительные частоты встречаемости различных динуклеотидов в рассматриваемых нуклеотидных последовательностях. Тестирование алгоритма проводилось на последовательностях генома Е.соЧ, человека и других организмов.

Из рис.1.1 видно, что последовательности E.coli отобразились активностью левой части нейронной сети, а последовательности H.sapiens - правой, т.е. нейронная сеть топологически упорядочила последовательности из двух организмов, подаваемые при обучении на вход нейронной сети в случайном порядке.

Нейронная сеть Кохонена, обученная на выборке нуклеотидных последовательностей E.coli и H.sapiens, топологически упорядочила нуклеотилные последовательности из разных организмов (рис.12) - прокариотические нуклеотидные

BSPETB AD7HDBP FHLACD HSAANP

ECASNS HSAC07

AD4HEX04 GDAYF5G BTGAS

AD4HEX BTGAN01

Рис.12. Результат тестирования самообучающейся нейронной сети Кохонена на 11 разных прокариотических и эукариотических последовательностях ЛНК (кодирующие и некодируюшие последовательности ДНК человека, курицы, быка, грибов, кишечной палочки и т.д.; не митохондриальныеКСетъ была обучена на 10 нуклеотидных последовательностях ДНК E.coli. и 10 последовательностях ЛНК Н.sapiens (указанных выше), последовательности отобразились активностью левой части нейронной сети ( ранее откликавшейся на нуклеотилные последовательности E.coli), а эукариотические — правой (ранее откликавшейся на нуклеотидные последовательности H.sapiens). Этот тест показывает, что нейросетевой алгоритм Кохонена может быть применен для задачи классификации прокариотических и эукариотических нуклеождных последовательностей.

Аля того же набора нуклеотидных последовательностей был применен метод агломеративно-иерархического кластерного анализа. Показано, что результаты кластерного анализа могут быль использованы для определения оптимального числа вычислительных элементов ("нейронов") самоорганизующейся нейронной сети Кохонена.

Описан простой алгоритм поиска специфических участков в

последовательности ЛНК, основанный на определении степени удаленности данной точки от "центра масс" системы точек. Исходная нуклеотидная последовательность представлялась как совокупность неперекрывающихся фрагментов длины N, которую после кодирования нуклеотидов числами по некоторой схеме можно было представить как совокупность точек в N-мерном пространстве. Тестирование алгоритма проведено на большой выборке нуклеотидных последовательностей генома человека. Проведено сравнение эффективности предложенного алгоритма с уже известным ранее нейросетевым алгоритмом и показано, что предложенный алгоритм дает те же результаты, что и нейросетевой, но требует меньше вычислительных затрат.

Сделан вывод о границах применения методов нейронных сетей в задачах исследования генетических текстов.

20

Выводы

1. Создан комплекс программ для выявления и анализа участков нуклеотидных последовательностей, характеризующихся регулярным строением. В этот комплекс входят программы матричного Фурье-анализа, кластерного анализа, частотного анализа и распознавания нуклеотидных последовательностей методами нейронных сетей.

2. На большой выборке промоторов продемонстрировано наличие локальных элементов симметрии в нуклеотидных последовательностях. Картированы области специфических олигонуклеотидных повторов и палиндромов в промоторах Е.соН и Н.вар/епв. Обнаруженные специфические участки являются потенциальными зонами посадки белков—регуляторов и могут иметь тенденцию к образованию неканонических форм ДНК.

3. Методом матричного Фурье-анализа установлены характерные периодичности нуклеотидных последовательностей в промоторах и генах Е.соН. Показано, что периодичности в различных промоторах существенным образом отличаются друг от друга. Общим их свойством является блочный характер расположения одинаковых нуклеотидов и групп нуклеотидов.

4. Показано, что в генах и промоторах периодичности разные. Различия в периодичностях расположения нуклеотидов в генах и их промоторах приводят к различиям электростатического потенциала и особенностей гидратации промоторов и прилежаших к ним участков генов, что важно для процесса распознавания промотора РНК-полимеразой.

5. На основе анализа экспериментальных данных обнаружены периодичности в расположении контактов ДНК промоторов с РНК-полимеразой Е.соН. Показано, что эти периодичности составляют только часть периоличностей нуклеотидной последовательности данного промотора. Таким образом, специфическое узнавание РНК-полимеразой участка посадки на промоторе связано с нахождением определенного периодического узора в расположении нуклеотидов, а специфический участок узнавания РНК-полимеразой ДНК состоит из набора нуклеотидов, положение которых в последовательности связано одной или несколькими операциями симметрии.

6. Методами кластерного анализа и нейронных сетей проведена классификация промоторов по следующим признакам : нуклеотидному и динуклеотидному составу, расположению вдоль нуклеотидной последовательности промотора потенциальных мест изломов ДНК, расположению вдоль нуклеотидной последовательности промотора А/Т-трактов как участков аномальной гидратации, Фурье-спектрам встречаемости различных нуклеотидов, динуклеотидов и тринуклеотидов.

7. Показано, что промоторы, регулирующиеся сходным образом, имеют похожие (в смысле евклидовой метрики) Фурье-спектры. Сходство Фурье-спектров промоторов может свидетельствовать также об их сходном эволюционном происхождении.

Содержание диссертации отражено в следующих публикациях

1. Г.И. Кутузова, Р.8. Полозов. Алгоритм поиска специфических участков в первичной структуре ДНК. 1995. Биофизика, Т. 40, с. 209-211.

2. Kutuzova, C.I., Panchenko, L.A., Makeev, V. Yu., Tumanyan, V.G., Polozov, R.V., Classification and Analysis of E.coli Promoter and Terminator DNA Sequences Based on Statistics and Artificial Neural Networks/Karadeniz Journal of Medical Sciences, 1995, V. 8, N 4, pp. 247-248.

3. Г.И. Кутузова, P.B. Полозов, В.Г. Туманян. Распознавание, классификация и анализ специфических участков ДНК статистическими и нейросетевыми методами/Тезисы межлунаролой конференции "Математические метолы распознавания образов", Пушино, Сентябрь 25-30, 1995, с.118.

4. G.I. Kutuzova, R.V. Polozov, V.G. Tumanyan. Classification of DNA Promoter and Terminator sequences and Structure-Function Relationships/ Abstracts of the Workshop on Mathematical Analysis of Biological Sequences, Norwegian University of Science and Technology, Trondheim, Norway, August 4-6 1996, p.14.

5. G.I. Kutuzova, R.V. Polozov, V.Ju. Makeev, G.K. Frank, N.G. Esipova and V.G. Tumanyan Classification, Fourier- and Wavelet-transform of E.coli promoter and terminator sequences. Folding & Design, Vol. 1, Supplement, 1996,Abstracts of 24,h Aharon Katzir-Katchalsky Conference "Bioinformatics - Structure" , Jerusalem, Israel, 17-21 November 1996

6. Г.И. Кутузова, Г.К. Франк, В.Ю. Макеев, Н.Г. Есипова, Р.В. Полозов. Фурье-анализ нуклеотидных последовательностей. Периодичности в промоторных последовательностях E.coli. 1997, Биофизика, 42, N2, с.354-362.

7. G.I. Kutuzova, С.К. Frank, N.C. Esipova. Periodicities arid Repeats in DNA Promoter Sequences. Markov Chain Analysis and Matrix Fourier Analysis Abstracts of the Workshop on Mathematical Analysis of Biological Sequences, Rouen University, France, August 27-29 •1997, p. 14.

8. Г.И. Кутузова, Г.К. Франк, Н.Г. Есипова, В.Ю. Макеев, Р.В. Полозов. Периодичности в контактах РНК-полимеразы с промоторами. 1998. Биофизика (в печати).

9. Н.Г. Есипова, Г.И. Кутузова, В.Ю. Макеев, Г.К. Франк, А.В. Баландина, Д.Э.Камашев, В.Л. Карпов. Анализ особенностей распределения нуклеотидов на участке репликации хромосом - oriC из E.coli J 998. Биофизика (в лечат).

Отпечатано в издательстве АО "Диалог-МГУ". ЛР N 063999 от 04.04.95 Подписано к печати 10.03.98 г. Усл.печ.л. 1,5. Тираж 80 экз. Заказ 271. Тел. 939-3890, 939-3891, 928-1042. Тел./факс 939-3891. 119899, Москва, Воробьевы горы, МГУ