Бесплатный автореферат и диссертация по биологии на тему
Изучение периодических свойств нуклеотидных последовательностей геномов
ВАК РФ 03.00.02, Биофизика

Автореферат диссертации по теме "Изучение периодических свойств нуклеотидных последовательностей геномов"

Московский Физико—Технический Институт

N

СГ.

Сгг огсз __

со с_ |

На правах рукописи

ФРАНК ГЛЕБ КОНСТАНТИНОВИЧ

Изучение периодических свойств нуклеотидных последовательностей геномов.

03.00.02 - биофизика

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико—математических наук

МОСКВА - 1997

Работа выполнена в Лаборатории компьютерного и структурного анализа биополимеров Института молекулярной биологии им. В.А. ЭнгельгардгаРАН.

НАУЧНЫЕ РУКОВОДЕЛИ:

Доктор физико-математических наук В.Г. Тумашш

Кандидат физико-математических наук

B. Ю. Макеев

ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ:

Доктор биологических наук

C. Э. Шноль

Доктор физико-математических наук В.И.Ивапов

ВЕДУЩАЯ ОРГАНИЗАЦИЯ:

Институт математических проблем биологии РАН

Защита состоится 14 ииоЫ 1997 года в'' часов на заседании

Диссертационного совета К 063.91.10 при Московском физико-техническом институте (141700, г. Долгопрудный, Московская обл., Институтский пер., 9).

С диссертацией можно ознакомиться в Диссертационном совете К 063.91.10 при Московском физико-техническом институте.

Автореферат разослан " ¿3 " шя 1997 года.

Ученый секретарь Диссертационного совета Кандидат физико-математических наук

В.Б. Киреев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Введение. Актуальность проблемы.

Проблема чтения генетических текстов как информационной основы для установления соответствия между различными уровнями организации биосистем в первую очередь основывается на представлениях о фрактальных свойствах генетических текстов как следствии скрытых свойств самоподобия различных масштабов организации генетического аппарата клетки. В свою очередь идея блочного строения генома опирается как на чисто информационные идеи, связанные с обсуждением проблем молекулярной эволюции, так и на экспериментальные данные о редупликации реального генетического материала, что отчетливо проявляется в доменной структуре как глобулярных, так и фибриллярных белков. Сказанное означает, что важнейшей и едва ли не первой проблемой, которая должна предшествовать любому глобальному анализу генетических текстов является установление возможных периодичностей в последовательности оснований нуклеотидов. Такого рода анализ имеет свою историю, которая изобилует интересными примерами и позволяет констатировать наличие периодичностей в широком интервале масштабов длин последовательностей нуклеотидов. Тем не менее глубокого исследования индивидуальных участков последовательностей оснований в отношении протяженности периодических участков, а также отличий или сходства периодичностей последовательностей нуклеотидов на разных в функциональном и информационном отношениях участках

геномов не проводилось. Прежде всего из-за гетерогености нуклеотидной последовательности большая часть периодичностей ограничена незначительной длиной по цепи, в то же время общие для протяженных участков периодичности могут повторяться не вполне точно. Именно в силу перечисленных выше причин существовавшие до сих пор методы математического анализа периодичностей оказались неадекватными. Ситуация в корне изменилась, когда был разработан метод матричного Фурье-анализа, который и позволил справиться с большинством из указанных выше трудностей. После этого использование метода Фурье-анализа для установления периодических закономерностей на различных участках последовательностей стало реальностью. Однако для сравнения корреляционных и периодических закономерностей требовалось разработать новые математические методы оценки статистических параметров полученных периодичностей, что единственное позволило бы соотнести установленные на различных геномах или на различных участках одного и того же генома закономерности друг с другом. Это означает, что усовершенствование математических приемов и процедур для анализа. периодичностей и корреляций в последовательностях символов сохраняет свою актуальность прежде всего для установления правил усложнения генетического материала в филогенезе, а в некоторых случаях и в процессах онтогенетического развития.

Цель и задачи исследования

1. Установление распределения периодичностей в генах различных в таксономическом отношении организмов.

2. Сравнительный анализ периодичностей на различных в функциональном отношении участках последовательности нуклеотидов в геноме.

3. Анализ периодических свойств, специфических для последовательностей нуклеотидов в генах. Выявление закономерностей в нуклеотидных составах, свойственных конкретным позициям в кодовых триплетах.

4. Исследование периодических свойств полного кольцевого бактериального генома.

5. Разработка метода поиска кодирующих областей по картине периодичностей.

Научная новизна работы.

Разработан метод поиска периодичностей в кодирующих областях геномов. В рамках метода матричного Фурье-анализа получены матрицы, с помощью которых оптимальным образом выявляются периодические свойства кодирующих областей. При построении этих матриц учтены как общие закономерности, характерные для любых кодирующих последовательностей ДНК, так и закономерности, характерные только для отдельных видов организмов, принадлежащих к разным в таксономическом отношении группам. Впервые построены матрицы сходства нуклеотидов, отражающие свойства кодирующих

последовательностей ДНК. Кроме задач анализа периодичностей в последовательностях символов такие матрицы могут найти применение в задачах выравнивания нуклеотидных последовательностей, а также в при поиске гомологий в банке нуклеотидных последовательностей.

Установлены общие характеристики периодичностей распределения нуклеотидов в ДНК, проведено статистическое исследование. Показано (на примере анализа генов человека), что в кодирующих областях последовательностей ДНК изо всех изученных периодов только период три распределен неслучайно. В то же время основные периоды нуклеотидных последовательностей в интронах человека распределены практически случайным образом и, таким образом, свойственны только индивидуальным последовательностям интронов. Получены статистические критерии применимости метода матричного Фурье-анализа для нахождения участков интронов и экзонов в последовательностях геномов эукариот. Установлено, что периодичности последовательностей промоторов геноспецифичны и сильно отличаются друг от друга. Таким образом, показано, что различные периодичности последовательностей нуклеотидов в геноме неодинаковы для участков с различными функциями и могут поэтому быть использованы для их распознавания.

Впервые изучены периодичности в полной последовательности нуклеотидов в геноме Haemophilus influenzae. Показано, что в этом геноме существует период, равный 148 нуклеотидам, по масштабу расстояний соответствующий параметрам суперспирализации кольцевой ДНК в бактериальных геномах.

Впервые для относительных частот встречаемости нуклеотидов в трех позициях рамки считывания установлен ряд статистических корреляций, некоторые из которых характерны для для геномов всех рассмотренных видов. Наиболее общей является отрицательная корреляция между G и Т. Для некоторых видов обнаружена сходная отрицательная корреляция

между нуклеотидами А и С. Также наблюдаются положительные корреляции между относительными частотами А и Т, и в и С соответственно. Поскольку выше указанные закономерности наблюдаются во всех трех позициях рамки считывания, они оказывают влияние на аминокислотный состав белков, характерны для выборки в целом и проявляются при анализе отдельных генов. Сдвиг в пользу использования й в первой позиции и недостача этого нуклеотида во второй сопровождается противоположным сдвигом для Т. В третьей позиции никакого конкретного предпочтения какому-либо нукдеотиду нет,но ее состав часто сдвинут в соответствии с йС-составом данного гена. Содержания й и Т в этом случае всегда сдвинуты в противоположных направлениях друг по отношении к другу.

Исходя из полученных статистических закономерностей предложена новая гипотеза блочной мультипликации генов (на основе кодовых триплетов) при учете скоростей естественного мутагенеза.

Практическое значение работы

Разработанный метод и полученные с его помощью результаты могут быть применены для анализа последовательностей в биополимерах, а созданный комплекс программ использован в качестве базового для структурно-функционального анализа последовательностей символов в геномах, белках и других биополимерах . Можно думать о полезности внедрения математических приемов и комплексов программ для их использования в биологии и биомедицине, а также в рамках программ, типа "Геном человека" и "Биоинженерия".

Аппробация

Результаты диссертации докладывались на Всесоюзных конференциях "Геном человека - 95 и 96", на Международном симпозиуме "Молекулярная биология на рубеже XXI века", а также на "The 24th Aharon Katzir-Katchalsky Conference "Bioinformatics-Structure". Иерусалим, Израиль, 17-21 ноября 1996г.

Публикации

По материалам работы опубликованы три статьи и тезисы.

Структура и объем работы

Диссертация изложена на 78 страницах и включает 14 рисунков и три таблицы. Список литературы содержит 91 наименование. Диссертация состоит из введения и четырех глав, включая литературный обзор.

СОДЕРЖАНИЕ РАБОТЫ.

Во введении обоснована актуальность темы диссертации, определены цели и задачи исследования, его научная новизна и практическая ценность.

В первой главе дан критический обзор литературы, в котором проанализированы математические методы поиска периодических закономерностей в расположении символов в последовательностях, а также их приложения к биологии. Особое внимание уделено работам, посвященным анализу периодического строения ДНК на разных масштабах и поиску в ДНК кодирующих участков с использованием методов поиска

периодичностей. Продемонстрировано как метод Фурье-анализа используется для задач поиска периодичностей, однако, возможности и границы его применимости не изучены. Проанализированы сведения о периодической структуре, характерной для кодирующих и некодирующих последовательностей ДНК на разных масштабах. Показано, что для исследования периодичностей в ДНК наиболее пригоден недавно разработанный метод матричного анализа Фурье.

Во второй главе изложен математический метод, разработанный для поиска периодических закономерностей в нуклеотидных последовательностях, а также приведены формулы для оценки распределения спектральной мощности периодов для Бернуллиевской последовательности с фиксированным набором частот. Метод представляет собой модификацию матричного анализа Фурье для изучения последовательностей нуклеотидов. Полученные формулы используются для анализа парных корреляций нуклеотидных составов, для первой, второй и третьей позиций кодона. Обсуждаются преимущества и недостатки применявшихся нами подходов. При разработке метода преследовались следующие цели: легкость интерпретации результатов, возможность изучения нуклеотидных последовательностей с произвольным ОС-составом, возможность легкого учета информации о нуклеотидном составе генов конкретных видов для получения более корректных данных о периодической структуре последовательности.

В рамках метода матричного анализа Фурье получены формулы для распределения спектральной мощности для всех целых периодов бернуллиевской последовательности с фиксированными частотами встречаемости нуклеотидов. Для

средней мощности спектральной гармоники случайной бернуллиевской последовательности с частотами встречаемости нуклеотидов а и матрицей сходства Ь получена следующая формула:

{1 (в, *0)) = )■-Бит(ВД,);

В случае диагональной матрицы результирующая спектральная мощность составляет сумму квадратов четырех составляющих для отдельных нуклеотидов, каждая из которых представляет собой сумму действительной и мнимой компонент. В случае случайной бернуллиевской последовательности, действительные и мнимые компоненты Фурье-образа распределены нормально согласно центральной предельной теореме. Таким образом, для спектра мощности, соответствующего диагональной матрице, можно ожидать распределения £ с восемью степенями свободы. Исключением является период два, для которого Фурье-образы характеристических последовательностей вещественны. Для этого периода следует ожидать распределения £ с четырьмя степенями свободы. Такие распределения получаются эмпирически для всех целых периодов в интронах, и для периодов, не кратных трем - в экзонах, как это показано нами далее.

Для выделения кодирующих последовательностей в рамках метода матричного Фурье - анализа получены матрицы, акцентирующие период три в генах разных видов. Показано, что такие матрицы в общем видоспецифичны.

Однако был открыт неожиданный факт, что матрицы сходства нуклеотидов всех видов имеют общие закономерности,

возникающие благодаря преимущественному употреблению различных нуклеотидов на первой, второй и третьей позициях кодона.

Для изучения этого явления потребовалось создать несложный математический аппарат корреляционных функций, отражающих взаимоотношения величин, на которые наложена линейная связь - в нашем случае, представляющая собой требование равенства единице суммы долей нуклеотидов, занимающих одну и ту же позицию в кодоне.

Для всех возможных пар нуклеотидов изучали корреляции между частотами их встречаемости в разных позициях рамки считывания.

В целях изучения таких закономерностей для заданной пары нуклеотидов а и р в отдельно взятом гене, была введена нижеследующая функция. Пусть п°- число появлений нуклеотида а в 1-й позиции рамки считывания, поделенное на полное число триплетов. Для статистически надежной оценки характеристической величины, отражающей зависимости между относительными частотами нуклеотидов в трех позициях рамки считывания, рассматривали выборку генов, принадлежащих одному и тому же виду. Затем коэффициент корреляции вычислялся с использованием ЗМ точек, по три точки для каждого из рассматривавшихся генов, где М - число генов выборки. Таким образом, в величину корреляции вносят свой вклад как корреляции между частотами нуклеотидов а и р в трех позициях рамки считывания каждого гена, так и подобные корреляции между относительными частотами разных генов.

Частоты нуклеотидов, занимающих одну и ту же позицию кодона, очевидным образом статистически зависимы. Чтобы

скомпенсировать эту паразитную отрицательную корреляцию при вычислении частоты появления нуклеотида р необходимо исключить из рассмотрения позиции, занятые нуклеотидом а. Таким образом, для каждой позиции кодона, обозначаемой г, мы вычисляем коэффициент корреляции двух следующих величин: первая величина, и?, является относительной частотой встречаемости нуклеотида а в 1-й позиции кодона. Вторая величина, представляет собой долю позиций, в которых

стоит нуклеотид р, среди позиций, не занятых нуклеотидом а:

«0 = —^—

ш Nl - N°

Для бернуллиевской случайной последовательности величины п" и независимы, что очевидно из построения, поэтому математическое ожидание коэффициента использованной корреляции

должно равняться нулю.

Заметим, что в общем случае величины ££ и^ не равны друг другу, хотя они и отражают одну и ту же статистическую закономерность. Ввиду этого мы использовали следующий симметричный несмещенный коэффициент корреляции:

5 2 '

Величина Сможет принимать значения от -1 до 1.

В третьей главе изложены результаты применения матричного анализа Фурье для характеристики

10

последовательностей ДНК, отличающихся периодическими свойствами.

Периодичности в кодирующих областях ДНК. Для экзонов, характерна периодичность три нуклеотида, связанная с триплетной организацией генетического кода.

Показано, что спектральные мощности гармоник, соответствующих периодам от 2 до 10, в интронах человека,

Спектральная мощность

Рис. 1. Спектральная мощность гармоник, соответствующих периодам четыре и пять, в экзолах человека, а также гармоники, соответствующие периодам три и пять в интронах тех же генов. 1 - теоретическое распределение х2 с восемью степенями свободы; 2 - период четыре в экзонах, 3 - период пять в экзонах, 4 -период три в интронах, 5 - период пять в интронах.

распределены практически случайным образом (рис. 1). По-

видимому, это характерно и для других периодичностей. Для

периодических свойств совокупности интронов не наблюдается

общих закономерностей, что не подтверждает данные,

известные из литературы. В то же время, в большинстве

экзонов наблюдается ярко выраженная периодичность три,

связанная с триплетным строением генома (рис. 2). Важно,

также, что периодичность три встречается в интронах

статистически, и, таким образом, пригодна для поиска

кодирующих областей. Это тем более интересно потому, что

согласно современным взглядам, последовательности в интронах не являются бернуллиевскими.

В то же время, несоизмеримые с тремя периоды, в экзонах человека также по-видимому встречаются случайно, и

•О

>Х Л г И ;:

о • <

о : :

л М ■ • -»

с ; I

н •

» ю- ; : о •

н ; ,

О 2 4 В г 10 12 и 16

Спдетральная мощность

Рнс. 2. Спектральная мощность гармоник, соответствующих периоду три в генах человека. 1 - экзоны, 2 - интроны.

соответствующие различия в экзонах и интронах определяются только разницей в составе.

Во множестве экзоиов выделено подмножество, включающее в себя преимущественно короткие экзоны, которые не отличаются от интронов по мощности периода три. К таковым относятся приблизительно 30% исследованных экзонов. Создается впечатление, что эти экзоны не могут быть отличены от окружающих интронов никакими методами, касающимися только статистики последовательностей, например с помощью марковских цепей.

Таким образом, впервые выявлены ограничения, накладываемые на использование статистических методов для выделения кодирующих областей в последовательностях ДНК.

Для выяснения конкретного местоположения экзонов, был разработан алгоритм сканирования нуклеотидной

последовательности окном, с вычислением для участка последовательности, покрытого окном, спектральной мощности матричного Фурье-анализа.

Периодичности в последовательностях промоторов. Другим типом последовательностей ДНК, в котором анализ периодичностей может дать результаты, денные с биологической точки зрения, являются промоторы. Для последовательностей промоторов характерны самые разнообразные периодичности.

Впервые получены Фурье-спектры последовательностей нуклеотидов в промоторах ДНК E.coli. Установлена периодическая структура промоторных последовательностей. Проведено сравнение Фурье-спектров промоторных последовательностей и соответствующих им кодирующих участков ДНК. Сделан вывод о различных формах стабилизации вторичных структур в промоторах с разными периодичпостями последовательностей нуклеотидов. Наблюдаемая

перемежаемость блоков нуклеотидных последовательностей, содержащих AT- , GC-пары, и разнообразие Фурье-спектров по-видимому означает неоднородность гидратной оболочки ДНК в промоторах E.coli и ее нестабильность на стыках. Обращается внимание на особенности Фурье-спектров последовательностей нуклеотидов в промоторах прокариот и человека.

Анализ периодической, структуры полного генома. В работе был проведен анализ полного генома бактерии Haemophylis influenzae. Кроме сильной периодичности три, соответствующей кодирующим участкам генома, в спектре выделяется мощный пик, соответствующий периоду 148 нуклеотидов. Этот период соответствует масштабу сверхспирализации нуклеиновых кислот бактерий.

Рис. 3. Корреляция скомпенсированных частот для генов человека, а. С и А, Ь. в и Т, с. А и Т, ЛСиа

§ 0.4

О 0.1 0.2 0.3 0.4 0.5 Пт

¿> 04

0 0.1 0.2 0.3 0.4 0.5

О 01 0.2 0.3 0.4 0.5

Рис. 4. Корреляция скомпенсированных частот для конкретных позиций кодона для пары TG в Е. coli. а. первая позиция, Ъ. вторая позиция, с. третья позиция, d. все три позиции вместе.

В четвертой главе описываются результаты исследования корреляций между относительными частотами встречаемости нуклеотидов на разных позициях кодона в кодирующих областях геномов различных организмов. Проведено исследование выборок генов 8 видов, принадлежащих к разным таксономическим группам. Обнаружены закономерности в распределении нуклеотидов по позициям в кодонах.

Результаты для всех изученных видов представлены в таблице 1. Таблица содержит значения симметричного несмещенного коэффициента корреляции для каждой пары нуклеотидов и для каждого из изученных видов. Хорошо заметно, что коэффициенты корреляции весьма разнятся как по знаку, так и по абсолютному значению. Для многих видов и нуклеотидных пар корреляции незначимы. Заметим, например, низкие значения, относящиеся к ряду пар для A. thaliana. В противоположность этому, значения для Н. sapiens сравнительно высоки, что, как это ни странно, не верно для другого млекопитающего, М. musculus. .

Видонеспецифичная отрицательная корреляция для пары GT. Как видно из таблицы 1, для всех рассмотренных видов существует отрицательная корреляция между относительными частотами встречаемости G и Т в одной и той же позиции рамки считывания (рис. ЗЬ). Для пары АС (рис. За) также в большинстве случаев имеет место отрицательная корреляция, и по абсолютным значениям она зачастую превышает обычную антикорреляцию для GT (например, для Н. sapiens). Однако, эта антикорреляция не является всеобщей; например, она не имеет места для S.cerevisiae; и ее значения невелики для A. thaliana и В. subtilis.

Корреляция для пар АТ/ОС. Для пар АТ и йС (рис. 3 с,с1) следует ожидать положительной корреляции, поскольку именно эти пары определяют соотношение долей СС/АТ, которое различается для разных организмов и генов, и

ТАБЛИЦА 1

Значения симметричного несмещенного корреляционного коэффициента для всех пар нуклеотидов в генах различных видов.

Виды sac sa0 sat sco scr 5er

Е. coli -0.36 -0.10 0.36 0.44 0.02 -0.56

S. cerevisiae .0.02 0.17 0.02 -0.19 0.29 -0.32

Н. sapiens -0.53 -0.28 0.57 0.60 -0.21 -0.45

Arabidopsis -0.07 0.18 0.03 -0.12 0.31 -0.34

Azotobacter -0.86 -0.16 0.83 0.62 -0.56 -0.61

Archaebacteria -0.60 -0.12 0.68 0.43 -0.21 -0.65

Bacillus -0.12 0.02 0.33 0.16 0.21 -0.56

subtilis

Mus musculus -0.46 -0.18 0.41 0.48 -0.14 -0.39

Vibrio cholerae -0.29 -0.04 0.35 0.36 -0.04 -0.50

интуитивно понятно, что доли G и С, например, должны меняться в соответствии друг с другом. Как это ни удивительно, этот эффект не всегда имеет место. В то время как для высших эукариот, Е. coli, А. vinelandii и V.cholerae была обнаружена значимая положительная корреляция для пар АТ и GC, эта корреляция отсутствует у Arabidopsis, а для дрожжей она даже значимо отрицательна (для пары GC). Таким образом, процентные доли G и С (А и Т соответственно), стоящие в одной и той же позиции кодона, не изменяются одновременно.

Другие пары. Для прочих пар, а именно, пуринов (АО и пиримидинов (СТ), никакой общей закономерности в корреляциях не выявлено. Присутствуют как значимые положительные и отрицательные значения, так и значения, близкие к нулю.

Корреляции для конкретных позиций кодона. В большинстве случаев множества значений относительных частот встречаемости нуклеотидов для каждой из позиций кодона не представляют собой подмножества одного унимодального распределения, но выделяются в виде отдельных кластеров (рис. 4). Каждый кластер представляет собой точки для первой, второй и третьей позиций кодона соответственно. В этих случаях имеет смысл говорить о позиционном нуклеотидном составе изучаемого вида, отличающемся от полного нуклеотидного состава. Нуклеотидный состав весьма заметно различается для разных позиций.

Был поставлен вопрос, определяется итоговая корреляция, только расположением этих кластеров, или корреляциями в нуклеотидных составах для каждой из позиций кодона Как выяснилось для й и Т имеют место оба эффекта, т.е. отрицательная корреляция вызывается не только

расположением центров кластеров, но и структурой самих кластеров. Отрицательная корреляция характерна для составов О и Т на третьей (рис. Зс) и в меньшей степени на первой (рис. За) позициях кодона. Результаты анализа показывают, что й и Т всегда избегают друг друга в одной позиции кодона, и замеченная рядом исследователей структура О-неО-И является частным проявлением этой общей закономерности для случая, когда существует предпочтение для высокой / низкой концентрации в в той или иной позиции кодона.

17

Показано, что отрицательная корреляция между содержаниями двух нуклеотидов может привести к сохранению их суммарного состава, вычисленного для трех позиций кодона. Следовательно, полученные результаты можно считать отражением того, что для многих видов, принадлежащих самым разным таксономическим группам, существует тенденция поддерживать отношение (0+Т)/(А+С) постоянным для всех трех позиций кодона, в отличие от отношений (С+С)/(А+Т) и (0+А)/(С+Т). Эта закономерность проиллюстрирована на рис. 5. Гистограммы представляют распределение суммарных относительных частот трех возможных сочетаний пар нуклеотидов. Заметно, что наименьшим разбросом характеризуется гистограмма для АС/ОТ.

C+G •/.

700

Я 600 к 500 н 400 й зоо

Т 200

A+G %

1000

T+G %

Рис. S- Гистограммы суммарного позиционного нуклеотидного состава для Е. coli. а. Доля GC, Ь. Доля AG, с. Доля GT.

ЗАКЛЮЧЕНИЕ

Мы продемонстрировали , что на основе метода матричного Фурье-анализа возможно получение принципиально новых сведений о периодических свойствах последовательностей оснований в ДНК прежде всего в том отношении, что оказывается доступной не только информация о глобальных периодичностях, выявляемых на длинных участках генома, но и информация о распределении периодических свойств вдоль последовательности в геноме. Это важно, так как позволяет не только выделять участки, различающиеся по деталям распределения нуклеотидов, но и проследить за вариациями в физических свойствах ДНК вдоль генома . Последнее позволит преодолеть ограничения, определяемые статистическими подходами с их неизбежными процедурами усреднений, приводящими к потерям конкретной информации. Новые характеристики, являясь независимыми признаками, должны помочь преодолеть трудности при отыскивании

последовательностей, характерных для важных функциональных участков генома.

Выводы

1. Разработана модификация метода матричного Фурье-анализа для изучения периодичностей в нуклеотидных последовательностях. Метод реализован в виде комплекса программ, позволяющего: анализировать периодичности в распределении отдельных нуклеотидов и их сочетаний, устанавливать статистическую значимость соответствующих периодичностей, а также определять роль различных нуклеотидов в формировании функционально значимых участков генома.

2. Разработан метод нахождения областей экзонов и интронов в ДНК. Метод, в отличие от большинства используемых в настоящее время, не требует никаких априорных данных о нуклеотидной последовательности. Установлены достоинства и ограничения метода: на достаточной выборке последовательностей в генах различных организмов установлено, что период три достоверно встречается в 70% экзонов, в то время как в 30% экзонов период три встречается в соответствии со статистическим распределением, характерным для случайной последовательности. Это показывает, наконец, в чем состоят принципиальные ограничения, накладываемые на возможности использования непосредственного статистического анализа последовательностей в экзонах и интронах для нахождения их в неохарактеризованной последовательности. Показано, что в результирующую мощность периодичности три вносят примерно равный

вклад как третья, менее значимая позиция в кодоне, так и две первых невырожденных позиции.

3. Продемонстрированы принципиальные различия в распределении периодичностей на различных в функциональном отношении участков последовательности генома. Показано, что периодичность три отсутствует в структуре распределения нуклеотидов в большинстве промоторов, кроме тех, которые входят в состав других генов;; периодичность три отсутствует и в последовательностях интронов, причем имеющиеся периодичности отличаются как от таковых в экзонах, так и в промоторах. Показано, что различающиеся периодичности создают различную структуру распределения физических характеристик ( прежде всего электростатического потенциала и гидратной воды) вдоль полинуклеотидных структур, что расширяет область влияния последовательности нуклеотидов.

4. Обнаружена отрицательная корреляция между долями нуклеотидов G и Т для каждой из трех позиций в кодонах различных генов из разных видов. Это вместе с антикорреляцией А и С свидетельствует об участии кодовых триплетов и естественного мутагенеза в процессах мультипликации генов.

5. Установлены периодичности в полной последовательности нуклеотидов кольцевого генома бактерии Haemophylis influenzae. Найден ярко выраженный период 148 нуклеотидов, соответствующий по масштабу длины параметрам сверхспирализации ДНК.

Публикации

1. В.Ю. Макеев, Г.К. Франк, В.Г. Туманян / / Статистика периодических закономерностей в последовательностях интронов человека. // Биофизика, т.41, №1, 194-201, 1996.

2. G.K. Frank, V.Ju. Makeev Species-invariant correlation in nucleotide content for different reading frame position. / / Abstracts oi the 24th Aharon Katzir-Katchalsky Conference. Folding and Design, v.l suppl. S62, 1996.

3. Г.И. Кутузова, Г.К. Франк, В.Ю. Макеев, H.Г. Есипова, Р.В. Полозов Фурье-анализ нуклеотидных последовательностей. Периодичности в промоторных последовательности!!, Е. coli. // Биофизика, т.42, № 2, 120-132, 1997.

4. G.K. Frank, V.Ju. Makeev G and T nucleotide contents show specie-invariant negative correlation for all three codon positions //J Biomol Struct and Dynam, vol. 14, No. 5, 629-640, 1997.