Бесплатный автореферат и диссертация по биологии на тему
Изучение периодических свойств нуклеотидных последовательностей геномов
ВАК РФ 03.00.02, Биофизика
Автореферат диссертации по теме "Изучение периодических свойств нуклеотидных последовательностей геномов"
Московский Физико—Технический Институт
N
СГ.
Сгг огсз __
со с_ |
На правах рукописи
ФРАНК ГЛЕБ КОНСТАНТИНОВИЧ
Изучение периодических свойств нуклеотидных последовательностей геномов.
03.00.02 - биофизика
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико—математических наук
МОСКВА - 1997
Работа выполнена в Лаборатории компьютерного и структурного анализа биополимеров Института молекулярной биологии им. В.А. ЭнгельгардгаРАН.
НАУЧНЫЕ РУКОВОДЕЛИ:
Доктор физико-математических наук В.Г. Тумашш
Кандидат физико-математических наук
B. Ю. Макеев
ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ:
Доктор биологических наук
C. Э. Шноль
Доктор физико-математических наук В.И.Ивапов
ВЕДУЩАЯ ОРГАНИЗАЦИЯ:
Институт математических проблем биологии РАН
Защита состоится 14 ииоЫ 1997 года в'' часов на заседании
Диссертационного совета К 063.91.10 при Московском физико-техническом институте (141700, г. Долгопрудный, Московская обл., Институтский пер., 9).
С диссертацией можно ознакомиться в Диссертационном совете К 063.91.10 при Московском физико-техническом институте.
Автореферат разослан " ¿3 " шя 1997 года.
Ученый секретарь Диссертационного совета Кандидат физико-математических наук
В.Б. Киреев
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Введение. Актуальность проблемы.
Проблема чтения генетических текстов как информационной основы для установления соответствия между различными уровнями организации биосистем в первую очередь основывается на представлениях о фрактальных свойствах генетических текстов как следствии скрытых свойств самоподобия различных масштабов организации генетического аппарата клетки. В свою очередь идея блочного строения генома опирается как на чисто информационные идеи, связанные с обсуждением проблем молекулярной эволюции, так и на экспериментальные данные о редупликации реального генетического материала, что отчетливо проявляется в доменной структуре как глобулярных, так и фибриллярных белков. Сказанное означает, что важнейшей и едва ли не первой проблемой, которая должна предшествовать любому глобальному анализу генетических текстов является установление возможных периодичностей в последовательности оснований нуклеотидов. Такого рода анализ имеет свою историю, которая изобилует интересными примерами и позволяет констатировать наличие периодичностей в широком интервале масштабов длин последовательностей нуклеотидов. Тем не менее глубокого исследования индивидуальных участков последовательностей оснований в отношении протяженности периодических участков, а также отличий или сходства периодичностей последовательностей нуклеотидов на разных в функциональном и информационном отношениях участках
геномов не проводилось. Прежде всего из-за гетерогености нуклеотидной последовательности большая часть периодичностей ограничена незначительной длиной по цепи, в то же время общие для протяженных участков периодичности могут повторяться не вполне точно. Именно в силу перечисленных выше причин существовавшие до сих пор методы математического анализа периодичностей оказались неадекватными. Ситуация в корне изменилась, когда был разработан метод матричного Фурье-анализа, который и позволил справиться с большинством из указанных выше трудностей. После этого использование метода Фурье-анализа для установления периодических закономерностей на различных участках последовательностей стало реальностью. Однако для сравнения корреляционных и периодических закономерностей требовалось разработать новые математические методы оценки статистических параметров полученных периодичностей, что единственное позволило бы соотнести установленные на различных геномах или на различных участках одного и того же генома закономерности друг с другом. Это означает, что усовершенствование математических приемов и процедур для анализа. периодичностей и корреляций в последовательностях символов сохраняет свою актуальность прежде всего для установления правил усложнения генетического материала в филогенезе, а в некоторых случаях и в процессах онтогенетического развития.
Цель и задачи исследования
1. Установление распределения периодичностей в генах различных в таксономическом отношении организмов.
2. Сравнительный анализ периодичностей на различных в функциональном отношении участках последовательности нуклеотидов в геноме.
3. Анализ периодических свойств, специфических для последовательностей нуклеотидов в генах. Выявление закономерностей в нуклеотидных составах, свойственных конкретным позициям в кодовых триплетах.
4. Исследование периодических свойств полного кольцевого бактериального генома.
5. Разработка метода поиска кодирующих областей по картине периодичностей.
Научная новизна работы.
Разработан метод поиска периодичностей в кодирующих областях геномов. В рамках метода матричного Фурье-анализа получены матрицы, с помощью которых оптимальным образом выявляются периодические свойства кодирующих областей. При построении этих матриц учтены как общие закономерности, характерные для любых кодирующих последовательностей ДНК, так и закономерности, характерные только для отдельных видов организмов, принадлежащих к разным в таксономическом отношении группам. Впервые построены матрицы сходства нуклеотидов, отражающие свойства кодирующих
последовательностей ДНК. Кроме задач анализа периодичностей в последовательностях символов такие матрицы могут найти применение в задачах выравнивания нуклеотидных последовательностей, а также в при поиске гомологий в банке нуклеотидных последовательностей.
Установлены общие характеристики периодичностей распределения нуклеотидов в ДНК, проведено статистическое исследование. Показано (на примере анализа генов человека), что в кодирующих областях последовательностей ДНК изо всех изученных периодов только период три распределен неслучайно. В то же время основные периоды нуклеотидных последовательностей в интронах человека распределены практически случайным образом и, таким образом, свойственны только индивидуальным последовательностям интронов. Получены статистические критерии применимости метода матричного Фурье-анализа для нахождения участков интронов и экзонов в последовательностях геномов эукариот. Установлено, что периодичности последовательностей промоторов геноспецифичны и сильно отличаются друг от друга. Таким образом, показано, что различные периодичности последовательностей нуклеотидов в геноме неодинаковы для участков с различными функциями и могут поэтому быть использованы для их распознавания.
Впервые изучены периодичности в полной последовательности нуклеотидов в геноме Haemophilus influenzae. Показано, что в этом геноме существует период, равный 148 нуклеотидам, по масштабу расстояний соответствующий параметрам суперспирализации кольцевой ДНК в бактериальных геномах.
Впервые для относительных частот встречаемости нуклеотидов в трех позициях рамки считывания установлен ряд статистических корреляций, некоторые из которых характерны для для геномов всех рассмотренных видов. Наиболее общей является отрицательная корреляция между G и Т. Для некоторых видов обнаружена сходная отрицательная корреляция
между нуклеотидами А и С. Также наблюдаются положительные корреляции между относительными частотами А и Т, и в и С соответственно. Поскольку выше указанные закономерности наблюдаются во всех трех позициях рамки считывания, они оказывают влияние на аминокислотный состав белков, характерны для выборки в целом и проявляются при анализе отдельных генов. Сдвиг в пользу использования й в первой позиции и недостача этого нуклеотида во второй сопровождается противоположным сдвигом для Т. В третьей позиции никакого конкретного предпочтения какому-либо нукдеотиду нет,но ее состав часто сдвинут в соответствии с йС-составом данного гена. Содержания й и Т в этом случае всегда сдвинуты в противоположных направлениях друг по отношении к другу.
Исходя из полученных статистических закономерностей предложена новая гипотеза блочной мультипликации генов (на основе кодовых триплетов) при учете скоростей естественного мутагенеза.
Практическое значение работы
Разработанный метод и полученные с его помощью результаты могут быть применены для анализа последовательностей в биополимерах, а созданный комплекс программ использован в качестве базового для структурно-функционального анализа последовательностей символов в геномах, белках и других биополимерах . Можно думать о полезности внедрения математических приемов и комплексов программ для их использования в биологии и биомедицине, а также в рамках программ, типа "Геном человека" и "Биоинженерия".
Аппробация
Результаты диссертации докладывались на Всесоюзных конференциях "Геном человека - 95 и 96", на Международном симпозиуме "Молекулярная биология на рубеже XXI века", а также на "The 24th Aharon Katzir-Katchalsky Conference "Bioinformatics-Structure". Иерусалим, Израиль, 17-21 ноября 1996г.
Публикации
По материалам работы опубликованы три статьи и тезисы.
Структура и объем работы
Диссертация изложена на 78 страницах и включает 14 рисунков и три таблицы. Список литературы содержит 91 наименование. Диссертация состоит из введения и четырех глав, включая литературный обзор.
СОДЕРЖАНИЕ РАБОТЫ.
Во введении обоснована актуальность темы диссертации, определены цели и задачи исследования, его научная новизна и практическая ценность.
В первой главе дан критический обзор литературы, в котором проанализированы математические методы поиска периодических закономерностей в расположении символов в последовательностях, а также их приложения к биологии. Особое внимание уделено работам, посвященным анализу периодического строения ДНК на разных масштабах и поиску в ДНК кодирующих участков с использованием методов поиска
периодичностей. Продемонстрировано как метод Фурье-анализа используется для задач поиска периодичностей, однако, возможности и границы его применимости не изучены. Проанализированы сведения о периодической структуре, характерной для кодирующих и некодирующих последовательностей ДНК на разных масштабах. Показано, что для исследования периодичностей в ДНК наиболее пригоден недавно разработанный метод матричного анализа Фурье.
Во второй главе изложен математический метод, разработанный для поиска периодических закономерностей в нуклеотидных последовательностях, а также приведены формулы для оценки распределения спектральной мощности периодов для Бернуллиевской последовательности с фиксированным набором частот. Метод представляет собой модификацию матричного анализа Фурье для изучения последовательностей нуклеотидов. Полученные формулы используются для анализа парных корреляций нуклеотидных составов, для первой, второй и третьей позиций кодона. Обсуждаются преимущества и недостатки применявшихся нами подходов. При разработке метода преследовались следующие цели: легкость интерпретации результатов, возможность изучения нуклеотидных последовательностей с произвольным ОС-составом, возможность легкого учета информации о нуклеотидном составе генов конкретных видов для получения более корректных данных о периодической структуре последовательности.
В рамках метода матричного анализа Фурье получены формулы для распределения спектральной мощности для всех целых периодов бернуллиевской последовательности с фиксированными частотами встречаемости нуклеотидов. Для
средней мощности спектральной гармоники случайной бернуллиевской последовательности с частотами встречаемости нуклеотидов а и матрицей сходства Ь получена следующая формула:
{1 (в, *0)) = )■-Бит(ВД,);
В случае диагональной матрицы результирующая спектральная мощность составляет сумму квадратов четырех составляющих для отдельных нуклеотидов, каждая из которых представляет собой сумму действительной и мнимой компонент. В случае случайной бернуллиевской последовательности, действительные и мнимые компоненты Фурье-образа распределены нормально согласно центральной предельной теореме. Таким образом, для спектра мощности, соответствующего диагональной матрице, можно ожидать распределения £ с восемью степенями свободы. Исключением является период два, для которого Фурье-образы характеристических последовательностей вещественны. Для этого периода следует ожидать распределения £ с четырьмя степенями свободы. Такие распределения получаются эмпирически для всех целых периодов в интронах, и для периодов, не кратных трем - в экзонах, как это показано нами далее.
Для выделения кодирующих последовательностей в рамках метода матричного Фурье - анализа получены матрицы, акцентирующие период три в генах разных видов. Показано, что такие матрицы в общем видоспецифичны.
Однако был открыт неожиданный факт, что матрицы сходства нуклеотидов всех видов имеют общие закономерности,
возникающие благодаря преимущественному употреблению различных нуклеотидов на первой, второй и третьей позициях кодона.
Для изучения этого явления потребовалось создать несложный математический аппарат корреляционных функций, отражающих взаимоотношения величин, на которые наложена линейная связь - в нашем случае, представляющая собой требование равенства единице суммы долей нуклеотидов, занимающих одну и ту же позицию в кодоне.
Для всех возможных пар нуклеотидов изучали корреляции между частотами их встречаемости в разных позициях рамки считывания.
В целях изучения таких закономерностей для заданной пары нуклеотидов а и р в отдельно взятом гене, была введена нижеследующая функция. Пусть п°- число появлений нуклеотида а в 1-й позиции рамки считывания, поделенное на полное число триплетов. Для статистически надежной оценки характеристической величины, отражающей зависимости между относительными частотами нуклеотидов в трех позициях рамки считывания, рассматривали выборку генов, принадлежащих одному и тому же виду. Затем коэффициент корреляции вычислялся с использованием ЗМ точек, по три точки для каждого из рассматривавшихся генов, где М - число генов выборки. Таким образом, в величину корреляции вносят свой вклад как корреляции между частотами нуклеотидов а и р в трех позициях рамки считывания каждого гена, так и подобные корреляции между относительными частотами разных генов.
Частоты нуклеотидов, занимающих одну и ту же позицию кодона, очевидным образом статистически зависимы. Чтобы
скомпенсировать эту паразитную отрицательную корреляцию при вычислении частоты появления нуклеотида р необходимо исключить из рассмотрения позиции, занятые нуклеотидом а. Таким образом, для каждой позиции кодона, обозначаемой г, мы вычисляем коэффициент корреляции двух следующих величин: первая величина, и?, является относительной частотой встречаемости нуклеотида а в 1-й позиции кодона. Вторая величина, представляет собой долю позиций, в которых
стоит нуклеотид р, среди позиций, не занятых нуклеотидом а:
«0 = —^—
ш Nl - N°
Для бернуллиевской случайной последовательности величины п" и независимы, что очевидно из построения, поэтому математическое ожидание коэффициента использованной корреляции
должно равняться нулю.
Заметим, что в общем случае величины ££ и^ не равны друг другу, хотя они и отражают одну и ту же статистическую закономерность. Ввиду этого мы использовали следующий симметричный несмещенный коэффициент корреляции:
5 2 '
Величина Сможет принимать значения от -1 до 1.
В третьей главе изложены результаты применения матричного анализа Фурье для характеристики
10
последовательностей ДНК, отличающихся периодическими свойствами.
Периодичности в кодирующих областях ДНК. Для экзонов, характерна периодичность три нуклеотида, связанная с триплетной организацией генетического кода.
Показано, что спектральные мощности гармоник, соответствующих периодам от 2 до 10, в интронах человека,
Спектральная мощность
Рис. 1. Спектральная мощность гармоник, соответствующих периодам четыре и пять, в экзолах человека, а также гармоники, соответствующие периодам три и пять в интронах тех же генов. 1 - теоретическое распределение х2 с восемью степенями свободы; 2 - период четыре в экзонах, 3 - период пять в экзонах, 4 -период три в интронах, 5 - период пять в интронах.
распределены практически случайным образом (рис. 1). По-
видимому, это характерно и для других периодичностей. Для
периодических свойств совокупности интронов не наблюдается
общих закономерностей, что не подтверждает данные,
известные из литературы. В то же время, в большинстве
экзонов наблюдается ярко выраженная периодичность три,
связанная с триплетным строением генома (рис. 2). Важно,
также, что периодичность три встречается в интронах
статистически, и, таким образом, пригодна для поиска
кодирующих областей. Это тем более интересно потому, что
согласно современным взглядам, последовательности в интронах не являются бернуллиевскими.
В то же время, несоизмеримые с тремя периоды, в экзонах человека также по-видимому встречаются случайно, и
•О
>Х Л г И ;:
о • <
о : :
л М ■ • -»
с ; I
•
н •
» ю- ; : о •
н ; ,
О 2 4 В г 10 12 и 16
Спдетральная мощность
Рнс. 2. Спектральная мощность гармоник, соответствующих периоду три в генах человека. 1 - экзоны, 2 - интроны.
соответствующие различия в экзонах и интронах определяются только разницей в составе.
Во множестве экзоиов выделено подмножество, включающее в себя преимущественно короткие экзоны, которые не отличаются от интронов по мощности периода три. К таковым относятся приблизительно 30% исследованных экзонов. Создается впечатление, что эти экзоны не могут быть отличены от окружающих интронов никакими методами, касающимися только статистики последовательностей, например с помощью марковских цепей.
Таким образом, впервые выявлены ограничения, накладываемые на использование статистических методов для выделения кодирующих областей в последовательностях ДНК.
Для выяснения конкретного местоположения экзонов, был разработан алгоритм сканирования нуклеотидной
последовательности окном, с вычислением для участка последовательности, покрытого окном, спектральной мощности матричного Фурье-анализа.
Периодичности в последовательностях промоторов. Другим типом последовательностей ДНК, в котором анализ периодичностей может дать результаты, денные с биологической точки зрения, являются промоторы. Для последовательностей промоторов характерны самые разнообразные периодичности.
Впервые получены Фурье-спектры последовательностей нуклеотидов в промоторах ДНК E.coli. Установлена периодическая структура промоторных последовательностей. Проведено сравнение Фурье-спектров промоторных последовательностей и соответствующих им кодирующих участков ДНК. Сделан вывод о различных формах стабилизации вторичных структур в промоторах с разными периодичпостями последовательностей нуклеотидов. Наблюдаемая
перемежаемость блоков нуклеотидных последовательностей, содержащих AT- , GC-пары, и разнообразие Фурье-спектров по-видимому означает неоднородность гидратной оболочки ДНК в промоторах E.coli и ее нестабильность на стыках. Обращается внимание на особенности Фурье-спектров последовательностей нуклеотидов в промоторах прокариот и человека.
Анализ периодической, структуры полного генома. В работе был проведен анализ полного генома бактерии Haemophylis influenzae. Кроме сильной периодичности три, соответствующей кодирующим участкам генома, в спектре выделяется мощный пик, соответствующий периоду 148 нуклеотидов. Этот период соответствует масштабу сверхспирализации нуклеиновых кислот бактерий.
Рис. 3. Корреляция скомпенсированных частот для генов человека, а. С и А, Ь. в и Т, с. А и Т, ЛСиа
§ 0.4
О 0.1 0.2 0.3 0.4 0.5 Пт
¿> 04
0 0.1 0.2 0.3 0.4 0.5
О 01 0.2 0.3 0.4 0.5
Рис. 4. Корреляция скомпенсированных частот для конкретных позиций кодона для пары TG в Е. coli. а. первая позиция, Ъ. вторая позиция, с. третья позиция, d. все три позиции вместе.
В четвертой главе описываются результаты исследования корреляций между относительными частотами встречаемости нуклеотидов на разных позициях кодона в кодирующих областях геномов различных организмов. Проведено исследование выборок генов 8 видов, принадлежащих к разным таксономическим группам. Обнаружены закономерности в распределении нуклеотидов по позициям в кодонах.
Результаты для всех изученных видов представлены в таблице 1. Таблица содержит значения симметричного несмещенного коэффициента корреляции для каждой пары нуклеотидов и для каждого из изученных видов. Хорошо заметно, что коэффициенты корреляции весьма разнятся как по знаку, так и по абсолютному значению. Для многих видов и нуклеотидных пар корреляции незначимы. Заметим, например, низкие значения, относящиеся к ряду пар для A. thaliana. В противоположность этому, значения для Н. sapiens сравнительно высоки, что, как это ни странно, не верно для другого млекопитающего, М. musculus. .
Видонеспецифичная отрицательная корреляция для пары GT. Как видно из таблицы 1, для всех рассмотренных видов существует отрицательная корреляция между относительными частотами встречаемости G и Т в одной и той же позиции рамки считывания (рис. ЗЬ). Для пары АС (рис. За) также в большинстве случаев имеет место отрицательная корреляция, и по абсолютным значениям она зачастую превышает обычную антикорреляцию для GT (например, для Н. sapiens). Однако, эта антикорреляция не является всеобщей; например, она не имеет места для S.cerevisiae; и ее значения невелики для A. thaliana и В. subtilis.
Корреляция для пар АТ/ОС. Для пар АТ и йС (рис. 3 с,с1) следует ожидать положительной корреляции, поскольку именно эти пары определяют соотношение долей СС/АТ, которое различается для разных организмов и генов, и
ТАБЛИЦА 1
Значения симметричного несмещенного корреляционного коэффициента для всех пар нуклеотидов в генах различных видов.
Виды sac sa0 sat sco scr 5er
Е. coli -0.36 -0.10 0.36 0.44 0.02 -0.56
S. cerevisiae .0.02 0.17 0.02 -0.19 0.29 -0.32
Н. sapiens -0.53 -0.28 0.57 0.60 -0.21 -0.45
Arabidopsis -0.07 0.18 0.03 -0.12 0.31 -0.34
Azotobacter -0.86 -0.16 0.83 0.62 -0.56 -0.61
Archaebacteria -0.60 -0.12 0.68 0.43 -0.21 -0.65
Bacillus -0.12 0.02 0.33 0.16 0.21 -0.56
subtilis
Mus musculus -0.46 -0.18 0.41 0.48 -0.14 -0.39
Vibrio cholerae -0.29 -0.04 0.35 0.36 -0.04 -0.50
интуитивно понятно, что доли G и С, например, должны меняться в соответствии друг с другом. Как это ни удивительно, этот эффект не всегда имеет место. В то время как для высших эукариот, Е. coli, А. vinelandii и V.cholerae была обнаружена значимая положительная корреляция для пар АТ и GC, эта корреляция отсутствует у Arabidopsis, а для дрожжей она даже значимо отрицательна (для пары GC). Таким образом, процентные доли G и С (А и Т соответственно), стоящие в одной и той же позиции кодона, не изменяются одновременно.
Другие пары. Для прочих пар, а именно, пуринов (АО и пиримидинов (СТ), никакой общей закономерности в корреляциях не выявлено. Присутствуют как значимые положительные и отрицательные значения, так и значения, близкие к нулю.
Корреляции для конкретных позиций кодона. В большинстве случаев множества значений относительных частот встречаемости нуклеотидов для каждой из позиций кодона не представляют собой подмножества одного унимодального распределения, но выделяются в виде отдельных кластеров (рис. 4). Каждый кластер представляет собой точки для первой, второй и третьей позиций кодона соответственно. В этих случаях имеет смысл говорить о позиционном нуклеотидном составе изучаемого вида, отличающемся от полного нуклеотидного состава. Нуклеотидный состав весьма заметно различается для разных позиций.
Был поставлен вопрос, определяется итоговая корреляция, только расположением этих кластеров, или корреляциями в нуклеотидных составах для каждой из позиций кодона Как выяснилось для й и Т имеют место оба эффекта, т.е. отрицательная корреляция вызывается не только
расположением центров кластеров, но и структурой самих кластеров. Отрицательная корреляция характерна для составов О и Т на третьей (рис. Зс) и в меньшей степени на первой (рис. За) позициях кодона. Результаты анализа показывают, что й и Т всегда избегают друг друга в одной позиции кодона, и замеченная рядом исследователей структура О-неО-И является частным проявлением этой общей закономерности для случая, когда существует предпочтение для высокой / низкой концентрации в в той или иной позиции кодона.
17
Показано, что отрицательная корреляция между содержаниями двух нуклеотидов может привести к сохранению их суммарного состава, вычисленного для трех позиций кодона. Следовательно, полученные результаты можно считать отражением того, что для многих видов, принадлежащих самым разным таксономическим группам, существует тенденция поддерживать отношение (0+Т)/(А+С) постоянным для всех трех позиций кодона, в отличие от отношений (С+С)/(А+Т) и (0+А)/(С+Т). Эта закономерность проиллюстрирована на рис. 5. Гистограммы представляют распределение суммарных относительных частот трех возможных сочетаний пар нуклеотидов. Заметно, что наименьшим разбросом характеризуется гистограмма для АС/ОТ.
C+G •/.
700
Я 600 к 500 н 400 й зоо
Т 200
A+G %
1000
T+G %
Рис. S- Гистограммы суммарного позиционного нуклеотидного состава для Е. coli. а. Доля GC, Ь. Доля AG, с. Доля GT.
ЗАКЛЮЧЕНИЕ
Мы продемонстрировали , что на основе метода матричного Фурье-анализа возможно получение принципиально новых сведений о периодических свойствах последовательностей оснований в ДНК прежде всего в том отношении, что оказывается доступной не только информация о глобальных периодичностях, выявляемых на длинных участках генома, но и информация о распределении периодических свойств вдоль последовательности в геноме. Это важно, так как позволяет не только выделять участки, различающиеся по деталям распределения нуклеотидов, но и проследить за вариациями в физических свойствах ДНК вдоль генома . Последнее позволит преодолеть ограничения, определяемые статистическими подходами с их неизбежными процедурами усреднений, приводящими к потерям конкретной информации. Новые характеристики, являясь независимыми признаками, должны помочь преодолеть трудности при отыскивании
последовательностей, характерных для важных функциональных участков генома.
Выводы
1. Разработана модификация метода матричного Фурье-анализа для изучения периодичностей в нуклеотидных последовательностях. Метод реализован в виде комплекса программ, позволяющего: анализировать периодичности в распределении отдельных нуклеотидов и их сочетаний, устанавливать статистическую значимость соответствующих периодичностей, а также определять роль различных нуклеотидов в формировании функционально значимых участков генома.
2. Разработан метод нахождения областей экзонов и интронов в ДНК. Метод, в отличие от большинства используемых в настоящее время, не требует никаких априорных данных о нуклеотидной последовательности. Установлены достоинства и ограничения метода: на достаточной выборке последовательностей в генах различных организмов установлено, что период три достоверно встречается в 70% экзонов, в то время как в 30% экзонов период три встречается в соответствии со статистическим распределением, характерным для случайной последовательности. Это показывает, наконец, в чем состоят принципиальные ограничения, накладываемые на возможности использования непосредственного статистического анализа последовательностей в экзонах и интронах для нахождения их в неохарактеризованной последовательности. Показано, что в результирующую мощность периодичности три вносят примерно равный
вклад как третья, менее значимая позиция в кодоне, так и две первых невырожденных позиции.
3. Продемонстрированы принципиальные различия в распределении периодичностей на различных в функциональном отношении участков последовательности генома. Показано, что периодичность три отсутствует в структуре распределения нуклеотидов в большинстве промоторов, кроме тех, которые входят в состав других генов;; периодичность три отсутствует и в последовательностях интронов, причем имеющиеся периодичности отличаются как от таковых в экзонах, так и в промоторах. Показано, что различающиеся периодичности создают различную структуру распределения физических характеристик ( прежде всего электростатического потенциала и гидратной воды) вдоль полинуклеотидных структур, что расширяет область влияния последовательности нуклеотидов.
4. Обнаружена отрицательная корреляция между долями нуклеотидов G и Т для каждой из трех позиций в кодонах различных генов из разных видов. Это вместе с антикорреляцией А и С свидетельствует об участии кодовых триплетов и естественного мутагенеза в процессах мультипликации генов.
5. Установлены периодичности в полной последовательности нуклеотидов кольцевого генома бактерии Haemophylis influenzae. Найден ярко выраженный период 148 нуклеотидов, соответствующий по масштабу длины параметрам сверхспирализации ДНК.
Публикации
1. В.Ю. Макеев, Г.К. Франк, В.Г. Туманян / / Статистика периодических закономерностей в последовательностях интронов человека. // Биофизика, т.41, №1, 194-201, 1996.
2. G.K. Frank, V.Ju. Makeev Species-invariant correlation in nucleotide content for different reading frame position. / / Abstracts oi the 24th Aharon Katzir-Katchalsky Conference. Folding and Design, v.l suppl. S62, 1996.
3. Г.И. Кутузова, Г.К. Франк, В.Ю. Макеев, H.Г. Есипова, Р.В. Полозов Фурье-анализ нуклеотидных последовательностей. Периодичности в промоторных последовательности!!, Е. coli. // Биофизика, т.42, № 2, 120-132, 1997.
4. G.K. Frank, V.Ju. Makeev G and T nucleotide contents show specie-invariant negative correlation for all three codon positions //J Biomol Struct and Dynam, vol. 14, No. 5, 629-640, 1997.
- Франк, Глеб Константинович
- кандидата физико-математических наук
- Москва, 1997
- ВАК 03.00.02
- ДНК-белковое узнавание
- Изучение первичной структуры генома изолятов вируса высокопатогенного гриппа птиц A/H5N1, выделенных на территории Российской Федерации
- Периодичности в структуре промоторных участков ДНК
- Анализ регуляторных геномных последовательностей с помощью компьютерных методов оценок сложности генетических текстов
- Закономерности и биологические эффекты процесса транспозиций ретранспозонов в геноме Drosophila melanogaster