Бесплатный автореферат и диссертация по биологии на тему
Новые методы изучения последовательностей оснований нуклеиновых кислот
ВАК РФ 03.00.02, Биофизика

Автореферат диссертации по теме "Новые методы изучения последовательностей оснований нуклеиновых кислот"

; российская академия наук

Р,,;;;1.,... 'шютитут химической физики им. н.н.сешюва

На Правах рукописи

кОЮ'ГКОВ Евгений Вадимович

НОВШ; МЕТОДЫ ИЗУЧЕНИЙ НОСЛЕДОВАТЕЛЬНОСТЕЙ ОСНОВАНИЙ НУКЛЕИНОВЫХ кислот

03.00.02-<5 иофизика

Автореферат диссертации на соискание ученой степени доктора биологических, наук

Москва - 1593

Работа выполнена в Институте химической физики им. Н.-И.Семенова РАН Официальные оппоненты:

доктор технических наук, профессор Оникий Б.Н. доктор биологических, наук, профессор Спитковский Д.»1. доктор биологических наук, профессор Тодоров li.ll.

Ведуи^ая организация: Научно-производственный центр "Гидробиос" N13 России

Защита диссертации состоится " " &(/(/</& 1993 г. в II час. на заседании Специализированного совета Д (ю2. 2£>. 07 а Институте. . химической физики им.Н.Н.Семенова РАН но адресу : 117577, г.Москва, ул.Косыгина, д.4.

С диссертацией можно ознакомиться в библиотеке 1&.Ф РлН • ■

Автореферат разослан риОш 1993 г.

Ученый секретарь Специализированного совета,

кандидат химических наук Сыотряева М.А.

Актуальность темы. В последнее десятилетие получили ^ большое развитие экспериментальные методы изучения нуклеиновых кислот. Стало возможным осуществить клонирование произвольных фрагментов ДНК и проводить достаточно быстрое определение их нуклеотндной последовательности. Эти экспериментальные достижения привели к созданию компьютерных банков данных последовательностей клонов ДНК многих видов обьемом в сотни мегабайт (Hamm G.H., Cameron G.N., 1988) и поставили на повестку дня проблему определения полной последовательности основании ДНК геномов как человека, так и других видов (Watson J.D., 1990; Cantor C.R., 1990), которая . будет решаться в ходе реализации программы "Геном человека". Осуществление этой программы в ближайшие годы существенно изменит ситуацию в молекулярной биологии и в связанных с ней областях, в частности в медицине. .. .. . •'.--.

Накопление генетической информации в виде последовательное-тей основании нуклеиновых кислот делает весьма актуальной задачу "осмысления" на ЭВМ получаемой информации. Под "осмыслением" понимается определение функционального значения и эволюционного происхождения различных последовательностей. Экспериментальными методами, в настоящее время, возможно выявить в генетическом тексте участки, ответственные за кодирование аминокислотной последовательности разнообразных белков (в том числе и пссвдогенов), различные повторяющиеся последовательности, а также некоторые регуляториые сайты. В целом доля таких последовательностей не превышает 30% от всех уже известных в настоящее время последовательностей. Однако, функциональное значение и эволюционное происхождение остальных, последователь-

ностей в геноме человека (и других видов), остается неизвестным. Теоретические методы изучения последовательностей оснований нуклеиновых кислот позволяют достаточно быстро находить с помощью компьютерной техники все гомологичные друг другу районы в созданных банках данных, выявлять некоторые кодирующие участки (Александров A.A., 1991). Однако, разработанные, . методы не позволяют находить сходство между сильно дивергировавшими последовательностями, которые эволюционно берут начало от одной и той же последовательности. Для решения задачи осмысления генетической информации необходима разработка новых методов анализа последовательностей оснований нуклеиновых кислот на ЭВМ. Цель работы. Настоящая работа • посвящена разработке математических методов обнаружения нового, более расширенного чем гомология, подобия последовательностей оснований нуклеиновых кислот и на основе разработанных алгоритмов поиску новых закономерностей строения генома человека и других видов. Задачи исследования.

1. Разработка математических основ и создание программного обеспечения, необходимого для обнаружения расширенного подобия последовательностей оснований ДНК и РНК.

2. Изучение структуры генома человека и других видов методом расширенного подобия последовательностей оснований нуклеиновых

. кислот.'

3. Анализ степени распространенности обнаруженных МВ1 повторов в геномах различных видов по банку данных EMBL.

4. Выявление нового типа зеркальной симметрии последовательностей оснований в геноме человека. .; *

"I. " ' '■'•..•.'. -о-'.."'. '

5. Эволюционная классификация генов т-РНК и создание схемы эволюционного вовлечения генов т-РНК в биосинтез белка.

6. Создание новой схемы дивергенции последовательностей оснований нуклеиновых кислот.

Научная новизна. Впервые введено понятие расширенного подобия последовательностей оснований нуклеиновых кислот и понятие структуры последовательности . Расширенное подобие последовательностей включает в спой состав случаи гомологии, комплементарности последовательностей, все виды однозначных отображений, а также множество случаев неоднозначных отображений н рассматривается как подобие структур последовательностей. В качестве количественной меры расширенного подобия последовательностей предложена взаимная информация между ними. Введение взаимной информации позволяет Епервые выявить скоррелироваиное и эволюционное подобие последовательностей оснований ДНК -и РНК. Скоррелироваиное подобие вводится как подобие обусловленное сильной скоррелнровапиостыо оснований в сравниваемых последовательностях.Эволюционное подобие возникает из-за существования общего 'эволюционного предка у сравниваемых последовательностей. Введенное понятие расширенного подобия последовательностей оснований нуклеиновых кислот позволило обнаружить новое свойство зеркальной симметрии • в структуре генома человека и других видов.Новое свойство зеркальной симметрии выявлено между • известными В1 и А!и-семействами повторов и открытым автором МВ1 семейством повторов в геномах многих видов.Новое свойство зеркальной симметрии показывает наличие зеркального отображения последовательностей по местоположению пуринов и пиримидов

относительно направления нити' ДНК 5'- 3'.

Впервые показано существование МВ1 семейства повторов,общего для многих млекопитающих. Поскольку отдельные отряды млекопитающих разделились друг от друга примерно 120 млн. лет назад, то время существования МВ1 семейства повторов превышает 120 млн.лет. Это подтверждается сильной эволюционной дивергенцией между отдельными членами МВ1 семейства повторов.

Впервые создана полная схема эволюционного вовлечения генов тРНК в биосинтез белка. Так как каждому виду тРНК соответствует своя аминокислотная специфичность, то эта схема отражает также эволюционную вовлеченность аминокислот в биосинтез белка и эволюционную дивергенцию генетического кода. Показано, что все гены тРНк берут свое происхождение от генов лизиновой. тРНК и весь генетический код произошел от ААА или ААС кодонов. Таким образом, если первый ген представлял собой молекул РНК, то она содержала полипуриновую последовательность, обогащенную аденином.

На основании полученных результатов предложена новая схема эволюционной дивергенции повторяющихся последовательностей при отсутствии функциональных ограничений на замены оснований: создание совершенной копии повтора в новом месте генома, размытие гомологии из-за ошибок репликации и других мутаций и образование дисперсно-гомологичной копии повтора, дальнейшее накопление ошибок репликации и возникновение более сложных взаимосвязей последовательностей оснований с исходной последовательностью. Теоретическая и практическая ценность работы.

Результаты данного исследования вносят вклад в решение важных проблем теоретической молекулярной ' генетики:

определения функционального значения и эволюционного происхождения различных последовательностей ДНК человека и других видов; структурной организации ДНК геномов эукариот; эволюции генетического кода и структуры первичного гена.

Разработанный теоретический подход позволяет анализировать "зеркальный мир" в ДНК, который невозможно обнаружить ни экспериментальными, ни теоретическими методами, разработанными ранее. Полученные результаты . позволяют перейти к экспериментальному анализу функционального значения выявленных последовательностей, и открывают перспективы для более

целенаправленного введения чужеродной ДНК в эукариотические

- ■ ^ • - - . • ■

клетки.

Разработанный теоретический . подход позволяет выявлять эволюционную взаимосвязь последовательностей в несколько раз более древнюю, чем это делается в настоящее'время, т.е. до 300-500 млн. лет . Это позволит при осуществлении программы определения полной последовательности ДНК человека выяснить схему расселения различных последовательностей, выявление . которой невозможно другими методами анализа.

Расширенное подобие последовательностей оснований нуклеиновых кислот открывает возможность обнаружения функционально

вжных участков ДНК только путем компьютерного сравнения

«

последовательностей оснований ДНК и РНК. Таким образом, возможно будет составить обширный каталог синонимов генетических текстов ДНК и других видов. Подобные теоретические разработки необходимы для проведения экспериментальных работ по

созданию новых физиологически активных веществ. Апробация работы.

Материалы диссертации докладывались на конкурсах Отдела кинетики химических и биологических процессов ИХФ АН СССР в 1984 1987, 1989 и 1991 годах, на IX Всесоюзном симпозиуме по структуре и функции клеточного ядра (Черноголовка, 1987 г.), на рабочем совещании по программе "Геном человека" (Пущино, 1989 г.), на конференциях по программе "Геном человека" (Переславль-Зллесскпй, 1990, 1991 г.), на Y1I Всесоюзном симпозиуме "Молекулярные механизмы генетических процессов "(Москва, 1990 г.), па 23 Ежегодном Конгрессе Европейского Общества Генетики Человека (Левен, Бельгия, 1991 г.), на симпозиуме "Роль бновычислешш в характеризации генома человека" (Бари, Италия, 1991 г.), на 24 Ежегодном Конгрессе Европейского Общества по Генетике Человека (Элсинор,Дання,1992 г.), на семинаре Института Прикладной математики РАН (1991 г.), на семинаре Института Проблем Передачи Информации РАН (1992). Структура и обьем работы.

Текст диссертации состоит из "Введения", 11 глав, "Заключения" и списка цитированной литературы ( наименований). Работа изложена на 183 страницах, включая 7 таблиц и 23 рисунков. Основные результаты, представленные в диссертации, получены автором самостоятельно. В ряде исследований помощь в проведении вычислительных работ и в определении понятия структуры последовательности была оказана М.А.Коротковой. Схема эволюционного вовлечения генов тРНК в биосинтез белков была получена совместно с М.Б.Чалей

Положения выносимые на защиту.

1. Новый подход к сравнению последовательностей оснований нуклеиновых кислот и новое понятие структуры последовательности.

2. Новое семейство МВ1 повторов в геноме человека и других видов млекопитающих.

3. Новый вид зеркальной симметрии последовательностей оснований нуклеиновых кислот в геноме человека.

4. Схема эволюционного вовлечения генов тРНК в биосинтез белков.

Результаты.

]. Расширенное подобие последовательностей оснований нуклеиновых

кислот и понятие структуры последовательности.

Рассмотрим последовательности, созданные алфавитом из 4-х

букв - А,Т,С и в. Интуитивно ясно, что две последовательности

приведенные в примере 1 являются подобными друг другу.

Пример. 1. 5'- АТССАССОАСОАТСА - 3'_ ~

5'- вСТАОАТЛвТАССАС - 3'

Дело в том, что порядок чередования букв у них полностью

идентичен с точностью до перекодировки А=>в , 6=>А , Т=>С и С=>Т.

• /

Такой тип соответствия можно назвать однозначным отображением одной последовательности в другую. Всего, включая гомологию и комплемснтарност'ь, возможно 24 вида однозначных отображений.. В случае однозначного отображения можно, зная одну

последовательность и закон отображения, всегда полностью восста-

«

новить другую последовательность. Тогда неформально структуру последовательности можно рассматривать как закономерность чередования оснований в последовательности, причем конкретный вид основания значения не имеет.

Структурой последовательности Ь = Ь], Ьэ,..., Ьп где Ь;£{,Т,С,С},1'£{1,2,...,п} называется непомеченный ориентированный граф О <У,и>, где V - множество вершин, и- множество дуг,причем число вершин V = п+к, где к с{1,2,3,4} и равно числу различных оснований в последовательности, а число дуг и = 2п-1. Множество дуг структуры определяется следующим образом.

1.Для всех 1 , , существует душ (V;,) .

2.Для любого ¡, ^¡¿п , существует единственная дуга

такая, что :

а. для всех 3 , таких, что ^ = Ь; , существует дуга );

б. для всех } .таких, что Ц ^ Ь и любых дуг и (Vj,Vs) т г Б ; -

3.Никаких других дуг в структуре в (В) нет.

Алгоритм построения структуры по последовательности приводится в диссертации.

Различные, но интуитивно похожие последовательности имеют одну и ту же структуру. Структура для последовательностей примера 1 показана на Рис.1. Последовательности, отличающиеся незначительно, (например, если в одной из последовательностей произошла замена одного основания, то структура будет отличаться только направлением одной душ) будут иметь незначительно различающиеся структуры. Введенное понятие структуры позволяет:

а. для любых последовательностей указать, в чем именно они подобны и в чем состоит их отличие;

б. представить подобие последовательностей наглядно;

г. выделить структурно идентичные участки и указать, каким образом последовательности могут быть наилучшим образом разделены па.

Рис.1.Структура последователь- Рис.2.3ависимость величины (3)

ности примера 1. ....... : от положения 1 для всех 49 обиа-. ;

ружейных последовательностей.

В качестве меры подобия структур последовательностей удобно взять взаимную информацию ' между сравниваемыми последовательностями I . Взаимная информация рассчитывается исходя из матрицы совпадений. В матрице совпадений размером 4x4 подсчитываете« число совпадений каждого типа при сравнении • двух последовательностей с одинаковой длиной Ь. Четыре элемента на главной диагонали учитывают гомологичные совпадения АА, ТТ, СС и вв. Сумма всех 16 элементов матрицы совпадений равна длине

с

сравниваемых последовательностей. Взаимная информация рассчитывается как (Шеннон К.Э., 1963):

К1,2)=(Н(1)+Н (2)-Н(1,2))*1п2*Ь (1)

где Н(1) - средняя энтропия на одно основание в первой сравниваемой последовательности;

Н(2) - средняя энтропия 'на одно основание во второй сравниваемой последовательности;

Н<1,2) - средняя энтропия "последовательности совпадений" на один вид совпадений.

Под "последовательностью совпадении" понимается последовательность, имеющая алфавит из 16 букв. Причем в качестве таких букв выступают пары оснований,в которых 1-ая буква из первой, а вторая - из второй последовательности. Средняя энтропия на одну букву рассчитывается как (Шеннон К.Э., 1963): ш

н= pil0g2p; (2)

где ш - размер используемого алфавита; .

Pj - средние по последовательности вероятности появления букв алфавита.

При сравнении случайных последовательностей, имеющих алфавит также из 4-х букв, в которых не наблюдается никакой взаимной скоррелированности между основаниями, среднее значение

л

21(1,2) равно 9 и величина 21 распределена как с 9 степенями свободы (Кульбак С., 1959).

В реальном генетическом тексте наблюдается сильная скоррелированность пар оснований (Александров A.A., 1991). Причем вид скоррелированности пар оснований меняется в различных областях генома человека (Blaisdell В.Е., 1985; Nussinov R.,1984). В этом случае подобие между последовательностями может возникнуть из-за их внутренней взаимосвязи и может не иметь эволюционного цли же функционального значения. В этом случае расчет взаимной информации можно , проводить, учитывая скоррелированность

V /./.'.:-- - -13-

сравниваемых последовательностей на различную глубину. Причем такой расчет будет автоматически учитывать любой вид скоррелнрованностн. Для такого расчета а обоих сравниваемых последовательностях учитывается повторяемость цепочек длины к. Если алфавит имеет ш букв, то всего возможно т^ таких цепочек (в случае иуклеотидных последовательностей ш=4). Занумеруем эти цепочки числами от 1 до пА Тогда взаимная информация 1(1,2) с учетом скоррелнрованностн на длину к проводится так же по формуле (1), но величины Н(1), Н(2), Н(1,2) рассчитываются как:

HU) ="5рФ!052Р(1#> (3)

. Н(2) =-Z>(I$)los2p(Bji). (4)

Н (1,2)=-¿р (В^) log2p (ßj1) (5)

где Byj и В^, - цепочки длиной в. к символов в первой сравниваемой последовательности; .второй сравниваемой последовательности, и п . последовательности совпадений с порядковыми номерами**, ^несоответственно. Число цепочек длины

к для нуклсотидиых последовательностей равно , а для

- • * • •

последовательности совпадений 16 . Для любой последовательности длиной L(L}k) и с алфавитом из m букв всегда можно подсчитать

. •. I,

число содержащихся в ней всевозможных^"!,2,...,т , к-цепочек

к к N(B£). Тогда вероятность р(В^) равна:, -

p(B^)=»N(B^)/(L-k+1) (6)

Таким образом, если две сравниваемые последовательности

имеют достаточно большую длину, то всегда в 1(1,2) можно учесть

скоррелированность оснований на любой длине. Для реального

генетического текста удалось показать, что 12 (1,2) достаточно

о

хорошо согласуется с распределением £ (9), если учитывать

скоррелированность пар оснований в сравниваемых последовательностях.

Безусловным взаимным информациям приближения 12(1,2), 1з(1,2),.., 1^(1,2),... соответствуют условные взаимные информации р2, Рк'"-которые вычисляются как:

Рк=к1к-<к-1)1к-1 (7)

Взаимная информация Рк+1 является условной взаимной информацией следующего элемента, если известны к предыдущих элементов. В случае, если к предыдущих элементов полностью определяют к+1 элемент последовательности совпадений, то =0. Для сравнения случайных последовательностей:

ргр2=р3~-=рк <8>

и они распределены как 9 степенями свободы. Расчет условной взаимной информации на различную глубину позволяет ввести понятие "скоррелированной" взаимной информации. Под скоррелировнной взаимной информацией понимается величина:

<9>

т.е. это часть взаимной информации, которая обусловлена исключительно скоррелированностью последовательностей оснований в сравниваемых текстах на глубину в к оснований.В этом случае можно рассматривать Р}, как "эволюционную" часть взаимной информации. Расчет скоррелированной и эволюционных взаимных информации на различную глубину позволяет совершенно свободно отсеять случаи подобия последовательностей оснований нуклеиновых кислот, не связанного с их общим эволюционным происхождением и возникающего благодаря взаимосвязи оснований в самих сравниваемых

последовательиостях.

Для расчета взаимосвязи оснований на различную глубину при сравнении двух последовательностей требуются последовательности достаточной длины, так как уже для учета скоррелированности пар требуется анализировать последовательность совпадений длиною около 1000 иуклсотпдоп. Для учета влияния скоррелированности оснований использовать следующие два подхода:

а. Анализ отличающихся от случайных совпадений оснований. Кроме матрицы совпадений М(4,4) рассмотрим также матрицу случайных совпадении N(4,4), которая рассчитывается как:

М0,р=х(!)уф/Ь2 , ' (10)

где >:(0 - число А, Т, С и р в первой сравниваемой • последовательности; уф - число А, Т, С н й во второй сравниваемой

последовательности; Ь - длина сравниваемых последовательностей. -Зная матрицы М и N можно определить вид совпадений оснований, который более всего будет отличаться от случайного.

Гд=тах(М(ч)-Жд)) (11)

Можно рассмотреть два события при сравнении последовательностей: А - событие, которое будет включать в свой состав наиболее отличающийся от рлучайного вид совпадений для данных последовательностей; В - событие, которое будет включать в свой состав остальные 15 видов совпадений пар оснований. Теоретические частоты событий А и В рассчитываются как: еА=х(0уф/Ь2 (12)

еВ=1-еА (13)

Тогда согласно (Кульбак С., 1959):

11"=ГА1П<ГА)+ГВ1П^В) -<А|п<еА)-Гв1п(ев)-ипЬ <14> где и ^ - число появлении событий А и В. Величина 21 ^

г\

распределена как с одной степенью свободы. Для учета скоррелнрованности оснований на глубину к при сравнении двух последовательностей в диссертации приведен расчет соответствующих к цепочек для событий А н Б:

гк= {ЕГ(0^)1п(Г(0^))-^(оЬ|п(е(0^))-а-к)1п(Ь-к)} (15) к*

где - цепочка длиной к, имеющий порядковый номер в последовательности совпадений двух сравниваемых

последовательностей, построенной для событий А н В;

к ' КО^)- число цепочек длиной к в последовательности совпадений

е(Е^)-ожидаемое число цепочек длиной к при сравнении двух

случайных последовательностей с данным А, Т, С и С

составом.

Ь - длина сравниваемых последовательностей.

Такой анализ возможно провести на значительную глубину по связыванию оснований в сравниваемых последовательностях, так как для возможны всего 4 цепочки из последовательностей А и В, для к"=3 возможны 8 цепочек и т.д.

Кроме безусловных взаимных информации в случае событий А и В можно также ввести условные взаимные информации

После проведения такого анализа, в событие А можно включить последовательно совпадения, имеющие наибольшее отличие от величины, ожидаемой для двух случайных последовательностей. Например, следующим шагом будет включение в событие А уже двух

совпадений, затем трех совпадений и т.д. до включения в событие Л 15 видов совпадений, а в событие В - оставшегося одного. Можно выбрать такое событие А, которое будет давать максимальное значение 2Р[) .которое будет распределено как одной степенью свободы.

б. Использование нового алфавита в сравниваемых последовательностях.

Расчет взаимной информации между сравниваемыми последовательностями небольшой длины можно проводить не по полной матрице М, а по матрице меньшего обьема, которую можно получить, используя более простой алфавит. Одним из способов создания более простого алфавита является слияние букв. Для алфавита из 4-х букв, например, существует три вида слияния букв по парам и соответственно 9 различных матриц совпадений размером 2x2. Причем каждая такая матрица несет информацию лишь частично перекрывающуюся с информацией и других матрицах. Биологический смысл подобных слияний заключается в том, что при наличии преимущественных эволюционных замен в ходе мутационного процесса одни буквы в генетическом тексте могут преимущественно заменяться па какие-либо определенные другие.Например, А->С,С-> А,Т->С и С-?Т. Это будет класс замен, сохраняющий местоположение пуринов и пиримидннов. Сравнение таких достаточно сильно дивергировавших друг от друга последовательностей даст достаточно низкий уровень гомологии.

Анализ скоррелированности оснований для матриц размером 2x2 производится т-акже как и для матрицы размером 4x4. В диссертации приведен алгоритм быстрого сравнения последовательностей для

матриц размером 2x2. Этот алгоритм использует булевские операции AND и О И и позволяет увеличить скорость вычислений в 10 раз по сравнению со всеми другими способами заполнения матриц.

Поиск неканонически взаимосвязанных последовательностей в банке данных ЕМВЬ проводятся путем сравнения последовательности длиной Ь2 (не более 500 нуклеотидов) с клонами, определенным образом выбранными из банка данных ЕМВЬ общей длиной Ц. При таком поиске взаимосвязанных последовательностей • последовательность длиной Ь2 сравнивалась (Ц-Ь2+1) раз (каждый раз со сдвигом на одно основание) с клонами общей длиной Поскольку взаимосвязь между последовательностями может осуществляться на произвольной длине, (меньшей чем Ь2), то проводилось независимое варьирование левой и правой границ последовательности Ь2 с одновременным определением матриц М(4,4) и М1 (2,2). Искались такие взаимосвязанные последовательности у которых вероятностьо^"=(1-(1-р)^) будет меньше чем 5%, где N -число независимых испытаний необходимых для нахождения взаимосвязанных последовательностей. В диссертации показано, что ИллЗ^Ц , где квадрат длины возникает из-за независимого варьирования левой и правой границы последовательности 1.2 .

Для проведения контроля приведенных в диссертации выкладок проводилось компьютерное сравнение около 100 случайных последовательностей различной длины (70<Ь2<300) с клонами из генома человека банка данных ЕМВЬ-22 (общая длина клонов«»бх 10^). Результаты такого компьютерного эксперимента показали, что . ожидаемые частоты выявления случайных взаимосвязанных последовательностей отличаются от ожидаемых не более чем на 5%.

2. Новый класс зеркальной симметрии в структуре ДНК и новое

широко распространенное МВ1 семейство повторов в- геноме . человека. '■ ' '

Рассмотрим последовательность оснований Sm:

' 5,"N1N2-Nm-1 Nra-3' ./:'-.■'.■• где N^ (k=l,...m) основания A, T, С и G. Назовем последовательность mirror Sm или MSm: 1

; 5,-NraNm.1 ...N2Nr3' • зеркальной копией последовательности Sm, а последовательность

Hsra>: ■;, _ _

' S'-NmNn,.! ...N2Nr3' / инвертированной копией последовательности Sm. Основания N^ N^ (k=l,.\m) комплементарны основаниям Nj.. Назовем последовательность MISm: • , • ; '- , , " 5'-NjN2...Nm.j Nm-3'

зеркальной инвертированной копией последовате л ьности Sm . Последовательности Sm и MI(Sm), HSm) n'MSm будут комплементарны друг другу при сохранении направления нитей ДНК 5'- 3'.

Определим последовательности Sm={5'-NiN2...Nm_i Nm-3'} и MSm={5-NniNm_j...N2N|-3'} как подобные, если существует последова- . тельность S1={5'-Mi...Mj-3'} , 0<1<ш, Mj= А, Т, С, G, j=l,m такая что для последовательности SmS|MSm={5'-Nj...NmMj...M|N m.. Nr3'} ={5'-NI...NmNm;i...Nm+|Nm+1+b.N2m+i-3,}HMeeTca i, l<i<m+I такое, что для каждого k, l<k<2m+l+i N[,+j=N].. В дальнейшем будем рассматривать только не подобные последовательности (Sm, MSm) и (ISm, MISm).

Для поиска MSm и MISm последовательностей в геноме

-2Q-

человека в качестве последовательности Sm была выбрана известная ранее консенсус последовательность В1 повтора мыши, которая высокогомологична первому номеру Alu повтора генома • человека и имеет длину (вместе с поли А районом) 150 п.п. . В1 повтор представлен в геноме мыши с числом копий около 10^ и

он сравнивался в зеркальном виде с последовательностями клонов из генома человека, накопленными к банке данных EMBL-8. Общий обьем последовательностей составлял более 2x10° клонов, которые имеют длину более 3x10^ пуклеотидных пар. Поиск зеркальных и зеркальных инвертированных В1 повторов (МВ1 и MIB1) проводился для алфавита из 4-х букв А, Т, С и G и для алфавита из 2-х букв {А или G}, {Т или С}.

В клоне HSA1ATP, содержащем ген о( j-антитрипсина человека была обнаружена МВ1 последовательность с уровнем 2F2=41 (с учетом скоррелированности пар оснований), что дает вероятность обнаружения подобной взаимосвязи из-за случайных факторов менее 5%. Это подобие последовательностей, обе из которых имеют направление 5'- 3', имеет вид:

В1 55- GGATTTCTgA GTTCgAGGCC aaCCTGGTCt ACaGAGTGAG Клон 3286-TCCAGGAAaC TGAGgTTCAG agAGGTTAAc TAaCTTGTCC

TTCCAGgACA gCcAgaGCTA CaCACagAaA CCCTCTC- 131

AAGGTCaCAC aGcTaaTAGC AaGTTgaCgT GGAGGAA-3362

Обнаруженная таким образом последовательность дополнялась слева 54 основаниями и справа 19 основаниями до полной длины В1 повтора с поли А районом. Далее анализировалась степень распространенности этой 150 нуклеотидной МВ1 последовательности

нз клона НБА1АТР в клонах человека из банка данных ЕМВ1_-8. Такое сравнение показало, что имеется еще 15 последовательностей, подобных МВ1 последовательности из клона НБА1АТР. Такое подобие наблюдается как по гомологии (матрица М), а также и более сложным образом с величинами ¿^(1) более 38 и £?(9) более 60, что обеспечивает вероятность обнаружения такой взаимосвязи из-за чисто случайных факторов менее 5%.

Все обнаруженные 15 последовательностей вместе с фланкирующими участками до длины в 150 и.п. также сравнивались со всеми клонами ДНК из генома человека банка данных ЕВМЬ-8. Вновь обнаруженные взаимосвязанные последовательности также сравнивались со всеми клонами из банка данных ЕВМЬ-8 и так вплоть до того момента, когда подобное сравнение не выявляет последовательностей, кроме уже ранее обнаруженных. Всего удалось выявить 49 , взаимосвязанных друг с другом последовательностей. Шифры клопов и районы,где они были обнаружены, показаны на Таблице 1.

Было проделано попарное сравнение всех обнаруженных последовательностей с использованием матрицы М 1(2,2). Такое сравнение показало, что доя каждой из сравниваемых друг с другом последовательностей всегда можно найти другую последовательность взаимосвязанную с ней с уровнем 2Р'2<1) 45. Для 80% выявленных последовательностей такой уровень превышает 55.

Таблица 1. Шифры клоное и районы, где были обнаружены Н31 последовательности. Указан такте вид соответствия оснований между сравниваемой МВТ последоватсль-ностьо и выявленными МВ1 последовательностями. Шифры кломои последовательностей для сравнения подчеркнуты.

N Шифр клона Район ДНК,где обнаружена величина и вид Н91 последовательность соответствия

1 НЗА1АТР «^-антитрипсин, интрон А

3226-3385

2 HSA1ATP (¿-¡-Дгпитрипсин. S'-фланки-

руадий район

3 HSA1ATP о^-антитрилсин, 5'-фланки-

руиций район

4 HSACTH Кортимпролин ß -лнпо-

тропин,интрон II

5 ' HSAPC3A Аро СIII ген, имтрон III

6 HSAPC3A Район между Аро AI и

Аро CIII генами

7 HSBNGF Фактор роста нсйроноо .

интрон 1

8 HSFIXG Амтигенофильный фактор В.

- интрон III

9 HSGAPDP Псевдогсн GAPD-гена

10 HSHP201 Гаптоглобин НР2,интрон

III

11 HSIFNG j-интсрферон.интрон II

12 HSIL05 Интерлсйкин-2.5'-флан-

кирующий район

13 HSMG01 Миоглобиновый гон,интрон '

I

14 HSKG02 Ниоглобиновый ген,интрон "

I

15 HSHG02 Ниоглобиновый ген.интрон

II

16 HS0PS Родопсин, интрон I

USAТАТР ,Jj-антитрипсин, 5'-фланки-N.2 русший район .

17 HSA1ATP ^-антитрипсин, интрон А

18 HSA1ATP о^-антитрипсин. интрон А

19 HSACHR8 il-субьеднницз ацетилхоли-

нового рецептора.3'-фланкирующий район

20 HSACHR8 А-субьединица ацетилхоли-

нового рецептора,З'-флан-кирующий район

21 HSACHR8 ci-субьединица ацетилхоли-

нового рецептора.3'-Фланкирующий район

22 HSARS1 Б составе автономно реп-

лицирующейся последовательности ARS1

23 HSENKPH2 Энкефалин. интрон С

24 HSFIXG Аитигемофильный фактор В,

5'-фланкирующий район

25 HSIFNG Иннунный интерферон,

5'-фланкирующий район

26 HS1L1R Интерлейкин-1,3'-нетранс-

" лируемый район; -

27 , HSHG02 .Ниоглобиновый ген,интрон

■ И HSOPS Родопсин, интрон Г-29 HSPR0J.1 ^ Пролактин. 5'-фланкирую-

61

•40

40 для аа.tt.ee,gg

59 34 .

39 для at.ta.gc.cg.ca

40 для aa.tt.cc.gg,ct.

et

44 33

45 . 53

43

"5

48 '

70

41

38 38 .

45

49

41 для aa.tt.cc.gg,ад

42 62

43 для at.ca.gc.ta.cg. . Ot.tg

42

48 •

42 для aa.gg.cc.tt.ct 45 •

30 HSAPC3A ' HSMooa

N. 14

31 HSA1ATP

32 HSENKPH2

33 HSHBB4R1 HSAPC3A "

N.6

34 HSIGK16

35 HSOPS HSMG02

tí. 15

36 HSHP201

37 HSILOS

38 usina

39 HSG105

HSAPC3A " N.5

40 HSBEM04

41 HGREP10.

42 HSBHGF ■

43 HSG106

HSHC01 H. 13

44 HSIGK14

" HSFIXG N.8

45. HSA1ATP . 46 HSREP10

HSBNGF H.42 HSTHR2

. 47

HSARSl H.22

43 HSEHKB1

49

HSIFNG N. 11

HSAPC3A

ций район

Apo CIII ген, нитрон I Миоглобимопый ген.интрон I

cij-антитрипсин. интрон В Энкефалин, нитрон С .' LTR-лодобный элемент Район неаду Apo AI и Apo CHI генами Инмуноглобулиновый ген к типа, 5'-флзнкирувдий район

Родопсин, интрон IY Миоглобинопый- ген,интрон II

Гаптоглобин НР2.окзон 7

Интерлейкин-2, интрон-I I ■ Ингерлейкин-1,3'-иетранс-лируеный район Гаптогдобин,нРНК.кодирующий район

Аро СПГгсн, нитрон III

Рсниновый ген. интрон /i-тубулии, рядом с Alu по»гором,интрон II Фактор роста нсйронои . интрон II

Псевдо tí-глобиновий гСн,-5*-фланкирующий район , МиОГЛОбинОВЫЙ ГСН.ИНТрО!;.' I

Инмуноглобушновый ген к тила, 5"-фланкирующий район ' . . Антигемофильмый фактор В. интрон III

./j -антитрипсин, ишрон А ß-тубулип. рядом с Alu повтором.ишрон II Оакюр'роста нейронов", интрон I

Протромбин.5'-фланкирующий район « В составе автономно реплицирующейся последовательности ARS1 Прелроонкефалин. в районе СААТ и TATA сайтов ^-интерферон,интрон II

Apo СШ ген. интрон I

41 для aa.tt.cc.gg.ct

49 для aa.tt.cc.gg,et

41

42

40

40 для at.gc.cg.ca.ta

33 для aa.tt.ee.gg.te. et

50 для at.ta.cg.gc.ac 38 для aa.tt.gg.ee.te. et,

38 для gg.aa.tt.ee.te. et

51 для at.ta.cg.gc

48 для aa.tt.gg.ee.et, te

41 для ta.ca.ac.gt.tg, ga.at

41

40

41 для at.ta.gc.cg.tc

47

50 для at.ta.gc.cg.tg. ca

41 для aa.tt.ee.gg.et

Все 49 МВ1 и МВ1 последовательностей были расположены друг под другом и определялась степень "размытости" каждого из 150 оснований . Для этого определялись частоты встречаемости А, Т, С и G во всех 49 последовательностях как:

где пд, n-p, nQ и iiq число А, Т, С и G оснований во всех 49 последовательностях. Для каждого местоположения 1 (1=1-150) во всех 49 последовательностях подсчитывалось число А, Т, С и G (f^, ff, fc и fg) и определялась величина j как: ,2. k (fk-49*Pk)2

r=S ---------' (17)

Н i=l 49*Р

' ri

где fA+ff+fc+fQ ,=49 для 1=1,150. Величина ¿[ имеет 3 степени свободы и ее уровень, соответствующий неслучайному отклонению частот fj,/49 от Pj. с вероятностью менее 5% превышает 8.0.

Из рис,2 видно, что во всех 49 последовательностях, несмотря на сильную размытость между ними, выделяется сильно консервативный район от 33 нуклеотида до 104 нуклеотида. В этом районе, как это видно из рис.2. , значительно сохраняются

л

определенные местоположения, где величина зС j достигает 60.

В1 SS-flgaTTTCTGA GTTCGAGGCC AGCCTG5TCT ACAGAGTuAG TTCCAGGACA-105 ИВ1 ATGAGGAAAC TGAGGCTCAG AGAGGTTAAG TAACTTGCCC AAGGTCACAT Alu 66-eaa9tcaagA GTTCAAGACC AGCCTGGCCA ACATGGTGAA CCCCGtctct-116

Рис.З. Зеркальное соответствие между консенсус последовательностями МВ1 повторов и консенсус последовательностями Alu и В1 повторов.Заглавными буквами в последовательностях Alu и МВ1 повторов выделены зеркально совпадающие основания.

На основании такого сравнения была построена консенсус

последовательность МВ1 семейства повторов и она была сравнена с

консенсус последовательностями В1 и Alu семейства повторов . Для

л

подобия консенсус последовательностей МВ1 и В1 повторов (1)=32 на длине 47 оснований, а для подобия консенсус последовательностей МВ1 и Alu повторов jt?(l)=24 на длине 37 оснований (Рис 3) . В ряде случаев члены МВ1 семейства выявлены в функционально значимых районах. В диссертации приводятся данные по обнаружению членов МВ1 семейства в автономно-реплицирующихся последовательностях из генома человека (ARS1),b LTR-подобном районе,в районе,содержащем сайты СААТ и TATA для РНК-полимеразы II.

В диссертации показано, что не • только . первая последовательность из клона HSA1ATP, но и большинство из 49 последовательностей являются зеркальными копиями по пуринам и пиримидинам В1 повторов из различных клонов мыши. Для этого эти 49 последовательностей были сравнены со всеми клонами мыши из банка данных EMBL-8. Все случаи обнаруженного зеркального подобия приходятся только на В1 повторы (Табл.2). Такое зеркальное подобие наблюдается только неканоническим образом с преобладанием совпадений типа AG, GA, ТС и ТС над гомологичными совпадениями оснований.Например,первый найденный МВ1 повтор из клона HSA1ATP подобен последовательности BI повтора клона MMANT12 с максималь -ной величиной j?(I)=44 на длине в 110 н.п.,причем наблюдается 51 совпадение типа AG,GA,CT и ТС и только 36 - типа АА,ТТ,СС и GG . Такая же картина видна для подобия этого же МВ1 повтора и для инвертированного В1 повтора из клона ММ1 (35 совпадений вида АС, СА, GT и TG и 28 совпадений вида АТ, ТА, GC и CG) и для В1 повтора клона MMIFNA4 (34 совпадения типа AG, GA, ТС, СТ и 29 совпадений типа АА, ТТ, СС и GG).

Члены МВ1 семейства повторов значительно отличаются от

\

Таблица 2. Шифры клонов и районы из геноноо мыши и крысы где было обнаружено подобие с МВ1 последовательностями. Подобие В1 и МВ1 повторов наблюдается только в зеркальном виде Указан также вид соответствия оснований между сравниваемой МВ1 последовательностью и выявленными МВ1 последовательностями. Шифры клонов последовательностей для сравнения подчеркнуты.

N Шифр клона Район ДНК,где обнаружена Величина 1) и вид

последовательность соответствия

1 HSA1ATP N 1 о^-антитрипсин, интрон А

2. ММАЕР12 Анион-обменный белок,3'- 52

фланкируюший район.

3 MMANT12 В1 повтор 44

4 MMB1REP2 В1 повтор 42

5 HMCY02 В1 повтор 49

6 HMCY02 Цитохром Р-450, интрон I 41 для at.ta.cg,ge.<

7 MHIFNA4 В1 повтор 42

8 МММН04 В1 повтор 43

9 ННЯЕ07 ■ В1 повтор 42

10 RNCYP450 Цитохром Р-450. интрон I 40

11 HSIL1R Интерлейкин I

N.38 •

12 HMIL1R Интерлейкин I 56 для aa.tt.cc.gg

13 HSIL1R Интерлейкин I

II. 26

14 MMIL1R Интерлейкин I 51 для aa.tt.cc.gg,

да

15 HSIFNG Имунный интерферон,

16 HMANT12 • В1 повтор 31

17 HMCY02 . В1 повтор 31

18 НМН2КВ . В1 повтор 31

19 МММН04 Б1 повтор 31

20 HSIL05 Интерлейкин-2

N.12

21 MKFTPR В1 повтор 31

22 HSA1AIP о^-антитрилсин

N.2

23 HMAFP14Z В1 повтор 29

24 HMB1RHP2 В1 повтор 30

25 HSHP201 Гаптоглобин

N.10

26 HMB1REP3 81 повтор • ' 25

27 HSENKPH2 Энкефалин

N.23

28 НННН04 В1 повтор 33

семейств повторов SINE типа, известных в геномах многих млекопи-

тагащих. Во-первых, у них отсутствует поли А район на 3' конце Во-вторых, они не фланкированы короткими повторами и механизм их расселения должен быть отличен от такового, предложенного для ¡SINE семейств повторов ( Jagadeeswaran Р.,1981). По-видимому, расселение МВ1 повторов происходило без образования РНК-овой копии и встраивания .обратного транскрипта в новое место генома.

Проводился также поиск МВ1 и' Alu - повторов в клонах человека данных EMBL-22, содержащего около 5x10 клонов человека. Было обнаружено около 350 членов МВ1 семейства повторов и около 850 членов Alu семейства повторов. Если учесть, что по экспериментальным данным Alu-повторов содержится около 5x10^ копий па геном человека (Deininger P.L.,et.aI., 1981), то количество МВ1 повторов будет составлять, в геноме человека несколько сотен тысяч копий.

З.МВ1 семейство повторов в геномах млекопитающих.Классификация членов МВ1 семейства повторов из генома человека.

Для проверки степени распространенности МВ1 семейства повторов в геномах других видов проводилось компьютерное сравнение 49 МВ1 последовательностей, обнаруженных в клонах человека банка данных EMBL-8, по клонам всех видов, накопленных в банке данных EMBL-22. Такое сравнение показало, что МВ1 семейство повторов можно найти только в геномах многих млекопитающих и МВ1 повторы не обнаруживаются в геномах из клеток прокариот, других позвоночных и безпозвоночных.

МВ1 повторы были обнаружены в клонах из генов мыши, крысы (грызуны), африканской зеленой мартышки (приматы), кролика

(зайцеобразные), собаки (хищные), лошадь (непарнокопытные), бык, овца (парнокопытные), а также в геноме опоссума (инфракласс низших зверей, отряд сумчатых). Список шифров клонов и вид взаимосвязи последовательностей показан на Табл.3. Все МВ1 последовательности обнаружены в некодирующих районах (5' • или 3' фланкирующие районы разнообразных генов или их интроны). Величина 2Р'2 для всех случаев подобия МВ1 последовательностей генома человека вновь выявленным членам МВ1 семейства из геномов млекопитающих превышает 42. Это дает вероятность возникновения данной взаимосвязи из-за случайных факторов с учетом обьема проанализированных клонов из геномов млекопитающих менее 5%.

Таким образом, из 17 отряДов- высших зверей МВ1 повторы выявлены в 6 отрядах. Можно с достаточно большой долей вероятности считать, что члены МВ1 семейства повторов можно выявить в геномах всех млекопитающих. Только отсутствие достаточно большого количества клонов с известными последовательностями из геномов различных млекопитающих в банке данных ЕМВЬ-22, по-видимому, не позволило выявить МВ1 семейство повторов в остальных отрядах млекопитающих.

Особенно интересно обнаружение МВ1 последовательности в клоне БУНВВВ из генома опоссума, так как считается, что сумчатые млекопитающие являются более древними млекопитающими, чем плацентарные млекопитающие. С учетом того, что сумчатые млекопитающие образовались в меловом периоде мезозоя, время жизни МВ1 семейства повторов можно оценить как превышающее 100 млн. лет. Для классификации МВ1 повторов из генома человека банка данных ЕМВЬ-8 проводилось попарное сравнение МВ1 повторов по

местоположеншо пуринов и пнримидинов. Такое попарное сравнение МВ1 повторов позволило заполнить матрицу А(49,49) - матрицу подобия между МВ1 повторами. В матрице А записаны величины

Таблица Н.З .Клони из геномов млекопитающих, где обнаружены М31 последовательности. К31 последовательности для сравнении подчеркнуты.

N Шифр клона

Величина и вид соответствия

Ссылка

.1 HSA1ATP N.1

2 ВТР0МС1 49 для aa.tt.ee.од .

3 • CAREP3 48 для aa.tt.cc.gg

4 0AHTI3 43 для at.ta.gc.cg.

ac.ca.tg.gt

5 0AMTII 77 для at.ta.cg.gc

6 HSAPC3A

Н.6

7 . 8TACHR 57 для ta.gc.at.cg

ca.ac.gt .

3 0CIL1R 58 для ff.tt.ee.дд

9' HSMG02 '

К. 14

10 ' OCIG05 54 для до.at,ta.eg.

ca.tg

11 0VHBBB 46 для aa.gg.ct.cc.

ct.tt '

12 HSIL05

N.12

13 BTNA2 47 для aa.tt.cc.gg.

ag.tc.ct.ga

14 BTTHBNA2 45 для at.cg.ta.gc.

ga.ac.tc.tg

15 CFSRP54 50 для at.ta.cg.gc

15 EC1FN10 44'для at.ca.ta.gc.

tg.ac.gt.ag -

Long et. al.,1984

Watanabe. 1982 Saifer and lerMn.1983 Peterson ct.al.. 19J3

Peterson et.al.. 1988 Protter et.al.,1984

Tanabe et.al..1984

Futurani et.al., 1985 Heller et.al.. 1984

Emorine and Hax.1983

Koop and Goodman.1988

Hoi brook at.at.. 1934

Lochrie et.al., 1985

Irwin et.al.. 1985

Romisch et.al.. 1989 ■ Hiimler et.al.. 1985

при сравнении любой пары МВ1 повторов. Матрица А является симметричной относительно главной диагонали. Главная диагональ, показывающая подобие любой МВ1 последовательности самой себе, не заполнялась.

На основе матрицы А был построен граф максимальных

взаимосвязей 49 МВ1 последовательностей . между. собой.. Для построения этого графа по матрице А для каждой МВ1 последовательности определялась другая МВ1 последовательность, имеющая с ней наибольшую взаимосвязь. Эта связь на графе изображалась в виде стрелки. Сила связи в величинах 21 показана на графе рядом со связью .Стрелка ведет от данной МВ1 последовательности к той МВ1 последовательности, которая является ей наиболее подобной из всех 49 последовательностей. Учитывались также минорные связи, но только тс, которые меньше основной связи по величине 2F'2 на 4-5 единиц. Такое уменьшение силы связи соответствуют увеличению вероятности того, что связь между . МВ1 последовательностями обусловлена чисто случайными факторами не более чем в 10 раз. Случаи, когда i элемент имеет наибольшую связь с j элементом и j элемент имеет наибольшую связь с i элементом показаны па графе двумя стрелками. Для такой пары .МВ1 последовательностей минорная связь показывалась в любом. случае.

Граф наибольшего подобия'МВ1 последовательностей из генома человека позволил провести классификацию МВ1 повторов (Рис.4). Как видно из этого рисунка, члены MB 1 семейства повторов четко разбились на две группы. Связи между членами этих групп всегда носят минорный характер по сравнению со. связями МВ1 последовательностей внутри группы. Центром первой группы является МВ1 последовательности около <¿1-антитрипсина< человека и МВ1 повторов в интроне III АроСШ гена. На основании полученных результатов можно предположить существование по крайней мере двух различных центров расселения МВ1 повторов. Причем источником такого расселения могут быть не обязательно центры выделенных

групп, а какие-либо другие МВ1 последовательности. Следует отметить, что разбиение на подсемейства наблюдается также у семейства Alu-повторов из генома человека (Quentin Y., 1988) и В1 повтора из генома мыши (Quentin Y., 1989).

Рис.4. Граф наибольшего подобия МВ1 последовательностей из генома человека. Список использованных МВ1 последовательностей показан в Табл.1. _______

. _ В настоящее время среднечастотные семейства повторов SINE типа обнаружены у многих млекопитающих. К их числу относят Alu

повторы их генома человека и некоторых обезьян (Dcininger P.L., et.al., 1981), В1 повторы из геномов мыши и крысы (Kracv A.S.,et.a!., 1982), повторы из геномов кролика и быка (Gheng J.F., et.al., 1984; Watanabe Y., et.al., 1982). Однако, между этими семействами позторов из различных отрядов млекопитающих не отмечена сколько-нибудь значительная гомология. В этом смысле МБ1 семейство повторов является первым случаем семейства, которое можно найти у многих, если не у' всех млекопитающих. 4. Эволюционное происхождение генов тРНК.

В настоящее время накоплена достаточно обширная информация о последовательностях основании генов тРНК различной аминокислотной специфичности. Это открывает лсрспектпву проведения сравнения последовательностей оснований этих генов между собой и построение схемы эволюционного вовлечения генов тРНК в биосинтез белка, которая будет отражать эволюцию биологического кода.

Этим вопросам всегда уделялось достаточно внимания. Из более ранних публикаций следует ' отметить работу Ф.Крика (Crick F.,1968), где выдвигалась гипотеза о случайном "замораживании" генетического кода в некоторый момент'его развития под влиянием эволюции белковых молекул , когда дальнейшее вовлечение новых аминокислот отрицательно сказывалось на физиологических свойствах белков. В этой работе высказывалась мысль о существовании примитивной системы трансляции , содержавшей малое число ( возможно, три или четыре.) аминокислот .

Универсальность генетического кода была впервые связана (Woese C.R., 1970) с физико-химическими свойствами аминокислот и соответствующих им нуклеотидов , которые могли иметь определяющее

значенис на стадии прсдбиологичсской эволюции биосинтеза . Одними из первых работ , посвященных физико-химическому подходу к возникновению генетического кода , были работы Вебера и JIecn(\Veber A.L.,Lacey J.C.,1978) и Джунка (Junk J.R.,1970). Эти авторы показали важность гидрофобно-гидрофильных свойств аминокислот и антикодоновых динуклеотидов при рассмотрении происхождеш-.я кода . В работах Хендри с соавторами (Hendry L. and W;tham,I979; Hendry L. and Bramsome E.J., 1981) были теоретически исследованы пространственные молекулярные модели нуклеиновых кислот и аминокислот для выявления структурных соответствий между ними . Эти работы получили экспериментальное подтверждение - (Отрощенко В.А.,1981) . •

Гены тРНК также рассматривались в связи с эволюцией генетического кода (Cedergren R.R. et.al.,1980). Однако , авторы работы не решали проблему в ее полном обьеме , а ограничились анализом связи нескольких антикодонов ( что равнозначно связи кодопов ), не разделяя эволюцию антикодонов л более позднюю эволюцию видов .

Цель . исследования заключалась в построении схемы взаимосвязей между множествами генов тРНК различной аминокислотной специфичности. При этом принимали во внимание , что коэволюция всех компонентов системы трансляции нашла отражение в нуклеотидной последовательности гена тРНК , и полагали , что все гены тРНК одинаковой -аминокислотной . специфичности несут в себе общие характеристические черты . Успешному осуществлению этой задачи способствовал информационный подход к анализу взаимосвязей, изложенный в предыдущих главах.

Это позволяло провести более глубокий анализ взаимосвязей между генами тРНК , в сравнении с анализом , основанным на выравнивании последовательностей генов относительно их вторичной структуры для поиска гомологии между ними .

Для проведения сравнительного анализа нуклеотидных последовательностей из банка данных ЕМВЬ-8 были отобраны гены тРНК различных видов , за исключением митохопдриальпых . Все гены были разделены на отдельные множества по признаку одинаковой аминокислотной специфичности .

Анализ взаимосвязи между каждой .парой генов из различных множеств проводился путем вычисления максимальной взаимной информации между ними при сканировании одного гена тРНК вдоль . последовательности другого гена с шагом сканирования в одно основание . Поиск участка максимальной взаимосвязи на каждом шаге сканирования происходил с варьированием границ , при этом учитывались возможные вставки и делеции оснований Митохондриалыше гены тРНК не анализировались , так как в митохондриях были обнаружены исключения из универсальности генетического кода . . •

В результате сравнения генов тРНК различной аминокислотной специфичности , для каждой пары множеств была заполнена матрица, элементами которой являлись значения удвоенной максимальной взаимной информации , найденной при попарном сравнении генов этих двух множеств . В случае', когда удвоенная взаимная информация между генами была менее критического уровня 21Кр=50, соответствующие элементы матрицы сравнения множеств были нулевыми .

Значение взаимной информации не меньше критического уровня соответствовало вероятности случайной взаимосвязи между последовательностями оснований не более 5%.

Далее анализировали значения элементов матрицы сравнения между множествами. Все возможные значения 21 были разбиты на 46 интервалов . Принадлежность элемента матрицы сравнения одному из этих интервалов рассматривалось как событие А; . Таким образом рассматривали ряд событий : А}: 21<г[0,50) ; А2 : 21 е[50,50.5) ; А3: 21е [50.5,51.5) ; Л4: 21 е [51.5,52.5) ; ... ; А45: 21 с [92.5,93.5) ; А4б: 21£[93.5,00) . Событию А1 соответствовал нулевой элемент матрицы сравнения . Число интервалов разбиения определялось точностью вычислительной техники . За исключением первого , второго и последнего интервалов все остальные интервалы можно условно обозначить как [пц- 0.5 , 0.5 ), где Ш(=50+1, 1=1-43. .

Пусть е| - вероятность того , что при сканировании последовательности одного гена тРНК вдоль расширенной последовательности другого гена произойдет одно из событий А}. В диссертации проведен расчет числа независимых испытаний N совершаемых при таком поиске. Вероятность события А в одном. испытании обозначим тем же символом , что и само событие . Значение вероятности определяется как:

А1 - £2(тг0.5;9) - £2 ^,-+0.5:9) (18)

Вероятности е[ всех 46 событий А; могут быть найдены из системы уравнении (22-24) :

1-(1-А4б)М=е4б (19)

1-О-А45-А45) Ы-е4б+е45 ".(20)

1-(1-А4б-А45-.;.-А1)>,-с4б+с45+...+е1 (21) Учитывая , что А|«1 для всех 1 , кроме 1 , мы можем оценить вероятности событий с; :

е4(5Л-ИА45 (22)

е2 - NA2 (23)

(24)

Все множества содержат различное число генов . Следовательно , и матрицы попарного сравнения множеств имеют различные размерности : Кх2 "=пхп2 , где пх и п2 - размерности двух сравниваемых множеств тенор тРНК. Пусть ^ - экспериментальная частота события А] , а ej - его теоретическая частота . Мерой отклонения полученной матрицы сравнения между множествами от случайной матрицы является величина I , определяемая из формулы (25) :

(25)

¿»1 . £-1

где г=4б. Кульбаком (КиШаск С., 1959)) было показано , что

гу

величина 21 , вычисляемая таким образом , распределена как £ с (г-1) - числам степеней свободы . Это позволило в качестве меры взаимосвязи между множествами генов тРНК различной аминокислотной специфичности выбрать величину ^Х2, не зависящую от размерности матрицы сравнения КХ2 : Р . 21

Т-—Ко ' (26)

Х2 Х2

Значение Кд можно выбрать произвольно . При проведении вычислений

мы полагали Кд =576 , так как среднее число генов в каждом множестве равнялось 24 . Можно видеть , что величина |"Х2

•у

распределена также как с (г-1) числом степеней свободы .

Для построения адекватно сравнимых между собой схем взаимосвязей, в обоих случаях мы перешли от распределения к нормальному распределению , используя соотношение (27) :

Ц. = \|ГТ -\/2М (27)

хг хг

Случайная величина имеет приближенное стандартное нормальное распределение .

В результате всех попарных сравнений множеств генов тРНК различной аминокислотной специфичности была заполнена матрица взаимосвязи между множествами , элементы которых представляли собой величину аргумента нормального распределения, не зависящую от числа генов в каждом множестве. Далее, также как в случае МВ1 повторов, по матрице была построена схема взаимосвязей между множествами генов тРНК . Она представлена на рис.5 .

Каждому множеству генов тРНК одинаковой аминокислотной специфичности на рис.5 соответствует круг , диаметр которого обратно пропорционален силе взаимосвязи генов этого множества между собой , то есть пропорционален величине 1/ Таким образом , диаметр круга наглядно отражает степень дивергированности генов одинаковой аминокислотной специфичности друг от друга , или ■ иными словами : диаметр круга отражает "размытость" множества

Стрелка между кругами указывает на множество , с которым имеется наибольшая взаимосвязь . В некоторых случаях , для

построения непрерывной схемы были указаны вторые по величине взаимосвязи между множествами . Длина каждой стрелки на рисунке 5

Рис.5. Обобщенная схема взаимосвязей между множествами генов тРНК различной аминокислотной специфичности.

обратно пропорциональна силе взаимосвязи между данной парой множеств , т. е. определяется величиной Сила связей

внутри и между множествами указана рядом с соответствующими кругами и стрелками .

Как можно видеть из рис.5, в центре схемы находится множество лизиновых тРНК , которое, возможно , является самым древним . 1

Множества тРНК ,• которые образовались относительно недавно , наиболее близко расположены к лизпновому множеству . Более древние множества тРНК располагаются по краям схемы . Отметим , что с удалением от центра схемы "размытость" множеств увеличивается , что также указывает на их более древнее происхождение . Исходя из полученной нами схемы , можно выделить наименее подобные со всеми остальными множествами множества тРНК, связывающих аминокислоты CYS , SER , TYR и LEU . Возможно, предшественники этих тРНК , либо они сами , входили в древнюю систему трансляции .

Полученные результаты согласуются с ранее полученными схемами взимосвзи генов тРНК (Di Giulio M.D.,19S9; Jukers T.H.,1983),но и являются значительно более полными.

Особо отметим тот факт , что современные кодоны аминокислоты лизин - AAA и AAG. Это позволяет предположить, что первичный ген представлял собой polyA или polyR - последовательность РНК . 5. Расширенное подобие некоторых последовательностей. оснований генома человека, а. Подобие последовательностей А!и-повторов ДНК человека и

некоторых оридженов репликации. В последовательность AIú-повтора из генома человека входят последовательности, гомологичные районам инициации репликации вируса SV 40 (Jelinek W.R., et. al., 1980). Неоднократно высказывались предположения об их участии в процессах репликации ДНК человека.С этих позиций интересно изучить расширенное подобие Alu-noBTopoB генома человека множеству оридженов репликации из различных геномов банка данных EMBL-8. Такое расширенное подобие

может иметь место, так как, как это уже ранее отмечалось, белки связываются с определенными группами атомов в большой и малой бороздках ДНК и возможны многочисленные нейтральные в функциональном смысле замены оснований (Von Hippel Р.Н., Beard

G., 1983), значительно нарушающие гомологию между последовательностями, выполняющими сходные генетические функции.

С этой целью консунсус последовательность Alu-повторов из генома человека была сравнена со множеством оридженов репликации банка данных EMBL-8. Было отмечено информационное подобие последовательности AIu-повтороа . из генома человека и последовательности клопа ECP15Ä, содержащего район инициации репликации плазмиды Р15А. Для этого клона, имеющего длину 1025 и.п., взаимосвязь с Alu-повтором осуществляется на длине'в 70 н.п. с величиной 2F2=61, что соответствует вероятности случайного образования данной взаимосвязи о/ 0,02%.В Alu-повторе выделенная последовательность приходится на конец первого мономера А1ц-повтора. В плазмиде Р15А обнаруженная взаимосвязь приходится на функционально-значимый для репликации район - входит в состав РНК-1 и участвует в образовании первого стебля вторичной . структуры РНК-1, а так же включает в свой состав место связывания с ДНК плазмиды Р15А РНК-полимеразы Е .coli (Зверев В.В., Хмель

H.A., 1987).

AGGACCCAAG TTCGCTAAGA GG ACGGAGTCGG AGGGCTCATC GA CCCTAATGTC CGCGCGCGGT GG TGCGGGCCGA ТТАААААСАТ АА АААТСАТСТС TGCCCCAAGT GG Рис.б. Пять "размытых" 22-ух нуклеотидных тандемных повтора в структуре Alu повтора генома человека.

В клоне ECR6K, имеющим длину 2074 н.п., взаимосвязь с Alu-повтором осуществляется на длине в 149 н.п. с величиной 2Fo =70, что соответствует вероятности случайного образования данной взаимосвязи ^ 0,001%. В Alu-повторе взаимосвязанная область включает в свой состав конец первого мономера и начало второго мономера Alu-повтора. В последовательности оснований плазмиды R6K взаимосвязанный район приходится на конец второго из семи 22-х нуклеотндпых тандемных повторов, входящих в состав района инициации репликации плазмиды R6K, целиком захватывая пять 22-нуклеотидных высокогомологнчных повторов. Такая взаимосвязь показывает, что и консенсус, последовательность Alu-повтора ДНК человека обладает определенной периодичностью. На • Рис. б изображены друг под другом пять 22-нуклеотидных фрагментов Alu-повтора человека, взаимосвязанных с соответствующими 22 . нуклеотиднымн гомологичными повторами в ориджене репликации плазмиды R6K. Из сопоставления этих последовательностей друг под другом можно заметить, что эти последовательности не гомологичны и не комплементарны друг другу. Однако спектр нуклеотидных замен, в каждом 22-х нуклеотидном фрагменте Alu-повтора ограничен тремя основаниями, а в некоторых положениях - всего двумя. Вероятность такого соответствия для случайных фрагментов ДНК менее 0,1%.

Пять 22-х нуклеотидных повторов плазмиды R6K определяют работу всех трех оридженов репликации ei, Ji (Colter, Helinski, 1982). С этими повторами связывается белок-инициатор репликации плазмиды R6K (Mukherjee, et.al., 1988).

Полученные результаты поддерживают гипотезу об участии Ala повторов в процессах репликации ДНК человека и показывают, что последовательности, выполняющие одинаковые генетические функции могут быть подобны друг другу без значительной гомологии.

б. Расширенное подобие генов тРНК и некоторых повторяющихся

последовательностей. Многие повторяющиеся последовательности SINE типа гомологичны различным генам тРНК. Показана гомология Alu-повторов ДНК приматов, В2 повторов крысы и мыши, а также повторов из геномов других видов некоторым генам тРНК (Okada N., 1992). В силу этого можно ожидать также наличие расширенного подобия между повторяющимися последовательностями и генами тРНК. Для его обнаружения гены многих тРНК различной аминокислотной специфичности различных видов были сравнены с клонами приматов, накопленными в банке данных EMBL-22. Такой анализ показал, что Alu-повтор из генома гориллы клона GCREG2Q подобен последовательности оснований гена тРНК ASP из генома хлоропластов табака клона CHNTRN3. Причем такое подобие осуществляется при включении в событие A GA,СС, AG, TG, CT, TT, ТС и AT совпадений,

А 1 -GGGATTGTAG TTCAATTGGT CAGAGCACCG CCCTGTCAAG В 180-AGCTGGAGGT TGCTGTGAGC TGTGATGCCA CTGCACTCTA C'177-AGACTCTTAC TAAGACAGAT CAAAACTTTG СТТСТАТААА

A GCGGAAGCTG CGGGTTCGAG CCCCGTCAGT CCCG-74 В CCAAGGGTGA CAAAGTGAGA СТСТАТСТСТ АААА-254 С GGAAAAGACG GAAACCGGAG TTTCGCGAAC ТТТА-103

Рис.7. Последовательность гена тРНК Asp клона CHNTRN3 (А), Alu повтора клона GCREG20 (В) ид-Повторяющейся последовательности клона HSALPA (С). .

а в событие В остальных 8 видов совпадений на длине 63 нуклеотида

с величиной 2F2=46 при учете в скоррелированности пар оснований в сравниваемых последовательностях. В AIu-повторе гориллы выявленное подобие приходится на второй мономер Alu-повтора с поли А концом (Рис.7).

В клоне HSALPA,содержащем ^-повторяющуюся последовательность генома человека отмечено зеркальное подобие также гена тРНК ASP из клона CHNTRN3. Такое зеркальное подобие также наблюдается только по местоположению пуринов и ппримидинов при включении в событие А совпадений CT,TC,AA,GG и GA, а в событие В остальных 11 видов совпадений. Совпадающие последовательности показаны на Рис.7 .

Эти результаты показывают, что повторяющиеся последовательности в ряде случаев являются неканонически подобными последовательностям генов некоторых тРНК. Отсюда можно заключить, что в ряде случаев эволюционная дивергенция последовательностей оснований нуклеиновых кислот происходит неслучайным образом и поэтому сохраняется достаточно отдаленное подобие последовательностей в виде расширенного неканонического подобия. Это говорит о том, что изучение расширенного подобия последовательностей поможет изучить эволюционное происхождение генома человека и других видов и выявить возможные функционально важные участки геномов.

ВЫВОДЫ.

1. Введено новое понятие структуры последовательности оснований нуклеиновых кислот. В качестве количественной меры подобия структур различных последовательностей предложена взаимная информация между ними. Ведение взаимной информации позволяет

/ : ■ . -

определить скоррелироваиное подобие и эволюционное подобие последовательностей оснований нуклеиновых кислот независимо друг от друга.

2. Обнаружено новое свойство зеркальной симметрии в геноме человека. Данное свойство зеркальной симметрии показывает, что в геноме человека существуют последовательности зеркально симметричные друг другу по местоположению пуринов и ииримпдинов.

3. Открыто новое семейство MR 1 повторов в геноме человека. МВ1 семейство повторов существует в геноме человека с числом копий в несколько сотен тысяч. МВ1 семейство повторов является зеркальной пурин-пиридиновой копией В1 семейства повторов из генома мыши или же первого мономера семейства Alu-повторов генома человека. МВ1 семейство повторов отличается от семейств SINE типа: члены МВ1 семейства в основном подобны друг другу по местоположению пуринов и пиримидниов, они не фланкированы короткими повторами и они не содержат поли А район _на 3* конце.

4. Изучена распространенность МВ1 семейства повторов в геномах многих млекопитающих.МВ1 повторы выявлены в геномах мыши,крысы, африканской зеленой обезьяны, кролика, овцы, собаки, лошади, быка

и опоссума. Поскольку отдельные виды млекопитающих образовались в

, 8 меловом периоде, то время жизни МВ1 повторов не менее 10 лет.

Это .также подтверждается сильной эволюционной дивергенцией

последовательностей оснований между отдельными членами МВ1

семейства повторов генома человека и других млекопитающих.

5. Классифицированы гены тРНК различной аминокислотной специфичности по их подобию друг другу и построена схема эволюционной

вовлеченности генов тРНК в биосинтез белка. Оказалось, что последовательности тРНК берут свое начало от генов лизиновой тРНК. Поскольку кодоном для лизина является AAA или AAG, то первичный ген представлял собой полипуриновую последовательность, 6. Обнаружено расширенное подобие между последовательностью оснований Alu-повтора человека и последовательностями оснований районов инициации репликации плазмид р15а и R6K. Такое соответствие оснований поддерживает высказанную ранее гипотезу о участие' Alu-повторов ДНК человека в процессах инициации репликации генома человека. Расширенное подобие между Alu-повтором гориллы и ^-повтором ДНК человека и геном тРНК ASP хлоропластов табака показывает происхождение среднечастотных

повторов различных геномов от генов тРНК.

ЛИТЕРАТУРА.

1. Короткое Е.В., Короткова М.А. "Области с неслучайным распределением нуклеотидов в Alu-повторах ДНК человека"//ДАН СССР 1984.-Т.274.-С.748-750.

' 2, Короткое Е.В. "Взаимосвязанные последовательности Alu и HI II повторов ДНК человека"// ДАН СССР.1984.-Т.279,-С.1252-1254.

3. Короткое Е.В.: Короткова М.А. "Инвертированные взаимосвязашше последовательности Alu, Kpnl и HINDIII повторов ДНК человека" //ДАН СССР.1985.-Т.280.-С. 1472-1475.

4. Короткое Е.В., Короткова М.А. "Анализ последовательностей ДНК человека, содержащих Alu-повторы"// ДАН СССР.1986.-Т.288. -С.1014-1017.

5. Короткое Е.В. "Образы AIu-последователыюстей в 7 клонах ДНК человека"//Мол.биол.1987.-Т.21.-С.478-483.

6. Короткое Е.В., Мамаева Е.Ф., Шадрина Т.В. "Образы Alu, ID и GOMEO последовательностей в клонах ДНК чсловска"//Всесоюзный симпозиум по структуре клеточного ядра. Тезисы докладов.

-C.l 14.'Черноголовка. 1987. Из-во Института Биологии развития РАН.

7. Короткое Е.В., Мамаева Е.Ф. "ID-подобие последовательности в клонах ДНК некоторых видов'7/Мол.Бнол. 1989.-T.23.-Cl 113-1123.

8. Коротков Е.В. "Семейство зеркальных В1 подобных последовательностей в клонах человека"// Всесоюзный симпозиум "Молекулярные механизмы генетических процессов". Москва . Тезисы докладов. 1990.-С.32. Из-во Института Общей генетики РАН.

9. Коротков Е.В., Чалей М.Б. "Т-РНК подобные последовательности в клонах из генома человека"// Всесоюзный симпознум"Молскулярные механизмы генетических процессов". Москва. Тезисы докладов. 1990.-С.65. Из-во Института Общей Генетики РАН.

10.Коротков Е.В. "Семейство зеркальных ВI-подобных последовательностей в клонах человека'7/ДАН СССР. 1990.-Т. 311.-С'.238-242. • '

11.Коротков E.B. " .Alu-подобные последовательности в оридженах репликации пдазмид р!5а и R6K"//H3u.AH СССР. Серия биологическая. 1990. - 3. -С.358-365.

12.Коротков Е.В. "Новое семейство широко-распростарпенных МВ1 повторовв геноме человека"// Мол.Биол.1991 .Т.25.-С.250-263.

13.Коротков E.B. "МВ1 семейство повторов в геномах некоторых видов"// Изв. АН СССР. Серия биологическая. 1992. -N.4. -С.546-557.

14.Чалей М.Б..Коротков Е.В. "Информационный подход к выявлению сходства генов тРНК и их глобальная классификация"// Изв.АН СССР. 1991.- 6.-С.915-927.

15.Коротков Е.В., Чалей М.Б. "Новый тип зеркальной симметрии и новое широко-распространенное семейство МВ1 повторов в геноме чбловека"// Тезисы докладов первой Всесоюзной конф. "Геном Человека". 1990.-С. 118. Из-во Института Молекулярной биологии РАН.

16.Коротков E.B. "МВ1 семейство повторов в. геномах многих млекопитающих"//Тезисы докладов Второй Всесоюзной конференции "Геном человека"!991.-С.84. Из-во Института Молекулярной биологии РАН. .

I7.Korotkov E.V. "MB1 family repeats in human and others genomes"//Thesis of reports on 23 Congress European Society of Human Genetics.1991.-P.16I. Leuven University Prcss.Belgium.

1 S.Korotkov E.V."New MB1 family repeats in human and others genomes ".Thesis of reports on Congress "Role biocomputing in characterization of human genome sequences ".1991.-P.63.Ban University Press.Italy.

19.Korotkov E.V."Evolution origin ofgenetic code".Thesis of reports on 24 Congress European Society of Human • Genetics. 1992.-P.97. D.F.Kennedy Genetic Institute Press.Elsinore. Denmark.

20. .Коротков E.B. "Семейство зеркальных Bl подобных последовательностей нз генома человека"//в кн. "Молекулярные механизмы генетических процессов". Москва. Наука. 1991.стр.25-30.

По