Бесплатный автореферат и диссертация по биологии на тему
Исследование генетических текстов с помощью компьютерной технологии "site-video"
ВАК РФ 03.00.15, Генетика

Автореферат диссертации по теме "Исследование генетических текстов с помощью компьютерной технологии "site-video""

РОССИЙСКАЯ АКАДЕМИЯ НАУК СИБИРСКОЕ ОТДЕЛЕНИЕ ИНСТИТУТ ЦИТОЛОГИИ И ГЕНЕТИКИ

ИССЛЕДОВАНИЕ ГЕНЕТИЧЕСКИХ ТЕКСТОВ С ПОМОЩЬЮ КОМПЬЮТЕРНОЙ ТЕХНОЛОГИИ "SITE-VIDEO"

Специальность 03.00.15 - генетика

Автореферат диссертации на соискание ученой степени кандидата биологических наук

РГ6У од

На правах рукописи

УДК 578.088:(576.12+575.24)

Пононаренко Михаил Павлович

Новосибирск - 1994 г.

Работа выполнена в Институте цитологии и генетики СО РАН, г.Новосибирск.

Научный руководитель - доктор биологических наук, Колчанов Н. А.

Институт цитологии к гекетзгки СО РАН

Офгщяалыпше оппонента: доктор биологических наук,

Каракин Е. И.

Институт цитологии и генетики СО РАН г.Новосибирск

кандидат биологических наук, Еропкин А. П. НШ молекулярной биолопш р/п Кольцово

Ведущая организация - Институт молекулярной биологии РАН, г.Москва

Загдта диссертации состоится .^¿иН 1994 г.

на ■_ заседании специализированного совета по

зацзта 'диссертаций на соискание ученой степени доктора наук при Институте цитологии и генетики СО РАН (Д-002.11.01) в кохгфермщ-зале Института по адресу: 630090, г.Новосибирск, проспект акадешка Лаврентьева, дои 10.

С диссертацией иошю ознакомиться в библиотеке Института цитологии и генетики СО РАН.

Автореферат разослан ..1994 г.

Ученый секретарь специализированного совета, доктор биологических наук

А.Д.Груздев

Актуальность текы. В настоящее время ведется интенсивное исслэ-дование геномов человека, ыыш, дрозофилы, дрозгей и ряда других эукариотических организмов. Их секвекированные фрагменты быстро накапливаются в банках данных. Информация о структуре и функции этих районов геномов иояет быть получена путем дополея-тельшх экспериментальных исследований и кошьютерного анализа, вклшакцего распознавание функциональных сайтов. Геномная ДНК содержит большое разнообразие типов функциональных сайтов (метилирования, связывания регуллторных белков, сплайсинга прэ-мРНК и др.). Поэтому для ее компьютерного анализа требуется необходимое разнообразие методов распознавания этих сайтов.

В настоящее время предложен ряд подходов к распознавании сайтов в ДНК и РНК. Каядай из них учитывает определенный шд нуклеотидного контекста (консенсусы, повторы, частоты нуклеота-дов и др.). Поэтому он имеет узкую область применения и, как правило, предназначен для распознавания определенных типов функциональных сайтов. Тагаш образом, актуальным является создание универсальных компьютерных технологий, позволяющих исследовать широкий круг функциональных сайтов в ДНК и РНК и конструировать точные методы распознавания этих сайтов на основе учета различных видов их контекстных особенностей.

Аналогичные технологии необходимо создавать для распознавания функциональных сайтов.в последовательностях белков.

Цель и задачи исследования. Первой целью работы было создание компьютерной технологии, позволяющей выполнять следувдие способы анализа последовательностей ДНК, РНК и белков:

- выявление значимых контекстных особенностей различных видов, отличающих функциональные сайты заданного типа от других районов ДНК, РНК и белков, не содержащих этих сайтов;

- построение метода распознавания заданного функционального сайта на основе использования всей совокупности выявленных для него функционально значимых контекстных особенностей.

Для достижения этой цели решалась практическая задача создания компьютерной системы Site-Video, специально ориентированной на эти способы анализа ДНК, РНК и белков.

Вторая цель работы состояла в исследовании структурно-функциональной организации нуклеотидных и аминокислотных последовательностей (генетических текстов) на основе использования созданной нами компьютерной системы Site-Video.

С помощью системы Site-Video решались следуюацие задачи:

1. Исследование сайтов сплайсинга пре-ыРНК и построение методов их распознавания в нуклеотидных последовательностях.

2. Исследование семейств гистонов Н1, К2А, Н2В, НЗ и НД. Научная новизна и практическая значимость.

Создана компьютерная система Site-Video, которая позволяет выявлять значимые особенности контекста в функциональных сайтах ДНК, РНК и белков на основе использования математической теории принятия решений.

С помощью Site-Video выявлено более 450 контекстных особенностей пре-мРНК, значимых для функционирования донорных и акцепторных сайтов сплайсинга. Практически значимыми являются метода распознавания этих сайтов в секвенированных фрагментах геномной ДНК человека, построенные на основе использования всей совокупности указанных контекстных особенностей.

С поисщью Site-Video исследованы гистоны Н1, Н2А, Н2В, НЗ и Н4. Созданы метода распознавания их структурно-функциональных детеришшпт. С помощью этих методов построен граф функционального сходства 14 семейств белков, взаимодействувщих с ДНК или РШ. Получены свидетельства о сходстве ДНК-связываицих доменов гистонов Н4 и х-репрессора.

Апробация работы. Результаты работы докладывались на международных конференциях "Genome informatics workshop II" (Токио, 1991), "The role of biocomputing in the characterization of hussan genora sequences" (Бари, 1991), "Bioinformatics, Supercomputing and Conplex Genome Analysis" (Таллахасс, 1992), на II Всесоюзной конференции "ГЕНОМ ЧЕЛОВЕКА" (Пущино, 1991).

Структура работы. Диссертация состоит из введения, четырех глав, заключения и выводов. Объем диссертации - 128 страниц, 53 рисунка, 29 таблиц. Общий объем - 229 страниц.

По материалам диссертации опубликовано более 30 работ.

ИСПОЛЬЗУЕМЫЕ КОМПЬЮТЕРНЫЕ МЕТОДЫ.

ИССЛЕДОВАНИЕ САЙТОВ СПЛАЙСИНГА пре-мРНК ЧЕЛОВЕКА.

С помощью созданной нами компьютерной технологии SiteVideo исследованы сайты сплайсинга пре-мРНК. При сплайсинге из пре-ыРНК вырезаются интроны. Их 5'концы задаются донорными сайтами, 3'концы - акцепторными (рис.1). Оставшиеся экзоны сшиваются в мРНК. Многие особенности сайтов сплайсинга еще не выясне-

а) •• экзон»-*--интрон

•зкзон-

вы. Не решена проблема их распознавания. Поэтому мы исследовала эти сайты в данной работе.

Рис.1. Сайты сплайсинга: а) локализация в пре-мРНК; б) нитрон, вырезанный по сайтам сплайсинга; в) соседние экзоны сшита по зпш сайтам в мРНК.

промежуточ-

донорный акцепторный

6)C£!ag в)5тшшншз-

Наша технология основана на визуализации всех ных результатов, что позволяет контролировать весь процесс анализа сайтов и корректировать все его стадии (рис.2). Поэтому она названа Site-Video. Анализ сайтов имеет 3 этапа: I) построение контрастных выборок; 2) выявление контекстных характеристик; 3) построение метода распознавания. Рассмотрим эти зтепы на примере анализа акцепторных сайтов сплайсинга.

ПОСТРОЕНИЕ КОНТРАСТНЫХ ВЫБОРОК

визуальное

автоматическое

Банк данных

последовательности ДНК, РНК и белков

ПОСТРОЕНИЕ КОНТЕКСТНЫХ ХАРАКТЕРИСТИК

визуальное

автоматиче ское

и

Контт застные

вы? Зорка

"ДА" "НЕТ"

Оценка полезности' характеристик для распознавания контрастных выборок

визуальная

ПОСТРОЕНИЕ МЕТОДОВ РАСПОЗНАВАНИЯ

визуальное

автоматическое

6

автоматическая

Банк результатов контё-.........................

кстные характеристики

методы распознавания

Рис.2. Схема Site-Video, трастных выборок; —»—

Этапы анализа: •••♦■• - построение, кон- выявление контекстных характеристик; —I--построение метода распознавания.

Построение контрастных выборок (I этап) На этом этапе используются банки последовательностей ДНК, ШС и белков (GeneBank, PIR и др.). Для анализа акцепторных сайтов использовался банк данных БИВЬ Data Library, в разделе FEATURE TABLE которого указаны позиции, акцепторных точек разре-зация пре-мРНК в секвенированных фрагментах геномной ДНК. В качестве акцепторных сайтов использовались участки этих фрагментов от -50 до +50 позиции относительно указанной точки. Было выбрано 122 таких сайта. Они однородно представляли разные типы

Таблица I.

Контрастные выборки для выявления функционально значишх контекстных характеристик акцепторных сайтов сплайсинга пре-иРНК человека.

нуклеотидные последовательности дли на, нук лео тид локализация точки разрезания число хара- кте- рис- тик

£ класс

"ДА" "НЕТ"

1 2 3 4 5 6 7 8 9 10 а.с.с. а.с.с. а.с.с. а.с.с. а.с.с. а.с.с. а.с.с. интрон^ экзон * экзон 3'-концевые районы пре-ыРНК Центральные части зкзонов Центральные части интронов Донорные сайты слайсинга Случайные, р(А)=р(и)=р(С)=р(С)=0.25 Случайные, р(А),р(и),р(С),р(С) как в а.с.с. Случайные, р(А).р(и).р(С),р(С) как в а.с.с. и, дополнительно, АС в позициях -2 и -1 Случайные, р(А),р(и),р(0,р(С) как в интроне Случайные, р(А),р(и),р(0,р(С) как в экзоне интрон 100 100 100 100 100 100 100 50 50 50 -1/+1 -1/+1 -1/+1 -1/+1 -1/+1 -1/+1 -1/+1 -1/ /+1 ДА :/+1 НЕТ:-1/ 6 29 34 23 8 21 12 23 34 35

Обучающие данные: по 25 последовательностей классов "ДА" и "НЕТ" Контрольные данные: по 97 последовательностей классов "ДА" и "НЕТ" Всего 2440 последовательностей: 500 - обучающие; 1940 - контрольные Всего 225 х-тик

Обозначения: а.с.с. - акцепторные сайты сплайсинга пре-15РНК; / - точка

разрезания между позициями -I и +1 (нумерация от -50 до +50); выборки 5-Э: р(х) - частота нуклеотида х; выборка Ш7: АС - консенсус точки разрезания пре-ыРНК; выборки 8-10: интрон*- участок а.с.с. от -50 до -I позиции; экзон®- участок а.с.с. от +1 до +50 позиции.

интронов и экзонов (короткие, средние, длинные) и генов (кассовые, тканеспецифичные). Эти сайты были разделены на 2 непересекающиеся группы: обучающую и контрольную. Для 25 сайтов из обучающей группы искались функционально значимые контекстные особенности и строился метод их распознавания. Полученные результаты тестировались на 97 сайтах из контрольной группы.

Было построено 10 выборок нуклеотидных последовательностей двух классов: "ДА" и "НЕТ" (Табл.1). Классы "ДА" включали акцепторные сайты или их фрагменты двух типов: первый тип - 5'концы интронов от -50 до -I позиции сайтов; второй - 3'концы экзонов от +1 до +50 позиции. Классы "НЕТ" содержали однотипные нуклео-тидные последовательности, не содержащие акцепторные сайты или их указанные фрагменты. Итак, классы "ДА" и "НЕТ" этих 10 выборок различались контекстными особенностями, которые присутствуют в акцепторных сайтах и отсутствуют в последовательностях, не содержащих эти сайты. Такие выборки мы назвали "контрастными".

Выявление контекстных характеристик (II этап) Этот этап заключался в анализе контрастных выборок, построенных на предыдущем этапе. Использовались 2 блока Site-Video (рис.2). Первый блок генерировал I09 контекстных характеристик, потенциально значимых для функционирования сайтов (см. ниже). Второй - для любой характеристики X и любой выборки {S> вычислял величину U(X;{S>) от -I до-I, обладающую двумя свойствами:

1) ЕСЛИ {U(X;{S))>0> ТО { с помощью X можно распознать классы "ДА" и "НЕТ" выборки {S});

2) ЕСЛИ {U(X1;iS>)>U(X2;{S})>0 ) ТО { X, лучше распознает классы "ДА" и "НЕТ" выборки iS>, чем Xgl.

Величина U(X;{S)) определяется в математической теории принятия решений и называется "полезностью" (Фишберн,1Э78).

Для каждой из 10 выборок {S} и каждой из 10э характеристик X вычислялись U(X;tS>). При этом отбирались такие характеристики X, которые имели U(X;tS)) больше порога 0.6. В качестве дополнительного условия требовалось, чтобы отобранные характеристики были линейно независимы одна от другой. Итак, для каждой из 10 выборок (S) получилось по одному набору линейно независимых контекстных характеристик fXj>j=1 m со значениями U(Xj;tS)) большими порога О.б. В Табл.1 приведены количества контекстных характеристик в каждом из 10 указанных-наборов. Например, для выборки J63 было выявлено 34 линейно независимые контекстные ха-

рактеристики акцепторных сайтов, по которым эти сайты отличаются от центральных частей интронов. Всего было выявлено 225 различных контекстных характеристик, значимых для акцепторных сайтов. Рассмотрим в качестве примера 3 такие характеристики.

Повышенная (пониженная) значимость некоторых олигонуклео-тадов в определенных районах функционального сайта.

Рассмотрим сайт Б={в1)1_1 длины Ь и олигонуклеотид Ч'иСч»-^ ^ ^ длины к. Опишем локализацию олигонуклеотида ¥ в сайте Б профилем {Р^Б,?)) длины (Ь-к+1): если •

если иначе.

Этот профиль имеет следующий смысл: если на участке сайта Б позиции 1 до позиции (1+к-1) расположен олигонуклеотид 'У, Р^Б.^) равно 1; в противном случае Р^СБ.Ч") равно 0.

Олигонуклеотид Ч» в разных позициях сайта Б может оказывать на него разное влияние. Поэтому определим весовую функцию со значениями от О до I, построенную по правилу:

[ Р(1) - унимодальная (имеет I максимум или I минимум); \ Р(1)>Р(;1) позиция 1 более значима, чем позиция 3. В Б11е-У1йео используется 159 весовых функций (рис.3)

P1(S,4')

(1)

от то

(2)

Р(1) 1Т

Р(1) 1Т

О

F(i)

О

i

Рис.3. Примеры весовых функций F(i) значимости позиций i сайтов, используемых в Site-Video.

Тогда количество олигонуклеотидов Ч" на участках сайта S,

взвешенных функцией F(l), определим с помощью формулы:

L-k+1

X(S,4-,F)=

¿1 части

Р, (S.^xFd).

(3)

Например, в центральной части акцепторных сайтов обнаружено меньшее количество тринуклеотидов АСУ (AGA, AGC, AGG), чем в случайных последовательностях (рис.4). Однако, точка разрезания пре-мРНК в центре этих сайтов имеет консенсус AG. Тогда уменьшение количества AGV указывает на наличие отбора против "ложных" AG точек разрезания пре-мРНК в акцепторных сайтах.

a) F(i) 1Т

б) п(Х)

Рис.4. Количество тринуклеотидов АСУ в центральной части акцепторных сайтов: а) весовая функция; б) гистограммы для акцепторных сайтов (-) и случайных последовательностей (в).

- б -

Градиенты изменения значимости позиций функционального сайта для локализации в них определенных олигонуклеотидов.

Контекстные характеристики этого типа вычислялись по формулам (1,3) с помогав монотонных Еесовых функций F(i). В SiteVideo используется 21 такая весовая функция (pic.5).

Рис.5. Примеры монотонных весовых функций, задающих градиенты значи-i мости позиций сайтов.

Рис.6.. Линейный рост значимости позиций для тринупле-отидов ACH в акцепторных сайтах: а) весовая функция; б) гистограммы для акцепто-

—1 ит---1-г-г-- рных сайтов (-) и случай-

-50 ' +50 2 4 X ных последовательностей(п).

Оказалось (рис.6), что акцепторные сайты отличаются от случайных последовательностей линейный ростом значимости позиций для тринуклеотадсв ACM (АСА.АСС). Тогда, вытеснение "лозных" AG точек разрезания пре-ыРНК из акцепторных сайтов кокет происходить за счет преимущественной фиксации пуклеотидов С непосредственно справа от нуклеотндов А.

Оптимальные расстояния между определенными олигонуклестадами в пределах функционального сайта.

На функционирование сайтов может таксе влиять вз&пшюе расположение определенных олигонуклеотидов. Рассмотрим профили PiS,1?) и P(S,4") локализации в сайте S=isi>l=1 L длины L олигонуклеотидов ч,={ф;|>^=1 и длины к и к' соответственно. Взаимное расположение этих олигонуклеотидов опишем матрицей Q=tqi_j> размером (L-k+1 )*(L-k'+1):

qld = P1(S,4-)4Pj(S,4"). (4)

Неравноценность расстояний г между олигонуклеотидаыи зададим весовой функцией Z(г) от 0 до I, построенной по правилу:

/ Z(r) - унимодальная или монотонная функция;

I Z(r)>Z(r') «-* { г ближе к оптимальному, чем г' ).

Тогда, количество пар олигонуклеотидов ['Р;1?' ], взвешенных

функцией Z(r), вычислим по формуле: .

L-k+1 L-k'+1

X(S,4\4",Z) = £ ^ qi3xZ(|i-j|) . (6)

Так, в отличие от случайных последовательностей, динуклеотиды AM (АА, АС) и UG в акцепторных сайтах удалены на оптимальное

(5)

расстояние 75 позиций между ними (рис.7). Такая удаленность А-и С-содержащих динуклеотидов могла уменьшить число "ложных" АС точек разрезания пре-мРНК в акцепторных сайтах.

а) Z(r) 1Т

б)

п(Х)

О

oir0£

:-

Рис.7. Количество пар динулео-тидов [А!Л;иС] с оптимальным расстоянием 75 позизиций в акцепторных сайтах: а) весовая функция; б) гистограммы для акцепторных сайтов (-) и случайных последовательностей(„).

Построение метода распознавания (III этап) На этом этапе используются контрастные выборки, построенные на I этапе, и контекстные характеристики, выявленные с помогаю этих выборок на II этапе (рис.2). На их основа строится метод распознавания исследуемых функциональных сайтов.

Нами был разработан следующий алгоритм. Рассмотрим контрастную выборку {SJ и набор из к. характеристик {Х^}^^ с полез-ностяыи iU_j > k для этой выборки. Выберем 2 характеристики: например, Xjl_1 и Х^. Построим новую характеристику Х*(Хк ^¡Х^) так, чтобы она была положительной на большинстве класса "ДА" и отрицательной - на большинстве класса "НЕТ". Для этого в SiteVideo имеется 9 математических методов: автоматические - дискриминанты (линейный Фишера, гиперболический, квадратичный и квадратичный с линейной коррекцией), перцептрон и голосование; диалоговые - линейный и кулоновский потенциалы.

Рис.8. Построение характеристики X*(Xj._., ;Хк) по формуле (7). Обозначения: о - класс "ДА"; а - класс "НЕТ"; прямая Х*=0 определяется углом наклона Ь0 и точкой ® с координатами =b.j и xk=b2);

На рис.8 дан пример построения новой характеристики X* в виде линейной комбинации двух исходных характеристик Х^ и Х^:

X*(Xk_1;Xk) = (Xj^-b., )xcos(b0) + (Xk-b2)xsin(b0). (7) В данном примере и XR - две контекстные характеристики, выявленные для распознавания акцепторных сайтов (класс "ДА") от случайных последовательностей (класс "НЕТ"). На координатной плоскости классы "ДА" и "НЕТ" даны светлыми и темными квадрата-

ми соответственно. Они разделены жирной линией: нияе нее - область Х*>0 с большинством светлых квадратов; выше - область Х*<0 с большинством тешгых. В Site-Video линии Х*=0 потно задать трекя способами: первый - линейный дискриминант йшера, вычисляющий Ъ0, Ь1 и Ь2 по значениям Х^ и Х^ на {S>; второй -перцептрон, получающий bg, b1 и bg методом последовательных приближений; третий - даигать и вращать эту линии на координатной плоскости с помощью команд <-»->, <<->, <±>, <f>, <+>, <-> в диалоговом режше работы.

Для новой характеристики X* вычисляется ее полезность U(X*;{S>) для распознавания выборки {S). Если U(X*;{S>) югазы-вается большей U^ и большей U^, то X* помещается в набор {Xj}j=1 вместо Х^ и Xj,: в наборе остается (к-1) характера-тика iXj>. После применения алгоритма (к-1) раз к исходному набору (Xj> j=1 ,, получается I характеристика X*. Она обладает следующий! свойствами. Во-первых, X* объединяет все к контекстных характеристик из исходного набора Поэтому она является контекстной характеристикой, более сложной по сравнении с этими исходными. Во-вторых, с помощью X* можно относить произвольные последовательности S* к классам Еыборки {S): ЕСЛИ [ для последовательности S* наблюдается X*(S* )г0 ], ТО [ S* следует отнести к классу "ДА" выборки (S) ], (8) ИНАЧЕ t S* следует отнести к классу "НЕТ" выборки iS> 3. Поэтому X* является методом распознавания для выборки (S).

Построение метода распознавания акцепторных сайтов Еключало ряд последовательных стадий. Вначале для каждой из 10 контрастных выборок fS) из Табл.1 ил построили по одной1сложной контекстной характеристике X*, в которую с помощью нашего алгоритма были объединены все выявленные для этой выборки контекстные характеристики k (Табл.2). Например, для выборки JS3

было выявлено 34 линейно независимые контекстные характеристики, отличающие акцепторные сайты от центров шггронов. Мы объединили их в одну сложную контекстную характеристику AIC. Итак, характеристика AIC включила в себя всю совокупность выявленных нами контекстных отличий акцепторных сайтов от центральных частей интронов. Аналогичные сложные контекстные характеристики были построены для всех 10 контрастных выборок, указанных выше. С помощью правила (8) мы протестировали каждую из этих 10 сложных контекстных характеристик для распознавания контрольных

вариантов соответствуй?!* контрастных выборок (ТаблЛ). Получанные результаты даны в Табл.2. Оказалось, что эти характеристики ющвт ошибки I рода от 6% (АО?) до 25% (АН?); II рода - от 12% (АЕС) до 37% (АЕР); суммарные - от 12% (АСР) до 31% (АЕР).

Таблица 2.

Сложные контекстные характеристики для 10 выборок из ТаблЛ.

& число исходных характеристик обозначение сложной характеристики ошибки, %

I рода II рода суммарная

1 б A3' 12 35 24

2 29 АЕС 24 12 18

3 34 AIC 24 22 23

4 23 AD 7 26 17

5 8 Y 9 16 13

6 21 ACF 6 18 12

7 12 0A0F 22 13 18

8 23 AIF 21 35 28

9 34 AEF 25 37 • 31

10 35 AIEF 18 18 18

й - номер контрастной выборки по ТаблЛ.

Затеи ш сформировали 3 дополнительные контрастные выборки (Табл.3). На этих выборках с помощью напего алгоритма мы построили 3 более слозные контекстные характеристик APR, AF и АО.

Рис.9. Схемы построения L-j—1 сложных контекстных ха-1 —^ X рактеристик APR, AF и АО AD АЕС AIC A3' AEF AIF AIEF Y ОАО? А И? для акцепторных сайтов.

Например, характеристика APR была построена на дополнительной выборке J6I в результате объединения четырех сложных характеристик AD, АЕС, AIC и A3' (рис.9). Она включила в себя всю совокупность контекстных отличий акцепторных сайтов от центральных частей интронов, экзонов и 3'концевых районов пре-мРНК и донорных сайтов сплайсинга. Аналогичным образом на дополнительных выборких J62 и J63 и наборов контекстных характеристик {AEF, AIF, AIEF) и {Y, OAOF, ACF) мы построили более сложные контекстные характеристики AF и АО соответственно (рис.9).

В Табл.3 даны результаты тестирования характеристик APR, AF и АО с помощью правила (8) на контрольных вариантах соответствующих дополнительных выборок. У характеристики АО оказалаь наименьшая ошибка I рода 5.2%, но ее ошибка II рода 17.5% была наибольшей. Характеристика AF, напротив, имела наименьшую ошибку II рода 3.1%, но большую ошибку I рода 33.5%.

APR

AF

и I

Таблица 3.

Дополнительные контрастные выборки для построения метода распознава-

ния акцепторных сайтов сплайсинга пре-иРНК человека.

нуклеотидные последовательности сложная характерно тика ОЕИбГЛ л

а класс I рода II рода суммарная

"ДА" "НЕТ"

1 а.с.с. Равное число центральных частей нитронов, экзонов, 3'-концевых районов пре-иРНК и донорных сайтов сплайсинга АРИ 34.1 16.5 25.3

2 а.с.с. Фрагменты пре-мРНК, не содержание а.с.е., но, дополнительное условие, ииекзде совпадения с консенсусами а.с.с. в центре АР 33.5 3.1 18.3

3 а.с.с. Случайные, р(А) ,р(и) ,р(С) ,р(С) как в а.с.с и, дополнительное условие, имекще совпадения с консенсусами а.с.с. в центре АО 5.2 17.5 11.3

4 а.с.с. Фрагменты геномной ДНК, не содержание а.с.е., но, дополнительное условие, совпадающе с консенсусами а.с.с. в центре Л5 12.4 6.2 9.3

Обучающие данные: по 25 последовательностей классов "ДА" и "НЕТ" Контрольные данные: по 97 последовательностей классов "ДА" и "НЕТ" Всего 976 последовательностей: 200 - обучающие; 776 - контрольные.

Обозначения; а.с.с. - акцепторные сайты сплайсинга прз-нРКК; точка разре-

зания между позициями -I и +1 (нумерация от -50 до +50); использовался набор консенсусов (Р10£021п, 1993); р(х) - частота нуклеотида х.

АБ

АРЙ

АР

Рис.10. Схема построения интегральной контекстной характеристики акцепторных сайтов, объединившей в ]— себе всю совокупность выявленных, нами контекстных

АО

особенностей этих сайтов.

На заключительной стадии конструирования мы сформировали еще одну дополнительную контрастную выборку *4 (Табл.3). На этой выборке с помощью нашего алгоритма мы объединили 3 сложных контекстных характеристики АРИ, АР и АО в одну интегральную контекстную характеристику АБ (рис.10). Итак, интегральная характеристика АБ включила в себя всю совокупность выявленных нами контекстных особенностей акцепторных сайтов.

С помощью характеристики АБ и правила (8) мы построли метод распознавания акцепторных сайтов. В Табл.3 даны результаты его тестирования на контрольном варианте дополнительной выборки &4. Наш метод распознавания акцепторных сайтов имел ошибку I рода 12.4Х, ошибку II рода 6.2% и суммарную ошибку 9.3%.

В Табл.4 даны результаты распознавания акцепторных сайтов в 17 фрагментах ДНК человека общей длиной 127862 нуклеотида, полученные с помощью нашего метода и с помощью 3 разных наборов консенсусов этих сайтов, традиционно используемых для их распознавания. Наш метод предсказывал в среднем по I сайту на каждые 202 нуклеотида длины, имел ошибки I рода 7.7% и II рода 0.5%. Видно, что он не уступал по точности распознаванию акцепторных сайтов на основе консенсусов.

Таблица 4.

Предсказание сайтов сплайсинга в 17 фрагментах ДНК человека.

сайт метод ошибка I рода,% ошибка II родаД <1

данная работа 7.7 0.50 202

птор ный Репои1 Бепара'Нэу 1990 1990 1993 6.5 79.4 8.6 7.16 0.002 1.02 14 8524 98

данная работа 7.8 0.47 214

доно рный Репо«1 Бепара-Нзу Кийо 110ё021п 1990 1990 1992 1993 2.0 91.0 46.5 5.5 4.91 0.004 0.023 0.74 20 9133 1397 136

й - средняя длина, на которой предсказывался 1 сайт.

Донорные сайты сплайсинга анализировались аналогично акцепторным. С помощью Б11е-У1с1ео был построен метод распознава-

ния доноршх сайтов, учитывающий более 250 контекстных, особенностей, зкачиках для их функционирования. Он rniax ссибяу I рода 6.4%, опибку II рода 9.22, суммарную сзибку 7.8%. Предсказание донорных сайтов в 17 указанных вше фрагментах геномнсл ДНК показали, что наш иетод не уступал по точности распознавания донорных сайтов на основе консенсусов (Табл.4).

Итак, с помощью Site-Video на выявили более 450 контекстных особенностей пре-ыРНК, значимых для функционирования сайтов сплайсзшга, и построили метода распознавания этих сайтов, учи-тывакцие все указанные контекстные особенности.

ИССЛЕДОВАНИЕ ГЙСТОНОВ Обозначим участок белка с опраделенньам структурно-функци-нальныыи особенностям понятием "детерминанта".

Исследованы гистоны семейств Н1, Н2А, Н2В, НЗ и Н4. Оки являются белками хроматина. На основе литературных данных hsici был выделен набор, содержащий 21 структурно-функциональную детерминанту этих белков. Он охарактеризован на рис.11 Н1|-1 Н2А|-1 Н2В |-1 Н3|-1 Н4

N2 N N7 l8J Ж ИЗ

0 0 00 '0 0 Рис.11. Исследованные детерминанты гистонов (проекции на первичную структуру: j—j). Гистон Н1: Н-концевой (I), глобулярный (2) и С-концевсй (3) домены и их границы (4, 5). Гистон Н2А: N-концевой (6), глобулярный (7) и С-концевой (8) домены, их границы (9,10). Гистон Н2В: N-концевой-(II) и глобулярный (12) домены и их граница (13). Гистон НЗ: N-концевой (14) и глобулярный (15) домены, их граница (16). Гистон Н4: N-концевой (17) и глобулярный (18) домены, их граница (19), KRHRK-сайт (20), (G34K)3-noBTop (21). Обозначения детерминант: □ □ - неперекрывающиеся; (Ц - с общей границей;--перекрывание детерминант (одна под другой).

Аминокислотные последовательности каждого семейства гистонов, имеющиеся в банке данных SWISS-PROT, были разделены на 2 непересекающиеся группы: обучающую и контрольную. С помощью Site-Video для обучающих трупп последовательностей были построены методы распознавания для каждой из 21 указанных детерминант. С помощью этих методов было осуществлено распознавание

17 11 а

21 |Н0 19

детерминант гистонов в аминокислотных последовательностях этих белков из контрольной группы. Оказалось, что для указанных независимых данных каждых построенный наш метод правильно распознал все соответствующие ему контрольные примеры детерминант. При этом средняя ошибка предсказания границ каждой детерминанты в последовательности не превышала 5Х от диапазонов изменчивости локализаций этих границ в гистонах.

Идентификация семейств гистонов Было исследовано одновременное распознавание всех детерминант, специфичных для заданного семейства гистонов. Для отнесения любого из 10855 белков из банка данных БЯ^-РЮТ к заданному семейству гистонов требовалось распознавание в нем всех детерминант этого семейства с учетом их взаимного расположения (рис.11). Полученные результаты даны в Табл.5.

Таблица 5.

Идентификация семейств гистонов с помощью их детерминант.

Гис тоны SWISS- •PROT идентификация последователь ноетей семейства точность (35)

число белков в семействе

данное другие семейства

данное другие верно неверно верно неверно данное другие

Н1 30 10825 30 0 10778 47 100 99.5

Н2А 34 10821 34 0 10790 31 100 99.7

Н2В 29 10826 29 0 10809 17 100 99.8

НЗ 23 10832 23 0 10698 134 100 99.0

Н4 11 10844 11 0 10844 0 100 100

Оказалось, что совокупность детерминант заданного семейства гистонов идентифицирует его с точностью 99%.

Граф функционального сходства семейств белков Исследовались 360 аминокислотных последовательностей, относящихся к 14 семействам белков, взаимодействующих с ДНК или РНК (30S и 50S рибосоиальные белки, репрессоры, гомеобелки, протамины, гистоны и белки HMG). В каждой из этих последовательностей осуществлялось распознавание комплексов из 2-5 перекрывающихся детерминант гистонов. Всего рассматривалось 12 таких комплексов (рис.12). Комплекс детерминант считался распознанным, если были идентифицированы все входящие в него детерминанты гистонов с учетом правильности их взаимного расположения. Подсчитывалась доля сЦ^ последовательностей 1-го семейства (1*1*14), в которых был распознан k-ый комплекс (1sk¿12).

Рис .12 Комплексы перекрывающихся детерма-нант гистонов, шлюзованные для построения графа функционального сходства 14 семейств белков, взаимодействующих с ДНК или РНК (номера детерминант даны по рис.II).

Било сделано предположение, что сходство результатов распознавания комплексов перекрывающихся детерминант гистонов в семействах белков, взаимодействующих с ДНК или РНК, может соответствовать сходству функций этих белкоз. В качестве мера сходства О-у между 1-ым и 3-км семействами использовалась велячзша:

« .......' 1,/г-

»13 ■ [ I '«ii-.-^jk'2 ]'

оПс „rW.bs-ie.Lis.Lig.i^-aa ЙЙ и S5,S6,S9,S11-13,S18-20 £¡5 0_\ S4.S7.S8.S15-17

гомя- S1-3,S10,S14,S21

лыые Ь2-4,L17, L20-23

белки

Проталина г Н4 Н2В

Гнстоны ■{ Н2А

I НЗ

Н1

Рис.13. Греф функционального сходства 14 семейств белков, взаимодействующих с ДНК или РНК. Классы белкоз: рибосома-лькые (А); регуляторные (В); коровая частица ну-клеосс(С); упаковка меянухлесомной ДНК (0).

EL'G

На осноЕе матрицы сходства {D^j} методом UPGHA была построена функциональная классификация исследованных семейств белков, взаимодействующих с ДНК пли РНК. Ее графическое представление дано на рис.13. Видно, что близкие по функциям семейства белкоз оказались на сближенных ветвях построенного графа. Поэтому мы назвали его графом функционального сходства семейств бежев.

Исследование ДНК-связывавщего домена гистонов Н4 С помощью Site-Video на участке 32-53 гистонов Н4 обнаружен ДНК-связывающий мотив "спираль-поворот-спираль", который принято обозначать "НТН" (helix-turn-helix). Статистическими методами показано, что участок 12-21 является а-спиралью, на С-конце которой локализован ДНК-связывающий KRHBK-сайт (достоверность 99%). Для (С3_дК)д-повтора показана корреляция расположения его лизинов с кластером на поверхности потенциальной «-спирали I—12 (достоверность 95%). Сделано предположение, что

«-спираль 1-12 ногат стабилизироваться взаимодействием этого кластера лизкнов с ДНК, но в отсутствии ДНК участок 1-12 имеет другую конфорыацию. Такке участки белков называются "молекулярными триггерами". На рис. 14 дана (а) наша предсказание детерминант ДНК-связывающего домена гистона Н4 и (б) экспериментальные данные с сходных детерминантах х-репрассора (РаЪо, 1982). а), 12_21 32_53 Рис.14 Предсказание детерминант

триггер

б)

триггер

а-спираль I— НТН

9 23 33 £

«-спираль — НТН

ДНК-связывающего домена гистона Н4 (а) и локализация сходных детерминант ДНК-связыванцего домена х-репрессора, установленная экспериментально (б).

Итак, с помощью Site-Video в гистонах Н4 выявлен мотив "спираль-поворот-спираль" и ряд других детерминант, расположение которых указывает на сходство ДНК-связывающего домена гис-тонов Н4 с ДНК-связываюциы доменом х-репрессора.

ВЫВОДЫ

1. Разработана компьютерная технология "Site-Video" для исследования генетических текстов, включая выявление значимых контекстных характеристик и построение на их основе методов распознавания функциональных сайтов в ДНК, РНК и белках.

2. С помощью "Site-Video" исследованы сайты сплайсинга пре-ыРНК человека и выявлены контекстные характеристики, значимые для структурно-функциональной организации этих сайтов. К числу выявленных характеристик относятся: (а) повышенная (пониженная) значимость некоторых олигонуклеотидов в определенных районах этих сайтов; (б) градиенты изменения значимости позиций этих сайтов для локализации в них определенных олигонуклеотидов; (в) оптимальные расстояния между определенными олигонукле-отидами в пределах этих сайтов.

3. На основе выявленных контекстных характеристик донорных и акцепторных сайтов сплайсинга пре-мРНК человека сконструированы метода их распознавания, имеющие точность более 90%.

4. С помощью "Site-Video" построены методы распознавания детерминант гистонов семейств HI, Н2А, Н2В, НЗ и Н4. Показано, что распознавание всех детерминант, специфичных для заданного семейства гистонов, идентифицирует последовательности этого семейства с точностью 99%.

5. Проанализированы аминокислотные последовательности, относящееся к 14 изофушшкональныи семействам белков, взаимодействующих с ДНК или РКК. На основе распознавания в 1га детерминант гистонов сеиейств Н1, П2А, Н2В, НЗ н Н4 построен граф функционального сходства этих 14 семейств бешав.

6. В гюнокислотных последовательностях гистона Н4 Еыявлен ДНК-связцважггй котив "сш^аль-псворот-спираль" (!Ш1) и ряд других структурой элементов, взяжаюе расположение которых указывает па сходство ДНК-свяс-гзждего доиеип гястона Н4 с ДНХ-связиЕги^м доменом л-рзгрессора.

Основное содераание диссертации опубликовано в роботах:

1. Погоизренко Г».П., Еенвх Д.Н., Орлов Ю.Л., Колчанов Н.А. Метод точного распознавания структурпо-фртщг-юнальних детерминант белковых молекул. - Бпс*язика, 1991, т.35, "5, 243-956.

2. Пеквх Д.Н., Понс;г,р2!п;о I.i.n., Колчанов Н.Л. Классификация ДНК(РКК)-взаииодействугс5:х белков на основа ргспозназзшш стр71;?7Т2ао-фуша?гональшх детер:с-:нант. - Биойтка, 1591, т.35, Г.3, C.2B7-2G7.

3. Kel A.S., Kolchanov N.A., Solovyev V.V., Рспсяагссжо LI.P., Ischenlto I.В., 0rlO7 Yu.L., Kapitonov V.7. Ccniputsr investigation oi structural organization and evolution of functional sites in polynucleotide sequsnciea. - In book: Hodeling and computer methods in molecular biology end genetics /eds. Ratner V.A., Kolchanov N.A. / Mova Sci.Publ., 1992, Hew York, 49-62

4. Pcncirarenko II.P., Benjukh D.U., Salsnov A. A., Solovyev V.V., Shindyalov I.H., Strlets V.B., Orlov Yu.L., Kolchanov H.A. Computer system oi protein structure and function predic-tiens. - In book: Modeling and coirputer methods in molecular biology and genetics / eda. Ratner V.A., Kolchanov N.A. / lJova Sci.Publ., 1992, ГГэт? York, 251-264

5. Kel A.E., Poncmarenko Li. P., Likhachev E.A., 0rlo7 Yu. L., Ischenko I.V., Hilanesi L., Kolchanov N.A. SITEVIDEO: a computer system ior functional site analysis and recognition. Investigation of the human splice sites. - CABI03, 1S93, v.9, n.6, 617-627.

6. Ponomarenko U.P., Kel A.E., Orlov Yu.L., Benjukh D.H., Ischenko I.V., Bockhcnov V.B., Likhachev E.A., Kolchanov N.A. System Site-Video. Recognition oi functional sites using recursive context systems. - In book: Computer analysis oi genetic macromolecules: structure, function and evolution /eds. Kolchanov H.A., Lira H.A. - World Sci.Pub., 1993, Singapore, 35-65.

Подписано к печати 22.03.94 Формат бумаги 60x90 I/I6. Печ. л. 1.06, уч. изд. л. 0.805 Тирая 120. Заказ 40

Ротапринт Института цитологии и генетики СО РАН, 630090, г.Новосибирск-90, пр. академика Лаврентьева, 10