Бесплатный автореферат и диссертация по биологии на тему
Предсказание сайтов сплайсинга и белок-кодирующих областей в ДНК высших эукариот
ВАК РФ 03.00.02, Биофизика

Автореферат диссертации по теме "Предсказание сайтов сплайсинга и белок-кодирующих областей в ДНК высших эукариот"

2 3 ¡¡¡ОН .1333

РОССИЙСКАЯ АКАДЕМИЯ НАУК ИНСТИТУТ ТЕОРЕТИЧЕСКОЙ И ЭКСПЕРИМЕНТАЛЬНО!! БИ04ЙЗИКИ

ка правах рукописи

ГЕЛЬФАНД Михаил Сергеевич

УДК 576,315.42

ПРЕДСКАЗАНИЕ САЙТОВ СПЛАЙСИНГА И БЕЛОК-КОДИРУШИХ ОБЛАСТЕЙ В ДНК ВЫСШИХ ЭУКАРИОТ

03.00.02 биофизика

АВТОРЕФЕРАТ диссертации на соискание ученой степе:ш кандидата физико-ыатеыаткческих наук

Пущине - 1993

\

Работа выполкекг в Институте белка РАН

Научный руководитель -доктор фиэихо-матеыатических наук С.Г.Гиндихин

Официальные оппонента -доктор фнзико-матенатичееких наух В.И,Иванов, кандидат физико-иатематичаских наук Л.А.Миронов

Ведущая организация -Институт молекулярной генетики РАН

Завита состоится "1993 года в /V" часов на заседании специализированного совета Д200.22.01 Института теоретической и оксперкаентальной биофизики РАН по адресу: 142292. г.Пущино Московской обл.. ИТЭБ РАН. С диссертацией можно ознакомиться в библиотеке ИТЭБ РАН.

Автореферат разослан 'ОС 1993 года.

Ученый секретарь специализированного совета, канд. биол. наук

П.А.Яелипович

ОЕШАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Разработка s 1977 г. быстрых методов секвестрования ДНК привела к лазинообразному росту суммарной длины известных нуклеотидных последовательностей и сделала возютткн поиск статистических закономерностей в последовательностях ну:слеотидов при помощи ЭВМ. С начала 1960-х готов началась разработка нетодоэ компьютерного анализа новосетаентфованных фрагментов ДНК. имеющих цельв, во-первых, предсказание областей, кодирувдих белки и тРНК, а во-вторых, поиск потенциальных регуляторных сигналов. Особенную актуальность эти задачи приобретают в связи в шшдаци тотального секвенирования больших геномов и. в частности, генома человека.

Актуальность проблемы. Первим и наиболее фундаментальным пагом при анализе нуклеотидной последовательности является поиск белок-колирузцих областей и, тем самый, определение акинокислотпой последовательности закодированных белков. Особенно слохно осуществить это предсказание для ДЙК эухариот, в которой кодирующие области (экзоны) преркваггся кекодируишша вставками (кнтронали), которые вырезаются из транскрипта (пре-иРНК) в процессе сплайсинга перед трансляцией.

Наличке экзон-кнтронной структуры, разнообразие донорных (граница экзон-интрон) и акцепторных (граница ннтрон-экзон) участков сплайс5шга, а такте большая длина нитронов по сравнении с экзонаии и существование во многих генах высиих зукариот коротких .экзонов делавт практически невозмохным применение существующих методов компьютерного анализа к эукариотическим последовательностям. Результатом работы локальных методов поиска функциональных участков является

з

мнохество предположительных сайтов сплайсинга, которое ке дает непосредственной еозмогности предсказать белковый продукт. Глобальные методы определения белок-кодирующих областей при помощи статистических характеристик, не позволяют точно определить границы экзонов. Кроме того, эти методы не могут обнаружить экзоны длины меньшей, чем длина- окна, которая не мохет быть мала из-за статистического мука.

Целью настоящей работы было статистическое исследование сайтов сплайсинга и свойств белок-кодирующих областей и разработка метода предсказания белок-кодируюиих областей, экзон-интронпой структуры и кодируемого белка, пригодного для работы с последовательностями ДНК высших эукариот.

Научная новизна и практическая ценность работы. Впервые был проведен комплексный статистический анализ. сайтов сплайсинга. Были исследованы статистические характеристики первичной и вторичной структуры, что подтвердило некоторые известные и позволило выявить ряд новых сигналов, могущих иметь биологическое значение. Построен, тестирован и сравнен с существующая алгоритм предсказания сайтов сплайсинга.

В стандартных условиях были сравнены основные алгоритмы глобального предсказания белок-кодирующих областей, нехоторые из которых Сшш предварительно модифицированы для применения к фрагментам различной длины. Исследованы статистические свойства полученного набора характеристик, в частности. попарные корреляции и зависимость от сс-содерхания. Для большинства алгоритмов показана невозможность установпения единого порога предсказания при анализе геномов с мозаичным ее-содержанием.

Создан алгоритм распознавания белок-кодирующих областей и

предсказания^ аминокислотной последовательности кодируемого белка для генов, обладающих экзон-интронной структурой. Произведено сравнение предсказания алгоритма с предсказаниями, полученными другими методами, а таюсе тестирование алгоритма на последовательностях, не использованных на предыдущих этапах. Применение предложенного алгоритма позволяет выделить небольшую группу незначительно различающихся зариантов нРНК, среди которых находится истинный. Добавочное использования априорной информации о количестве кодирующих экзонов позволяет в большинстве случаев точно предсказать экзон-интронную структуру рассматриваемой последовательности.

Создан набор программ, реализующих использованные методы; составлен банк ссылок ка статьи по функциональному анализу нуклеотидных последовательностей, вклоченный в библиотеку eubl.

Апробация работа. Основные результаты докладывались ка мехдународшх конференциях "Modelling and coeputer methods in molecular biology and genetics (Новосибирск. 1990) a "Statistical methods in molecular biology" (Berkeley, USA,

1993), i и ¡i всесоюзных конференциях "Генок человека* (Пзреславль-Залесский, 1990, 1991), п всесоюзной симпозиуме "Теоретические и. прикладные аспекты молекулярной биологии" (Самарканд, 1991), иколе "Распознавание функциональных участков по последовательности ДНК" (Москва, 1989). совещании по выработке концзлцаи компьютерной поддерхки программы "Геном человека" (11удино, 1S39), v иколе-семинаре "Базы данных и пакета дрзгкладнкх программ анализа структур биополимеров" (Мсскза, 1990), аколе-сеышгре "Лингвистика в ркгу смежных дисциплин" (Звенигород, 1990), семинаре "Проблзмы и методы распознавания функционально-значимых районов в нуклеотидных последовательностях генома человека" (Новосибигрск, 1992). Они излохены в 13 опубликованных и 7 находяпихся в печати работах.

Структура и объем работы. Диссертация состоит из введения.

четырех глав и заключения. Объем диссертации 188 стр., в т. ч. 39 рисунков1, 34 таблицы и 121 литературная ссылка.

СОДЕРЖАНИЕ РАБОТЫ

Первая глава представляет из себя аналитический обзор литературы по статистическому исследованию и компьютерному распознавании функциональных сайтов. Приведены основные результате, относящиеся к сайтам сплайсинга. Показана недостаточность локальных методов для решения поставленной проблемы; кране того, обсуждается вопрос о применимости' методов теории распознавания образов в задаче предсказания функциональных сайтов и, в частности, сайтов сплайсинга.

Во вторса глава приводятся результаты комплексного статистического анализа окрестностей экзон-иптронных границ, включающего исследование первичной и вторичной структуры, а такта создание и тестирование алгоритма поиска сайтов сплайсинга.

' Материал. Из пятого выпуска банка embl были выбраны Есе последовательности млекопитающих, секвенированные вместе .с нитронами (хотя бы частично), отсеяны гомологи и исправлены ошибки банка. В соответствии с биологическими экспериментами рассматривалась фрагменты длиной 100 нуклеотидпых пар (20 нп в экзоне и 80 ня е интроне). В результате были сформированы две выборки (донооешс и акцепторных сайтов), кахдая из которых состояла из 222 последовательностей, причем среди них было 206 пар, являющихся концами одного интрсна.

Результаты. Для более точного определения области, в которой находится функциональный сигнал, были построены графики

информационного солерхания. В результате Оыл предлохен консенсус донорного сайта ^АБ/ои^Агзи с инвариантным /ои и консенсус акцепторного сайта ^^ ? пСаб^в с инвариантным кч/ (здесь и далее / обозначает границу мехду экзоном и нитроном).

Был произведен анализ распределения олигонуюгеотидов в кахдой из этих выборок. Для каждого полохения скользящего окна были рассмотрены несколько самых частых тетрануклеотидоз (с заданным максимальным числов несовпадений). При анализе выборки донорных сайтов новых сигналов найдено не было. Анализ выборки акцепторных сайтов показал (кроме пика, соответствующего консенсусу сав/ь и склона, являющегося проявлением полипиримидинового тракта у ) наличие слабого сигнала сслзэБад в районе (-68)-(-58) (рис. 1). Отдельно было показано избегание динуклеотида Аб в области (-13)-(-6) (табл. 1, статистическая значимость <0. {'/•), что могет слухить доводом в пользу существования при выборе акцепторного сайта какой-л?Со формы сканирующего механизма в направлении 5'—ю'.

Анализ без использования априорной информации не позволяет выделить сигнал, соответствующий точке ветвления, поэтому было отдельно изучено распределение пентапуклеотяшов, являющихся вариантами консенсуса сайта ветвления. Самое жесткое условие, которому удовлетворяют все последовательности выборки таково: наличие внутри района (-30)-(-16) пентануклеотид, отличающийся от уор.ау не более, чем в одной позиции.

Для анализа втЪричной структуры были составлены таблицы комллементарности для донорных сайтов и и) няРНК, акцепторных сайтов и мг мяРНК, акцепторных сайтов и и5 мяРЕК, пар донорных

и акцепторных сайтов, являющихся концами одного иптрона, а

?

20'

ас/с А —'I

ТТЛ

\Jjvr

ш

л »

л/

/м!

-43

-28

Рис. 1. Частоты трех лучших (при отсутствии несовпадений) тетрануклеотвдов для скользящего окна шириной 8 позиций (на оси абсцисс указана самая левая позиция).

1 -15 -14 - 13 -12 -11 -10 -9 -8 -7 -6

Я (А) 20 21 15 15 8 16 16 17 16 10

22 37 22 31 20 21 17 17 17 7

Н(АВ) 1 1 1 0 0 0 □ 0 □ 0

охидаем. 2.3

¿КАЙ) 3. 6 2.3 1.5 0. 8 1.5 1. 3 1.4 0. 6 0.5

Ро(АС) . 23 .44 . 22 .26 .24 . 58 . 55

Рх (АО . 12 .34 .34 . 57 . 80 .56 . 62 .59 .90 .88

Табл. 1. Нзбегание динуклзотида ас непосредственно перед акцепторным сайтом. I - позиция, //(в) - (абсолютная) частота нукдеотида в в этой позиции, р(АО - вероятность отсутствия Аб. г(АС) - вероятность не более, чем одного лз в позиции О,1+1).

а 1 г 3 4 5 С 7 3 9 >10

б с 23 75 62 18 13 2 1 1 а

в 0. 09 23.61 102.01 52.94 13.69! 2.94 1 0. 57 0.12 0. 03 С.Ой

Табл. 2. (а) максимальная длина комплементарных олигонуклеотидов в районах (-69)-(-55) и (-Зб)-(-22): (б) количество последозатгдьностей, в которых встретились такие олигонуклеотшш; (в) средние зеличшш для 100 случайных выборок такого те объена.

такяе таблицы самоксшлемектариостк для дснорных и для акцепторных сайтов. Районы, соответствующие пика« в таблицах коншгемектарности, были исследованы Солее подробно. Было показано наличие сильной комплементарности мехяу районами (-69)-(-55) и (-36)-(-22) в ряде акцепторных сайтов (табл. 2); сравнением с выборкой случайных последовательностей показано, что преобладание участков протяженной кокплекзнтарвостп в этих районах статистически значимо на уровне <0. Г/С (с учетом выбора выделенных районов из более протяхеннкх).

Кроме описанного выше, единственный выделявшийся кал уровнем статистического иума пик соответствовал хоропо известному спариванию доноркых сайтов с 5' концов ш мяРНК. Было■исследовано распределение энергии этого спаривания, причем необходимость учета наиболее лротяхеяных кошиементарностей кегду последовательностями донорных сайтов и ш цяРНК привела к расширению сигнального участка до позиций (-12)-{*8).

В завершение этого этапа была исследована возможность распознавания сайтов сплайсинга при помощи длсариыинационной энергии по Бергу-фон Хиппелв (2). Согласно результатам предыдущего анализа рассматривалась дискриминационная энергия с поправкой на корреляции соседних нуклэотидов. Пусть

обозначает частоту, а и О) - число ветречаггй нуклеотада

ь ^

ь в позиции I; гь.ь-(1) обозначает частоту динуклестида ь'ь' в позиции и,л-1). Положим я (I) - ¡пах N О).

■»•к ь ь

Тогда дкскримЕнацлонная энергия уззавания сайта - - ■ ьг есть

" К., 1п ( ' (\(1> + 15 ] "

Ш / 1гь И) - гъ 0+1.» ).

1 г 1»1 I I»« 1

Использовались позиции (-12)-(+8) для донорннх сайтов и (-2i)-(+l) -для акцепторных сайтов, выделенные в качестве сигнальных на предыдущих стадиях работы.

В то время, как использование этой распознающей функции не позволяет установить порог, однозначно отделяющий сайты от несайтов, оказалось возкохнын определить такиз мягкие- пороги, что не пропускается не один донорпый сайт и лишь единичные акцепторные сайты, и при этом захватывается не слииком много лохных сайтов. Для дальнейшего существенно, что истинные сайты занимают высокие места в списке всех предполагаемых сайтов из тестируемой последовательности, упорядоченных по убыванию предсказанной силы.

Для сравнения использованной распознающей функции с предлохенными ранее алгоритмами были тестированы последовательности, рассмотренные в работе Шапиро и Сенапати t3i и в работах Ииды n-si. Ранги истинных сайтов выше при использовании дискриминационной энергии, чем ранги, полученные Шапиро и Сенапати (для одних и тех хе последовательностей, табл. 3). Как дискриминационная энергия, так и функции Шапиро-Сенапати и Ииды правильно предсказывают ослабление или усиление сайтов в результате мутаций in vivo (мутации в Э-глобине человека, приводящие к р-тадассемиям) и in vitro (мутации в донорном сайте второго экзона э-глобина кролика).

В заключение отметим наличие слабой (0.2), но статистически достоверной (на уровне 0.5'/-) корреляции мехду дискриминационной энергией донорного и акцепторного сайта, являющихся концами одного нитрона (возмохно, это наблюдение имеет отношение к порядку вырезания интронов,. однако

ю

ТТК/ч яд ТТГ\Т1 Нитпш' ДонорныЯ сайт Акцепторный сайт

1.111 р^/г.

е-ранг гЕ-ранг г-ранг БЭ-ранг

ниммн 1 3 12 9 7

2 1 •з 135 >100

3 12 >100 16 8

4 5 3 4 1 1

5 1 1 1 4

Б г 4 12 3

ПАТСТГ?РВ 1 1 1 13 3

г 4 г 2 6

3 гг 5 21 >100

к 13 71 1 1

5 5 п 3 14

Б 32 >100 ч 2

ЕАВ!.!Н!191 ! 3 2 4 8

2 11 5 В? >100

3 г? 30 1 7

4 го > 100 5 1 1

5 й 12 2 2

6 1 1 14 1

Табл. 3. Ранги сайтов сплайсинга для трех последовательностей из вепвапк. е-ранг - это ранг сайта в списке предсказанных сайтоЕ, упорядоченные по возрастанию ~ с, эз-ранг - ранг полученный при поноет предеказкваэдей функции Иаппро-Сенапати, приведенный в т. В обоих случаях высокий ранг соответствует большей "сайтополсбноспГ.

экспериментальные данккз об этом порядке крайне скудны), и тот факт, что дискриминационная энергия гораздо лучиэ предсказывает докорнкз сайты, чем энергия взаимодействия пре-мРНК и ш цяРНК. Это ногнэ объяснить как несоверьенством существующих методов определения энергии РЖ-РйКового спаривания, так в участием в распознавании белкового компонента у 1 мяРНП. В пользу второго, объяснения говорит наличие з консенсусе донорного сайта позчши (-3)^, пе спаренной с сосггвтствуэщеЯ позицией з (п ияРНК.

Итак, на первом этапе был предложен алгоритм распознавания сайтов сплайсинга, позволявший не пропустить истинные сайты, захватывая при этом не слишком много логных. и помещающий

истинные'сайты в начало списка. Кроне того, оал сделан ряд г

статистических наблюдений, биологически?! сьисп которых Мохет сшть прояснен линь при экспериментальной провапкз.

Третья глава посвящена сравнительному анализу алгоритмов глобального распознавания белок-кодирующих областей.

Материал. Были рассмотрена последовательности млекопитающих из выпуска 48.0 банка бепВапк. Из семейств последовательностей, кодирующих гомологичные белки, Ьыли взяты единственные представители. В результате осталось 214 файлов, в которых был 381 акзон суммарной длины 71422 нп (из них 68317 нп с известной раасой считывания) и 426 интронов суммарной длины 154543 нп. Для экзамена использовались последовательности длиной более 60 нп, эхзонк с известной рамкой считывания. Экзаменационная выборка состояла'из 309 экзонов и 258 интронов.

Методы. Были реализованы практически все описанные в литературе алгоритмы оценки кодирующего потенциала (на рассматривались алгоритмы, лишь незначительно отличающиеся от ухе рассмотренных, недостаточно четко описанные, и малоэффективные). При необходимости алгоритмы были переформулированы таким образом, чтобы позволить сравнение последовательностей различной длины, для чего была введена либо изменена нормировка. Всего было рассмотрено 11 алгоритмов, использующих: предпочтение колонов вида р.м у (Шепорд, модифицирован); предпочтение кодонов зила они (Трифонов, модифицирован); неравномерное распределение нуклеотидов по позициям ХСтаден;" Миронов и др.; Стаден, иодифицирозас), то хе и частоты нуклеотидов (Фиккет); минимизации влияния" мутаций (Трамонтано и Маччиато); различия в частотах олигонуклеотидов в

кодирующих и иекодкрующих (Клавери и Бугзлере): неравномерное употребление кодоноз (Стадэн, модифицирован); неравномерное употребление синонимичных кодонов (Грибсков и др.)." неоднородную марковскую модель (БсродовстсиЯ и др., «оотфигофован). По выборкам зкзонов к интроков были определены необходимые параметры для алгоритмов с обучением.

Характеристикой качества алгоритма слуяила зависимость процента ошибок (неправильно классифицировании

последовательностей) от порога распознавания. Строились графики, по осям которых откладывалось количество последовательностей (в процентах) з двух выборках, кодирующий потенциал которых превосходит порог; каждой точке кривой ошибок соотвэтстоБало определенное значение порога (для нитронов кодирующим потенциалом считался потенциал каалучявй из трех гозмогных ранок считывания) (рис. 2). Чей лучка алгоритм, тем выде и левее располохепа соответствующая кривая. Рассматривалась такяе правильность предсказания рамки считывания зкзоноз для тех алгоритмов, которые позволяет это делать.

Результаты. Наилучике результата били показаны алгоритмом тья!Сос1г (Фиккет, 161), использулютаг разлитая в позиционных частотах нуклеотидов (следует отметить, что этот алгоритм бь'л реализован с оригинальными параметра;.:« без переобучения, что ставило его в худшие условия пе сравнении с остальными). Поэтому '.иенно он был использован ка ягилнайтс: этапах работы (гл. 4). Удовлетворителные результаты были показаны такге методами с использованием неравномерного использования нуклеотидов в трех позициях колона и неравномерного

•ган^а

Рис. 2. Зависимость недо- и перепредсказания от порога для

алгоритмов Фиккета (позиционные частоты, □). Стадена

(позиционные частоты, +), (употребление кодопов, «), Хлавери и

Бугелере (частоты гексануклеотидов, х), ЕородоБского и ссавт.

(марковская цепь. о). Вертикальная ссь - количество интронов,

горизонтальная - количество зкзонов (в %) с кодирующим потенциалом, ызяьшек, чем порог (параметр кривой).

употребления кодонов. (Стаден, второй алгоритм модифицирован), методом, испоаъзуЕнш различия в частотах слигонуклзотидсв в экзонах и нитронах (Клавери и Бугелере) и методом, основанным на првдставдэнЕй ДНК в виде неоднородной цепи Маркова (Бородовский в лр.. алгоритм модифицирован) (рис. 2). Следует отметить, что, в отличие от Тез1Со<1е, три последних алгоритма позволяют подсчитывать кодирующий потенциал отдельно для каждого экзона. Кроко того, алгоритм Стадена, использувдий позиционные частоты нуклеотихов, не нуждается в обучении.

Были исыздсвапы такзе некоторые статистические свойства полученного набора характеристик последовательностей. В частности, исследовались корреляции величин, даваемых различными алгоритмами, а такхе зависимость кодирупщк: потенциалов от сс-содерзгашя последовательностей (эта проблема

актуальна в связи с мозаичным строеяизы генома млэкопитзбеж:). Высоки корреляции махну кодирующими потенциалами, использулаю'к частоты кэдоноз, а такте частоты олигонуклеотидсв; для этих методов особенно Еелика зависимость кодирующего потенциала от сс-содерггапкя последовательности. Другую группу составляют методы, использующие позиционные частоты нуклеотидов; их предсказания меньше зависят от зс-содерхания, однако некоторая зависимость все та остается. Зависимость кодирующего потенциала от бс-содержания не очень существенна при использовании техники скользящего окна (обычно анализируемые последовательности существенно короче язохор - областей с примерно одинаковым ес-содерганием), однако она служит препятствием для установления единого порога распознавания для большинства методог.

В четзвртоя глаье описан новый алгоритм предсказания с!елок-кодирующих областей я ДНК высших эукариот и приводятся результаты тестирования этого алгоритма.

Ъ'ется. Алгоритм состоит из нескольких последовательно применяемых процедур. Сначала при помощи локального лодалгоритма предсказывается потенциальные стартовые колоны и сайты сплайсинга. Для предсказания стартовых кодонсв было использовано правило Козак: стартовые кодоны удовлетворяют одному кз консенсусов гппплие или ливд (при тестировании в некоторых случаях стартовые кодоны считались наперед заданными). Для прздеказаняя сайтов сплайсинга использовалась дискриминационная энергия с параметрами, полученными на первом этапе, и noporai.ni, которым удовлетворяют все донорные к вез 99% акцепторных сайтов из обучающей выборки. Результатом работы

этой процедуру ясляется список потенциальных сайтов сплзйсчкга, для каждого из которых определена сила его взаимодействия с распознающими ферментами.

Затем перебираются всевозможные наборы экзонов с границами, полученными на предыдущем шаге. Для каждого набора определяется кодирувщий потенциал соответствующей мРНК я^ (в соответствии с результатами второго этапа был применен тез^Со^е) и средние дискриминационные зиергии задающих этот кабс-р донорных и акцепторных сайтов сплайсинга я и я

Л а

соответственно. Три полученные величины нормируются (выражаются в единицах стандартного отклонения) и складываются; результат считается характеристикой рассматриваемого варианта. Точнее, пусть К и н - средние дискриминационные энергии, а <з к

€Х а Л

са - средние квадратичныэ отклонения для обучающих выборок донорных и акцепторных сайтов соотвотственкс; пусть тачге М^ к б - средний кодирующий потенциал последовательностей пз

с

обучающей выборки к среднее квадратичное отклонение. Тогда объединенная распознающая функция есть

л = (я - М ) ✓ о + (К — я у у б + (М - я )/ б .

с с с о а а

(напомним, что больней силе сайта соответствует меньшая дискриминационная энергия). Все варианты ранжируются по убыванию к.

Модульная структура предлозеннного алгоритма позволяет использовать различные локгльнне и глобальные алгоритмы, различите способы нормировки и добавлять ковие параметры такие, как качество стартового кодона,. длина экзонов и иктронов, положение экзон-кнтронных границ внутри кодона, а такте использовать априорную информацию о возможном количестве

ехзопов и о предполагаемой длине белксзоге продукта.

Материал. Алгоритм бил тсст;:роган на тех ге 1юс"эдогательностях, на которых тестировался лекальный подалгоритн на первом этапе работы, а также на последовательностях, случайным образом извлеченных из банка к не использовавшихся на предыдущих этапах работы (экзамен). Еылл использованы последовательности э-глобина (1830 кп, 1663 нп после стартового колона), главного комплекса гистссовнестимоста (3380 кп после старта), кеталлотпзнеина (1703 нп. 867 нп после старта) гзз рРНК (2235 нп) человека; интерлейкина мыии (3140 нп, 2418 нп после старта); у-Христа ллг.на (2887 нп после старта), миозина (3070 нп после старта), хямотрипскна (5309 нп, 5077 нп), актина (1963 нп), металлотионеина (8351 нп, 6462 нп) крысы, р-глобина (1827 нп) и главного комплекса гистосовместкмости (3881 нп) кролика.

Четыре последовательности были включены в экзаненационнув выборку специально для того, чтобы проанализировать работу алгоритма з неблагоприятных условиях: актин крысы имеет один из капхудиих донорных сайтов в обучающей выборке; главные комплексы гистосовкестимости имеют ненормально плохой акцепторный сайт зо втором зкзоне, пропускаемый локальным подалгорлтмом (ср. табл. 3); последовательность металлотионеина красы содерхлт два гомологичных гена, разделенных больвпм спейсерсм (4737 нп). Последовательность рРНК больяой субчастшы была рассмотрена для анализа работы алгоритма при отсутствии в рассматриваемой последовательности белок-кодирующих областей.•

Результаты (табл. 6, рис. 3). При фиксированном стартовом кодоне алгоритм правильно предсказывает экзон-интроянув

структуру р-глобина и металлэтионеика человека. Для интерлейкина мыаи, ?-;сристалл;ша, миозина, хшотрипскна крысы истшшмй сартант находится в числе 15 лучших из 1.5-30 тысяч. Для актина крысы истинный вариант является 163-м из »325 тысяч (напомним, что эта последовательность спепкгльно была выбрана с цельи анализа работы алгоритма в условиях существенно более неблагоприятных чем обычно). Для главного комплекса гистссовнестикости человека один из акцепторных сайтов пропускается локальным подалгоритмом. В такой ситуации ранг истинного варианта сплайсинга неопределен, однако лучиий вариант близок к истинному. Наконец, в последовательности, содержащей два гена кеталлотчонепна красы, истинные варианты находятся в числе 10 лучтах из 2.5 тысяч (при пос'кередисм фиксировании стартовых колонов).

При предсказании стгртового кодона при помощи правила Козак, для последовательностей р-глоб.чна и металлотЕонеияа человека по-прз2нему лучшим являлся истинный вариант (кз 1500 и 400 соответственно); результат предсказания не ухудшился для металлотионеина крысы (причем были найдены обе копил гэьта). Истинный вариант был найден для последовательности р-глобипа кролика (та 14700 вариантов при е^<12). В

последовательности интерлейктша ныли ранг истинного варианта стал 24 вместо 10, г в последовательности хзшотрипсина крысы -17 вместо 11 при узелипьдии количества перебираемых вариантов в 3-4 раза.

Варианты, лучшие чьм истинный, обычно отличается от истинного в одном-дзух ез нескольких экзонов, ' а при фиксировании числа экзонов лучвий вариант является истиннхм во

поел. 1 ее длина после истин. КОД. AUG рис. кол-во вар. & ранг истин. кРНК 1: условие; 2: парам, ист. колир. обл. 3: парам, предсказан, ойл. кол-во донор, и акпепторн. сайтов и другие хемментарии

l л d С я

ниммЕтг 867 за 328 1 >120 1 84 184 <13 3. 34 3. 94 <12 4 . 05 4.05 1 .30 1.30 г. ю 2. 10 13 а. & о д. Точное предсказание

HUM3GL3 (фрагм. ) 1663 зб 1353 1 >300 477 477 <13 <1.84 4 . 84 <12 -0.26 -0. 26 1.25 1.25 з. зз 3.33 17 а. г, 24 д. Точное предсказание

MUSIL3B 24 1 8 зв 15014 12 >300 501 330 <12 S. 2?. 6.ч7 <12 4 . 66 4.36 0.98 1.08 -0. 75 -0.20 36 а. & 25 д. Наилучпий 5-экз. вар.

RATCRVG 2387 зг. 1398 5 >300 525 ЗОЭ <1 1 7. 39 7. 00 <10 3.06 1. 93 1.08 1.07 -0.24 0. 56 25 а. А 30 д. Лучший 3-экз. вар. короче на 8? иукл.

RATMYL2G 3070 зд 3207 4 >300 510 312 <11 6. 08 5. 30 <10 4 .48 5. 1 1 1 .29 1 . 23 1.05 1.13 21 а. А 42 д. Наилучший 7-экз. вар.

RATCTPRB 5077 зе 3 1790 15 >□00 792 612 <10 5.61 5. 73 <10 5.11 4.75 1.16 1. 22 0. 29 0. 68 27 а. & 58 д. Лучший 7-экз. вар. короче яа 18 яукл.

PATACSKA 1963 зг 323337 ¡38 >500 1 134 600 <13 5.42 4 .52 <12 6.97 4 .40 1 . 30 1 . 29 0.31 1.73 25 а. Л 24 д. Ранг среди 6-экз. вар. -7 Изменэла мня. длина шггропа

НШ.ШН 3030 зз 595 >600 1 134 74 1 <9 7.77 3. 25 <8 3. 73 1 . 24 1. 10 1 . 29 -0.30 1.26 19 а. & 16 д. Ранг не оценивался

RATMT 12С 6462 зи 2535 ИСТ. : 9 лучи, смей. : с. ■ >90 1 86 136 159) <10 5. 03 3. 28 пре 1 . 84 <9 2. 10 4 . 95 дсказа 0.85] 1 .26 1 . 38 нпый: 1 . 26 2.30 2.31 4 . 02 25 а. & 4 1 д. Два гена в последоват. : приведены оба набора параметров

Табл. 4. Результаты предсказаний.

Рис. 3. Результаты предсказаний. Схематическое представление тестированных последовательностей с длиной справа и описанием сайтов слева. Длинные интроны показаны не в масштабе. Успешно предсказанные районы: экзоны; | :

некодкрующие (интроны и хвосты). Ошибки предсказания (длина показана курсивом): : пропущенный кодирующий район; Щ : неправильная рамка считывания; В : лозный пекодирувщий район. Для каждого донорного <о> и акцепторного <а> сайта приведены его дискриминационная энергия и ранг, е обозначает конец белка. б в КАТис1гс обозначает начало второго гена. Ис.-инние сайты показаны жирным прифтом, пропущенных сайты показаны курсором, ЗЛГЛАВПЫШ БУКВШ1, лояяые сайты Показаны курсивом, сспроч;:ини буквани.

са> ниммЕтг (б> нuнвGLЗ ся> миэизв

ге "Р 0 4.99/г

303

52 87

92

13«

А 2.32/1 И 3.11/1 ггз

А 5.57/г Е

Б 4.09/г

А 5.19/1 О 3.50/1

<Г) RATCRYG

9 "г3 D

2 7

.99/1 А 7.00/3

(Д) RATMYL2G

3 D 3.70/3

SS D 1.83.'

4.14s*

39 79

Л 3.97/tz

■ Ca 7.&3/4)

fr

M D 4.

А 5.95/6 54/7

А -4.07/г D 8.26/26

Mb Ь

/ 9.30/»» 93/»

А 5.07/3 D 3.77/4

К-Ч-1 А 8.55/3 F&íd D 4.70/e

А 3.53/1 E

» » » 9 S

A 7.59/11

D 3.59/4

A 4.29/2

D 6.87/21

A 8.89/17

-fd S.75/12}

d 6.J5/»s

d б.б5/»э

A 2.95/1

D 4.78/5

л - 4.93/3 D 7.42/3S

A 5.1b/-

i i os

(X) RATACSKA

(3) HUMMH

Cl) RATUT12C

TS 9 4

76 T 7

ó 5. 17/3 D 7.07/в

А 4.05/г

D 4.05/г

A 4.87/«

D 5. 27/л d 3.98/1 A 3.59/1

D 11.69/21 Л 9.97/13

D 6.76/е А 4.62/3

D 3.75/3 A 6.28/jo

D 3.90/«

ce

129

л 16.02/na 92

D 7.11/11

0

5 7 0 /

M E

«41 /

„ Í

3 9 4 /

D 0.86/1

A 4.71/3

D 3.3-l/a

A 5. 36/s E

A 8.11/16

D 4.28/s A 5.39/4

4767 /

D 1.08/1 2B Ф D 6.19/

A 1. 07/1 D 2. 24/2

A 6.74/1л 6 6 £

100 92

A • 1.84/1

D 3.7 0/3 e

/ 4.71/*

E

m и a 5.01/2

всех случаях, креме двух, где он отличается от истинного крайне незначительно. Вообще, использование грубой и легко получаемой (по сравнению с секвенированием) априорной информации о числе экзонов и о предполагаемой длине кодируемого белка позволит делать практически точные предсказания. В отсутствие такой информации ыохно оставлять один-два лучших вариант из 2-экзояных, 3-экзонных и т. л. и тем самым практически гарантировать наличие истинного варианта среди не более 20 предсказанных (которые, к тому хе, будут отличаться лишь на отдельных участках).

Как ухе было отмечено, алгоритм оставляет много возможностей для дальнейшего развития. Однако ухе сейчас он существенно расииряет . возмохности . компьютерного анализа нуклеотидных последовательностей, давая возмохность осуществлять практически применимые предсказания белок-кодируюиих областей в последовательностях с экзон-интронной структурой.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. В результате анализа информационного содерхания негомологичных последовательностей предложен консенсус донорного сайта сплайсинга ^Аб^си^Аои и консенсус акцепторного сайта у пслз/о.

17

2. Показано избегание динуклеотида до в области (-15)-(б) перед акцепторным сайтом, что могет являться свидетельством в пользу существования какой-либо формы сканирующего механизма при узнавании акцепторного сайта, включающего инвариантный ас на 3' интрона. .

3. В результате анализа распределения т'етранухлеотидов показано наличие сигнала сСАССОад в иктроне в районе (-68)-(-58) перед акцепторным сайтом.

4. Сформулировано минимальное условие для сайта ветвления: наличие внутри района (-30)-(-16) на 3' конце интрона

пентануклеотила, отличающегося от уиклу не более, чем в одной позиции.

5. Показано, что наиболее протяженнее комплементарности мехду донорным сайтом н и! ияРНК находятся в районе (-12)-(»8) доноркого сайта.

6. Показано преобладание (по сравнении с случайныии последовательностями) протяженных коиплонентарностей кзхду районами (-69)-(55) и (-36)-(-22) левее акцепторного сайта.

7. " Построен к тестирован алгоритм распознавания сайтов сплайсинга с использованием дискриминационной энергии.

8. • Показано наличие слабой корреляции мехду дискриминационными энергиями узнавания донорпого и акцепторного сайта, которые являются концами одного нитроза.

9. Произведено сравнение глобальных алгоритмов предсказания белок-кодирующих областей в стандартных условиях. Показана невозможность установления единого порога распознавания для большинства алгоритмов при работе с геномами с мозаичным Бс-содерханием (в том числе, с геномами млекопитающих).

10. Построен новый алгоритм предсказания белок-кодирующих областей для последовательностей, обладающих экзоц-пнтронной структурой. Алгоритм включает локальную процедуру предсказания границ экзонов, процедуру сценки кодшрувяего потенциала предполагаемой иРНК и процедуру вычисления распознающей функции. Произведено тестирование этого алгоритма на экзаменационной выборке. Б бсльиинстве случаев алгоритм позволяет выбрать 10-20 незначительно различающихся вариантов мРКК, среди которых находится истинней. Во всех случаях лучвий предсказанный вариант содерхит болэе половины кодируемого белка. Качество предсказаний улучазэтся при использовании априорной информации о количестве кодчруюиих экзонов. Модульная структура предло-енного алгоритма позволяет использовать другие относительно иросто получаемие сведения о кодируемом белке (например, приблизительная длина к аминокислотный' состав) и статистические параметры (предпочитаемые длики и полохзния относительно рамки считывания экзонов и интроков). •

ЦИТИРОВАННАЯ ЛИТЕРАТУРА

1. Т-D.Schneider, G. D.Stormo, L.Gold, A.Ehrenfeucht. Infor.aation content of binding sites in nucleotide requences // J. Hoi. Biol. 1936, V.188, ПО.З, 415-431.

2. O.G.Berg, P.H. von Hippel. Selection of DNA binding site: by regulatory proteins /V J. Hoi.Bid. 1337, V.193, ПО. 4, 723-750.

3. M.В.Shapiro, P. Sena pa thy. RiJA splice Junctions of different classes of eukaryotes: sequence statistics and functional implications in gene expression // Sue'. Acids Res. 1987, V.15, ПО.17, 7155-7174.

4. Y.lida. DNA sequences and multivariate statistical onalysis. Categorical discriminant approach to 5* splice site signals of mRNA precursors in higher eukaryotic genes // Comput. Appl. Bloscl. 1937, V.3, ПО.2, 93-98.

5. f.Iida. Quantitative analysis of 5'-splice site signal sequences in rcRNA precursors. Mutations In rabbit fl-globizi gene // Blochlm. Blophys. Acta 1989, V.1007, ПО.З, 270-276.

6. J. W. Fickett. Recognition of protein coding region!; in DNA sequences tfucJ. ^cids Res. 1982, V.10, ПО.17, 5303-5318.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. М. С. Гельфанд. Статистический анализ областей сплайсинга млекопитающих /у Нояекулярная биология 1989, т.23, . №5, 1428-1439.

2. M.S.Gelfand. Statistical analysis of mammalian pre-mRNA splicing sites ✓✓ Hucl. Acids Res. 1989, V.17, ПО. 15, 6369-6382.

3. M. С. Гельфанд. Методы статистического анализа функциональных сайтов и их применение /-/ Препринт ИСК АН СССР (М., 1980), 1-68.

4. М. С. Гельфанд. Предсказание белок-кодируюцих областей а нуклеотидных последовательностях // Препринт НЦБИ АН СССР, (Пущино. 1990), 1-56.

5. M.S.Gelfand, Prediction of protein-coding regions interrupted by introns у/ Modelling and Computer Hethods In Holacular Biology and Genetics (International Conference,, Novosibirsk, ¡990), 11-12.

6. M.S.Gelfand. Global methods for the computer prediction of protein-coding regions in nucleotide sequences // Biotechnology Software 1990, V.7, ПО.4, 3-11.

7. M.S.Gelfand. Computer prediction of the exon-intron structure of лапша 11 an pre-mRNAs // Duel. Acids Res. 1990.

v.18, по.19, 5855-5869.

8. M. С. Гельфанд. Коли генетического языка к естественный язык // Вопросы ягыт.сзнания 1990, К В, 60-70.

9. Ю. Л. Спригкцкий, М. С, Гельйанд, Ю. А. Каламбет. База данных поисковых моделей функциональных сигналов Тыс,к человека-90 (1 всесоюзная конференция, Шереславль-Залесский, 1990), 210-211.

10. К. С. Гельфанд. Предсказание белск-кодируюцих областей, преванных интронами /у Теоретические и прикладные аспекты колекуллрной биологии (i1 всесоюзный симпозиум, Самарканд, 1991), 50.

11. М. С. Гельфанд. Статистический анализ экзонной структуры генов человека // Геном человека-91 (и всесоюзная конференция, Переславль-Залесский, 1991), 1523-153.

12. М.S.GeIfand. FANS_REF release 4.3 // Biotechnology Software 19QI, V.8, ПО.5-6 and 1992, V.9, ПО.1-2.

13. M. С.Гельфанд.' Компьютерный функциональный анализ нуклеотидных последовательностей. 1. Выделение функциональных сигналов // Биофизика (в печати).

14. Ы. С. Гельфанд. Компьютерный функциональный анализ нуклеотидных последовательностей. 11. Предсказание регуляторных участков // Вчофизриа (в печати).

15. li. С. Гельфанд. fans_ref - библиографический банк дапных по компьютерному функциональному анализу нуклеотидных последовательностей /✓ Биофизика (в печати).

16. M.S.Gelfand, С. G. Kozhukhin, P.A.Pevzner. Extendable vords in nucleotide sequences // Сотриt. Appl. Bloscl. 1992, V.8, ПО.2, 129-136.

17. M.С. Гельфанд. Статистический анализ экзонной структуры генов человека // Биофизика (в печати).

18. M.S.Gelfand. Statistical analysis and prediction of the exonic structure of huatan genes // J. Hoi. Evol. 1992, V.35, ПО.2 Cin press).

IS. M.S.Gelfand. Exon and intron types of hucan gones revisited // Biomedical nodeling end sinulation (J. Eisenfeld, M.Witten. D. S. Levir.e, eds.), Elsevier, !Э92 Cin press).

20. M.S.Gelfcnd, M.A.Roytberg. Prediction of the exon-intron structure by a dynamic programing procedure // Dlotechnolcgy Softvare 1092 (in press).