Бесплатный автореферат и диссертация по биологии на тему
Компьютерный анализ и предсказание функциональных особенностей последовательностей ДНК
ВАК РФ 03.00.03, Молекулярная биология

Текст научной работыДиссертация по биологии, доктора биологических наук, Гельфанд, Михаил Сергеевич, Пущино

■М'-М-в / 4

РОССИЙСКАЯ АКАДЕМИЯ НАУК

ИНСТИТУТ БЕЛКА

к ■■ Л

правах рукописи

и

Михаил Сергеевич ГЕАЬФАНД

КОМПЬЮТЕРНЫЙ АНАЛИЗ И ПРЕДСКАЗАНИЕ ФУНКЦИОНАЛЬНЫХ ОСОБЕННОСТЕЙ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ДНК

03.00.03 - Молекулярная биология

Диссертация на соискание ученой степени доктора биологических наук

Пущино - 1998

Содержание

Общая характеристика работы_3

Введение__6

0.1. Экзон-интронная структура генов высших эукариот_8

0.2. Предсказание белок-кодирующих областей в ДНК высших эукариот_10

0.3. Предсказание белок-кодирующих областей с использование дополнительной

информации ___ 16

0.4. Статистический анализ нуклеотидных последовательностей_17

Глава 1. Статистический анализ экзон-интронной структуры и сайтов сплайсинга_22

1.1. Статистический анализ экзон-интронной структуры __22

1.2. Статистический анализ сайтов сплайсинга__25

1.3. Контекстные особенности и корреляции___31

1.4. Обсуждение ____38

1.5. Приложение. Описание выборок__41

Глава 2. Предсказание экзон-интронной структуры_42

2.1. Метод векторного динамического программирования. Формальная постановка задачи_^______ 43

2.2. Метод векторного динамического программирования. Основной алгоритм_45

2.3. Результаты______48

2.4. Обсуждение ________________ 56

2.5. Приложение 1. Варианты основного алгоритма_57

2.6. Приложение 2. Общая постановка задачи на языке теории графов_59

Глава 3. Алгоритмы поддержки эксперимента по поиску генов __63

3.1. Алгоритм__________________63

3.2. Тестирование_______66

3.3. Обсуждение__ 72

Глава 4. Предсказание экзон-интронной структуры с использованием информации о

гомологах 73

4.1. Сплайсированное выравнивание_73

4.2. Фильтрация потенциальных экзонов__76

4.3. Тестирование____77

4.4. Обсуждение___86

4.5. Приложение. Формальная постановка задачи и описание алгоритма_94

Глава 5. Статистический анализ последовательностей ДИК__97

5. Г Избегание палиндромов в бактериальных геномах и системы рестрикции-

модификации _______97

5.2. Продолжаемые слова_____107

5.3. Приложение. Ранговый статистический критерий для подмножеств_113

Выводы. Основные результаты___115

Список работ по теме диссертации__119

Статьи в реферируемых изданиях__119

Другие публикации____121

Литература___124

общая характеристика работы

За последние несколько лет работы по секвенированию больших геномов достигли той стадии, когда компьютерный анализ перестал быть лишь вспомогательным средством обработки и хранения данных и превратился в важную часть самого эксперимента. С другой стороны, уже имеющийся в банках нуклеотидных последовательностей материал позволяет ставить задачу исследования статистической структуры ДНК, а результаты таких исследований в свою очередь используются для совершенствования методов анализа. Ири этом объем и природа данных таковы, что разрабатываемые алгоритмы должны быть эффективны не только по существу, но и с чисто вычислительной точки зрения.

Актуальность. Одной из наиболее важных проблем компьютерной генетики является разработка методов функциональной разметки новосеквенированной ДНК и, в частности, предсказания белок-кодирующих областей. Важность ее обусловлена тем, что эта задача практически эквивалентна предсказанию белков, закодированных в данном фрагменте, и тем самым является предпосылкой применения всей батареи методов анализа первичных последовательностей белков (поиск гомологов, предсказание пространственной структуры, предсказание функции и т.д.). Кроме того, предварительный компьютерный анализ может сыграть существенную, а иногда и решающую роль в экспериментах но идентификации генов.

Сложность же этой задачи связана с наличием у большинства белковых генов высших эукариот нетривиальной экзон-интронной структуры и относительно небольшим размером зкзонов, что препятствует применению таких традиционных техник, как анализ открытых рамок считывания и построение графиков кодирующего потенциала для скользящего окна. Одним из итогов работ, проводившихся многими исследователями в 1980-х гг., стал вывод о том, что анализ отдельных статистических параметров недостаточен для надежной функциональной разметки ДНК.

В 1990 году нами был предложен широко испольуемый ныне разными авторами и в различных модификациях мультикритериальный подход, основанный на одновременном использовании информации о возможных сайтах сплайсинга и кодирующем потенциале возможных экзонов. Он позволил создать первые практически применимые программы распознавания генов в последовательностях ДНК эукариот. Однако стало ясно, что дальнейшее продвижение в этой области возможно только при радикальном изменении

подхода к задаче распознавания: полезны лишь предсказания с гарантированной надежностью. Необходимо было выделить случаи, когда предсказанные гены практически не нуждаются в экспериментальной проверке, а в остальных случаях перейти от абстрактного функционального картирования к непосредственной поддержке эксперимента по идентификации генов.

С другой стороны, помимо решения прикладной задачи создания программ для помощи экспериментатору, компьютерный анализ последовательностей ДНК является самостоятельной областью исследований. Обнаруженные статистические закономерности позволяют делать нетривиальные биологические выводы о связи последовательности, структуры и функции ДНК, эволюции и происхождении экзон-интронной структуры генов высших эукариот, особенностях процесса сплайсинга, эволюции целых геномов и т.д. Но как и в прикладных исследованиях, здесь чрезвычайно важен комплексный подход, позволяющий делать выводы на основе учета многих, слабых при изолированном рассмотрении, закономерностей.

Цель работы состояла в статистическом анализе сайтов сплайсинга и экзон-интронной структуры генов высших эукариот, исследовании статистических особенностей природных ДНК, разработке эффективных комбинаторных алгоритмов для мультикритериальных методов предсказания белок-кодирующих областей в ДНК высших эукариот, разработке программ прямой поддержки эксперимента по идентификации генов.

Научная новизна и практическая ценность работы. Проведен статистическй анализ экзонной структуры генов человека и впервые найден ряд закономерностей в распределении длин интронов и экзонов, а также сигналов сплайсинга. Предложен, реализован и тестирован алгоритм векторного динамического программирования для предсказания экзон-интронной структуры. Предложен, реализован, тестирован и введен в практику новый комбинаторный подход к проблеме компьютерной поддержки экспериментов по поиску генов. Предложен и реализован метод точного предсказания экзон-интронной структуры генов при наличии гомологов, со средним уровнем предсказания 98-99% и гарантированно точным предсказанием приблизительно в одной трети случаев. Создан и поддерживается электронный сервер, осуществляющий такие предсказания по анонимным запросам. Обнаружены несколько новых генов человека. Произведен статистический анализ полных бактериальных геномов, в ходе которого показано избегание палиндромов длины 4-6. Показано, что это избегание связано с

эволюцией систем рестрикции-модификации. Предсказаны новые системы рестрикции-модификации в геноме архебактерии МеШапососсж}аппаисШ.

Апробация работы. Основные результаты были представлены на ГУ-УШ конференциях "Геном человека" (Черноголовка, 1993, 1994, 1996, Москва, 1997, Черноголовка, 1998), Школах по проблемам молекулярной биологии и биофизики (Черноголовка, 1993, Репино, 1996), Научных конференциях Института белка РАН (Пущино, 1993, 1995), Международном конгрессе "Компьютерные системы и прикладная математика С8АМ'93" (Санкт-Петербург, 1993), 1-м международном конгрессе по вычислительной медицине и биотехнологии (Остин, США, 1994), 3-й международной конференции по биоинформатике и геномным исследованиям (Таллахасси, США, 1994), Конференции "Комбинаторные методы картирования и секвенирования ДНК (Ратгерс, США, 1994), Конференции "Поиск генов и предсказание структуры генов" (Филадельфия, США, 1995), 5-й конференции программы "Геном человека" Министерства энергетики США (Санта-Фе, США, 1996), 11-й международной конференции по математическому и компьютерному моделированию (Вашингтон, США, 1997), Конференции по распознаванию генов (Колд Спринг Харбор, США, 1997), 5-й международной конференции по интеллектуальным системам для молекулярной биологии 18МВ'97 (Халкидики, Греция, 1997), 2-й международной конференции "Математический анализ биологических последвательностей" (Руан, Франция, 1997), Конференции Ньютоновского института "Статистический анализ нуклеотидных и белковых последовательностей (Кембридж, Великобритания, 1997), Конференции, посвященной 30-летию журнала "Молекулярная биология" (Москва, 1997).

Введение

За последние несколько лет работы по секвенированию больших геномов достигли той стадии, когда компьютерный анализ перестал быть лишь вспомогательным средством обработки и хранения данных и превратился в важную часть самого эксперимента [68А-В]. С другой стороны, уже имеющийся в банках нуклеотидных последовательностей материал позволяет ставить задачу исследования статистической структуры ДНК, а результаты таких исследований в свою очередь используются для совершенствования методов анализа. При этом объем и природа данных таковы, что разрабатываемые алгоритмы должны быть эффективны не только по существу, но и с чисто вычислительной точки зрения.

В частности, повысилась актуальность разработки методов компьютерного картирования функционально важных участков новосеквенированных последовательностей ДНК. Поиск белок-кодирующих областей в ДНК высших эукариот является одной из самых важных, но и самых сложных задач в этом разделе компьютерной генетики.

Важность ее обусловлена тем, что эта задача практически эквивалентна предсказанию белков, закодированных в данном фрагменте, и тем самым является предпосылкой применения всей батареи методов анализа первичных последовательностей белков (поиск гомологов, предсказание пространственной структуры, предсказание функции и т.д.). Более того, предварительный компьютерный анализ может сыграть существенную, а иногда и решающую роль в экспериментах по идентификации генов. Только в 1996 компьютерный анализ был применен при идентификации генов b'MRl на хромосоме X, связанного с легкой олигофренией [69А], RPCG, мутированного при Х-связанном retinitis pigmentosa [69Б], генов синдрома ДиГеорге [70-71] и Х-связанной миотубулярной дистрофии [72], мышечноспецифичного гена ипс-89 нематоды Caenorhabditis elegans [73], а также при анализе альтернативного сплайсинга гена zipper дрозофилы, кодирующего тяжелую цепь немышечного миозина 11 [74j. При этом, в первых двух случаях ген вообще не мог быть обнаружен без предварительного сужения области поиска с применением компьютерного анализа.

Сложность же этой задачи связана с наличием у большинства белковых генов высших эукариот нетривиальной экзон-интронной структуры и относительно небольшим размером

экзонов (в среднем около 130 нп [75-76]), что препятствует применению таких традиционных техник, как анализ открытых рамок считывания и построение графиков кодирующего потенциала для скользящего окна.

В настоящей работе рассматриваются комбинаторные методы функционального анализа последовательностей ДНК. Они основаны на одновременном рассмотрении многих характеристик, каждая из которых по отдельности не достаточна для уверенного распознавания. В частности, в главах, посвященных статистическому распознаванию белок-кодирующих обастей, рассматриваются методы, использующие кодирующий потенциал, т.е. глобальную статистику кодирующих областей, распознавание сайтов сплайсинга, основанное на анализе локальных сигналов, и статистические свойства экзон-интронной структуры (главы 1-3). Метод сплайсированного выравнивания комбинирует предварительное статистическое распознавание отдельных экзонов с предсказанием полной экзон-интронной структуры, использующим информацию о гомологах (глава 4). В пятой главе показано, как использование статистического анализа ДНК прокариот, анализ гомологов и учет хромосомной локализации позволяет предсказывать системы рестрикции-модификации и их специфичность - в настоящей работе эта задача поставлена впервые.

Другим важным общим аспектом этой работы является то, что изменение традиционных постановок задач компьютерного анализа позволяет не только улучшать чисто статистическую надежность предсказательских методов, но и радикально увеличивать практическую применимость предсказаний. Наиболее ярко это проявилось при разработке алгоритмов вычислительной поддержки эксперимента по идентификации генов (глава 3) и алгоритмов предварительной фильтрации потенциальных экзонов, применяемых на первом этапе предсказания генов с использованием гомологов (глава 4).

Помимо чисто практического использований статистического анализа нуклеотидных последовательностей для усовершенствований предсказательских алгоритмов, он позволяет делать нетривиальные теоретические выводы о функционировании и эволюции тех или иных структур. В частности, статистический анализ экзон-интронной структуры (глава 1) указывает на важность эволюции путем тасования экзонов, на возможность существования нескольких механизмов узнавания концов одного экзона, на наличие сканирующего механизма при узнавании сплайсосомой акцепторного сайта и т.п. - многие из этих предсказаний поддаются прямой экспериментальной проверке. Статистический

анализ отражает важную роль участков с регулярной структурой (гомонуклеотидные и чередующиеся блоки) в последовательностях ДНК. Наконец, анализ распределения палиндромов в бактериальных геномах прямо указывает на их связь с системами рестрикции-модификации и на важную роль горизонтального переноса генов в эволюции этих систем (глава 5).

0.1. экзон-интронная структура генов высших эукариот

В настоящее время существуют две основных теории происхождения интронов. Согласно одной (Гилберт [77-79], Блейк [80-82], Дулиттл [83], Сенапати [84] и др.), интроны существовали изначально и были потеряны у прокариот под давлением отбора в сторону экономии объема генома. Согласно второй (Кавалье-Смит [85], Хики [86-87] и др.), интроны появились у эукариот после разделения последних с прокариотами в результате действия ретропозон-подобного механизма.

Во многих случаях экзоны соответствуют функциональным [77, 88-89] и/или структурным [79-81, 88-90] доменам белков (критический обзор см. в [76], попытку опровержения - в [91]). Модульная структура многих семейств может быть результатом перестановки экзонов [92-93]. Во многих семействах генов имеются признаки потери, смещения и экзонизации интронов [94-97]. Согласно наблюдению Патти [93], дуплицированные или заимствованные экзоны должны иметь длину, кратную 3; действительно, такие экзоны встречаются чаще, чем в 33% случаев (например, [75, 98]).

С другой стороны, в некоторых случаях было показано внедрение интронов в существующие гены [92, 99-100]. Хики и соавт. [86-87] постулировали аналогию между интронами и ретропозонами, при помощи которой можно также объяснить случаи тасовки экзонов. Утверждается, что интроны встроились в подходящие места, из которых они могли выщепляться каким-либо предсуществующим механизмом. Такой подход позволяет объяснить, почему вставка интрона не разрушала белок-кодирующее сообщение, на что указывал еще Дулиттл [83]. Вероятная вставка интронов в ходе эволюции белковых семейств была показана Райтом [101].

Модель поздних интронов подтверждается также аналогиями между ядерным сплайсингом и самосплайсингом интронов типа II [102-103] и существовании транс-

сплайсинга в геномах кинетопластид и нематод с механизмом практически аналогичным обычному сплайсингу [104-105].

Следует отметить, что результаты эволюционного и. или структурного анализа позиций интронов в семействах гомологичных белков из разных таксономических групп часто бывают противоречивы. Среди примеров, вызвавших особую полемику, упомянем актины [100, 106-107], триозофосфат-изомеразы [79, 109-111], глицеральдегид-3-фосфат дегидрогеназы [91, 112-113].

Другим важным аспектом анализа экзон-интронной структуры является сам механизм сплайсинга, точнее, механизм узнавания концов одного интрона. В ряде ранних работ предполагалось наличие сканирующего механизма, который просматривал бы транскрипт в направлении от 5f конца к У концу и устанавливал соответствие между донорными и акцепторными сайтами [114], однако результаты опытов с дупликацией сайтов были противоречивы [115-118]. Хотя последовательной теории выбора сайтов при сплайсинге в настоящее время не существует, по современным представлениям такие механизмы могут быть различны в зависимости от длин соответствующих экзонов и интронов. В частности, при коротких интронах, каков