Бесплатный автореферат и диссертация по биологии на тему
Анализ встречаемости РНК транскриптов, способных к формированию конформации SLS, в геномных последовательностях
ВАК РФ 03.00.02, Биофизика

Автореферат диссертации по теме "Анализ встречаемости РНК транскриптов, способных к формированию конформации SLS, в геномных последовательностях"

МОСКОВСКИЙ ФИЗИКО-ТЕХНИЧЕСКИЙ ИНСТИТУТ (ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ)

Факультет молекулярной и биологической физики 0 4

? О КПП 7000

На правах рукописи УДК 577.32

Здобнов Евгений Михайлович

Анализ встречаемости РНК транскриптов, способных к формированию конформации в геномных последовательностях

Специальность 03.00.02 - Биофизика

АВТОРЕФЕРАТ

диссертации на соискание учёной степени кандидата физико-математических наук

Долгопрудный - 2000

Диссертация выполнена на кафедре молекулярной биофизики Факультета Молекулярной и Биологической Физики Московского Физико-Технического Института, в Группе физики нуклеиновых кислот Лаборатории физики биополимеров Института Молекулярной Биологии имени В.А. Энгельгардта РАН и в European Bioinformatics Institute - outstation European Molecular Biology Laboratory.

Научный руководитель:

доктор физико-математических наук, профессор В. И. Иванов

Официальные оппоненты:

доктор физико-математических наук, профессор В. Г. Туманян

доктор биологических наук,

кандидат физико-математических наук, в.н.с. М.С. Гельфанд

Ведущая организация: Институт Теоретической и

Экспериментальной Биофизики РАН

Зашита состоится «^>> декабря 2000 г. в часов на заседании Диссертационного совета К.063.91.10 при Московском Физико-Техническом Институте по адресу: 111700, г. Долгопрудный Московской области. Институтский пер. 9, МФТИ, ауд.113 Г.К.

С диссертацией можно ознакомиться в библиотеке МФТИ или Диссертационном совете К.063.91.10 при МФТИ.

Автореферат разослан « ноября 20001

Ученый секретарь Диссертационного совета

кандидат физико-математических наук, доцент В.Б. Киреев

Еочо Л j 0

FOIL

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы

Функции биомакромолекул определяются их взаимодействиями. Физика таких взаимодействий, в свою очередь, во многом определяется их структурой. Таким образом, определение структур макромолекул - не только важный шаг в направлении понимания их функциональной активности на физическом уровне, но и перспективная модель для теоретического предсказания неизвестных взаимодействий.

Показано, что на разных стадиях биологической активности макромолекулы могут иметь различную структуру, так что конформационные перестройки играют первостепенную роль в реализации биологических функций. Этот факт делает актуальным предсказание не только «наилучшей» структуры, но и её альтернативных вариантов.

В-форма ДНК, открытая Watson и Crick, не является единственно возможной. В настоящее время исследуются и другие - альтернативные конформации, называемые необычными. Для образования таких структур, как правило, требуются определённые нуклеотидные последовательности. Необычные конформации могут возникать при сверхспирализации ДНК, в РНК и в комплексах нуклеиновых кислот с белками. Есть основания полагать, что наряду с такими уже известными необычными структурами нуклеиновых кислот как Кресты, Триплексы и Псевдоузлы существуют и другие типы.

В нашей лаборатории была предложена необычная конформация нуклеиновых кислот, названная Slipped Loop Structure (SLS), способная объяснить повышенную чувствительность участков с короткими прямыми повторами к действию одноцепочечных нуклеаз. Так как такие повторы широко распространены в геномных последовательностях, то способность к образованию предложенной нами структуры вполне могла бы быть использована в ходе эволюции. Молекулярным моделированием была показана принципиальная возможность существования такого типа структур из соображений молекулярной геометрии, т.е. без нарушения длин валентных связей, углов и с учётом тесных контактов. Были построены полноатомные молекулярные модели стерически возможных конформации как для ДНК. так и для РНК, а также, проанализирована конформационная жёсткость таких структур.

Как правило, неканонические конформации ДНК не являются энергетически наиболее выгодными. Однако аналогичные конформации для РНК, которая является одноцепочечной молекулой, могут быть энергетически выгодными и вопрос о функциональной роли таких структур становится весьма актуальным. Более того, интерес к изучению компактных пространственных структур нуклеиновых кислот основывается на их возможных каталитических свойствах.

Развитие Internet и конкретно World Wide Web революционизировало процесс обмена информацией в научном сообществе, и в настоящее время Internet предоставляет доступ к обширным ресурсам данных, в частности, по молекулярной биологии. К настоящему времени накоплено огромное количество прочитанных первичных последовательностей нуклеиновых кислот. Успешная реализация геномных проектов, включающие Дрозофилу и Человека, привело к экспоненциальному росту доступных геномных данных. Эти данные

являются важным источником экспериментальной информации для проверки различных гипотез и теоретических предсказаний. Анализ накопленных данных (основная задача биоииформагики) позволяет выдвигать новые гипотезы для экспериментальной проверки и использовать найденные статистические закономерности в эвристических алгоритмах.

Активное использование больших объёмов информации немыслимо без использования современных информационных систем на базе ЭВМ. Хранение и доступ к большим объёмам данных представляют собой целое направление в информатике и, на текущем этапе, системы интегрированного доступа к разнородным данным особенно актуальны. В данной работе использовалась активно разрабатываемая система SRS, способная предоставлять доступ к широкому спектру разнородных биологических данных и интегрировать методы анализа биополимеров. Помимо легкости интерактивного использования интегрированных под SRS данных, SRS WWW интерфейс открывает возможность использования результатов работы широкому научному сообществу.

Цели и задачи исследования

Основной целью данной работы было изучение методами биоинформатики теоретически предсказанной необычной структуры нуклеиновых кислот - SLS. Основной задачей являлось исследование встречаемости участков в геномных последовательностях, РНК! транскрипт которых способен к образованию SLS, для выявления функциональной роли таких структур.

Научная новизна

Данная работа посвящена изучению конформации SLS, впервые предложенной в нашей лаборатории. В то время как PHK-SLS и Псевдоузел имеют одинаковые ограничения на первичную последовательность, и биологическую значимость Псевдоузла можно считать доказанной, предложенная пространственная структура SLS существенно отлична от геометрии Псевдоузла.

В данной работе впервые произведён систематический анализ встречаемости РНК транскриптов, способных к формированию SLS, в геномных последовательностях. Такие транскрипты были названы SL-палиндромами (SLP). Данная работа показала распространённость таких мотивов, что поддерживает гипотезу о возможной биологической значимости предложенной структуры. Полученные результаты позволяют предложить гипотезы о функциональной роли SLS для дальнейшего экспериментального и теоретического исследования.

Был предложен и использован оригинальный метод оценки значимости встречаемости SL-палиндромов в геномных последовательностях.

В работе использовалась перспективная развивающаяся система для однородного доступа к биологическим данным и интеграции методов анализа биополимеров - SRS.

Теоретическое и практическое значение

SLS пополнила ряд возможных пространственных мотивах нуклеиновых кислот. Анализ встречаемости транскриптов геномных последовательностей, способных к образованию SLS, показал значительную распространённость таких мотивов. Выявленные неоднородности распределения этих мотивов и

найденные консервативные SLP в рибосомных РНК позволяют выдвигать гипотезы о функциональной роли SLS.

Из практических выходов настоящей диссертации является интеграция доступа к данным и методам поиска SLP на базе SRS с Internet доступом.

Апробация диссертации и публикации

Материалы диссертации были доложены на XXXIX конференции МФТИ (1996), на Юбилейной XL конференции МФТИ (1997), на семинаре в Институте Молекулярной Биологии (1MB-Jena, Германия) (1998) и на семинаре в Институте Исследования Рака (DKFZ, Германия) (1998). Всего по теме диссертации опубликовано пять работ.

Структура диссертации

Диссертационная работа состоит из Введения, Обзора литературы, четырёх глав (Модель поиска SLP и критерий оценки значимости встречаемости, Результаты анализа встречаемости SLP, Консервативные SLP в Рибосомных РНК, Разработанная инфраструктура доступа к данным и методам), Выводов и Списка цитируемой литературы.

СОДЕРЖАНИЕ ДИССЕРТАЦИИ

Обзор литературы

В обзоре литературы рассмотрены работы, посвященные исследованиям необычных структур нуклеиновых кислот, методам аналитического анализа геномных последовательностей и теоретическим подходам к предсказанию структур РНК. Описаны использованные ресурсы биологических данных в Internet.

Необычная структура нуклеиновых кислот SLS

Одним из методов, успешно применяющимся при исследовании необычных структур, является химическая модификация. Метод основан на том, что определённые химические реагенты или нуклеазы предпочтительно взаимодействуют с неспаренными участками. Применение этой методики для последовательностей, содержащих короткие прямые повторы (5-7 п.о.), показало существование неспаренных участков ДНК. Это объяснялось образованием сдвинутых относительно друг друга на длину повтора петель в каждой нити. Возможность участия такой структуры в процессах регуляции транскрипции и рекомбинации, а также как элемента организации хроматина обсуждалась в ряде работ. А именно, тот факт, что нуклеотиды петель неодинаково чувствительны к нуклеазе S1, специфичной к неспаренным участкам, позволил предположить, что комплементарные друг другу участки двух петель взаимодействуют с образованием дуплекса, состоящего из Watson-Crick'овских пар (Рис. 1). Такая конформация бьша названа - Структурой со Сдвинутыми Петлями, или Slipped Loop Structure (SLS).

Таким образом, возникла задача теоретического конформационного анализа SLS. Была показана возможность образования SI.S для В-ДНК Н.Б. Ульяновым др. (1994). Конформационные расчеты В. А. Фарутина и др. (1995) подтвердили стерическую возможность существования SLS, образованной двойными спиралями из А-семейства, подтверждая тем самым возможность образования

этой структуры из РНК, двуспиральные участки которой, как известно, находятся в А-формс.

5'

Рис. I Двумерная схема образования SLS (Slipp Loop Structure) для двунитевой ДНК при наличии коротких прямых повторов. Для изомера II не было найдено приемлемой молекулярной конформации с комплементарными меж петлевыми взаимодействиями.

Построенная молекулярная модель имела длину межпетлевого дуплекса (Sail) и дополнительного дуплекса (Core) 6 пар оснований и минимальную длину неспаренных участков (Vant) 4 нуклеотида. Была найдена приемлемая стерическая геометрия SLS со следующими параметрами (для А-формы спиралей):

длина элемента (н.)

Core 6 6 6 7

Sail 5 6 7 6

Vant 4 4 5 5

Очевидно, что возникновение необходимой для такой структуры дополнительной мини-спирали существенно зависит от расстояния между петлями, их размера и взаимной ориентации, определяемых первичной структурой последовательности. Анализ конформационной жёсткости БЬБ показал, что такая структура может существовать лишь в узком интервале параметров длин спиральных фрагментов и их взаиморасположения. Это отличает рассматриваемую структуру от известных к настоящему времени неканонических укладок нуклеиновых кислот, таких как Кресты и Трипчексы, которые могут иметь элементы сколь угодно большой длины.

Нетрудно заметить, что при определенных требованиях к первичной последовательности, может образовываться и в РНК транскрипте (Рис. 2). Сравнивая такую структуру для РНК с Псевдоузлом, можно видеть идентичность их топологий. Однако эти структуры имеют существенное различную пространственную геометрию.

Также, в нашей группе было показано экспериментально образование в модельных дезоксирибоолигонуклеотидах, используя метод химических модификаций и ЯМР высокого разрешения (1994-1995).

Рис. 2 а) Двумерная схема образования ЯЬБ для РНК транскрипта. 6) Ограничения на первичную последовательность необходимые для образования РНК-БЬЯ, так называемый БЬ-палиндром (ЙЬР). с) Двумерная схема классического Псевдоузла. Комплементарные участки изображены стрелками одного цвета.

Глава 1

Описаны использованные данные, выбрана модель поиска ЯЬР и предложен критерий оценки значимости встречаемости ЭЬР.

Модель БЬР

Участки последовательностей, РНК транскрипт которых способен сворачиваться в ЭЬЭ, были названы БЬ-палиндромами (БЬР).

Анализ встречаемости БЬР основывался на следующей модели поиска:

мин.-макс. длина

Core и Sail, п.н. 5-7

Vant(l,2), н. 4-10

Loop, н. 3-10

Помимо такой модели, получившей название 'Good SLP', рассматривался более широкий класс палиндромов без ограничений на минимальную длину неспаренных участков, названный 'All SLP'. Не все палиндромы этого класса способны к образованию SLS, однако все они характеризуются первичной структурой показанной на Рис. 2(6). Данные о встречаемости 'All SLP' требуются для описанного ниже оригинального критерия оценки значимости встречаемости SLP.

Алгоритм поиска SLP основан на сканировании последовательностей на наличие комплементарных слов в ограниченной области (от минимальной до максимальной суммы длин параметров SL-палиндрома). Сначала Sail и Core рассматриваются минимальной фиксированной длинны и в случае обнаружения SLP рассматриваются возможные продолжения комплементарных участков. На следующей стадии фильтрации, SLP с параметрами, превышающими максимальные, или SLP, имеющие малую сложность последовательности, (см. ниже) исключались из рассмотрения.

Естественные геномы содержат значительное количество элементарных повторов типа (АТ)„ , (GC)„ и т.д., функциональная роль которых до сих пор не ясна, потенциально способных к большому многообразию структур. Поскольку множественный вклад от таких повторов очевиден и бессмысленен для рассмотрения, в процессе поиска отбрасывались те структуры, для которых последовательность либо Sail, либо Core повторялась при сдвиге по направлению сканирования на длину меньшую или равную их минимальной длине минус один. Таким образом, в полученной статистике исключался вклад от структур с упорядоченностью меньшей минимальной длины Sail или Core. Однако если такая упорядоченность не наблюдалась, то разным SLP разрешалось пересекаться.

Кроме классического Watson-Спск'овского спаривания оснований возможны и другие, хотя и менее энергетически выгодные. Такое неканоническое спаривание принято называть мисматчами. На примере последовательностей естественных тРНК, третичная структура которых уже хорошо известна, мы показали, что встречаемость мисматчей GU более чем на порядок превосходит другие типы. GU мисматчи при этом составляли около 3%. Мы считали допустимым появление одного GU мисматча на каждый спиральный участок (57 п.о.). Хотя такое допущение существенно превышает естественно ожидаемый уровень GU, отказаться от рассмотрения этих случаев казалось неоправданным.

Критерий оценки значимости встречаемости SLP

Последовательности геномов сильно отличаются от случайных последовательностей по своим статистическим характеристикам, изучению которых посвящены многие работы, начиная от распределения GC состава и частот динуклеотидов до моделирования Марковских цепей высокого порядка и составления генетических словарей. Поэтому предложить достаточно простую и адекватную реальности вероятностную оценку появления SLP сложно. Был предложен оригинальный критерий оценки значимости встречаемости SLP как отношение плотности палиндромов, способных к образованию SLS, к плотности аналогичных палиндромов более широкого класса, т.е. не все из которых могут складываться в SLS. Неравномерность распределения такого критерия могла бы свидетельствовать об эволюционном формировании участков геномов с предпочтительной структурой типа SLS. Достоинством этого критерия является простота теоретической оценки этого отношения (Рис. 3). Действительно, для модели случайного порождения SLP можно считать, что вариабельные параметры SLS (три однонитевых участка SLP) являются равномерно распределёнными случайными величинами. Если наглядно рассмотреть 3-х мерное пространство этих параметров, получим параллепипед с размерами, соответствующими параметрам модели поиска. При этом, пространство параметров для Good палиндромов будет лежать внутри пространства параметров для All палиндромов. В предположении равномерно распределённых случайных параметров SLP, получим равномерное заполнение этих пространств. Если взять теперь отношение их объёмов (пространств для Good и All палиндромов), получим оценку отношения числа Good и All палиндромов для гипотезы случайного порождения. В случае разрешённых вариаций Core и Sail оценка получается усреднением по всем возможным структурам для выбранной модели поиска и реализующего алгоритма ('Good/All' = 0,45). Так как следует ожидать меньшую вероятность появления SLP с более длинными спиральными участками, приведённое значение

несколько завышено. Симуляции поиска SLP в генерированных случайных последовательностях дало отношение Good/All = 0,41 при средней плотности наблюдения 'Good SLP' равной 0,003.

pood

А*

Loop

К-,ы * (Vantmaxfyantmmf (Loopmax%Loopmm) VM »2 * (Vant. max) * (Loop .max) шу «а/

r cifwd ¿0 45

' All

A.

Рис. 3. Наглядное представление пространства параметров вариабельных частей SL-палиндрома, поясняющее оценку отношения 'Good SLP' (с ограничениями на размеры одно-нитевых участков) к 'АН SLP', ожидаемую для случайной модели.

Для оценки статистической значимости найденного экспериментально отношения 'Good/All' использовалась следующая оценка среднеквадратичного отклонения

_ Good t

All \

I^C.ooJ I + I ^ ЛИ

Good) У All.

где ы ~-JGood „

Поскольку оценка дисперсии нормально распределённой случайной величины определяется как , то при достаточно больших N можно принять ? ъГы. Согласно теории вероятностей в 67% случаев можно ожидать отклонение в пределах ? ив 95% случаев меньше чем 2 ? .

Глава 2

В третьей главе представлены результаты анализа плотности встречаемости РНК транскриптов, способных к образованию SLS. и распределения предложенного статистического критерия в известных функциональных зонах полных геномов Бактерий, Архей и Эукариот.

Общий анализ встречаемости SLP

Сначала были получены данные о встречаемости SL-палиндромов в последовательностях различных таксонов, используя нуклеотидные последовательности представленные в EMBL Nucleic Acid Database (EMBL Bank). Полученные данные о плотности появления SLP не проявили явной неоднородности распределения по таксонам, но показали, что SLP является весьма распространённым мотивом.

Была проанализирована встречаемость SLP в случайно сгенерированных последовательностях с равновероятным появлением каждого из нуклеотидов. Симуляции поиска SLP показали 'Good/All' = 0,41 при средней плотности наблюдения 'Good SLP' равной 0,003. Следует отметить, что полученная плотность SLP в белок кодирующих областях была близка к ожидаемой для

случайной последовательности, а в некодирующих участках наблюдалась существенно большая концентрация SLP (см. также Рис.4).

Функциональная роль SLS в качестве структурного маркера могла бы приводить к уникальному распределению палиндромов, склонных к образованию SLS внутри протяжённых охарактеризованных участков. Для проверки этого предположения были получены распределения критерия 'Good/All' по длине протяжённых функциональных зон (в % длины) и по краям зон с 3'- и 5'- концов в 100-х пар оснований для Вирусов и Прокариот. Явных отклонений от некоторого среднего для зон значений не было замечено. Хотя наблюдаемый скачок с 5'-конца кодирующих областей Прокариот представлял интерес для дальнейшего рассмотрения.

Далее были просканированы последовательности из банка данных UTR (5'-и 3'- нетранслируемых участков из EMBL Bank). Анализ встречаемости показал наличие SLP примерно в 50% последовательностей без очевидного паттерна распределения. Предложенный интерактивный интерфейс к полученным данным через SRS позволяет быструю проверку различных гипотез.

Анализ распределения плотности SLP в полных геномах

В дальнейших исследованиях использовались последовательности полных геномов Бактерий, Архей и Эукариот. Так как EMBL Bank представляет собой не курируемый архив нуклеиновых последовательностей, т.е. записи отражают только предоставленные авторами данные, то недостаточно тщательно сделанные выборки могут приводить к существенным статистическим артефактам.

Из-за недостатка аннотации эукариотических геномов сравнительный анализ разных таксонов пришлось ограничить рассмотрением встречаемости SLP в белок кодирующих областях (CDS) и их 573' флангов фиксированной длины 300 н.

Было показано статистически значимое предпочтение наблюдения SLP в 573' фланговых последовательностях (длины 300 н.) белок кодирующих областей рассмотренных таксонов (Рис.4).

Следует отметить, что наблюдаемая высокая встречаемость SLP в некодирующих участках может быть связана с их более упорядоченной последовательностью, чем для кодирующих участков. В то время как, согласно описанным выше ограничениям модели поиска, вклад от трансляционной симметрии последовательностей порядка размеров спиральных участков SLS исключался из рассмотрения.

Наличие 23 бактериальных геномов позволило провести анализ дисперсии рассматриваемых критериев встречаемости SLP внутри таксономической группы Бактерий, что показало неадекватность простой статистической модели для оценки точности наблюдений, но выявило интересные корреляции подтверждающие начальные наблюдения (Рис. 5).

0,006

0,005

О-

из 0,004

Л

а о 0,003

X

н

о щ 0,002

с

0,001

0

5' фланг

COS

:",,/ Бактерии / Археи Эукариоты

3' фланг

Рис. 4 Сравнительное распределение плотности SLP в CDS и 573' флангов фиксированной длины (300 н.).

0,002 0,004 0,006 0,008 0,01 0,012 0,014 плотность SLP в COS

Рис. 5 Наблюдаемая корреляция между плотностью SLP в CDS и 573' флангов длины 300 н. (LCDS) в геномах Бактерий.

Анализраспределения SLP в 573' флангах CDS

Более подробное рассмотрение распределения встречаемости SLP в 573' флангах CDS показало общие тенденции концентрации SLP вблизи CDS. Пример такого распределения представлен на Рис. 6.

0,04 0,035 0,03 0,025 0,02 0,015 0,01 0,005 0

ооооооооооооооо

rninNfflrMinNfflrn Ю S О)

Расстояние от начала SLP до 5' CDS в геномах бактерий

Рис. 6 Распределение средней частоты встречаемости SLP в 5' фланговых последовательностях CDS Бактерий. Видимая зависимость не может считаться статистически значимой, т.к. она приемлемо описывается равномерным случайным распределением.

Было показано, что распределение критерия 'Good/All' в 5' фланговых последовательностях CDS Бактерий имеет различный вид в различных организмах. Так, например, для генома Escherichia coli распределение 'Good/All' очень хорошо описывается случайной моделью, в то время как распределение для генома Bacillus subtilis вызывает сомнения в приемлемости случайной модели, хотя это и не может считаться статистически значимым (Рис.

7).

Распределение критерия 'Good/All' в Bacillus subtilis

0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0

гй5й*

i

l^-r

ixl

ООООООООООООООО t-t-t-v-t-cnc\ic4c\icm

Расстояние от начала SLP до 5' CDS

Рис. 7 Распределение критерия 'Good/All' в 5' фланговых последовательностях CDS генома

Bacillus subtilis.

Распределения по функциональным зонам геномов

Более детальные данные о бактериальных геномах (не только знание расположения CDS) позволили сравнить встречаемость SLP в различных частях геномов с известной функцией (Рис. 8).

Плотность полных SLP в бактериальных геномах

0,007 0,006 0,005 0,004 0,003 0,002 0,001 0

4?

ч®

г

Рис. 8 Распределение плотности полных SLP в охарактеризованных участках бактериальных геномов (573* фланги CDS длины 300 н. обозначены LCDS и RCDS).

Наблюдаемое редкое появление SLP в структурных РНК частично объясняется краевыми эффектами в относительно коротких охарактеризованных участках, таких как stem_loop и terminator. Однако это не относится, например, к Рибосомной РНК (rRNA). Можно предположить, что это более общая тенденция сохранения собственных структурных мотивов отличных от SLS, например, в Транспортной РНК (tRNA).

Для проверки гипотезы о роли SLS в качестве маркера границы были посчитаны частоты пересечения SLP с охарактеризованными участками (Рис. 9). Как можно видеть из приведённого распределения, разницей в наблюдении граничных SLP слева и справа можно пренебречь. Относительно высокая встречаемость SLP на границе stem_loop и terminator может говорить о их частом соседстве и/или их конкуренции.

Применение критерия 'Good/All' дало результаты, достойные дальнейшего исследования (Рис. 10). Так, например, становится очевидным: 1) избегание SLP мотивов в транспортных РНК (tRNA); 2) повышенную встречаемость 'Good SLP' в рибосомных РНК (rRNA), несмотря на относительно низкую общую их плотность; 3) отсутствие усреднённого предпочтения 'Good SLP' в 573' флангах

CDS (обозначенных LCDS и RCDS) по отношению к встречаемости в CDS, не смотря на показанное значимое различие в их SLP плотности.

Частота граничных (слева / справа) SLP в Бактериях

Рис. 9 Распределение частоты граничных 5ЬР в охарактеризованных участках геномов

Бактерий.

Распределение критерия 'Good/All' полных SLP

0,5 0,45 0,4 0,35 i 0,3 ! 0,25 0,2 0,15 0,1 0,05 0

4?

„V-

f J ./

Рис. 10 Распределение критерия 'Good/All' полных SLP в охарактеризованных участках бактериальных геномов.

SLP в функционально-событийных местах РНК

Последовательности SLP найденных в структурно-функциональных местах геномов, таких как места белкового узнавания, терминации транскрипции, посадки рибосомы, сдвига рамки считывания и т.д., были выписаны для дальнейшего рассмотрения конкретных случаев.

Глава 3

Четвертая глава посвящена детальному изучению найденных консервативных SLP в рибосомных РНК.

Анализ распределения SLP в рибосомных РНК

Чтобы проверить первичное наблюдение о «похожем» распределении SLP по длине рибосомных РНК (используя интерактивный SRS интерфейс к первоначальным данным), были составлены выборки последовательностей для обеих субчастиц рРНК, сгруппированные на разных таксономических уровнях. Анализ распределения SLP в этих выборках явно подтвердил неравномерность распределения. Однако, кроме качественного результата такие данные были малопригодны для анализа конкретного расположения SLP на карте принятой структуры рРНК и, например, для ответа на принципиально важный вопрос-соответствуют ли SLP конкретному структурному домену рРНК?

Чтобы ответить на этот вопрос был поставлен следующий эксперимент.

Были взяты рРНК последовательности из базы данных rRNA для которых приводятся данные об их структурном выравнивании с принятой в настоящей момент моделью вторичной структуры. Для каждой из рРНК последовательностей данные о расположении найденных SLP были отмасштабированы на опубликованное структурное выравнивание. Расположение SLP на каждой из последовательностей было представлено бинарной картой (где положение было отмечено единичками от начала первого комплементарного участка SLP до конца второго или, для пересекающихся SLP, от начала первого до конца последующих). Результирующее распределение было получено суммированием бинарных карт всех последовательностей и представлено в графическом виде (для малой субчастицы рРНК Бактерий см. Рис. 11), где горизонтальная ось соответствует длине выравнивания и вертикальная - количеству просканированных последовательностей. Как можно видеть, это даёт намного более чёткое представление о локализации SLP на карте принятой вторичной структуры и о фоновой встречаемости.

Важно заметить, что SLP были найдены практически во всех просканированных последовательностях малой субчастицы рРНК Бактерий (одна точка по высоте картинки соответствует одной последовательности). Причём расположение пиков консервативных SLP соответствует определённым структурным доменам принятой в настоящее время вторичной структуры рРНК. Комплементарные элементы найденных консервативных SLP показаны на Рис. 15 на примере последовательности Escherichia coli. Особый интерес представляет недавно опубликованная пространственная модель малой субчастицы рРНК бактерии Thermus themophilus (В. Wimberly et. al. 2000), полученная на основе кристаллографических данных (ЗД). Несмотря на то, что опубликованные структуры не содержат «узловых» мотивов, это не отрицает возможности их динамической реализации. Важно отметить, что один из найденных SLP (SLP1) пространственно сближен с центральным псеадоузлом,

определяющим структурные перестройки рибосомы на разных стадиях активности.

Аналогичные распределения были получены для большой субчастицы рРНК Прокариот и малой субчастицы рРНК Эукариот. Показанные неоднородности распределения достойны дальнейшего исследования.

Рис. 11. Распределение БЬР, найденных в малой субчастице рРНК Бактерий, отмасштабнрованное на принятое структурное выравнивание. Одна точка по высоте картинки соответствует одной рРНК последовательности. Горизонтальная ось соответствует длине общего выравнивания.

Особый интерес вызывает консервативный БЫ', найденный в пептедш-трансферазном центре (большой субчастицы) рРНК различных таксонов (Рис. 12). Подробный анализ которого был недавно нами опубликован. Динамическое образование предложенного «узлового» мотива может вызывать структурную перестройку пептедил трапсферазного центра рибосомы и принимать, таким образом, участие в механизме синтеза белка.

74

I I I I I II

73

89

° ^ I с*л

ОСиС-АРДССССС • III I II II 111 COG оаааосаа'т ,

д VU I CSG

С 24») j

С

17-2W0-1

93

-AJ - О О — G С - С -

F--C 90

Aj -А

A*G~CAUCC Ii GGOGCU G\ A I I I I I I I II £

92

- itbû

91

с

Рис. 12 Предложенная схема формирования узлового мотива в пептедш-трансферазнам центре рРНК, соответствующего найденному консервативному SL-палиндрому (показано жирным шрифтом). Приведённая нумерация шпилек и нуклеотидов соответствует последовательности Escherichia coli..

Предсказание структуры «Рибосомных SLS»

Недавно предложенные теоретические подходы к предсказанию структур РНК, такие как MWM (J.E. Tabaska and G.D. Stormo 1997) и pknotfold2 (E. Rivas and S.R. Eddy 1999), позволяют включить в рассмотрение так называемые узловые мотивы к которым относится SLS. С целью получить дополнительные указания на существование SLS в рРНК и найти альтернативные структуры был применен ряд теоретических подходов предсказания РНК структур.

Считая, что общепринятая в настоящий момент схема вторичной структуры рРНК верна в общем, мы рассматривали альтернативные варианты только некоторых структурных доменов.

В данной части работы исследовались последовательности малой субчастицы рРНК Бактерий, а именно, двух структурных доменов с найденными консервативными SLP, обозначенные далее как SLP1 для первого (от 5' конца) палиндрома и SLP2 для второго.

Взрывной рост количества геномных данных позволяет использовать ранее недоступные статистические методы для нахождения реальных, биологически-функциональных консервативных структур. Методы предсказания структур

РНК на основе ковариационного анализа мутаций применимы к выровненной выборке функционально одинаковых последовательностей. Выборки последовательностей исследуемых доменов были построены путём вырезания из опубликованного структурного выравнивания участков последовательностей исследуемого домена включая стабильную шпильку перед ним (Рис. 15). Полученные последовательности, содержащие неопределенные основания и отличающиеся по длине более чем на 60%, были исключены из дальнейшего рассмотрения. Полученные выборки использовались как исходные данные для процедуры итеративной максимизации ожидания (ЕМ), процесса чередования предсказания наиболее вероятной структуры на основе филогенетических ковариаций в текущем выравнивании и формирования нового структурного выравнивания, соответствующего предсказанной структуре.

Для поиска структуры с наименьшей потенциальной энергией была выбрана последовательность Escherichia coli, так как эта бактерия наиболее изучена.

ЕМ итерации MWM Теоретически, ЕМ итерации должны сходится к «правильному» выравниванию из любого начального состояния. Чтобы исключить любые изначально ложные предпосылки, было взято выравнивание всех последовательностей по 5' концу.

Для поиска наиболее вероятной структуры использовался алгоритм поиска максимального пути на графе, вершины и рёбра которого имеют весовые коэффициенты (MWM). Результаты MWM поиска естественным образом зависят от выбранной схемы оценки потенциальных взаимодействий (весов вершин графа), которые могут представляться как комбинации различных методов.

ЕМ итерации были построены следующим образом:

1. Исходное выравнивание использовалось для поиска значимых ковариаций между каждой парой позиций, используя программу jmixy.

2. Использование только данных о ковариациях недостаточно для построения адекватной структурной модели, т.к. этот метод не показывает очевидные шпильки в случае консервативных последовательностей. Этот недостаток можно компенсировать, совместив метод ковариаций с другим методом оценки потенциальной структуры, например, основанным на энергетических соображениях. Использование полной термодинамической модели как в mfold требует существенных затрат времени, в то время как простейшая модель подсчета матрицы всех возможных комплементарных пар (небольшой положительный вес для комплементарной пары и GU пар, отрицательный вес любым другим парам и ещё больший отрицательный вес за делеции внутри потенциальных шпилек) с ограничением минимальной рассматриваемой длинны шпилек и поощрением длинных шпилек показала хорошие результаты. Таким образом, для каждой последовательности в исходном выравнивании были построены описанные матрицы потенциальных взаимодействий, которые были просуммированы затем для всех последовательностей используя программу hlxplot.

3. Оценки качества потенциальных пар, полученные на шаге I. и 2., были объединены в один входной граф программы wmatch, реализующей MWM алгоритм.

4. Найденная наиболее вероятная общая структура была использована далее программой S7model для составления «модельной» последовательности, отражающей найденную структуру с нуклеотидным составом, посчитанным из исходного выравнивания.

5. Полученная модель использовалась для псевдоструктурного множественного выравнивания исходных последовательностей, используя программу Seq7 (выравнивания каждой из последовательностей с «модельной» последовательностью). Последовательность не включалась в новое выравнивание, если она не могла быть выровнена с моделью лучше чем некоторый пороговый вес.

6. Процедура повторялась.

Для выборки SLP1, выровненной по 5' концу, на первых же итерациях была получена приведённая ниже модель:

---11111--2222222-----11111------2222222----

C**CGGCUAACU*CGUGCCAGCAGCCGCGGUAAUACG*AGG**G

Где цифрами обозначены комплементарные участки и неспаренные участки. Модель отражает предсказанную методом MWM структуру (базируясь на ковариационном анализе и простых энергетических соображениях), растянутую на начальное выравнивание и с удаленными позициями пробелов, если более 50% последовательностей имеют пробел. Приведённая ниже строка последовательности отражает нуклеотидную композицию модели в случае частоты >90% одного из нуклеотидов.

Как можно видеть, во-первых, полученное предсказание полностью соответствует предложенной модели SLS и, во-вторых, близко к принятой структурной схеме домена.

Метод минимизации потенциальной энергии Поиск структур с минимальной энергией в рассматриваемых доменах последовательности Escherichia coli дал структуры, приведённые на Рис. 13. Несмотря на то, что использовался алгоритм динамического программирования, расширенный на возможные варианты Псевдоузла, предсказанные структуры не содержат никаких «узловых» мотивов. Возможно, что это следствие недостаточного знания термодинамики третичных мотивов и/или в рассматриваемых доменах возможны конкурирующие структуры. Интересно отметить, что предсказанные структуры значительно отличаются от принятой в настоящее время вторичной структуры рРНК, включая принятую модель Псевдоузла в SLP1 домене (см. R.R. Gutel et. al., P.D. Rijk).

Глава 4

В пятой главе описана использованная система SRS и Web интерфейс к разработанной инфраструктуре данных и методов.

SRS интерфейс к данном и методам

В настоящее время, биоинформатика - чрезвычайно динамичная область, оперирующая очень большими объемами информации. Эта информация недоступна без использования современных Информационных Систем. SRS-одна из таких систем, ориентированная на предоставление гибкого доступа к данным в «полу-форматированном» текстовом формате (Т. Etzold et. al. 1996) и интеграцию приложений анализа данных.

Очень важно не только использовать наиболее полные данные, доступные на текущий момент, но и предлагать сервисы анализа этих данных, которые могут быть использованы в дальнейшем на более свежих наблюдениях. В данной работе SRS система была использована для интеграции программ поиска SLP с быстро растущими геномными данными (Рис. 14).

Визуализация Рибосомиых SLP и интерфейс к RiboWeb

Проект RiboWeb (В. Altman et. al. 1997) предоставляет доступ к информации касающейся структуры Рибосомной РНК Escherichia coli. Авторы пытаются собрать вместе все данные необходимые для успешного моделирования пространственной структуры рРНК. Помимо первичной последовательности они предоставляют, извлеченные из опубликованной литературы экспериментальные данные, указывающие на структурные аспекты отдельных нуклеотидов (данные хим. модификаций, рРНК белковых взаимодействий и т.п.). Хотя данный проект ориентирован на моделирование полного комплекса рРНК, основываясь на доступных данных рентгеноструктурного анализа и ЯМР, он очень полезен как ресурс экспериментальных данных. Эти данные имеют особое значение для подтверждения/проверки предложенных теоретических моделей и даже могут быть напрямую использованы в поиске решения.

Визуализация Рибосомных SLP и интерактивный интерфейс к RiboWeb были сделаны с использованием Java программы SSView (Рис. 15).

Esdierichia_coli * г ''

U А А

А и с g

u g g g а g

о о

knoU2: - 13.80 (kcal/mol;, lull pseudoknot model.

knull2: -16.Ю (kcal'moli. full pscudoknyl model.

Es'.ln.-richiajroli rHNA r 1063-1193)

о

A С

.U

_ . С

A

Рис. 13. Представленные структуры соответствуют минимальной энергии принятой термодинамической модели (Turner et. al.), включая модель Пссвдоузла. Структуры были найдены с использованием программы pknotfold (Е. Rivas and S.R. Eddy 1999) имеющей сложность 0(N6) во времени и 0(N4) в памяти. Как видно, найденные структуры не содержат никаких узловых мотивов и отличаются от принятой вторичной структуры.

File Edit View Go Communicator Help

j SRS Try me _j[ Bio J Comp Cj local eLIb ^ META search gatUnks ^ CNN f WordNet 4 J*J

I Top Page| 1 Query Form| Query Manager| VlewManager| | Databanks) [Help

O/ery "ISIP_SCAH-Id:*l" found 6 entries Perform operation on

• selected v all but selected lnvertSelectlon| entries in chunks of

j~imn|

30 I • I save j • j vlew| with SLP.vlew

Rootljbs 1 Nurrr BewniSsii Cors Vant1\ VantZ Loop Mate ft Pic

\ J SLP SCAN :-HSA012594jl i |£ I li 0 7 101 5 111 6 5 6 5 \ 3 S 4 3 г 5 -"S.-

: J SLP SCAN 3HSA014834 '1 129 j 6 5 9 4 8 UM

-J SLP SCAN 3HSA012623 il 81 ¡5 5 8 8 7 |-ШЯШ-

! Л SLP SCAN:3HSA012777 II i \l ; il 597 74,5 87;5 136|6 5 6 5 6 3 7 4 10 4 3 8 3 10 8 3 2 ~ —

! -1 SLP SCAN 3HSA011814 il 0|5 5 10 6 10 MBB

! J SLP SCAN3HSA011867 tl 49,5 5 4 ¡7 7 —

Рис. 14 SRS интерфейс к поиску SLP в нуклеотидных последовательностях. В данном примере представлены результаты сканирования нескольких 5'- нетранслируемых последовательностей человека из банка данных UTR. Расположение найденных SLP показано графически. Полученные данные автоматически связаны с записями в UTR и EMBL Bank, что позволяет динамически извлекать из них требуемую информацию или даже переходить к другим, связанным, банкам данных.

gTj (»III у I". ч/? " * * '

гяяпвга

File Edit View Go Communicator

Help

Bookmarks Location: ^¡http //ww ebi.a / ^¿Г What'» Related £JJ;

\c&cf-

G

К

UG

A AC

X

$

¡tri

A

^ У

GUCGACUITV I I I I I I I

-CAGCUGAi S \

„U

¿GGAGU^^GC

I I

J"""

AA

ÜUG

G c. — S

:UaaG -c BASE-PAIR bp545to500;

AU' A G

.JJmcuc^'

, I

rGGGUlP !L I I I Ml,,, '\V'G'

ccgg uaugu^c ijc g

, agccug augcag \>a - I I I I I I I I. <r

I I I I I I I I,

'GCGGGVC<^ '

G^

"GAAuuq I

A

С

с

г,

cH if

100%

■а га V». ¡I

File Edit View Go Communicator

Help

Bookmarks ^ Location: ¡http.¡//ww ebi.s / фГ What"» Related [2

« - AG „

¿(i-giGir XCUUA UCCUBtt'V*U-iC cgg С

Jtil'.JU. .ГГ__Л JiUTlf T T! Ml -c

«GCUCG

jgggi^u ^cgaaacjj^gg gccqg £ ^

§л

r,-r. BASE-PAIR bplOS3tol 183 С —О "- '•<

iUGAGAAU

III II /С, ! ACUUUUGAA

CUu

Äe=sü

cg u

<A' aaUÄ

100*

■ i ^ сз г-

Рис. 15 Визуализация найденных консервативных SLP на карте вторичной структуры малой субчастицы рРНК Escherichia coli. С лева - SLP1 и с права -SLP2. Комплементарные участки отмечены цветом. Начало и конец структурного домена, использованного для теоретического предсказания структуры, отмечены маркером. Динамический интерфейс к RiboWeb позволяет получить опубликованные экспериментальные данные по любому предварительно

отмеченному нуклеотиду.

выводы

• Анализ встречаемости участков геномных последовательностей, РНК транскрипт которых способен к образованию конформации SLS, показал распространённость таких мотивов.

• Показана значимая склонность к образованию SLS (повышенная плотность SLP) в 573'- флангах белок кодирующих участков геномов различных таксонов.

• Применение оригинального критерия оценки значимости показало концентрацию SLP, способных к образованию SLS, перед белок кодирующими участками некоторых организмов, например, бактерии Bacillus subtilis.

• Выявлено наличие консервативных SLP в рибосомных РНК и построены карты их соответствия структурным доменам принятой вторичной структуры. Для этих доменов малой субчастицы рРНК бактерии Eschericia coli были построены альтернативные структуры с использованием подходов на основе филогенетического ковариационного анализа и минимизации энергии термодинамической модели Turner'a.

• Обнаружен консервативный SLP в пептидил-трансферазном центре большой субчастицы рРНК различных таксонов, подтверждённый ковариационным анализом. Выдвинута гипотеза об участии динамического образования предложенной структуры в механизме синтеза белка для дальнейшего экспериментального изучения.

СПИСОК РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Minyat Е. Е., Khomyakova Е.В., Petrova М. V., Zdobnov Е. М., Ivanov V. I. Experimental evidence for slipped loop DNA, a novel folding type for polynucleotide chain. J. Biomol. Struct. Dyn., 1995. 13(3): p. 523-7.

2. Farutin V. A., Gorin A.A., Zdobnov E. M., Ivanov V. I. Three-dimensional model for slipped loop RNA. J. Biomol. Struct. Dyn., 1997. 15(1): p. 45-52.

3. Здобнов E.M., Фарутин B.A., Иванов В.И. Slipped Loop Structure - новый структурный мотив нуклеиновых кислот. Юбилейная XL Конференция МФТИ, 1997.

4. Ivanov V. I., Bondarenko S.A., Zdobnov E. M., Beniaminov A. D., Minyat E. E., Ulyanov N. B. A pseudoknot-compatible universal site is located in the large ribosomal RNA in the peptidyltransferase center. FEBS Lett., 1999. 446(1): p. 60-4.

5. Zdobnov E.M, Lopez R., Apweiler R., Etzold Т. The EBISRS server - recent developments. In: Proceedings of the German Conference on Bioinformatics (GCB'00), 2000: p. 139-147.