Бесплатный автореферат и диссертация по биологии на тему
Исследование механизмов регуляции транскрипции и сплайсинга с использованием вычислительных методов анализа последовательностей ДНК и РНК
ВАК РФ 03.01.03, Молекулярная биология

Автореферат диссертации по теме "Исследование механизмов регуляции транскрипции и сплайсинга с использованием вычислительных методов анализа последовательностей ДНК и РНК"

На правах рукописи

Полищук Майя Семепсзна

ИССЛЕДОВАНИЕ МЕХАНИЗМОВ РЕГУЛЯЦИИ ТРАНСКРИПЦИИ И СПЛАЙСИНГА С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛИТЕЛЬНЫХ МЕТОДОВ АНАЛИЗА ПОСЛЕДОВАТЕЛЬНОСТЕЙ ДНК И РНК

03.01.03 - Молекулярная биология

7 НОЯ 2013

Автореферат диссертации на соискание ученой степени кандидата физико-математических наук

Москва 2013

005537693

005537693

Работа выполнена в Лаборатории биоинформатики и системной биологии Федерального государственного бюджетного учреждения науки Института молекулярной биологии им. В.А. Энгельгардга Российской академии наук

Научный руководитель:

Заведующий Лабораторией биоинформатики и системной биологии Федерального государственного бюджетного учреждения науки Института молекулярной биологии им. В.А. Энгельгардга Российской академии наук, доктор физико-математических наук, профессор Туманян Владимир Гайевич

Официальные оппоненты:

Ведущий научный сотрудник Отдела микроэлектроники Научно-исследовательского института ядерной физики им. Д.В. Скобельцына Московского государственного университета им. М.В. Ломоносова, доктор физико-математических наук Намиот Владимир Абрамович

Старший научный сотрудник Лаборатории стереохимии ферментативных реакций Федерального государственного бюджетного учреждения науки Института молекулярной биологии им. В.А. Энгельгардга Российской академии наук, кандидат физико-математических наук, Ильичева Ирина Алексеевна

Ведущая организация:

Федеральное государственное бюджетное учреждение науки Институт математических проблем биологии Российской академии наук

на заседании

Защита диссертации состоится У а 2013 г.

диссертационного совета Д 002.235.01 при Федеральном государственном бюджетном учреждении науки Институте молекулярной биологии им. В.А. Энгельгардга Российской академии наук по адресу: ГСП-1, 119991, г. Москва, ул. Вавилова, д.32

С диссертацией можно ознакомиться в библиотеке Федерального государственного бюджетного учреждения науки Института молеку лярной биологии им. В.А. Энгельгардта Российской академии наук по адресу: ГСП-1, 119991, г. Москва, ул. Вавилова, д.32

Автореферат разослан£^^_

2013 г.

Ученый секретарь диссертационного совета Кандидат химических наук

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы

Понимание того, как клетка регулирует наиболее общие для всех живых систем процессы транскрипции и сплайсинга - одна из ключевых задач молекулярной биологии. Изучение и глубокое понимание механизмов этих процессов поможет объяснить, как происходит развитие организмов, диагностировать и лечить наследственные заболевания.

Дальнейшее продвижение в изучении механизмов регуляции транскрипции и сплайсинга с применением вычислительных методов становится наиболее актуальным, так как стали доступны для анализа полногеномные последовательности многих организмов и активно развивается аннотирование геномов, благодаря появлению существенно более эффективных и менее дорогостоящих экспериментальных методов секвенирования нового поколения, а также благодаря возрастанию точности и появлению новых экспериментальных методов узнавания на нуклеотидных последовательностях участков взаимодействия ДНК/РНК с белками. Накоплены гигантские объемы генетических данных, этот объем непрерывно растет, поэтому требуются новые вычислительные методы для обработки этой информации.

Цель и задачи исследования

Целью диссертационной работы является полногеномное предсказание, анализ локализации и структуры регуляторных элементов (участков ДНК или РНК), распознаваемых белками-регуляторами транскрипции и сплайсинга, и разработка соответствующих вычислительных методов.

Для достижения поставленной цели необходимо решить следующие задачи:

1. Изучить характеристики участков связывания белков-регуляторов транскрипции и сплайсинга на ДНК и РНК.

2. Предложить адекватный метод, разработать алгоритм и программное средство для вычислительной полногеномной идентификации регуляторных участков.

3. Верифицировать разработанный нами вычислительный метод полногеномного предсказания регуляторных элементов на экспериментально подтвержденных таких участках для уже хорошо изученных белков-регуляторов транскрипции. Оценить эффективность метода на геноме человека

4. Реализовать методы сравнения экспериментально выявленных участков взаимодействия.белков с РНК или ДНК или других размеченных участков генома с предсказанными вычислительно регуляторными элементами.

5. Верифицировать метод сравнения предсказанных регуляторных элементов и экспериментально выявленных участков взаимодействия факторов с нуклеотидными последовательностями на данных экспериментально подтвержденных функционально связанных, кооперативно действующих, факторов регуляции транскрипции.

6. Применить разработанные вычислительные методы для предсказания регуляторных элементов, взаимодействующих с малоизученным РНК-связывающим белком Pasilla, который, как показывают экспериментальные исследования, участвует в регуляции альтернативного сплайсинга.

7. Провести анализ расположения предсказанных на РНК регуляторных элементов, взаимодействующих с исследуемым белком-регулятором сплайсинга. Pasilla, по отношению к известной экзонно-интронной аннотации, а также по отношению к экспериментально показанным альтернативно-сплайсируемым под действием этого белка экзонам.

Объекты и методы исследования

Данные, на которых проводились исследования: геном D.melanogaster из базы данных FlyBase и UCSC Genome Browser, геном человека из базы данных UCSC Genorae Browser; участки связывания факторов транскрипции, определенные методом ChIP-chip из базы данных Национальной лаборатории университета Беркли проекта Berkeley Drosophila Transcription Network Project (BDTNP); последовательности сайтов связывания, построенные по таким последовательностям матрицы позиционных частот для белков -регуляторов транскрипции из базы данных TRANSFAC; аннотация генов D.melanogaster из базы данных Ensemble Genome Browser; последовательности сайта связывания белка -регулятора сплайсинга Pasilla и результаты эксперимента с интерференцией РНК, определившие регулируемые этим белком альтернативные экзоны, полученные из материалов соответствующей публикации и предоставленные лично доктором Анжелой Брукс (Angela Brooks) из Калифорнийского университета, Беркли, США.

Решение поставленных задач осуществлено методами вычислительной обработки и анализа данных, разработанными автором на языках С++ и Perl и общедоступными

программами, такими как Microsoft Office Excel, сервисами UCSC Genome Browser, Ensemble Genome Browser.

Научная новизна работы

• Разработан новый алгоритм PatternClust, который позволяет эффективнее и точнее, чем с помощью существующих методов, обрабатывать последовательности ДНК и РНК для полногеномного предсказания регуляторных элементов белков-регуляторов транскрипции и сплайсинга.

• Впервые для РНК-связывающего белка Pasilla на всем геноме D.melanogaster предсказаны in silico регуляторные элементы, при связывании с которыми Pasilla, как предполагается, регулирует альтернативный сплайсинг.

• Впервые проведен анализ локализации предсказанных участков по отношению к аннотированным границам экзонов и интронов и к экспериментально показанным альтернативно-сплайсируемым под действием Pasilla экзонам.

• Предложен подход для выявления взаимодействующих белков-регуляторов из сравнительного анализа вычислительно предсказанных регуляторных элементов и экспериментально показанных участков связывания изучаемых белков с нуклеотидными последовательностями.

• Внесен вклад в разработку вычислительного метода расшифровки результатов сенгеровского секвенирования смесей ДНК гетерогенных объектов, в том числе применимого для изучения гетерогенных регуляторных участков.

Практическая значимость исследования

Разработанные программные средства могут быть использованы для эффективного полногеномного предсказания регуляторных элементов как для изучения регуляции транскрипции в ДНК, так и для изучения регуляции сплайсинга в РНК.

Разработанные программы и предложенные подходы к анализу данных применимы для широкого круга научных задач, таких как:

• идентификация регуляторных элементов по известным сайтам связывания белков-регуляторов;

• верификация предполагаемых сайтов связывания для белков-регуляторов;

• проверка гипотезы о регуляторный роли белка по известному или предполагаемому для него сайту связывания;

• выделение функционально связанных регуляторных факторов;

• выделение ко-регулируемых генов;

• аннотация генома, а именно предсказание альтернативности известных экзонов, предсказание местоположения новых, еще неаннотированных экзонов, ранее не обнаруженных в экспериментальных исследованиях.

• изучение регуляторных участков смесей ДНК гетерогенных объектов, таких как, например, клетки раковых тканей, популяции микроорганизмов и т.п., полученных в результате расшифровки данных секвенирования по Сенгеру.

Апробация результатов исследования

Основные результаты работы докладывались автором и обсуждались на международных научных конференциях по вычислительной молекулярной биологии МССМВ (Moscow Conference on Computational Molecular Biology) в Москве, Россия, в 2005 г. и в 2011 г.; на международной научной конференции по компьютерным наукам и информационным технологиям CSIT (Computer Science and Information Technologies) в Будапеште, Венгрия, в 2004г, на научных семинарах лаборатории биоинформатики ИМБ им. В.А. Энгельгардта РАН в Москве, Россия, и на научных семинарах группы биоинформатики лаборатории департамента статистики университета Беркли, Калифорния, США в 2011 и в 2012 гг.

По материалам диссертации опубликовано семь печатных работ, из них четыре в реферируемых журналах, остальные - в трудах научных конференций.

Объем и структура диссертации

Диссертационная работа включает Введение, четыре главы, Заключение, Выводы, список цитируемых источников и Приложения. Основное содержание работы изложено на 101 странице машинописного текста. Диссертация содержит 12 таблиц, иллюстрирована 28 рисунками.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Введение

Во Введении обоснована актуальность темы диссертационной работы, определена проблематика и поставлены цель и задачи исследования, сформулированы научная новизна и практическая значимость полученных результатов.

Глава 1. Обзор литературы по регуляции транскрипции и сплайсинга

Проведен аналитический обзор литературных данных по регуляции транскрипции и

сплайсинга. Отмечено, что связывание регуляторных белков последовательностью

4

оснований нуклеиновых кислот является базовым механизмом регуляции не только транскрипции, а также регуляции сплайсинга. Приведены известные данные по структуре и локализации регуляторных элементов - областей связывания регуляторных белков с ДНК и РНК.

Глава 2. Модели, вычислительные методы и программы

2.1. Модель мотива сайта связывания

Мотив - обобщенное представление слова (в нуклеотидном алфавите), моделирующего сайт связывания на ДНК или РНК с белком. Основой для такого представления сайтов связывания является проверенное на практике предположение, что сайты связывания одного белка похожи между собой.

В контексте разработанной программы мотив может быть описан в любом из общепринятых представлений:

• набором слов в нуклеотидном алфавите (в том числе, одним словом), соответствующих возможным вариантам последовательностей сайтов связывания;

• матрицей позиционных весов;

• набором консенсусных слов (в том числе, одним консенсусным словом), по которым строится матрица позиционных весов.

В матрице позиционных весов каждому нуклеотиду х, символу нуклеотидного алфавита, приписывается вес, характеризующий его встречаемость в каждой позиции мотива. Таким образом, размер матрицы составляет 4х£, где Ь - длина мотива.

Для расчета веса элемента матрицы позиционных весов, построенной по набору из N слов, мы используем формулу:

Здесь пх,- число, показывающее, сколько раз нуклеотид х встретился в позиции ('; /' =1.1., д(х) — частота встречаемости нуклеотидов во входных данных (например, средняя встречаемость нуклеотида х в геноме).

Для вычисления веса всего слова суммируются веса составляющих его букв по следующей формуле (в предположении независимости букв слова, рассматриваемых как случайные величины):

в которой X - слово в последовательности нуклеотидов, ] - номер позиции последовательности, с которой начинается рассматриваемое слово, остальные символы как в формуле (1).

Вес слова можно использовать как характеристику правдоподобия того, что данное слово является сайтом связывания. Превышение некоторого порогового значения веса слова является критерием того, что данное слово является сайтом связывания белка. Для выбора порогового значения можно использовать среднюю плотность сайтов связывания во всей рассматриваемой последовательности.

2.2. Модель представления регуляторного элемента

Регуляторный элемент - это участок ДНК или РНК, с которым связываются несколько субъединиц или молекул белка и, таким образом, выполняют регуляторную функцию. Экспериментально показано, что такие элементы обычно содержат повторяющиеся сайты связывания. Такие участки называют кластерами сайтов связывания. Кластеры, содержащие повторы сайтов связывания определенного белка называют гомогенными кластерами, а состоящие из сайтов связывания разных белков - гетерогенными.

В нашей модели предполагается, что появление сайтов связывания в различных позициях генома - независимые равновероятные события (процесс Бернулли). Испытание при этом - это любая позиция последовательности, с которой мог бы начинаться сайт связывания, а успех - это позиция последовательности, с которой начинается сайт связывания (при данном весовом пороге отсечения слов).

Кластер начинается и кончается мотивом. Кластеры характеризуются длинами и порядками. Длиной кластера 1 назовем расстояние в нуклеотидах между первым нуклеотидом первого мотива кластера и первым нуклеотидом последнего мотива кластера (число испытаний). Порядков кластера Я назовем число мотивов в кластере (число успехов). Каждый возможный кластер, то есть последовательность подряд идущих мотивов, характеризуется вероятностно с помощью /?-уа1ие - оценки вероятности случайного возникновения данного или более плотного кластера такого же порядка в предположении нулевой гипотезы, то есть гипотезы о случайном возникновении данного кластера. Эта вероятность описывается кумулятивным отрицательным биномиальным распределением, то есть распределением числа независимых последовательных равновероятных бинарных испытаний, которое привело к известному числу успехов.

Мы используем кумулятивную форму отрицательного биномиального распределения (3), в которой каждой длине кластера I (в нуклеотидах) соответствует вероятность

6

порождения кластера, более короткого, чем наблюдаемый, того же порядка, то есть с тем же числом вхождений мотива (успехов в терминологии числа испытаний):

р{1е,щ,1, а)

Здесь 11 - порядок кластера, г И /-/-переменная, принимающая значения всех возможных длин, меньших длины кластера, й - плотность сайтов связывания в рассматриваемой последовательности, определенная отношением общего количества сайтов связывания к длине последовательности.

Такой подход позволяет сравнивать и ранжировать "кластеры различного порядка и длины, сравнивая их р-уа1ие, объединять несколько пересекающихся кластеров в один, приписывая ему новый /?-\а1ие, фильтровать кластеры или характеризовать вероятностно найденные по какому-либо другому критерию наборы кластеров.

2.3. Алгоритм полногеномной идентификации кластеров мотивов

В основе разработанного автором алгоритма для полногеномного обнаружения регулягорных элементов лежит статистическая модель, описанная в главе 2.2. Для оптимизации скорости работы алгоритма, вероятность для кумулятивного отрицательного биномиального распределения:

0=Ё • (1 ■- ¿Г (4)

рассчитывалась по рекуррентной формуле:

1)к1пЬ{К, /) = (1 - й) ■ и/ч1пЬ(П, 1 -1)+а ■ 1)!.\1пЬ{П -1, / -1). (5)

Для того, чтобы представить распределение в таком виде, мы использовали свойство биномиальных коэффициентов, которое описывается тождеством:

-Л (1-2Л (1-2

Проведенная оптимизация позволила снизить сложность алгоритма от Oit) к 0(/2). на порядки увеличив скорость идентификации кластеров мотива. Применение представленной рекуррентной формулы позволило резко сократить время расчета p-value кластеров на каждом следу ющем шаге (для каждого следующего значения R). Таким образом, алгоритм стал более адекватным для ресурсоемких полногеномных исследований.

2.4. Программа РаНетСк^

В разделе описаны этапы проектирования разработанной нами программы РаНегпОш^ которая на входе получает мотивы сайта связывания в виде слова или набора слов для построения матрицы позиционных частот, в виде матрицы позиционных частот или в виде точного слова или набора точных слов, не требующих построения матрицы, а на выходе выдает таблицу, содержащую кластеры сайтов связывания, ранжированные по убыванию р-уа1ие, а также следующую информацию о каждом кластере: позиция начала, позиция конца, имя гена (опционально для разных аннотаций), количество мотивов в кластере, полученная длина кластера и ожидаемая длина кластера, />-\а1ие.

При проектировании программы ставилась задача максимально сократить количество параметров алгоритмов для повышения независимости результатов от оценочных входных данных, и при этом сохранить необходимую гибкость программы, чтобы дать возможность будущим пользователям решать задачи для разных целей с различными представлениями входных данных. Параметрами программы являются: длина максимально возможного участка, отбираемого в качестве искомого кластера, минимальный порядок кластера, порог отсечения незначимых мотивов или их ожидаемая плотность в случайной последовательности или метка автоматического подбора значения порога (для мотивов, заданных неточными словами для построения матрицы, или самой матрицей), максимальный порог р-\-alue для набора результирующих кластеров или максимальное количество кластеров на выходе программы.

Входную последовательность генома программа обрабатывает в два этапа: сначала каждому нуклеотиду сопоставляется число - вес слова, начинающегося в текущей позиции генома, определяемый по матрице позиционных весов; потом по пороговому значению, определенному входным параметром, каждой позиции генома сопоставляется единица, если текущее значение превысило значение порога (искомое слово - сайт связывания начинается в этой позиции), и нуль, если не превысило значение порога. Таким образом, на обработку алгоритма РаиетОиэ! поступает бинарная последовательность.

Для оптимизации объема отводимой под программу памяти использовано динамическое ее выделение в соответствии с размерами обрабатываемых геномов.

Проектирование программы проведено с применением унифицированного языка моделирования иМЬ.

2.5. Методы сравнения геномных аннотаций

Множество задач, которые предстояло решить в данном исследовании - это задачи сравнения местоположения вычислительно предсказанных областей связывания белков-регуляторов с сигналами или определенными экспериментально участками связывания этих белков на ДНК или РНК, или участками, определенными с помощью экзонно-интронной аннотации, или с другой интересующей исследователя разметкой генома. Такие задачи сводятся к сравнению сигналов внутри и вне каких-то участков, если экспериментальные данные представлены сигналом, или к определению факта попадания или непопадания одних участков в другие, если экспериментальные данные представлены участками с четко фиксированными границами (это могут быть пики сигнала, это могут быть экзоны или интроны и т.д.). .

Для каждого сочетания разметки предсказанных участков (кластеров) и сигнала связывания, установленного экспериментально, последние можно разделить на две выборки: сигналы вне и внутри кластеров. Сигнал в каждом отрезке усредняется: каждому отрезку приписывается одно число, характеризующее сигнал. Нам ничего не известно о том, каким распределениям соответствуют эти числа. Поэтому оценку проводили с помощью непараметрического критерия - и-теста Манна-Уитни, который позволяет оценить значимость нулевой гипотезы, что обе выборки порождены из одного распределения.

Если участки одного множества имеют более или менее равную и маленькую длину по сравнению с длинами участков другого множества, - то первые можно представить точкой, например серединой участка, и тогда задача сводится к определению количества фактов попадания или непопадания точек в размеченные на геноме отрезки. Достоверность неслучайности локализации точки в отрезке, например, сайтов сплайсинга в кластерах сайтов связывания, или кластеров сайтов связывания в экзонах или интронах, или в их окрестностях, или в участках связывания экспериментально исследуемых белков может быть оценена исходя из ну левой гипотезы о независимости и равновероятности событий локализации точек внутри отрезков. Вероятность каждого такого события равняется доле покрытия отрезков в общей длине анализируемой последовательности. Вероятность случайно получить наблюдаемое или ещё более далёкое от случайного количество локализаций точек в отрезках может быть оценена как кумулятивный вес соответствующего участка биномиального распределения.

Глава 3. Верификация разработанных методов и подходов с использованием данных по регуляции транскрипции

Эта глава посвящена применению метода PattemClust и разработанных подходов для интегрированного анализа экспериментальных и вычислительных данных в задачах регуляции транскрипции. При этом удалось выявить точность и эффективность разработанных методов.

3.1. Исследование на геноме D.melanogaster

Для выяснения предсказательной точности метода PattemClust в качестве объектов исследования была выбрана хорошо изученная система регуляции транскрипции в раннем развитии D.melanogaster шестью белками-регуляторами Bed, Cad, Gt, Hb, Kni, Кг. Эта система прекрасна для апробации разработанных методов, так как мы получаем возможность сравнения вычислительно предсказанных регуляторных модулей с уже достоверными экспериментально-определенными такими участками. А для выяснения эффективности подхода к интегрированному анализу экспериментально показанных и вычислительно предсказанных участков, система хороша тем, что уже имеются результаты многолетних исследований по кооперативному взаимодействию этих белков.

3.1.1. Что было сделано

Были проанализированы данные по связыванию ChIP-chip шести указанных выше белков-регуляторов транскрипции на хромосоме 2R D.melanogaster, содержащей большое число энхансеров, зависящих от этих факторов. Для каждого из исследуемых белков по известным наборам сайтов связывания факторов регуляции транскрипции, распознаваемых ими на ДНК, были построены матрицы позиционных весов. С помощью этих матриц сайты связывания были размечены на последовательности хромосомы и собраны в кластеры программой PattemClust. Дтина. обработанной хромосомы 2R 20766586 нт, длины сайтов связывания рассматриваемых белков 9-17 нт. На компьютере с процессором Core2Duo 1.2 ГГц и оперативной памятью 2 Гб такая последовательность для каждого белка обрабатывалась за несколько секунд, за это время идентифицировались при заданном весовом пороге и отсортировывались по возрастанию /j-value около тысячи кластеров.

Проведено сравнение среднего уровня тех сигналов ChIP-chip, которые находятся внутри кластеров, найденных PattemClust, и тех, которые остались вне кластеров. Для каждого сочетания разметки кластеров и данных ChIP-chip последние разделяли на две выборки: сигналы вне и внутри кластеров. Эти выборки сравнивали и значимость нулевой гипотезы о том, что обе выборки были порождены из одного распределения оценивали с

помощью и-теста Манна-Уитни. Различие уровней сигнала считали значимым, если и-тест показывал р<0.002 для двухсторонней статистики. Такой уровень значимости позволяет, при необходимости, внести поправку Бонферрони на 36 гипотез, оставаясь в диапазоне разумных значений ¿>-уа1ие.

3.1.2. Результаты исследования

Полученные результаты представлены в таблице 1.

Белок, связывавшийся в эксперименте ChIP-chip

Белок, сайт связывания которого кдаскриюлан Bed Cad (II lib Km Ki

IV d <0.0001 <0.0001 <0.0001 <0.0001 <0.0001 <0.0001

( .id 0.11 <0.0001 <0.00016 <0.0001 0.00015 0.0015

Gt 0.90 inv 0.047 inv <0.0001 inv 0.38 inv 0.00047 0.029 inv

lib <0.0001 0.00039 0.049 <0.0001 0.85 inv 0.0025

Kni 0.26 inv 0.13 inv 0.32 inv 0.97 0.35 inv <0.0001

Ki <0.0001 <0.0001 <0.0001 <0.0001 0.27 0.0049

Таблица 1. Достоверность (U-тест Манна-Уитни) и знак различия среднего экспериментального сигнала результатов ChIP-chip по шести различным факторам вне и внутри кластеров сайтов тех же шести факторов на хромосоме 2R. В каждой ячейке показан /ьvalue нулевой гипотезы. Метка "inv" означает обратный эффект (среднее значение сигнала вне кластеров оказалось выше, чем внутри). Жирным шрифтом выделены достоверные корреляции (р<0.002).

Достоверные различия уровня сигнала вне и внутри кластеров наблюдались для многих пар "кластер сайта связывания - результат ChIP-chip". Ожидалось, что "одноимённые" пары дают достоверный положительный эффект, а эффект для остальных, "перекрестных" пар слабее или отсутствует вовсе. Оказалось, что наблюдается другая картина. Вычислительно идентифицированные кластеры сайта Bed достоверно связаны с областями более сильного сигнала ChIP-chip по всем шести факторам. Почти так же ведут себя разметки кластеров Cad и Кг, кроме того, что разметка Cad не коррелировала с результатами ChIP-chip по Bed, а разметка Кг по Kni и по самому Кг. Кластеры же Kni коррелированы достоверно только с результатами ChIP-chip по Кг. НЬ ведет себя примерно так, как ожидалось, разве что корреляция кластеров НЬ с результатами эксперимента по Bed не хуже, чем для собственно НЬ. Кластеры Gt дают достоверную антикорреляцию с результатами ChIP-chip по Gt и положительную, хотя и несколько более слабую - с Kni.

Все изученные факторы регуляции транскрипции часто встречаются в пределах одних и тех же i/wc-регуляторных модулей и поэтому неудивительно, что многие кластеры сайтов связывания каждого типа показывают экспериментальное связывание разнообразных факторов. Наиболее впечатляющим результатом является экспериментально показанное связывание всех исследованных факторов в кластерах Bed и всех факторов кроме Bed в кластерах Cad. Следует отметить, что факторы Bed и Cad являются материнскими факторами. Не исключено, что в участках, содержащих большое количество сайтов связывания этих материнских факторов, хроматин приобретает форму, облегчающую связывание всех факторов, участвующих в регуляции раннего развития D.melanogaster.

Наблюдается, что в участках ChIP-chip, связанных с Bed, Hb и, в менее достоверной степени, Кг имеются кластеры всех этих трех факторов. Как известно. Bed и Кг имеют сильно похожие (со сдвигом) мотивы связывания и, по-видимому. Кг конкурирует с Bed за функциональные сайты связывания. В то же время, анализ фазирования сайтов связывания Bed и НЬ показал, что они, скорее всего, располагаются согласованно друг с другом и с шагом спирали ДНК. Таким образом вполне разумно, что Bed, Кг и НЬ образуют единую систему, часто встречающуюся в функциональных энхансерах D.melanogaster. К этой системе может быть присоединен и Cad.

Наиболее неожиданным результатом является достоверная антикорреляция сигнала гибридизации белка Gt с расположением вычислительно найденных кластеров сайта Gt. Экспериментальные данные для Gt хорошо коррелируют с кластерами Bed, Кг, и Cad, но антикоррелируют с кластерами Gt. Возможно, мотив для Gt определен недостаточно хорошо и дает нефункциональные кластеры. Существующий мотив Gt больше похож на мотив связывания Kni. Аналогично, мотив связывания самого Kni тоже выглядит неудовлетворительно. Следует отметить, что в проведенных ранее исследованиях хорошие кластеры, коррелирующие по своему местоположению с ¡¿мс-регуляторными модулями, определенными делеционным анализом, образовывали как раз Bed, Кг, НЬ и в меньшей степени Cad, данные же по кластеризации Kni и Gt были менее достоверны. Но возможна и альтернативная интерпретация такого результата. Представим себе, что белок Gt участвует в регуляции, кооперативно связываясь с несколькими копиями другого белка, например, Kni (соответствующая корреляция в Таблице 1 достоверно положительна), при этом комплексы из нескольких Gt не образуются или не функциональны. Тогда наблюдающаяся в Таблице 1, казалось бы, неожиданная картина, в действительности подсказывает нам структуру одного из возможных регуляторных модулей (poly-Kni+Gt) и предсказывает отсутствие другой структуры (poly-Gt). Несклонность Gt к образованию пар в масштабе

всего генома подтверждалась в ранее проведенных исследованиях этого белка, хотя согласно той же работе, так же ведут себя Bed и Cad, чего мы в Таблице 1, посвящённой только хромосоме 2R, не наблюдаем. Таким образом, мы видим, что такой анализ может давать интересные и разумные результаты.

3.1.3. Резюме

Было показано, что области кластеризации сайтов связывания большинства исследованных белков-регуляторов транскрипции, предсказанные PatternClust достоверно скореллированы с участками их связывания, установленными экспериментально.

Выявлена тенденция к связыванию некоторых факторов в одних и тех же областях ДНК - гетерокластерах. Этот результат согласуется с известными экспериментальными данными о функциональной связи исследованных белков.

Выявлен случаи достоверной антикорреляции участков связывания белка по данным эксперимента и областей кластеризации его сайтов связывания, и, одновременно, достоверной корреляции экспериментально определенных участков его связывания в областях кластеризации сайтов связывания других исследованных белков. Такой результат, по-видимому, свидетельствует о тенденции белка функционировать совместно с другими исследованными белками, а не самостоятельно.

3.2. Исследование на полноразмерном геноме человека

Дня демонстрации эффективности метода PatternClust в аспекте времени расчетов в дополнение к исследованиям на D.melanogaster было решено провести исследование на геноме человека. Длина генома человека в 25 раз больше, чем у D.melanogaster, что очевидно скажется на времени вычислительной обработки всей последовательности ДНК1 Был выбран известный транскрипционный фактор человека GATA2, для которого известны сайты связывания и составлена матрица позиционных весов. Длина его сайта связывания составляет 20 нт. Длина самой длинной, первой хромосомы человека, на которой, в частности, проводился поиск кластеров сайтов связывания GATA2 составляет 247199719 нт (к моменту исследования было секвенировано 224999719 оснований нуклеотидов). Отбирали кластеры, длиной до 1000 нт. На простом однопроцессорном компьютере с процессором Core2Duo 1.2 ГГц и оперативной памятью 2 Гб такая последовательность была обработана всего за 20 минут и было идентифицировано при заданном значении весового порога и отсортировано по возрастанию p-value 52107 кластеров.

Проведенное исследование имело также и самостоятельный результат, т к позволило отобрать из участков экспериментально показанного связывания GATA2 в хромосомах раковых клеток те участки, которые предположительно относятся к регуляторным модулям, а не к связываниям другой природы или другим артефактам сигнала.

3.3. Заключение о результатах верификации разработанных методов

Таким образом, метод PattemClust может быть успешно использован для быстрого полногеномного предсказания регуляторных элементов разных организмов, в том числе человека, по имеющимся данным о сайтах связывания исследуемых белков. Предложенный подход сравнения экспериментально определенных участков связывания белков с последовательностью и идентифицированных в последовательности кластеров сайтов связывания каждого из этих белков позволит указывать на регуляторные модули, состоящие из сайтов связывания разных белков-регуляторов (гетерогенные регуляторные модули) и выделять совместно действующие регуляторные факторы.

Глава 4. Исследование регуляции сплайсинга РНК-связывающим белком Pasilla с применением разработанных методов

Данная глава посвящена результатам применения вычислительных методов для проверки на полном транскриптоме, обладает ли Pasilla характерной для белков-регуляторов сплайсинга картиной распределения сайтов связывания.

4.1. Сайты связывания Pasilla и образованные ими кластеры

В последовательностях генов D.melanogaster программой PattemClust нами были отобраны все мотивы YCAY и идентифицированы образованные ими кластеры.

В 5089 проанализированных генах общей длиной 34149204 нт было найдено 407384 мотивов YCAY.

Было отобрано 64716 значимых кластеров сайтов связывания (p-value < 0.015). Такое значение p-value обеспечивает достаточную плотность мотивов в кластере, адекватную плотности сайтов в соответствующих экспериментах по связыванию NOVA с кластерами YCAY. (Для Pasilla таких исследований еще не было проведено, но белок имеет сходную с NOVA структуру, в частности такие же повторяющиеся КН-домены, которыми он связывается с РНК). Длины кластеров оказались распределенными в диапазоне 7-220 нт с подавляющим числом кластеров (85.5%) в диапазоне 7-20 нт. Медиана всего набора длин кластеров равна 14 нт.

Встретилось несколько удивительно длинных (более ста нт) и при этом плотных кластеров мотива Pasilla. Например, кластер из 53-ех мотивов с длиной 220 нт в гене

14

СС15786, при том что средняя длина последовательности с таким количеством мотивов могла бы быть 4442 нт, т е в 20 раз длиннее наблюдаемой. Примеры таких кластеров представлены в таблице 2.

> п/п Имя гена Количество мотивов в кластере Длина кластера, щ ( ро ШИН 1 11*1 Ее] последовательности с таким кол-вом МОТИВОВ, нт 1'-\ лНю кластера

1 СС15786 53 220 4442 >10'18

2 СС6048 18 103 1508 2хЮ"10

3 С02621 13 122 1089 2x10-*

4 С02668 13 184 1089 ЗхЮ"'

Таблица 2. Примеры особо длинных (более 100 нт) и плотных кластеров сайтов связывания белка РаэШа, обнаруженных методом РаиегпС11Ы в генах D.melanogaster.

4.2. Локализация границ экзоиов и интронов в кластерах сайтов связывания белка РаэШа

Многие факторы - регуляторы сплайсинга - связываются на РНК в окрестностях границ экзонов (границ сплайсинга), поэтому в этих областях встречаются мотивы сайтов связывания регуляторов сплайсинга. Соответственно, необходимо выяснить, как локализованы сами границы экзонов по отношению к кластерам сайтов связывания РазШа. Достоверность неслучайности локализации сайтов сплайсинга в кластерах сайтов связывания РаэШа оценивалась исходя из нулевой гипотезы о независимости и равновероятности таких событий. Вероятность каждого из них равнялась доле покрытия обнаруженных нами кластеров в общей длине генов D.melanogaster. Вероятность случайно получить наблюдаемое или ещё более далёкое от случайного количество случаев локализации сайтов сплайсинга в кластерах оценивалась кумулятивным весом соответствующего участка биномиального распределения. А также для оценки неслучайности использовалось отношение полученного числа локализаций границ сплайсинга в кластерах сайтов связывания РаяШа к его математическому ожиданию в предположении нулевой модели.

Для выбранного набора кластеров мы рассматривали следующие выборки сайтов

сплайсинга: общая выборка, акцепторные сайты (З'-конец интрона) и донорные сайты (5'-

конец интрона) всех экзонов, альтернативных экзонов и экзонов, аннотированных как

неизменные (конститутивные). Дтя всех выборок /)-\а1иез, характеризующие

неслучайность локализации сайтов сплайсинга, оказались неотличимыми от нуля при

доступной нам точности вычислений. Для характеристики каждой из выборок сайтов

сплайсинга по 101200 экзонам, 33347 из которых альтернативные, а 67853 аннотированы

как неизменные, мы приводим следующие числа: реальное число сайтов, локализованных в

кластерах, его математическое ожидание в предположении нулевой модели, оценка его

15

дисперсии в том же предположении и отношение полученного числа к ожидаемому. Среди сайтов сплайсинга, локализованных в кластерах сайтов связывания РазШа, донорных сайтов оказалось в два раза больше, чем акцепторных, причем как для альтернативных

экзонов, так и для аннотированных как постоянные. Эти результаты представлены в таблице 3.

К'гшчесгпо сайтов сп.чайсинга, в кластерах мотива Мл и ыи,пп;_' количества сайтов сплайсапгая предположен« и н)левой гипотезы Оценка дисперсии количества сайтов сплайсинга в предположен» и нулевой гипотезы Отношение полученного количества сайтов см мменн.'-а к ожидаемому

Псе сл1пы uuaiicniir.i 12 141 2605.7614 2567.5036 4 6593

Донорные сайты-(.п laiiaiiii а 8 591 1302.8807 1283.7518 6.5939

Лыи-ПТОрШЛО С.11111,1 сплайсинга 3 888 1302.8807 1283.7518 2.9842

Донорные сайты CIUJMUIM1 .1 алыерпалилшч ■'KidllllB 2 564 489.6007 482.4123 5.2369

Акцепторные сайты ClI.I.'lHUtlH.L атыириишмшч «К <11111)11 1 316 489.6007 482.4123 2.6879

Донорные L.b\ 1 i.i uuaiicimi.i нел ¡мсшн,1\ ik.nii'iR 5 778 996.2177 981.5913 5.7999

Акцепторные L.uin.i спламипм а IICII1MCIIIII.IV lk-.OIKin 2 481 996.2177 981.5913 2.4904

Таблица 3. Анализ количества сайтов сплайсинга, локализованных в кластерах сайта связывания белка РавШа.

4.3. Распределение позиций кластеров сайтов связывания Ра$Н1а по отношению к аннотированным экзонам

Были проанализированы все аннотированные экзоны во всех 19444 транскриптах версии Р1уВазе г.5.25, содержащих суммарно 101200 экзонов, среди которых 33348 альтернативные и 67862 аннотированы как неизменные. Для выбора разумных окрестностей границ экзонов, в которых проводилось исследование были оценены длины экзонов и интронов в геноме 1)те1апо%а51ег. Оказалось, что 95% всех аннотированных

экзонов имеют длину больше 100 нт, 5% имеют длину меньше ЮОнт, 50% меньше 400 нт, 70% меньше 700 нт. Что касается интронов, то 28% интронов длиной до 100 нт, 52% меньше 600 нт, 70% меньше 1700 нт. Поэтому были рассмотрены окрестности границ сплайсинга до 600 нт в сторону' интрона и до 400 нт в сторону экзона. На рис.1 приведены графики количества кластеров сайтов связывания РаэШа, покрывающих каждую позицию окрестностей границ сплайсинга всех аннотированных экзонов. В этих графиках приведены окрестности 100 нт, где наиболее наглядны различия распределений.

2200 2300 1800 1500 1400 1200 1000 300 600 400 200 о

И':

2200 2000 1В00 1600 1400 1200 1000 800 600 400 200 О

А -100 -80 -60 -40 -20 В 20 40 60 вО 100 Б -100 -80 -60 -40 -20 0 23 40 60 80 100

трен

2200 2000 1800 1600 1400 1200 1000 В00 600

400 ' ..............................

200 .............................

О - ----Т--Г---•

В -100-80 -60 -40 -20 О 20 40 60 80 100

2200 2000 1ВОО 1600 2400 1200 ЮОС 3-00 600 400 200 О

Г -

интроа

.СО -80 -60 -40 -20 С 20 4С 60 80 100

Рис. 1. Кластеры сайтов связывания РазШа ассоциированы преимущественно с З'-концамп экзонов (5'-саитамн сплайсинга) у D.melanogaster. (Х-осъ) Расстояние в иуклеотидах от границы экзон-иигрон, сайт сплайсинга помещен в точке 0. (У-осъ) Количество экзонов, в которых данная точка покрыта кластером сайтов связывания РаэШа. Панели: {Л) окрестности 5 '-сайтов сплайсинга неизменных (конститутивных) экзонов; (Б) окрестности З'-сайтов сплайсинга неизменных экзонов; (В) окрестности 5'-сайтов сплайсинга альтернаттшных экзонов; (Г) окрестности З'-сайтов сплайсинга альтернативных экзонов.

По результатам проведенного анализа явно видно, что на 5'-границе сплайсинга лидирует количество кластеров, и длина большинства из них составляет восемь

нуклеотидов, т. е. это кластер вида YCAYYCAY. Интересно также, что такая картина наблюдается как для альтернативно сплайсированных экзонов, так и для тех, которые пока аннотированы как неизменные. Что касается графиков для 3'-границы сплайсинга, наблюдается разница распределений для конститутивных и альтернативных экзонов.

4.4. Распределение позиций кластеров сайтов связывания Pasilla по отношению к альтернативно сплайсируемым под действием Pasilla экзонам

Проведен анализ расположения кластеров сайтов связывания Pasilla в окрестностях границ экзонов, в которых наблюдается альтернативный сплайсинг по данным недавно проведенных исследованиях действия белка Pasilla. Эти исследования позволили выявить 405 статистически значимых событий сплайсинга в 323 генах, в которых экзоны были либо исключены, либо включены при снижении уровня экспрессии гена Pasilla с помощью интерференции РНК. Анализ распределения позиций кластеров сайтов связывания был проведен на множестве кассетных экзонов, среди которых для исследования окрестностей 5'-сайтов сплайсинга было отобрано 184 экзона, а для исследования окрестностей З'-сайтов спайсинга- 179 экзонов. Выбор окрестностей границ экзона, в которых проводилось это исследование, обоснован аналогичным выбором окрестностей в результатах работ, опубликованных по эксперименальным исследованиям Pasilla и NOVA. На рис.2 приведены графики количества кластеров сайтов связывания Pasilla, покрывающих каждую позицию указанных окрестностей границ экзонов, на сплайсинг которых повлияла Pasilla.

Рис. 2. Кластеры сайтов связывания РазШа ассоциированы преимущественно с З'-концамн экзонов (5'-сайтамп сплайсинга), сплайсинг которых зависит от РазШа. (Х-ось) Расстояние в нукдеотидах от границы экзон-интрон, сайт сплайсинга помещен в точке 0. (У-ось) Количество кассетных экзонов, в которых данная точка покрыта кластером сайтов связывания РаэШа, и для которых картина сплайсинга менялась при экспериментальном снижении уровня экспрессии гена РаБШа с помощью РНК-интерференции. Панели: (А) окрестности 5'-сайтов сплайсинга; (Б) окрестности З'-сайтов сплайсинга.

В представленных на рис. 2 графиках наблюдаются явные пики на 5'-саите сплайсинга (здесь, так же как в исследовании на аннотации генома, лидирует количество кластеров длиной Я нт. т с вида YCAYYCAY), в прилегающем интроне в З'-некодирующей области на расстоянии 130 и 160 нт от 5'-сайта сплайсинга, в прилегающем интроне в З'-некодирующей области на расстоянии 80 нт от границы экзона, и, наоборот, наблюдается более редкая встречаемость YCAY кластеров на расстоянии 30 нт от границы экзона в том же интроне.

По результатам проведенного статистического анализа обнаружено, что порядка 40% кассетных экзонов пересекаются с кластерами сайтов связывания Pasilla. А также, что 5'-граница сплайсинга пересекается кластерами в два раза чаще, чем З'-граница сплайсинга (8-9% случаев к 4-5% процентам случаев).

4.5. Интерпретация результатов исследования

Проведенные исследования с белком NOVA показали наличие десятков тысяч кластеров YCAY, с которыми связывается этот белок в транскриптоме мышей, и сотни регулируемых белком NOVA экзонов. Имеющиеся к настоящему моменту исследования белка Pasilla позволили выявить несколько сот регулируемых им экзонов. Найденные нами десятки тысяч плотных кластеров мотива YCAY в транскриптоме D.melanogaster указывают на экзоны, возможно, регулируемые белком Pasilla. Возможно также, что регуляция сплайсинга вызывается связыванием Pasilla только с малой частью показанных т silico кластеров сайтов связывания YCAY.

Обнаруженные нами длинные и очень плотные кластеры YCAY (вплоть до 53-ех сгруппированных мотивов), возможно, соревнуются за связывание Pasilla даже в условиях пониженной концентрации Pasilla в клетке, обеспечивая, таким образом, более надежное связывание в таких участках для осуществления необходимой рсгуляторноп или какой-то другой, неизвестной нам, функции исследуемого белка.

Экспериментальные и in silico исследования хорошо изученного белка NOVA -ортолога Pasilla, а также многих других белков, осуществляющих регуляторную функцию в альтернативном сплайсинге, указывают на их связывание в окрестностях сайтов сплайсинга и на самих границах экзонов с нитронами. Наблюдаемая нами картина неслучайной локализации границ экзонов в кластерах мотива YCAY согласуется с этими исследованиями. Области связывания белков-регуляторов сплайсинга часто ассоциированы с участками посадки белков-элементов сборки сплайсосомы, часть которых как раз находится на границах экзонов с интронами. Так, например, белок-репрессор сплайсинга,

19

связавшись с таким участком, может заблокировать связывание белка, необходимого в сборке сплайсосомы, а белок-активатор - наоборот, привлечь сплайсосомный комплекс.

Интересен обнаруженный нами факт, что среди границ экзонов, локализованных в кластерах мотива YCAY, в два раза больше донорных сайтов, чем акецпторных. Четыре варианта восьмибуквенных кластеров мотива Pasilla, переведенные в алфавит ДНК, а именно GGT(A|G)AGT(A|G), соответствуют консенсусной последовательности 5'-сайта сплайсинга, которая распознается при сборке сплайсосомы, а именно (A|C)AGGT(A|G)AGT. Возможно, когда Pasilla связывается с донорным сайтом сплайсинга, она блокирует связывание U'l snRNP с первичным транскриггтом и, таким образом, не позволяет экзону сплайсироваться. В экспериментальных исследованиях по белку NOVA и белку Pasilla как раз утверждалось, что связывание этих белков с 5'-сайтом сплайсинга часто вызывает невключение этого экзонав информационную РНК.

Наблюдаемое различие распределений кластеров сайтов связывания в окрестностях 3'-границы сплайсинга на всем аннотированном множестве альтернативных и неизменных экзонов, а также наблюдаемое сходство распределений кластеров сайтов связывания в 3'-границе сплайсинга, полученных на множестве альтернативно-сплайсиуемых под действием Pasilla экзонов и всем множестве альтернативно аннотированных экзонов мухи свидетельствует, скорее всего о том, что связывание Pasilla на расстоянии 80 нт от Загранице сплайсинга в примыкающей к нему некодирующей области (и/или ее несвязывание в этом интроне на расстоянии 30 нт от З'-границы сплайсинга) является функциональным с точки зрения регуляции альтернативного сплайсинга.

Неслучайность локализации границ экзонов в кластерах сайтов связывания Pasilla и схожесть распределения кластеров сайтов связывания в окрестностях 5'-границы сплайсинга как для альтернативных экзонов, так и для экзонов, аннотированных как постоянные, указывает, возможно, на неполноту аннотации генома D.melanogaster, а также на то, что Pasilla влияет на включение экзона в информационную РНК скорее всего не самостоятельно, а в совокупности с другими факторами регуляции сплайсинга. Наш результат согласуется с экспериментальными исследованиями белка Pasilla, которые позволили выявить экзоны, аннотированные как постоянные, но которые, тем не менее, оказались подверженными влиянию Pasilla Пока нет достаточного числа транскриптов для многих генов D.melanogaster, чтобы уверенно утверждать об альтернативности или консервативности многих экзонов, обнаружение кластеров сайтов связывания белков-регуляторов сплайсинга может помочь предсказывать такие экзоны. Более того,

идентификация участков кластеризации мотивов регуляторных факторов может быть крайне полезна для предсказания новых, еще не аннотированных экзонов.

Полученные в нашей работе результаты указывают на регуляторную функцию РазШа в сплайсинге П.те1апп^ах1ег и подтверждают недавние функциональные исследования, которые показали несколько сот границ экзонов, изменившихся при снижении концентрации РазШа в исследованных клетках. То, что нами были идентифицированы тысячи, а не сотни, границ экзонов, локализованные в кластерах сайта связывания белка РаБШа, указывает на тысячи возможных событий альтернативного сплайсинга под влиянием этого белка в клетках D.melanogaster. Необходимы экспериментальные исследования по взаимодействию РазШа с РНК для подтверждения предсказанных нами новых участков связывания, и дополнительные функциональные исследования для выяснения, при связывании с какими из них РаэШа регулирует включение экзонов в информационную РНК.

Таким образом, идентификация т ¡Шсо участков распознавания РНК-связывающих белков может быть использована для предсказания регуляторных элементов и, соответственно, регуляторных свойств других белков с известными последовательностями сайтов связывания, предсказания альтернативности экзонов и местоположения новых экзонов, ранее не обнаруженных в экспериментальных исследованиях.

выводы

1. Применительно к задаче идентификации регуляторных элементов, насыщенных сайтами связывания факторов регуляции транскрипции и белков-регуляторов сплайсинга развит метод описания статистики длин последовательных наборов сайтов фиксированного порядка.

Разработаны новые алгоритмы: а) полногеномного поиска мотивов, представленных в виде точных слов, консенсусных слов или матриц позиционных весов; б) быстрого полногеномного обнаружения кластеров мотивов.

На основе этих алгоритмов создан новый программный продукт PattemClust, который позволяет на полногеномных последовательностях ДНК или РНК с высокой скоростью идентифицировать кластеры мотивов ДНК и РНК, представленных в виде слов или матриц позиционных весов.

2. Проведена верификация программного продукта PattemClust на данных по регуляции транскрипции и показано, что он может быть успешно использован для быстрого предсказания местоположения регуляторных элементов в полноразмерных геномах разных организмов, в том числе и человека.

Показано, что предложенные подходы сравнения экспериментально определенных и полученных m silica регуляторных элементов позволяют предсказывать регуляторные модули, состоящие из сайтов связывания разных белков-регуляторов и выделять взаимосвязанные регуляторные факторы.

3. С помощью разработанных автором вычислительных методов для шести белков-регуляторов транскрипции раннего эмбрионального развития D.melanogastcr в ее ДНК идентифицированы кластеры сайтов связывания этих белков, соответствующие локализации г/ис-регуляторных элементов.

Показано, что области кластеризации сайтов связывания большинства исследованных белков-регуляторов транскрипции достоверно скоррелированы с участками их связывания, полученными экспериментально методом иммунопреципитации хроматина с последующим осаждением на матрице (ChIP-chip). Выявлена тенденция исследованных факторов Bed, Cad, Gt, Hb, Kni, Кг к связыванию на одних и тех же участках ДНК, что согласуется с экспериментальными данными об их взаимосвязи.

4. Впервые для РНК-связывающего белка Pasilla во всех генах D.melanogaster с помощью разработанной программы PatternClust предсказаны регуляторные элементы, при связывании с которыми Pasilla регулирует альтернативный сплайсинг.

5. Впервые проведен анализ расположения предсказанных нами кластеров сайтов связывания Pasilla в генах D.melanogaster по отношению к границам всех аннотированных на сегодняшний день экзонов D.melanogaster, по отношению к границам экзонов, экспериментально выявленных в недавних исследованиях, на сплайсинг которых оказало влияние снижение экспрессии гена Pasilla, а также по отношению к экспериментально установленным участкам связывания белка NOVA (ортолога Pasilla у млекопитающих) в окрестностях границ экзонов генов мышей.

Впервые показано: а) Экзонно-интронные границы генов D.melanogaster достоверно более часто встречаются в кластерах мотивов сайтов связывания Pasilla, при этом донорные сайты сплайсинга встречаются внутри кластеров в два раза более часто, чем акцепторные. Такая картина наблюдалась как для альтернативных экзонов, так и для тех, которые аннотированы как неизменные, б) В геноме D.melanogaster наблюдаетя сходство распределений кластеров сайтов связывания белка Pasilla в окрестностях донорных сайтов сплайсинга альтернативных и неизменных экзонов (как для всех аннотированных экзонов, так и для тех, которые подверглись влиянию Pasilla в эксперименте) и существенное различие распределений в окрестностях акцепторных сайтов альтернативных и неизменных экзонов. в) Наблюдается сходство распределения кластеров сайтов связывания белка Pasilla в окрестностях границ экзонов генов D.melanogaster и определенных экспериментально участков связывания белка NOVA (ортолога Pasilla) в окрестностях границ экзонов генов мышей.

6. Для изучения регуляторных участков в гетерогенных объектах, таких как популяции микроорганизмов, популяции клеток одного организма с разными соматическими мутациями (например, образцы раковых тканей с примесью нормальных), предложено применение вычислительного метода BCV для определения геномных последовательностей с использованием словаря по результатам прямого секвенирования смеси изучаемых молекул ДНК на секвенаторе Сэнгера. В процессе разработки метода BCV проведено его тестирование на расшифровке результатов прямого секвенирования смеси популяции микробов клинических образцов слизи желудка человека. Результаты по составу бактериального сообщества хорошо согласуются с данными по секвенированию с использованием классификатора RDP после предварительного клонирования.

ОПУБЛИКОВАННЫЕ РАБОТЫ ПО ТЕМЕ ДИССЕРТАЦИИ

Статьи

1. М.С. Полищук, А. Хайнцель, А. Фаворов, В. Макеев (2008). Сравнительный анализ участков связывания белков-регуляторов транскрипции в раннем развитии D.melanogaster, определенных методом ChlP-chip. и вычислительно предсказанных кластеров сайтов связывания этих белков. Биофизика, том. 53, вып.5, с.754-757.

2. М.С. Полищук, Д.Б. Браун, А.В. Фаворов, П.Д. Бикель, В.Г. Туманян (2011). Сайты сплайсинга локализуются в кластерах сайтов связывания белка Pasilla в генах D.melanogaster. Биофизика, том. 56, вып.6, с.1065-1070.

3. А. Никулова, М. Полищук, В. Туманян, В. Макеев, А. Миронов, А. Фаворов (2012). Корреляции кластеров сайтов связывания и экспериментальных данных по связыванию белков с ДНК позволяют предполагать структуру регуляторных модулей". Биофизика, том. 57, вып.2, с.212-214.

4. Y. Fantin, A. Neverov, A Favorov, М. Alvarez-Figueroa, S. Braslavskaya, М. Gordukova, I. Karandashova, 1С Kuleshov, A. Myznikova, M. Polishchuk, D. Reshetov, Y. Voiciehovskaya, A Mironov, V. Chulanov (2013). Base-Calling Algorithm with Vocabulary (BCV) Method for Analyzing Population Sequencing Chromatograms. PLoS ONE 8(1): e54835. doi:10.1371/jornal.pone.0054835.

Материалы трудов конференций

1. M. Polishchuk, М. Faybisovich. "A Formalized Description of Combined Informational and Computational Structures for Biomedicl Software Systems". In: Proceedings of the International Workshop on Computer Science and Information Technologies 2004 (CSIT'2004), Budapest, Hungary, October 18-20, 2004

2. M. Polishchuk, V. Makeev, A. Favorov, V. Tumanyan. "A Fast Algorithm for the Search for Globally Optimal Clusters of Binding Sites in Regulatory Regions for Identification of CIS-Regulatory Elements". In: Proceedings of the International Moscow Conference on Computational Molecular Biology, Moscow, Russsia, July 18-21, 2005

3. M. Polishchuk, B. Brown, A Favorov, P. Bickel. "Binding Motif Clusters of Splicing Regulatory Protein Pasilla Are Overrepresented in D.melanogaster Splice Junctions". In: Proceedings of the International Moscow Conference on Computational Molecular Biology, Moscow, Russsia, July 21-24, 2011

Подписано в печать 07 октября 2013 г.

Формат 60x90/16

Объём 1,5 п.л.

Тираж 100 экз.

Заказ № 141013479

Оттиражировано на ризографе в ООО «УниверПринт»

ИНН/КПП 7728572912V772801001

Адрес: г. Москва, улица Ивана Бабушкина, д. 19/1.

Тел. 740-76-47, 989-15-83.

http://www. uni verprint. ru

Текст научной работыДиссертация по биологии, кандидата физико-математических наук, Полищук, Майя Семеновна, Москва

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ ИНСТИТУТ МОЛЕКУЛЯРНОЙ БИОЛОГИИ ИМ. В .А. ЭНГЕЛЬГАРДТА РОССИЙСКОЙ АКАДЕМИИ НАУК

На правах рукописи

л / Т7 / Г А Г /

ичйи! аоч-154

Полищук Майя Семеновна

ИССЛЕДОВАНИЕ МЕХАНИЗМОВ РЕГУЛЯЦИИ ТРАНСКРИПЦИИ И СПЛАЙСИНГА С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛИТЕЛЬНЫХ МЕТОДОВ АНАЛИЗА ПОСЛЕДОВАТЕЛЬНОСТЕЙ ДНК И РНК

Специальность 03.01.03 - Молекулярная биология

Диссертация на соискание ученой степени кандидата физико-математических наук

Научный руководитель:

доктор физико-математических наук,

профессор Туманян Владимир Гайевич

Москва 2013

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ....................................................................................................................................4

Актуальность работы......................................................................................................................4

Цель и задачи исследования...........................................................................................................4

Объекты и методы исследования...................................................................................................5

Научная новизна работы.................................................................................................................6

Практическая значимость исследования.......................................................................................6

Апробация результатов исследования...........................................................................................7

Основные положения, выносимые на защиту..............................................................................7

ГЛАВА 1. Обзор литературы по регуляции транскрипции и сплайсинга...............................9

1.1. Транскрипция и сплайсинг. Регуляция...................................................................................9

1.2. Регуляторные белки................................................................................................................13

1.2.1. Белки-регуляторы альтернативного сплайсинга Pasilla и NOVA............................13

1.2.1.1. Роль белков NOVA и Pasilla............................................................................13

1.2.1.2. Белок Pasilla -гомолог семейства РНК-связывающих белков NOVA.......15

1.2.1.3. Структура белков Pasilla, Nova-1, Nova-2......................................................18

1.2.2. Белки-регуляторы транскрипции раннего развития D.melanogaster......................20

1.3. Локализация регуляторных элементов ДНК и РНК............................................................22

1.3.1. Локализация на РНК регуляторных элементов сплайсинга....................................22

1.3.2. Локализация в ДНК регуляторных элементов транскрипции.........................................26

1.4. Структура регуляторных элементов ДНК И РНК...............................................................27

1.5. Методы изучения на ДНК и РНК участков специфического взаимодействия с белкамиЗО

1.5.1. Экспериментальные биохимические методы............................................................30

1.5.2. Биоинформатические методы.....................................................................................33

1.5.3. Биофизические методы................................................................................................38

Заключение.....................................................................................................................................39

ГЛАВА 2. Модели, вычислительные методы и программы...................................................41

2.1. Модель мотива сайта связывания.....................................................................................41

2.2. Модель представления регуляторного элемента............................................................44

2.3. Алгоритм полногеномной идентификации кластеров вхождений мотива...................46

2.4. Программа PatternClust......................................................................................................49

2.5. Методы сравнения геномных аннотаций.........................................................................54

2.5.1. Метод сравнения результатов аннотаций, представленных в виде функции и в виде интервалов......................................................................................................................55

2.5.2. Метод сравнения результатов аннотаций, представленных интервалами.............56

2.6. Исследование метода BCV................................................................................................57

Заключение.....................................................................................................................................61

ГЛАВА 3. Верификация разработанных методов и подходов на результатах исследований по регуляции транскрипции.......................................................................................................62

3.1 Исследование на геноме D. melanogaster............................................................................62

3.1.1. Идентификация кластеров сайтов связывания и сравнение их местоположения с результатами экспериментов ChIP-chip...............................................62

3.1.2. Результаты исследования.......................................................................................63

3.1.3. Резюме.....................................................................................................................65

3.2. Исследование на геноме человека....................................................................................66

Заключение.....................................................................................................................................67

ГЛАВА 4. Исследование регуляции сплайсинга РНК-связывающим белком Pasilla..........68

4.1. Сайты связывания Pasilla и образованные ими кластеры..............................................68

4.1.1. Анализ расстояний между сайтами связывания Pasilla......................................68

4.1.2. Кластеры сайтов связывания Pasilla.....................................................................69

4.2. Локализация экзонно-интронных границ в кластерах сайтов связывания Pasilla.......70

4.3. Расположение кластеров сайтов связывания Pasilla по отношению к аннотированным экзонам.............................................................................................................71

4.4. Расположение кластеров сайтов связывания Pasilla по отношению к альтернативно сплайсируемым под действием Pasilla экзонам..........................................................................75

4.5. Расположение кластеров сайтов связывания Pasilla по отношению к участкам связывания NOVA.........................................................................................................................76

4.6. Интерпретация результатов исследования......................................................................77

4.7. Сравнительное исследование участков связывания белка Pasilla с другими РНК -связывающимися белками............................................................................................................80

ЗАКЛЮЧЕНИЕ............................................................................................................................82

Направление дальнейших исследований.....................................................................................82

Основные результаты....................................................................................................................82

ВЫВОДЫ.....................................................................................................................................84

БЛАГОДАРНОСТИ....................................................................................................................86

ЦИТИРУЕМЫЕ ИСТОЧНИКИ.................................................................................................87

ПРИЛОЖЕНИЯ...........................................................................................................................96

ВВЕДЕНИЕ

Актуальность работы

Процессы транскрипции происходят во всех живых организмах, а процессы сплайсинга во всех эукариотах. Регуляция транскрипции и сплайсинга лежит в основе развития живых организмов.

Понимание того, как клетка регулирует эти наиболее общие для всех живых систем процессы - одна из ключевых задач молекулярной биологии. Изучение и глубокое понимание механизмов этих процессов поможет объяснить, как происходит развитие организмов, диагностировать и лечить наследственные заболевания.

Продвижение в изучении механизмов регуляции транскрипции и сплайсинга с применением вычислительных методов становится наиболее актуальным именно сейчас, так как стали доступны для анализа полногеномные последовательности многих организмов и активно развивается аннотирование геномов [Gravely et al., 2011]. Эти достижения обязаны появлению существенно более эффективных и менее дорогостоящих экспериментальных методов секвенирования нового поколения, а также возрастанию точности и появлению новых экспериментальных методов узнавания на нуклеотидных последовательностях участков взаимодействия ДНК/РНК с белками. Накоплены гигантские объемы генетических данных, количество данных непрерывно растет, поэтому требуются новые вычислительные методы для обработки полученной информации.

Цель и задачи исследования

Целью диссертационной работы является полногеномное предсказание, анализ локализации и структуры регуляторных элементов (участков ДНК или РНК), распознаваемых белками-регуляторами транскрипции и сплайсинга, и разработка соответствующих вычислительных методов.

Для достижения поставленной цели необходимо решить следующие задачи:

1. Изучить характеристики участков связывания белков-регуляторов транскрипции и сплайсинга на ДНК и РНК.

2. Предложить адекватный метод, разработать алгоритм и программное средство для вычислительной полногеномной идентификации регуляторных участков.

3. Верифицировать разработанный нами вычислительный метод полногеномного предсказания регуляторных элементов на экспериментально подтвержденных

таких участках для уже хорошо изученных белков-регуляторов транскрипции. Оценить эффективность метода на геноме человека.

4. Реализовать методы сравнения экспериментально выявленных участков взаимодействия белков с РНК или ДНК или других размеченных участков генома с предсказанными вычислительно регуляторными элементами.

5. Верифицировать метод сравнения предсказанных регуляторных элементов и экспериментально выявленных участков взаимодействия факторов с нуклеотидными последовательностями на данных экспериментально подтвержденных функционально связанных, кооперативно действующих, факторов регуляции транскрипции.

6. Применить разработанные вычислительные методы для предсказания регуляторных элементов, взаимодействующих с малоизученным РНК-связывающим белком Pasilla, который, как показывают экспериментальные исследования, участвует в регуляции альтернативного сплайсинга.

7. Провести анализ расположения предсказанных на РНК регуляторных элементов, взаимодействующих с исследуемым белком-регулятором сплайсинга, Pasilla, по отношению к известной экзонно-интронной аннотации, а также по отношению к экспериментально показанным альтернативно-сплайсируемым под действием этого белка экзонам.

Объекты и методы исследования

Данные, на которых проводились исследования: геном D.melanogaster из базы данных FlyBase и UCSC Genome Browser, геном человека из базы данных UCSC Genome Browser; участки связывания факторов транскрипции, определенные методом ChIP-chip из базы данных Национальной лаборатории университета Беркли проекта Berkeley Drosophila Transcription Network Project (BDTNP); последовательности сайтов связывания, построенные по таким последовательностям матрицы позиционных частот для белков — регуляторов транскрипции из базы данных TRANSFAC; аннотация генов D.melanogaster из базы данных Ensemble Genome Browser; последовательности сайта связывания белка — регулятора сплайсинга Pasilla и результаты эксперимента с интерференцией РНК, определившие регулируемые этим белком альтернативные экзоны, полученные из материалов соответствующей публикации и предоставленные лично доктором Анжелой Брукс (Angela Brooks) из Калифорнийского университета, Беркли, США,

Решение поставленных задач осуществлено методами вычислительной обработки и анализа данных, разработанными автором на языках С++ и Perl и общедоступными

программами, такими как Microsoft Office Excel, сервисами UCSC Genome Browser, Ensemble Genome Browser.

Научная новизна работы

• Разработан новый алгоритм PatternClust, который позволяет эффективнее и точнее, чем с помощью существующих методов, обрабатывать последовательности ДНК и РНК для полногеномного предсказания регуляторных элементов белков-регуляторов транскрипции и сплайсинга.

• Впервые для РНК-связывающего белка Pasilla на всем геноме D.melanogaster предсказаны in silico регуляторные элементы, при связывании с которыми Pasilla, как предполагается, регулирует альтернативный сплайсинг.

• Впервые проведен анализ локализации предсказанных участков по отношению к аннотированным границам экзонов и интронов и к экспериментально показанным альтернативно-сплайсируемым под действием Pasilla экзонам.

• Предложен подход для выявления взаимодействующих белков-регуляторов путем сравнительного анализа вычислительно предсказанных регуляторных элементов и экспериментально показанных участков связывания изучаемых белков с

» нуклеотидными последовательностями.

• Внесен вклад в разработку вычислительного метода расшифровки результатов сенгеровского секвенирования смесей ДНК гетерогенных объектов, в том числе применимого для изучения гетерогенных регуляторных участков.

Практическая значимость исследования

Разработанные программные средства могут быть использованы для эффективного полногеномного предсказания регуляторных элементов как для изучения регуляции транскрипции в ДНК, так и для изучения регуляции сплайсинга в РНК.

Разработанные программы и предложенные подходы к анализу данных применимы для широкого круга научных задач, таких как:

• идентификация регуляторных элементов по известным сайтам связывания белков-регуляторов;

• верификация предполагаемых сайтов связывания для белков-регуляторов;

• проверка гипотезы о регуляторный роли белка по известному или предполагаемому для него сайту связывания;

• выделение функционально связанных регуляторных факторов;

• выделение ко-регулируемых генов;

• аннотация генома, а именно предсказание альтернативности известных экзонов, предсказание местоположения новых, еще неаннотированных экзонов, ранее не обнаруженных в экспериментальных исследованиях.

• изучение регуляторных участков смесей ДНК гетерогенных объектов, таких как, например, клетки раковых тканей, популяции микроорганизмов и т.п., полученных в результате расшифровки данных секвенирования по Сенгеру.

Апробация результатов исследования

Основные результаты работы докладывались автором и обсуждались на международных научных конференциях по вычислительной молекулярной биологии МССМВ (Moscow Conference on Computational Molecular Biology) в Москве, Россия, в 2005 г. и в 2011 г.; на международной научной конференции по компьютерным наукам и информационным технологиям CSIT (Computer Science and Information Technologies) в Будапеште, Венгрия, в 2004г, на научных семинарах лаборатории биоинформатики ИМБ им. В.А. Энгельгардта РАН в Москве, Россия, и на научных семинарах группы биоинформатики лаборатории департамента статистики университета Беркли, Калифорния, США в 2011 и в 2012 гг.

По материалам диссертации опубликовано семь печатных работ, из них четыре в реферируемых журналах, остальные - в трудах научных конференций.

Основные положения, выносимые на защиту

1. Разработано новое программное средство PatternClust, которое позволяет на полногеномных последовательностях ДНК или РНК разных организмов, в т.ч. и человека, с высокой скоростью идентифицировать кластеры мотивов сайтов связывания ДНК и РНК-связывающих белков, в частности указывающих на расположение регуляторных элементов генома для факторов регуляции транскрипции и сплайсинга.

2. Проведена верификация разработанной программы PatterClust на экспериментально подтвержденных данных по регуляции транскрипции D.melanogaster и на геноме H.sapiens. Показана применимость программы для полногеномных исследований разных организмов.

3. Впервые для РНК-связывающего белка Pasilla во всех генах D.melanogaster с помощью разработанной программы PatternClust предсказаны регуляторные элементы, при связывании с которыми Pasilla регулирует альтернативный сплайсинг.

4. Впервые проведен анализ расположения предсказанных с помощью разработанной программы PatternClust кластеров сайтов связывания белка Pasilla в генах D.melanogaster по отношению к границам экзонов и показано: а) Экзонно-интронные границы генов D.melanogaster достоверно более часто встречаются в кластерах мотивов сайтов связывания Pasilla, при этом донорные сайты сплайсинга встречаются внутри кластеров в два раза более часто, чем акцепторные. Такая картина наблюдалась как для альтернативных экзонов, так и для тех, которые аннотированы как неизменные, б) В геноме D.melanogaster наблюдаетя сходство распределений кластеров сайтов связывания белка Pasilla в окрестностях донорных сайтов сплайсинга альтернативных и неизменных экзонов (как для всех аннотированных экзонов, так и для тех, которые подверглись влиянию Pasilla в эксперименте) и существенное различие распределений в окрестностях акцепторных сайтов альтернативных и неизменных экзонов. в) Наблюдается сходство распределения кластеров сайтов связывания белка Pasilla в окрестностях границ экзонов генов D.melanogaster и определенных экспериментально участков связывания белка NOVA (ортолога Pasilla у млекопитающих) в окрестностях границ экзонов генов мышей.

ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ ПО РЕГУЛЯЦИИ ТРАНСКРИПЦИИ И СПЛАЙСИНГА

Первая глава посвящена анализу предметной области. Проведен обзор литературных источников по регуляции альтернативного сплайсинга и регуляции транскрипции. Описана структура и свойства РНК-связывающего белка Pasilla в D.melanogaster и его ортолога NOVA в млекопитающих, который, как показано многими исследованиями, регулирует альтернативный сплайсинг. Описаны результаты новейших исследований этих белков по регуляции сплайсинга. Приведены данные по регуляции транскрипции шестью хорошо изученными на сегодняшний день белками - регуляторами раннего развития мухи Bed, Cad, Gt, Hb, Kni, Кг. Проведен анализ существующих экспериментальных (ChIP, RIP, CLIP методов с последующим осаждением на матрице или секвенированием нового поколения) и вычислительных методов предсказания областей связывания белков с ДНК и РНК, указаны би�