Бесплатный автореферат и диссертация по биологии на тему
Функции и эволюция РНК-полимераз в митохондриях и пластидах
ВАК РФ 03.01.09, Математическая биология, биоинформатика

Автореферат диссертации по теме "Функции и эволюция РНК-полимераз в митохондриях и пластидах"

На правах рукописи

Зверков Олег Анатольевич

Функции и эволюция РНК-полимераз в митохопдрнпх и пластидах

03.01.09 - Математическая биология, биоинформатика

Автореферат диссертации на соискание ученой степени кандидата физико-математических наук

005552042

Москва-2014

2 8 АВГ 2014

005552042

Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте проблем передачи информации им. А. А. Харкевича Российской академии наук (ИППИ РАН)

Научный руководитель - д.ф.-м.н. проф. Любецкий Василий Александрович.

Официальные оппоненты:

Туманян Владимир Гаевич, д.ф.-м.н., проф., Федеральное государственное бюджетное учреждение науки Институт молекулярной биологии им. В. А. Эн-гельгардта Российской академии наук, заведующий лабораторией;

Алексеевский Андрей Владимирович, к.ф.-м.н., Научно-исследовательский институт физико-химической биологии им. А. Н. Белозерского Московского государственного университета им. М. В. Ломоносова, ведущий научный сотрудник, и. о. заведующего отделом.

Ведущая организация: Федеральное государственное бюджетное учреждение науки Институт общей генетики им. Н. И. Вавилова Российской академии наук.

Защита состоится 18 сентября 2014 года в 16:00

на заседании диссертационного совета Д 002.077.04 на базе ИППИ РАН

Большой Каретный пер., д. 19, стр. 1, Москва, ГСП-4, 127994

С диссертацией можно ознакомиться в библиотеке ИППИ РАН и на сайте www.iitp.ru

Автореферат разослан 17 августа 2014 года

Ученый секретарь диссертационного совета,

д. б. н. профессор - Рожкова Г. И.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В биоинформатике велико значение быстрых и эффективных алгоритмов, поскольку зачастую возникают входные данные весьма большого объёма. Известные и новые методы вычислений требуют адаптации к работе на многопроцессорных вычислительных комплексах (суперкомпьютерах), которые стали в последнее время значительно доступнее.

К настоящему времени известны сотни полностью секвенированных геномов пластид, тысячи геномов митохондрий, скорость пополнения баз данных геномной информации растёт экспоненциальными темпами. Возникает такой объём информации, что доля геномов, доступных биохимическому исследованию, становится всё меньше. Поэтому возникает потребность в эффективных и быстрых алгоритмах компьютерного анализа данных, а также в создании специализированных баз данных. Существенно, чтобы алгоритмы опирались на «точные модели», т.е. было доказано, что они приводят к глобальным экстремумам соответствующих функционалов, имели низкую вычислительную сложность (полином 2-3 степени) и допускали эффективное распараллеливание.

Моделирование клеточных процессов требует нетривиальных алгоритмов и является важным инструментом биоинформатического исследования. Оно позволяет предсказать значения параметров биохимических процессов (например, инициации, элонгации и терминащш транскрипции), которые трудно измерить непосредственно, а также - решить нетривиальную обратпую задачу: выбрать зпачения параметров, которые соответствуют экспериментальным зависимостям.

Экспериментальные исследования, в том числе проведённые в Институте физиологии растений им. К. Л. Тимирязева РАН (Зубо и др.), позволили предположить важную роль взаимодействия РИК-полимераз в процессе транскрипции пластомов растений и в ответе пластид на тепловой шок. Для проверки этого предположения и предсказания параметров, не определяемых в экспериментах, была поставлена задача моделирования процесса транскрипции в пластидах с одновременным участием многих РНК-полимераз, факторов и вторичных структур, взаимодействующих друг с другом. Затем задача была расширена на моделирование транскрипции в митохондриях.

Использование кластера MVS-100K в Межведомственном суперкомпьютерном центре РАН позволило впервые провести моделирование транскрипции для всей кольцевой ДНК митохондрий человека, крысы и лягушки, а также для существенных локусов пластид.

Построение близких по последовательности и минимальных по содержанию паралогов белковых семейств (кластеризация белков) позволяет уточнять аннотации белков, судить о работоспособности белковых комплексов, например РНК-полимераз бактериального типа. (В случае отсутствия последних транскрипция выполняется РНК-полимеразами фагового типа, что придаёт этому процессу другие черты.) Известно несколько баз данных ортологичных семейств белков. Однако большинство из них содержат небольшое число видов с пластидами или вовсе не содержат их. Например, (по состоянию на 1 июля 2013) Ortho-DB не содержит растений и простейших, OrthoMCL включает только 11 водорослей и 14 споровиков; GeneDB - только 7 споровиков; в RoundUp и InParanoid таких видов ещё меньше; ОМА и EggNOG почти не содержат видов с пластидами; в COG и KOG представлено два растения и ни одного споровика. Поэтому была поставлена задача: предложить эффективный алгоритм кластеризации белков и получить базы данных пластомпых белков.

Изучение пластид споровиков (апикопластов) значимо, поскольку споровики вызывают опасные заболевания человека и животных, в том числе ток-соплазмоз и малярию. Исследование регуляции экспрессии генов, кодируемых в апикопластах, важно для понимания роли апикопластов в передаче инфекции, а также в механизмах действия лекарственных средств на апикопласты, которые являются главной мишенью антибиотиков, не оказывающих прямого воздействия на экспрессию ядерных и митохоцдриальных генов хозяина. В частности, Theileria и Babesia переносятся иксодовыми клещами и вызывают заболевания крупного рогатого скота: В. bigemina и В. bovis - бабезиоз крупного рогатого скота, Th. annulata - тейлериоз крупного рогатого скота, Th. parva - лихорадку Восточного Берега; Eimeria tenella вызывает эймериоз кур; Toxoplasma gondii - ток-соплазмоз, в том числе у человека; различные виды рода Plasmodium вызывают малярию у людей (P. falciparum, P. vivax) и других животных. Некоторые споровики, например Cryptosporidium parvum, не имеют пластид.

Исследование митохондрий человека, крысы и лягушки значимо для понимания молекулярных механизмов MELAS болезней человека (митохондриаль-ная энцефаломиопатия, лактатацидоз, шгсультоподобные эпизоды), болезней, связанных с недостаточностью гормона щитовидной железы, и т.д.

Цели работы

1. Разработать модель взаимодействия и конкуренции РНК-полимераз в митохондриях и пластидах, которая должна предсказывать уровни транскрипции всех генов. На её основе объяснить изменения уровней транскрипции генов: в митохондриях человека с MELAS-мутацией; в митохондриях крысы с эпигенетическими нарушениями, вызванными недостатком тиреоидного гормона; в пластидах растений после нокаутов минорных ff-субъединиц или теплового шока.

2. Разработать алгоритм построения сходных по последовательности и минимальных но содержанию паралогов семейств белков (кластеризации данного множества белков). Применить алгоритм к множествам белков, кодируемых в пластидах родофитной и хлорофитной ветвей и цветковых растений. На основе полученных семейств: рассмотреть вопрос о присутствии полноценной РНК-нолимеразы бактериального типа у споровиков; указать белки, характерные для узких таксономических групп («филогенетические подписи»).

3. Предсказать белковые сайты и вторичные структуры мРНК, ответственные за задержку инициации трансляции до завершения процессинга мРНК в пластидах.

Методы исследования. В работе использованы методы теорий алгоритмов и массового обслуживания, методы моделирования и организации вычислительных экспериментов с использованием известных и оригинальных программ, в том числе для параллельных вычислений на суперкомпьютерах, методы математической биологии и биоинформатики.

Научная новизна. Моделирование взаимодействия РНК-полимераз, по крайней мере на длинных локусах ДНК, ранее не выполнялось. Моделирование основано на новом математическом и алгоритмическом подходе к изучению большой системы одновремешю взаимодействующих объектов. Кластеризация получена на основе оригинального алгоритма в теории графов. Все полученные алгоритмы имеют низкую оценку вычислительной сложности, а биоинформати-ческие результаты являются новыми.

Практическая значимость работы. Работа носит теоретический характер. В то же время, исследование может иметь прикладное значение.

Предложенные алгоритмы и их программные реализации могут применяться для исследования широкого класса задач. А именно, в медицинских исследованиях могут быть полезны разработанные методы количественной оценки влияния мутаций и эпигенетических нарушений на уровни транскрипции генов в митохондриях, предложенные нами объяснения механизма MELAS-синдрома у человека и нарушения метилирования мтДНК у крысы с недостатком гормона щитовидной железы.

Для создания новых видов растений, в том числе с ксенопластидами, могут быть полезны предложенные механизмы отклика на тепловой шок изолированных пластид и на нокауты транскрипционных факторов в пластидах.

Апробация работы. Компьютерные программы тестировались на биологических данных с экспериментально известными ответами, а также в процессе решения биологических задач. Результаты работы опубликованы и докладывались на следующих конференциях:

- Международная конференция "Moscow Conference on Computational Molecular Biology": MCCMB'07 (Москва, 27-31 июля 2007), MCCMB'13 (Москва, 25-28 июля 2013);

- 32-я, 33-я, 35-я, 37-я конференция «Информационные технологии и системы»: ИТиС'09 (Бекасово, 15-18 декабря 2009), ИТиС'Ю, (Геленджик, 2024 сентября 2010), ИТиС'12 (Петрозаводск, 19-25 августа 2012), ИТиС'13 (Калининград, 1-6 сентября 2013);

- 7-я международная конференция "Bioinformatics of Genome Regulation and Structure\Systems Biology" BGRS\SB'10 (Новосибирск, 20-27 июня 2010);

- 51-я, 53-я, 54-я паучная конференция МФТИ (Москва, 28-30 ноября 2008, 24-29 ноября 2010, 25-26 ноября 2011);

- 3-я Московская международная конференция "Molecular Phylogenetics" (Москва, 31 июля-4 августа2012).

- 8-я Международная научно-практическая конференция «Современные информационные технологии и ИТ-образование» (Москва, МГУ им. М. В. Ломоносова, 8-10 ноября 2013).

Работа также докладывалась на научных семинарах механико-математического факультета Московского государственного университета им. М. В. Ломоносова и на семинаре по Математической биологии и биоинформатике Института проблем передачи информации им. А. А. Харкевича РАН.

Публикации. По теме диссертации опубликовано 9 статей и 13 тезисов докладов на конференциях (см. список в конце автореферата). Все результаты, вюпочёнпые в диссертацию, получены лично автором.

Структура и объём работы. Работа состоит из введения, трёх глав и списка литературы. Список литературы содержит 127 наименований. Объём работы составляет 112 страниц, включая 21 таблицу и 29 рисунков.

СОДЕРЖАНИЕ РАБОТЫ

Введеипе содержит общие сведения и вспомогательный материал к главам. Пункты 1-2 введения содержат общую характеристику работы и списки основных результатов и публикаций. В пункте 3 введепия приводятся сведения об РНК-полимеразах в митохоидриях хордовых животных (лягушки, человека и крысы) и в пластидах растений. Для митохондрий описывается структура и взаимное расположение промоторов, влияние белковых факторов на уровни транскрипции генов, описывается mTERF-зависимая и белок-независимая регуляция транскрипции, MELAS-мутация (MELAS-синдром - митохондриальная энцефа-ломиопатия, лакгатацидоз, инсульта подобные эпизоды), времена полураспада РНК и т.д. Приводятся аналогичные сведепия о пластидах высших растений и водорослей. Вводится понятие конкуренции РНК-полимераз. Описываются опыты с нокаутом генов пластид и с тепловым шоком изолированных хлоропластов.

В главе 1 изучается взаимодействие РНК-полимераз в митохондриях и пластидах. Глава начинается с описания анализируемых в дальнейшем локусов митохондриальной ДНК хордовых животных и пластидной ДНК растений. Подробно описывается предложенная нами модель взаимодействия и конкуренции РНК-полимераз. Описываются параметры РНК-полимераз бактериального (PEP) и фагового (NEP) типов, PEP- и NEP-промоторов, абортивного процесса для PEP.

Приводятся экспериментальные данные об инициации и элонгации транскрипции, терминации РНК-полимераз, поляризации терминаторов, формировании/связывании факторов, участвующих в этих процессах, как белковых, так и вторичных структур РНК. Описываются методики моделирования и оценки согласия результатов моделирования с опытными данными. Подробно сравниваются результаты моделирования с опытными данными для митохондрий и пластид.

В модели описывается следующая ситуация. В транскрипции локуса ДНК одновременно участвует множество РНК-полимераз, которые связываются с промоторами своего типа и затем движутся вдоль своей цепи, возможно навстречу друг другу. Это приводит к взаимодействию РНК-полимераз как между собой, так и с различными белковыми и структурными факторами на ДНК и РНК

Описание модели. Задан локус (последовательность в четырёхбуквенном алфавите), па котором размечены участки: промоторы, сайты связывания белкового репрессора, сайты формирования терминаторов элонгации, кодирующие участки и т.д. Для каждого промотора задаётся интенсивность X попыток связывания РНК-полимеразы с этим промотором; если её значение не известно из экспериментов, то оно вычисляется в модели как решете обратной задачи. А именно, интервалы времени между попытками связывания описываются пуассонов-ским процессом с параметром А. Попытка считается успешной, если в момент её совершения промотор не занят другой РНК-полимеразой или каким-то фактором: регуляторным белком, вторичной структурой и т.д. Здесь возникает трудная математическая задача, так как модель представляет собой не просто систему пуас-соновских процессов, что само по себе нетривиально, а систему «условных» пуассоновских процессов. Каждое условие задаётся крайне нетривиально - расположением многих ранее связавшихся полимераз и факторов, которые находятся в процессах движения, связывания и формирования. А именно, полимеразы перемещаются по локусу, а факторы возникают и исчезают на нём, каждая/ый по своему закону.

Итак, каждому ИЕР-промотору и каждому РЕР-промотору (причём последний берётся в паре с фиксированной группой о-субъсдиниц) сопоставляется пуассоновский процесс со своим параметром X. В работе используются следующие группы: все а-субъединицы и все а-субъединицы кроме одной, нокаутируе-

мой (фактически это минорные а-субьедшшцы Sig3 и Sig4). В опытах, не связанных с нокаутом, рассматривается группа, состоящая из всех с-субьедипиц.

Таким образом, каждому NEP-промотору соответствует свой стохастический процесс, определяющий промежутки времени между попытками связывания NEP. Это время равно -(1п|)/Яу, где £ - равномерно распределённая случайная величина, заданная на интервале от 0 до 1. Параметр XN - искомое значение для этого промотора Аналогично определяются стохастические процессы для каждого из РЕР-промоторов. Промежутки времени снова вычисляются как -(1п£) / А, где X равно ХР для PEP в паре с группой всех а-субъедипиц и X равно Х4 для PEP в паре с группой всех а-субъедипиц кроме локаутируемой Sig4 (случай локуса 1 из этой главы). Аналогично рассматривается локус 3 из этой главы, связанный с опытами по нокауту Sig3 или Sig4, для него определяются ХР и А,3 (когда нокаутируется Sig3) или ХР и ?*4 (когда нокаутируется Sig4). Параметры X называются интенсивностями связывания соответствующих промоторов и измеряются в обратных секундах. Определив интенсивности связывания в диком типе, мы используем их без изменения при описании нокаутов по разпым а-субъединицам и при описании теплового шока в том же или даже в близком виде.

Если передние края двух разнонаправленных полимераз занимают одну и ту же позицию, то в модели принимается, что элонгация обеих прекращается. Если на одной цепи ДНК полимераза X передним краем вплотную примыкает к полимеразе Y, то Хне может обогнать Y. Для моделирования процесса элонгации нужпо задать значения параметров v, и vp - скоростей элонгации NEP и PEP соответственно. Эти скорости зависят от температуры, нуклеотидного состава ДНК и вторичных структур, которые образуются на РНК в процессе транскрипции. Результаты получены в предположении постоянной скорости РНК-полимеразы (при фиксированной температуре) и без учёта вторичных структур РНК, так что элонгация моделируется как детерминированный процесс.

Каждому белковому фактору транскрипции F соответствует аналогичный стохастический процесс с параметром XF, который определяет промежутки вре-Memi между попытками связывания фактора со своим сайтом на ДНК. Как и выше, такая попытка считается успешной, если в момент её совершения сайт свя-

зывашм свободен от всех РНК-полимераз и любых факторов. Терминация транскрипции на белковом факторе происходит, как описано ниже на примере фактора mTERF. Наконец, каждому терминатору транскрипции (крест-шпильке на ДНК) соответствует бернуллиевская случайная величипа с параметром р, описывающая терминацию транскрипции на каком-либо нуклеотиде плеча шпильки.

Если PEP связалась с РЕР-промотором, то сначала моделируется абортивный процесс, а затем - упомянутый выше процесс элонгации полимеразы. Для абортивного процесса следующим образом определяются число абортивных попыток и длины каждой из абортивных РНК. Длительность t абортивного процесса задаётся формулой / = -(1п£)-г0, где t0 — среднее время абортивного процесса (например, t0 =0.4 с). Общее число абортивных попыток к определяется как наибольшее число слагаемых в левой части неравенства -(ln^l+... + ln^l. + ... + lii^) < {t-Vp//;), при котором оно остаётся верным. Параметр г0 - средняя длина одной абортивной РНК (например, г0= 4). При каждой 1-й абортивной попытке появляется РНК, длина которой равна целому числу, ближайшему к числу -г0-(1п£,). Таким образом, величина -(¡п£,) имеет смысл случайной поправки к среднему времени ralvp, уходящему на одну абортивную попытку, где vr - скорость PEP.

Для моделирования опытов по изменению уровня транскрипции в результате теплового шока1 (локус 2 из этой главы) в модель введены следующие параметры: в течение времени растение находится при температуре Т{; затем в течение времени /2 у одной массы хлоропластов температура повышается до Г2, а у другой такой же массы она остаётся равной 7J; затем в течение времени у обоих масс температура меняется на новое значение Т3, и сразу после этого у ряда генов хлоропластов измеряется отношение числа завершённых транскрипций в материале после шока к таковому числу в контрольном материале. В опыте эти параметры имели следующие значения: = 6-7 суток, 7j =21 °С, /2 = 1.5 часа, Т2 = 40°С, t, = 15 минут, Г3 = 25°С.

1 Зубо Я. О., Лысенко Е. А.и др. Изменение транскрипционной активности генов пластома ячменя в условиях теплового шока // Физиология растений. 2008. Т. 55. С. 323-331.

В случае митохондрий фактором является ещё G-квадруплекс2, который вовлекает короткие участки РНК, а также особую роль играет регуляторный белок mTERF3. Крест-шпильки на ДНК, характерные для пластид и бактерий4, отсутствуют в рассмотренных митохопдриях. В модели терминация транскрипции при столкновении РНК-полимеразы с белковым фактором mTERF описывается следующим образом. Как и выше, попытка связывания mTERF со своим сайтом считается успешной, если в момент её совершения сайт свободен от полимераз, ранее связавшихся молекул этого белка и других факторов. Если mTERF связался с сайтом и к нему приходит РНК-полимераза, то она проходит дальше и комплекс mTERF-ДНК диссоциирует («протекание терминатора»), или полимераза терминирует и комплекс сохраняется («непротекание терминатора»). В остальном дисциплина взаимодействия объектов остаётся прежней, как в пластидах.

Описанная выше модель используется следующим образом. Некоторые значения X могут быть оценены из опыта, тогда оставшиеся (возможно, все) значения X находятся как решение «обратной задачи». А именно, по известным из опыта значениям уровней транскрипции некоторых генов находятся X, для которых в рамках модели имеет место наилучшее (в смысле фиксированной метрики) согласование с известными уровнями. Отметим, что в рассмотренных нами примерах эта обратная задача является сильно переопределённой и находится единственное решение или небольшое число решений, среди которых отбирается наилучшим образом согласующееся с дополнительными опытными данными.

В пашей предложена формула зависимости времени т полураспада РНК

1 vN

от биологически значимых параметров: г = —(1+^Я)ехр(н'А)1п2, ще А=--— -

fi 1+аМ

интенсивность попыток связывания рибосомы с её сайтом связывания5, а — параметр в этой зависимости Михаэлиса - Мептен и v - удельная интенсивность

2 Pham Х Н., Farge G. et al. Conserved sequence Box II directs transcription termination and primer formation in mitochondria II J. Biol. Chem. 2006. Vol. 281. P. 24647-246S2; Wanrooij PH., Uhler J.P. el al. G-qoadraplex structures in RNA stimulate mitochondrial transcription termination and primer formation // Proc. Nat. Acad Sei. U.SA. 2010. Vol. 107. P. 16072-16077.

3 Martin M., do J. et al. Termination 6ctor-mediated DNA loop between tamination and initiation sites drives mitochondrial rKNA synthesis II Cell. 2005. Vol. 123. P. 1227-1240.

4 Любецкая E.B., Селиверстов A.B., Любецкий В.А. У агпшобактерий число длинпых шпилек в межгенных трейлерпых областях велико по сравнению с другими областями генома // Молекулярная биология. 2007. Т. 41, № 4. С. 739-742.

s Конечно, здесь А отличается от также обозначаемой выше интенсивности попыток связывания РНК полпмеразы с её сайтом; обозначение подчёркивает аналогичность этих параметров.

И

при малых Лг, где N — количество рибосом в митохондрии без MELAS-мутации. Далее, w - отношение линейного размера h РНКазы вдоль РНК к скорости V элонгации рибосомы (F=15 кодонов в секунду, h = Vw = 15w), d - отношение размера А, рибосомы вдоль РНК к той же скорости V элонгации рибосомы (А, =10 кодонов, h, = Vd), ц - интенсивность взаимодействия РНКазы с определённым сайтом на мРНК, которая приводит к распаду РНК. Здесь в качестве причины распада РЖ рассматривается только действие РНКазы, хотя аналогично можно рассмотреть действие и других факторов. Параметры v, а к /л зависят от последовательности мРНК, N зависит от экспрессии многих генов и, в особенности, рибосомных генов.

У митохондрий с MELAS-мутацией время полураспада г' аналогично выражается через N' - количество рибосом в митохондрии. Отсюда

1 +dl' = ~7 ■ В модели получена также зависимость интенсивности

распада любой мРНК в результате взаимодействия с РНКазой ^ • exp(-Aw).

1 + dX

Конец описания модели.

Значения N и N' определяются как абсолютные количества 12S или 16S рРНК, a w можно оцешгть в пределах от 2/15 до 4/3 секунд; v и а не известны и зависят от сайта связывания рибосомы.

Полученные в модели зависимости для времени полураспада показывают, что малое уменьшение количества N рибосом резко уменьшает время полураспада некоторых РНК, а следовательно — количество соответствующего белка. Это может служить объяснением резкого изменения фенотипа при MELAS-мутации6. Можпо предположить, что у больного человека время полураспада хотя бы одной (возможно, короткой) мРНК значительно уменьшается.

Модель применяется к полным кольцевым митохондриальным ДНК трёх хордовых животных: человека7 Homo sapiens, крысы8 Rattus norvegicus и шпор-

6 Chomyn A., Martinuzzi A. et al. MELAS mutation in mtDNA binding site for transcription termination fector causes defects in protein synthesis and in respiration but no change in levels of upstream and downstream mature transcripts H F roc. Nat. Acad. Sei. U.S.A. 1992. Vol. 89. P. 4221-4225.

7 Gcl&nd R., Attardi G. Synthesis and turnover of mitochondrial ribonucleic acid in HeLa cells: the mature ribo-

somal and messenger ribonucleic acid species are metabolically unstable II Mol Cell. Biol. 1981. Vol. 1, № 6. P. 497-511. Piechota J., Tomecki R. et at. Differential stability of mitochondrial mRNA in HeLa cells II Acta Biochim. Pol. 2006. Vol. 3. P. 157-168.

цевой лягушки9 Xenopus laevis, а также к трём нумерованным выше локусам ДНК пластид растений: резушки Arabidopsis thaliana и ячменя Hordeum vulgare.

Известны опыты10, в которых у Arabidopsis thaliana и у других растений сравнивались уровни транскрипции генов в мутантных растениях (нокаут гена sig4) с соответствующими уровнями в диком типе, те. вычислялось отпошепие MT/WT уровня транскрипции гена до мутации к уровню транскрипции после неё. Проводились опыты1 по тепловому шоку изолирован!плх хлоропластов, в которых измерялось отношение HT/WT уровня транскрипции гена после теплового шока к уровня транскрипции до него. Подтверждением нашей модели является хорошее согласие её предсказаний с опытами, что видно из таблиц 1-5.

Таблица 1. Изменения уровней транскрипции генов в опыте (столбец 2) и в модели (столбец 3) для локусов 1 и 2. После знака ± указана среднеквадратичная погрешность.

Ген Опыт Модель

Локус 1 в Arabidopsis thaliana, нокаут sig4

УФ 0.73 ± 0.04 0.76 ±0.01

ndhF 0.43 ±0.10 0.47 ±0.19

rp/32 1.52 ±0.06 1.55 ±0.02

Локус 2 в Hordeum vulgare, тепловой шок

грПЪ- rpí2 2.42 ±0.27 2.64 ±0.02

psbA 0.54 ±0.01 0.54 ±0.04

Глава 1 завершается следующим заключением. Предложено количественное описание (модель) взаимодействия РНК-полимераз в процессах инициации и элонгации транскрипции. Показано, что модель согласуется практически со всеми опытными данными, относящимися к пластидам растешш, включая изменения уровней транскрипции генов после нокаутов ст-субъединиц РНК-полимераз и теплового шока изолированных пластид, относительные количества РНК и времена их полураспада в митохондриях лягушек, человека здорового и с МЕЬАЗ-мутацией, крысы здоровой и с пониженным уровнем тиреоиднош гормона.

' Enríquez J. A., Fernández-Silva P. et al. Direct regulation of mitochondrial RNA synthesis by thyroid hormone II Mol Cell. Biol. 1999. Vol. 19. P. 657-670.

' Ammini C.V., llauswirth W.W. Mitochondrial gene expression is regulated at the level of transcription during early embryosenesis of Xenopus laevis II J. Biol. Chem. 1999. Vol. 274. P. 6265-Í271.

10 Favory J.-J., Kobayshi M. el al. Specific function of a plastid sigraa factor for ndhF gene transcription II Nucleic Acids Res. 2005. Vol. 33. P. 5991-5999. Zghidi W., Merendino L. el al. Nucleus-encoded plastid sigma factor SIG3 transcribes specifically the psbNgene in pUsúás II Nucleic Acids Res. 2007. Vol. 35. P. 455^164.

Таблица 2. Изменения уровней транскрипции генов в опытах и в модели для локуса 3, нокаут генов sigЗ и В столбцах 2 и 4 указаны значения, полученные в опыте. В остальном аналогично таблице 1.

Геи Нокаут sig3 Модель sig3 Нокаут sig4 Модель sig4

psbB 1.02 ±0.36 1.27 ±0.12 0.69 ±0.19 0.84 ±0.11

psbT 0.98 ±0.25 1.30±0.12 0.96 ±0.15 0.85 ±0.11

psbN 0.49 ± 0.46 0.41 ±0.12 1.03 ±0.02 1.02 ±0.19

psbH 1.31 ±0.05 1.28 ±0.12 1.01 ±0.08 0.83 ±0.11

petB 0.91 ±0.15 1.09 ±0.11 0.87 ±0.29 0.83 ±0.11

petD 0.92 ±0.09 0.89 ±0.10 0.81 ±0.21 0.81 ±0.11

rpoA 0.94 ±0.14 0.82 ± 0.20 0.79 ±0.11 1.01 ±0.14

rpsll 0.92 ±0.33 0.90 ±0.21 0.98 ±0.31 1.01 ±0.13

rpl36 0.88 ±0.11 1.03 ± 0.21 1.54 ±0.62 1.08 ±0.18

rps8 1.11 ±0.04 1.03 ±0.21 0.83 ±0.15 1.08 ±0.18

rpU4 1.04 ± 0.15 1.03 ±0.21 1.11 ±0.02 1.08 ±0.18

rp!16 1.09 ±0.03 1.03 ± 0.21 1.18 ±0.03 1.08 ±0.18

rps3 1.24 ±0.26 1.03 ±0.21 1.25 ±0.02 1.08 ±0.18

rp!22 1.09 ±0.13 1.03 ±0.21 1.20 ±0.12 1.08 ±0.18

rpsl9 1.15 ±0.50 1.03 ± 0.21 0.96 ±0.07 1.08 ±0.17

rpl2 0.94 ±0.15 1.03 ±0.21 0.95 ± 0.06 1.08 ±0.17

rp!23 1.05 ±0.04 1.06 ±0.20 1.35 ±0.33 1.10 ±0.17

Таблица 3. Результаты для человека, полученные в опытах и в модели: человек здоровый и с MELAS-мугацией. Указаны интенсивности связывания с промоторами LSP, HSP1, HSP2 и сайтом терминацни mTERF; отношение R уровня транскрипции гена 12S рРНК к уровню гена СОХ2. Изменения уровня транскрипции в модели указывает, во сколько раз значение для здорового человека больше, чем для мутанта.

Параметры решения для здорового человека Уровень транскрипции относительно гена ND1 в модели (вверху) и в опыте (внизу). Для ND1 в опыте 1.00±0.04.

LSP HSPI HSP2 mTERF R ND2 СОХ1 СОХ2 АТР6/8 ND3 ND5 CYTB

0.0031 0.0031 0.0126 0.6456 23.955 1.00 1.00 1.00 0.96 0.96 0.96 0.96

В опыте для этих генов (вычислено): 1.40 ±0.34 1.04 ±1.23 1.72 ±1.23 0.91 ±0.78 1.04 ±0.16 1.86 ±1.09 2.31 ±1.06

Опшонение от опыта s процентах: -29 -4 -42 +5 -4 -48 -58

Параметры решения Гфи MELAS-сичароме Изменение уровня транскрипции в модели

Phc 12S Val 16S Leu Lys CYTB

0.0031 | 0.0004 | 0.0126 | 0.5336 124.333 3.84 1.20 1.20 1.20 1.16 1.22 1.17

Таблица 4. Результаты для крыс, полученные в опытах и в модели: эугареоида и гипотиреоида. Слева значения параметров у зутиреоцда (вверху) и у гипотиреоида (внизу). Справа - сравнение результатов моделирования (вверху) и опытных данных (внизу). Здесь #£Р = Я5Р/+ Остальные обозначения, как в таблице 3.

LSP HSP mTERF R Отношение уровней транскрипции у гипотиреоида к эутиреоиду а модели (вверху) и в опыте (внизу)

СОХ1 АТР6/8 сохз ND4 ND5 CYTB

0.1056 0.0721 0.9453 30.605 0.666 0.641 0.646 0.622 0.614 0.613

0.10S6 0.0336 0.9453 30.637 0.61 ±1.02 0.33 ±0.42 0.33 ±0.42 0.61 ±1.02 0.78 ±0.96 0.35 ±0.39

Отклонение от опыта в процентах: +9 +94 +96 +2 -21 +75

Таблица 5. Результаты для трех лягушек в модели и в опыте. Данные приведены для части генов. Указаны два параметра: интенсивности связывания mTERF с сайтом тер-минации и РНК-полимераз с промотором LSP1. Заггем - модельные (mod) и опытные (ехр) уровни транскрипции генов (относительно нулевого момента Egg) вместе с их относительными отклонениями в процентах (dev).

время mTERF LSPI ND1 COX2

лягушка 1 mod exp dev,% mod exp dev,%

Egg 0.0157 0.0034 1.0 1.0 1.0 1.0

+5h 0.0448 0.0089 1.0 1.1 -12 0.9 0.8 +14

+10h 0.0872 0.0157 1.2 1.3 -5 1.1 1.1 +1

+14h 0.0793 0.0173 1.7 2.3 -26 1.6 1.6 -3

+16h 0.0960 0.0209 2.0 2.9 -31 1.7 1.4 +24

+18h 0.0542 0.0157 2.1 3.2 -34 1.9 1.7 +14

+20h 0.0655 0.0157 1.8 3.0 -41 1.6 1.4 +13

+23 h 0.0721 0.0492 9.4 9.7 -4 7.6 5.1 +49

+48h 0.0542 0.0872 29.3 26.6 +10 26.2 13.4 +96

+96h 0.0407 0.0960 48.1 48.7 -1 45.3 20.9 +117

время mTERF LSPI ND1 COX2

лягушка 2 mod exp dev mod exp dev

Egg 0.0089 0.0041 1.0 1.0 1.0 1.0

+6h 0.0045 0.0023 1.2 1.3 -8 1.2 1.0 +22

0.0073 0.0045 1.3 1.5 -14 1.3 1.3 -1

+20h 0.0157 0.0157 3.8 4.6 -17 3.7 3.7 +1

+30h 0.0157 0.0230 7.2 7.2 0 7.1 6.8 +4

+48h 0.0407 0.1056 20.5 19.5 +5 19.7 19.7 0

+7days 0.0041 0.0073 6.5 6.1 +7 6.6 8.0 -18

время mTERF LSPI 16S ND6

лягушка 3 mod exp dev mod exp dev

Egg 0.0960 0.0026 1.0 1.0 1.0 1.0

+5h 0.0407 0.0050 2.2 2.2 +0.9 2.2 2.2 0.0

+14h 0.0230 0.0081 5.0 5.0 0.0 4.5 4.5 -0.2

+20h 0.0038 0.0028 5.9 6.0 -1.3 4.0 4.0 +0.5

+28h 0.0336 0.1056 92.2 92.0 +0.2 25.1 25.0 +0.4

+48h 0.0143 0.0306 44.1 44.0 +0.2 15.0 15.0 +0.3

Предсказаны характеристики транскрипции в митохондриях хордовых животных: доли РНК-полимераз, завершающих транскрипцию на raTERF-зависимом терминаторе в одном и другом направлениях (поляризация), интенсивность связывания регуляторного белка mTERF с сайтом терминации на ДНК, интенсивности инициации транскрипции на промоторах в пластидах растений и в митохондриях лягушки, человека, включая MELAS-мутацию, и крысы, включая гипотиреоида. Предсказаны значения уровней транскрипции всех генов, в то время как из опытов известны лишь их относительные количества и только для некоторых генов.

Предположен механизм влияния на фенотип MELAS-мутации: понижение количеств фенилалаииповой и валиновой тРНК, рРНК и, главное, резкое изменение времени полураспада некоторых мРНК.

Подтверждена корреляция между изменением метилирования сайта связывания mTERF и трёх промоторов, характерным для перехода от эутиреоида к гипотиреоиду с одной стороны, и изменением интенсивностей связывания белка mTERF и инициаций транскрипции с другой.

Глава 2 посвящена кластеризации пластомных белков, т.е. построению сходных по последовательности и минимальных по содержанию паралогов семейств таких белков. Описывается оригинальный алгоритм кластеризации, который применяется к белкам из трёх обширных групп пластид: родофитной и хло-рофитпой ветвей и цветковых растений. Результаты собраны в базе данных, доступной по адресу http:/Aab6.iitp.ru/ppc/. Среди её функций важен поиск белка по его филогенетическому профилю. На её основе рассматривается вопрос о присутствии полноценной РНК-полимеразы бактериального типа у споровиков, а также определяются белки, характерные для узких таксономических групп («филогенетические подписи»).

Результаты предложенного алгоритма хорошо согласуются с биологическими наблюдениями. Например, PsaA и PsaB имеют близкие последовательности и функционируют вместе в составе первой фотосистемы, но не заменяют друг друга и должны быть отнесены к разным кластерам, что и показывает алгоритм. Другой пример связан с регуляцией генов транспорта сульфатов в пласти-

ды: у УшсПрЬг^ае не ортологичные гены сухА и су.чТ образуют два кластера; в их 5'-лидерных областях найден общий регуляторный мотив.

Математически решается следующая задача. Дано множество последовательностей в фиксированном алфавите, разбитое на непересекающиеся подмножества (каждое подмножество состоит из белков, кодируемых в одном пластомс). Требуется по-другому разбить это множество на попарно непересекающиеся подмножества (кластеры), так чтобы в один кластер попали сходные по последовательности белки из разных пласто-

мов, а белки из одного пластома как можно реже _ , „,

' Рисунок 1. Общий план

попадали в один кластер. алгоритма кластеризации

Описание алгоритма (рис. 1). Пусть задан набор пластомов 51, и для каждого пластома перечислены его белки Р:Г Дтя всех пар белков /'»,) вычисляется характеристика сходства ¡0(Р^,Ри), на основе которой определяется нормированное сходство = + Оно максимально (и равно единице), когда белки совпадают.

Рассматривается полный неориентированный граф О0 с множеством вершин {Я}, в котором каждому ребру (Р,РЫ) приписано значение х(Р:1,Ри) - вес этого ребра (петли отсутствуют). На основе С0 строится разреженный граф в, включающий только рёбра (Р,Ри), удовлетворяющие следующим условиям: ^■,Яи) = тахл(Р6.,Р„) = тах^,Ры), где максимумы берутся по

всем белкам из соответствующих пластомов: 1-го и к-го, I — параметр алгоритма. В случае ¡-к предполагается ещё условие шф1.

Для графа й алгоритм процедурой Крускала строит лес ^ (ациклический подграф, компоненты связности которого - деревья), включающий все вершины из б. А именно, в в перебираются рёбра в порядке убывания их веса (при совпадении весов сначала выбираются рёбра, соединяющие белки одного пластома), которые объявляются рёбрами строящегося леса если добавление к Р очеред-

17

Вход: набор белков

Построение графа в попарных сходств белков

Построение покрывающего леса Р

Разделение деревьев и формирование кластеров

Выход: список кластеров

ного ребра из й не приводит к появлению в F цикла. Сумма весов всех рёбер леса называется его весом. Вес полученного леса максимален по сравнению с любым другим лесом в в.

К лесу ^ применяется следующая процедура разделения деревьев, строящая набор С искомых белковых кластеров. Пусть Г - дерево из Ри е - ребро в Т с минимальным по всем рёбрам в Т весом Если 5 < Я, где Н - параметр алгоритма, и Г не удовлетворяет сформулированному ниже критерию сохранения дерева, то Г заметается в ^ на два новых дерева путём удаления из Т ребра е; в противном случае (т.е. когда критерий выполнен или з^Н) дерево Тперемещается из ^в список С.

Критерий сохранения дерева Т (рис. 2) состоит в выполнении трёх условий: |7] <рп, где |7] - число вершин в дереве Т, п — число всех пластомов в исходном наборе, р — параметр алгоритма; ребро (Ру, Ри) с минимальным в Г весом соединяет белки Ру и Рм, у которых ¡ф кг, любая пара вершин Рч и Рц дерева Т, соответствующих белкам /'-го пла-

стома, соединена в Т путём, состоящим из вершин, соответствующих белкам этого пластома (то есть, подграф в Т, состоящий из вершин, относящихся к одпо-му пластому, является связным). Конец критерия.

I

Определить в 7" ребро в с минимальным в Гвесом 5

Если в /■" остались деревья, то рассматривается следующее дерево Г из Р, иначе алгоритм завершает работу. Полученный в результате набор деревьев С представляет кластеры исходных

ных вершинам одного дерева. Конец описания алгоритма.

Рисунок 2. Схема проверки критерия сохранения дерева кластера

Предложение 1. Для любых белков Рп и Рп, если в графе G существует путь от Р0 к Ри с весами рёбер не меньше Н, то алгоритм помещает Р0 и Ря в один кластер. □

Предложение 2. Пусть С, и С2 - две кластеризации одного множества белков при значениях Н, и Нг параметра Н, соответственно. Если П\ > Н2, то Ci = С2 или Ci - измельчение С2. □

Предложение 1 указывает ограничение снизу на размер кластера. Предложение 2 неформально означает, что при увеличении параметра Я кластеры разделяются на части, но никогда не объединяются.

Следствие 1. Условие: указаны наборы белков, элементы которых должны находиться в разных кластерах. Существует не более одного максимального по включению интервала, для которого выполняется: при любом значении параметра // из интервала алгоритм выдаёт кластеризацию, удовлетворяющую условию, и никакие два её кластера нельзя объединить с сохранением условия. □

Следствие 2. Условие: указаны наборы белков, ни один набор не должен разделяться кластерами. Существует максимальный по включению интервал, для которого выполняется: при любом значении параметра H из интервала алгоритм выдаёт кластеризацию, удовлетворяющую условию, и ни один кластер нельзя разбить на меньшие с сохранением условия. □

В обоих следствиях границы интервалов - рациональные числа (или бесконечность), которые вычисляются алгоритмически. Число из пересечения этих интервалов бралось в качестве значения параметра Н, своего для каждой филогенетической группы. Например, у цветковых растений это пересечете — узкая окрестность, включающая H = 0.5.

В результате применения описанного алгоритма получены семейства белков, кодируемых в пластомах багрянок и видов с пластидами, родственными пластидам багрянок, — родофитная ветвь; белков, кодируемых в пластомах рано отделившихся ветвей зелёных водорослей и видов с родственными пластидами (Vi-ridiplantae, эвгленовые, Bigelowiella natans), — хлорофитная ветвь; белков, кодируемых в пластидах всех цветковых растений, и отдельно — однодольных растений. На этой основе получены распределения числа белковых семейств (кластеров) в зависимости от числа представленных в них видов для четырёх указанных

групп пластид. Найдены белки, специфичные для пластомов небольших таксономических групп водорослей и простейших; например, белки уфЪ, ус/89 специфичны для диатомовых водорослей и их третичных эндосимбионтов. Показано, что у споровиков Toxoplasma gondii и Plasmodium falceparum присутствует полноценная РНК-полимераза бактериального типа. У Neospora caninum и Plasmodium spp. найдены а- и а-субъединицы, кодируемые в ядре. Напротив, у споровиков таксономической группы Piroplasmida а- и о-субт,единицы РНК-полимеразы бактериального типа не найдены, а её субъединицы, обычно кодируемые в пластидах споровиков, значительно изменепы или фрагментированы. Это позволяет предположить глубокое различие видов Piroplasmida с другими содержащими пластиды споровиками в части транскрипции в пластидах.

Короткая глава 3 посвящена изучению сопряжения трансляции и транскрипции в пластидах с использованием оригинальной компьютерной программы поиска клики. А именно, изучению возможных механизмов задержки инициации трансляции до завершения процессинга транскрибированной мРНК. Элонгация РНК-полимеразы фагового типа существенно быстрее элонгации рибосомы, так что в этом случае остаётся достаточно времени для процессинга.

В результате предположен механизм задержки инициации трансляции до завершения редактирования мРНК гепов accD и atpH у пластид растений видов Adiantum capillus-veneris и Anthoceros formosae, механизм вовлекает найденные неконсервативные длинные шпильки в 5-нетранслируемой области около сайта связывания рибосомы. Эти шпильки имеют минимальные значения энергия. Найдены консервативные сайты перед шестью генами atpF, clpP, petB, psaA, psbA, psbB у трёх видов Chara vulgaris, Zygnema circumcarinatum, Physcomitrella patens. Получена корреляция между присутствием нитронов в гене и наличием шпильки или консервативного сайта перед геном. У этих видов 5'-лидерпые области значительно отличаются от аналогичных областей у сосудистых растений.

Для определения мотива в данном наборе нуклеотидных последовательностей использован алгоритм" поиска клики данного размера в многодольном графе. А именно, для задашгого числа к формируется граф, в котором каждая доля

11 Любеикий В. А., Селиверстоб A.B. Некоторые алгоритмы, связанные с конечными группами И Информационные процессы. 2003. Т. 3, № 1. С. 39-46.

соответствует одной из последовательностей, и вершинам доли соответствуют все участки длиной к в этой последовательности, каждому ребру приписано сходство участков, соответствующих его концам. Сходство учитывает ОС-состав участков, что является усовершенствованием алгоритма, ранее полученного в лаборатории. А именно, пусть среднее по всем геномам, из которых взяты последовательности, долей вхождений биС равна р (и среднее вхождений Л и Г равна 1-р), тогаа сходство участков полагается равным сумме по позициям сходств нуклеотидов в них, последние вычисляются по таблице 6.

Таблица 6. Сходство нуклеотидов, используемое при вычислении сходства двух участков с одинаковой дайной _

А С в т

А 1 1А 1А р

С 1 1 -р 'А

в 'А 1 -р 1 'А

Т Р 'А 1Л 1

Следующее простое предложение 3 относится к выбору значений в таблице 6. Если р маленькое, то появление на выравнивании двух участков А против Т- малозначимое событие, а появление С против О - значимое; если р большое, то наоборот. Таким образом, большое сходство участков получается, если выравнивание содержит много редких событий, т.е. несёт много информации.

Предложение 3. Пусть 0 < р и даны два случайных участка одинаковой длины в алфавите {Л, С, в, Т), в которые буквы в и Свходят с вероятностью р/2, а буквы А и Т - с вероятностью (1 -р) 12. Тогда в любой позиции выравнивания этих участков вероятность появления пары [А,Т) строго больше вероятности появления пары {О,С}. Если \<р< 1, то вероятности связаны противоположным неравенством. □

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

Разработана математическая и компьютерная модель взаимодействия РНК-полимераз между собой, с вторичными структурами и белковыми факторами в процессах инициации и элонгации транскрипции. Модель применена к локусам пластид и митохондрий, и находится в согласии практически со всеми опытными данными, относящимися к пластидам растений и митохондриям, включая данные об изменениях уровней транскрипции генов после нокаутов с-субъединиц РНК-полимераз и после теплового шока изолированных пластид, данные об относительных количествах РНК и временах их полураспада в митохондриях лягушек, человека здорового и с МЕЬАЗ-мутацией, крысы здоровой и с пониженным уровнем тиреовдного гормона. (Глава 1)

На основе модели предсказаны характеристики транскрипции в митохондриях хордовых животных: доли РНК-полимераз, завершающих транскрипцию на шТЕКТ-зависимом терминаторе в одном и другом направлениях (поляризация); интенсивность связывания регуляторного белка шТЕМ7 с сайтом термина-ции на ДНК; интенсивности инициации транскрипции на промоторах в пластидах растений и митохондриях лягушки, человека, включая случай МЕ1,А8-мутации, крысы, включая гипотиреоида. На основе модели предсказаны значения уровней транскрипции всех генов, в то время как в опытах известны лишь их относительные значения и только для некоторых генов. (Глава 1)

На основе модели предположен механизм влияния на фенотип МЕЬЛЭ-мутации: снижение концентраций как фенилапаниновой и валиновой тРНК, так и рРНК, а главное - резкое изменение времени полураспада определённых мРНК. (Глава 1)

На основе модели показана корреляция между изменениями метилирования сайта связывания шТЕИ7 и промоторов с интенсивностями связывания с ними шТЕЮ7 и РНК-полимераз. (Глава 1)

Разработан алгоритм кластеризации множества белковых последовательностей. На его основе получены семейства сходных по последовательности и минимальных по содержанию паралогов белков, кодируемых в пластомах багрянок и видов с пластидами, родственными пластидам багрянок (родофитная

ветвь); белков, кодируемых в пластомах рано отделившихся ветвей зелёных водорослей и видов с родственными им пластидами: Viridiplantae, эвгленовые, Bigelowiella natans (хлорофитная ветвь); белков, кодируемых в пластомах цветковых и отдельно однодольных растений. На этой основе найдены белки, специфичные для пластомов небольших таксономических групп водорослей и простейших. (Глава 2)

Полученная кластеризация позволила заключить, что у споровиков Toxoplasma gondii и Plasmodium falciparum присутствует полноценная РНК-полимераза бактериального типа. У Neospora caninum и Plasmodium spp. найдены а- и а-субьединицы, кодируемые в ядре. Напротив, у споровиков таксономической группы Piroplasmida а- и а-субьединицы РНК-полимеразы бактериального типа не найдены, а её субьединицы, обычно кодируемые в пластидах, значительно изменены или фрагмептированы. Это позволяет предположить глубокое различие видов Piroplasmida с другими содержащими пластиды споровиками в части транскрипции в пластидах. (Глава 2)

На основе оригинальной компьютерной программы (поиска мотива путём определения клики в многодольном графе с учётом GC-состава) предположен механизм задержки инициации трансляции до завершения редактирования тран-скриптов генов accD и atpH в пластидах растений видов Adiantum capillus-veneris и Anthoceros formosae. Механизм вовлекает длинные шпильки в 5'-лидерной области около сайта связывания рибосомы. Найдены консервативные сайты перед шестью генами atpF, clpP, petB, psaA, psbA, psbB у трёх видов Chara vulgaris, Zygnema circumcarinatum, Physcomitrella patens, которые в части случаев также участвуют в задержке инициации трансляции до завершения сплайсинга или редактирования. (Глава 3)

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Статьи:

1. Lyubetsky V.A., Zverkov О.А., Pirogov S.A., Rubanov L.I., Seliverstov A.V. Modeling RNA polymerase interaction in mitochondria of chordates // Biology Direct.

2012. 7:26.

2. Lyubetsky V.A., Zverkov O.A., Rubanov L.I., Seliverstov A.V. Modeling RNA polymerase competition: the effect of a-subunit knockout and heat shock on gene transcription level I/ Biology Direct. 2011. 6:3.

3. Любецкий В.А., Селиверстов AB., Зверков O.A. Построение разделяющих паралоги семейств гомологичных белков, кодируемых в пластидах цветковых растений // Мат. биол. и биоинф. 2013. Т. 8, № 1. С. 225-233.

4. Зверков О.А., Селиверстов А.В., Любецкий В.А. Белковые семейства, специфичные для пластомов небольших таксономических групп водорослей и простейших II Молекулярная биология. 2012. Т. 46, № 5. С. 799-809.

5. Lyubetsky V.A., Seliverstov A.V., Zverkov O.A. Transcription regulation of plastid genes involved in sulfate transport in Viridiplantae // BioMed Research International.

2013. Vol. 2013. Article ID 413450, 6 pages.

6. Зверков O.A., Русии Л.Ю., Селиверстов A.B., Любецкий В.А. Изучение вставок прямых повторов в микроэволюции митохондрий и пластид растений на основе кластеризации белков // Вестник Московского университета. Серия 16: Биология. 2013. № 1.С. 8-13.

7. Зверков О.А., Селиверстов А.В., Любецкий В.А. Усредненная энтропия как характеристика консервативности участков генома // Вестник Тамбовского университета. Серия: Естественные и технические науки. 2013. Т. 18, Вып. 5. С. 2529-2531.

8. Lyubetsky V.A., Korolev S.A., Seliverstov A.V., Zverkov O.A., Rubanov L.I. Gene expression regulation of the PF00480 or PF14340 domain proteins suggests their involvement in sulfur metabolism // Computational Biology and Chemistry. 2014. Vol. 49. P. 7-13.

9. Seliverstov A.V., Zverkov O.A., Lyubetsky V.A. Translation of some chloroplast genes is checked to allow for splicing and editing // Biophysics. 2006. Vol. 51, S. 1. P. 18-22.

Тезисы докладов:

1. Lyubetsky V.A., Seliverstov A.V., Zverkov O.A. RNA Structures upstream leuA Genes in a-proteobacteria И Proceedings of the International Moscow Conference on Computational Molecular Biology: MCCMB"07. July 27-31 2007. P. 191-192.

2. Зверков O.A. Программный комплекс для согласования набора эволюционных деревьев и выявления эволюционных событий // Труды 51-й научной конференции МФТИ. Москва, 2008. С. 133-136.

3. Лопатовская К.В., Зверков O.A., Селиверстов A.B., Любецкий В.А. Транскрипция генов синтеза пролина у бактерий родов Marinobacter, Pseudomonas и Shewanella регулируется белком семейства tetR // Труды 32-й конференции «Информационные технологии и системы». Бекасово, 15-18 декабря 2009. С. 278-281.

4. Зверков O.A., Селиверстов A.B., Рубанов Л.И., Любецкий В.А. Моделирование конкуренции РНК-полимераз: влияние нокаута сигма субьединицы и температуры на экспрессию генов // Труды 32-й конференции «Информационные технологии и системы». Бекасово, 15-18 декабря 2009. С. 328-331.

5. Lyubetsky V.A., Zverkov O.A., Rubanov L.I., Seliverstov A.V. Interaction between nucleome and plastome: heat shock response regulation in plastids of plants II Proceedings of the Seventh International Conference on Bioinformatics of Genome Regulation and Structure\Systems Biology. Novosibirsk, June 20-27 2010. P. 161.

6. Зверков O.A., Селиверстов A.B., Любецкий В.А. Позиционная связь генов пла-стомов растений и водорослей // Труды 33-й конференции «Информационные технологии и системы», г. Геленджик, 20-24 сентября 2010. С. 326-330.

7. Зверков O.A., Селиверстов A.B., Любецкий В.А. Об одном алгоритме кластеризации белков // Труды 53-й научной конференции МФТИ, Часть I. Радиотехника и кибернетика, Т. 1, М.: МФТИ, 2010. С. 118-119.

8. Зверков O.A., Горбунов К.Ю., Селиверстов A.B., Любецкий В.А. Кластеризация белков с учётом их доменной структуры // Труды 54-й научной конференции МФТИ. Т. 2. М.: МФТИ, 2011. С. 88-89.

9. Зверков O.A., Селиверстов A.B., Любецкий В.А. Семейства белков, кодируемых в пластомах Chlorophyta, Euglenozoa и Rhizaria II Труды 35-й конференции «Информационные технологии и системы», 19-25 августа 2012. С. 298-302.

10. Zverkov O.A., Korolev S.A., Selivcrstov A.V., Lyubetsky V.A. Transcription regulation of plastid genes cysT and cysA in Viridiplantae // Contributions to the 3rd Moscow International Conference "Molecular Phylogenetics". July 31 - August 4, 2012. P. 85.

11. Зверков О. А Использование быстрых алгоритмов в задаче кластеризации последовательностей // Сборник избранных трудов ПН Международной научно-практической конференции «Современные информационные технологии и ИТ-образование». Москва, МГУ им. М.В.Ломоносова, 8-10 ноября 2013. С. 757-763.

12. Зверков О.А., Селиверстов А.В., Любецкий В.А. Построение разделяющих паралоги семейств гомологичных белков, кодируемых в пластидах цветковых растений // Труды 37-й конференции «Информационные технологии и системы». Калининград, 1-6 сентября 2013. С. 172—177.

13. Kobets N.V., Goncharov D.B., Seliverstov A.V., Zverkov О.A., Lyubetsky V.A. Comparative analysis of apicoplast-targeted proteins in Toxoplasma gondii and other Apicomplexa species II Proceedings of the International Moscow Conference on Computational Molecular Biology: MCCMB'13, July 25-28, 2013.

Подписано в печать:

17.07.2014

Заказ № 10128 Тираж -100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru

Текст научной работыДиссертация по биологии, кандидата физико-математических наук, Зверков, Олег Анатольевич, Москва

Федеральное государственное бюджетное учреждение науки Институт проблем передачи информации им. A.A. Харкевича

Российской академии наук

На правах рукописи

04201460677

Зверков Олег Анатольевич

Функции и эволюция РНК-полимераз в митохондриях и пластидах

03.01.09 - Математическая биология, биоинформатика

Диссертация на соискание ученой степени кандидата физико-математических наук

Научный руководитель д.ф.-м.н. профессор В. А. Любецкий

Москва - 2014

СОДЕРЖАНИЕ

Введение.............................................................................................................................4

1. Общая характеристика работы....................................................................................4

2. Основные результаты и выводы...................................................................................8

Публикации автора по теме диссертации 9

3. Используемые сведения о митохондриях и пластидах.............................................12

3 1 Митохондрии у хордовых пягушки, человека и крысы 12

3 2 Структура и взаимное распоюжение промоторов 14

3 3 Влияние белковых факторов на уровни транскрипции 15

3 4 mTERF-зависимая терминация транскрипции 16

3 5 Белок-независимый терминатор транскрипции 16

3 6 MELAS бопезни 17

3 7 Время полураспада РНК 17

3 8 Пластиды растений и водорослей 19

3 9 Конкуренция РНК-полимераз 19

3 10 Нокауты генов а-субъединиц РНК-полимераз 20

3 11 Тепловой шок изолированных хпоропластов 21

3 12 Анализ других экспериментальных данных 21

3 13 Заключение 22

ГЛАВА 1. Взаимодействие РНК-полимераз в митохондриях и пластидах.........23

1. Примеры локусов в митохондриях и пластидах.......................................................23

2. Модель взаимодействия РНК-полимераз..................................................................24

3. Параметры модели....................................................................................................28

3 1 Параметры РНК-полимеразы бактериального типа (РЕР) 28

3 2 Параметры РЕР-промоторов и число абортивных попыток 28

3 3 Параметры РНК-полимеразы фагового типа (NEP) 30

4. Экспериментальные данные об уровнях транскрипции генов и временах полураспада..................................................................................................................31

4 1 Данные о митохондриях 31 4 2 Данные о пластидах 37

5. Оценка согласия с опытом.......................................................................................39

6. Методика моделирования...........................................................................................40

6.1. Обоснование модели............................................................................................40

6.2. Случай митохондрий...........................................................................................41

7. Компьютерная реализация модели............................................................................44

8. Результаты о митохондриях.......................................................................................46

9. Результаты о пластидах..............................................................................................48

10. Обсуждение результатов о митохондриях...............................................................50

11. Обсуждение результатов о пластидах......................................................................55

12. Заключение...............................................................................................................57

ГЛАВА 2. Семейства белков, кодируемых в пластидах.........................................58

1. Введение и постановка задачи...................................................................................58

1.1. Пластиды родофитной ветви............................................................................60

1.2. Пластиды хлорофитной ветви...........................................................................63

1.3. Пластиды цветковых растений.........................................................................64

2. Результаты..................................................................................................................64

2.1. Алгоритм кластеризации....................................................................................64

Пример работы алгоритма...............................................................................................................71

2.2. Кластеризация белков родофитной ветви пластид..........................................74

2.2.1. Характеристика кластеров пластомных белков родофитной ветви.......................................75

2.2.2. Поиск РНК-полимераз в ядерных геномах споровиков.........................................................77

2.2.3. Обсуждение результатов кластеризации для родофитной ветви...........................................80

2.3. Кластеризация белков хлорофитной ветви пластид........................................81

2.3.1. Характеристика кластеров пластомных белков хлорофитной ветви.....................................81

2.3.2. Обсуждение результатов кластеризации для хлорофитной ветви.........................................83

2.3.3. Дополнительное исследование кластеров СуэА и СуэТ........................................................85

2.4. Кластеризация пластомных белков однодольных растений.............................87

2.5. Кластеризация пластомных_белков цветковых растений................................88

ГЛАВА 3. Сопряжение трансляции и процессинга мРНК в пластидах...............91

1. Введение и постановка задачи...................................................................................91

2. Материалы и методы..................................................................................................97

3. Результаты..................................................................................................................98

4. Обсуждение..............................................................................................................100

Список использованных источников.....................................................................103

ВВЕДЕНИЕ

1. Общая характеристика работы

Актуальность темы

В биоинформатике велико значение быстрых и эффективных алгоритмов, поскольку зачастую возникают входные данные весьма большого объёма. Известные и новые методы вычислений требуют адаптации к работе на многопроцессорных вычислительных комплексах (суперкомпьютерах), которые стали в последнее время значительно доступнее.

К настоящему времени известны сотни полностью секвенированных геномов пластид, тысячи геномов митохондрий, скорость пополнения баз данных геномной информации растёт экспоненциальными темпами. Возникает такой объём информации, что доля геномов, доступных биохимическому исследованию, становится всё меньше. Поэтому возникает потребность в эффективных и быстрых алгоритмах компьютерного анализа данных, а также в создании специализированных баз данных. Существенно, чтобы алгоритмы опирались на «точные модели», т.е. было доказано, что они приводят к глобальным экстремумам соответствующих функционалов, имели низкую вычислительную сложность (полином 2-3 степени) и допускали эффективное распараллеливание.

Моделирование клеточных процессов требует нетривиальных алгоритмов и является важным инструментом биоинформатического исследования. Оно позволяет предсказать значения параметров биохимических процессов (например, инициации, элонгации и терминации транскрипции), которые трудно измерить непосредственно, а также - решить нетривиальную обратную задачу: выбрать значения параметров, которые соответствуют экспериментальным зависимостям-.

Экспериментальные исследования, в том числе проведённые в Институте физиологии растений им. К. А. Тимирязева РАН (Зубо и др.), позволили предположить важную роль взаимодействия РНК-полимераз в процессе транскрипции пластомов растений и в ответе пластид на тепловой шок. Для проверки этого предположения и предсказания параметров, не определяемых в экспериментах, была поставлена задача моделирования процесса транскрипции в пластидах с одновременным участием многих РНК-полимераз, факторов и вторичных структур, взаимодействующих друг с другом. Затем задача была расширена на моделирование транскрипции в митохондриях.

Использование кластера MVS-100K в Межведомственном супер компьютерном центре РАН позволило впервые провести моделирование транскрипции для всей кольцевой ДНК митохондрий человека, крысы и лягушки, а также для существенных локу-сов пластид.

Построение близких по последовательности и минимальных по содержанию па-ралогов белковых семейств (кластеризация белков) позволяет уточнять аннотации белков, судить о работоспособности белковых комплексов, например РНК-полимераз бактериального типа. (В случае отсутствия последних транскрипция выполняется РНК-полимеразами фагового типа, что придаёт этому процессу другие черты.) Известно несколько баз данных семейств ортологичных белков [1]. Однако большинство из них содержат небольшое число видов с пластидами или вовсе не содержат их. Например, (по состоянию на 1 июля 2013) OrthoDB [2] не содержит растений и простейших, Ortho-MCL [3] включает только 11 водорослей и 14 споровиков; GeneDB [4] - только 7 споровиков; в RoundUp [5] и InParanoid [6] таких видов ещё меньше; ОМА [7] и EggNOG [8] почти не содержат видов с пластидами; в COG и KOG [9] представлено два растения и ни одного споровика. Поэтому была поставлена задача: предложить эффективный алгоритм кластеризации белков и получить базы данных пластомных белков.

Изучение пластид споровиков (апикопластов) значимо, поскольку споровики вызывают опасные заболевания человека и животных, в том числе токсоплазмоз и малярию. Исследование регуляции экспрессии генов, кодируемых в апикопластах, важно для понимания роли апикопластов в передаче инфекции, а также в механизмах действия лекарственных средств на апикопласты, которые являются главной мишенью антибиотиков, не оказывающих прямого воздействия на экспрессию ядерных и митохондриаль-ных генов хозяина. В частности, Theileria и Babesia переносятся иксодовыми клещами и вызывают заболевания крупного рогатого скота: В. bigemina и В. bovis — бабезиоз крупного рогатого скота, Th. annulata - тейлериоз крупного рогатого скота, Th. parva — лихорадку Восточного Берега; Eimeria tenella вызывает эймериоз кур; Toxoplasma gondii - токсоплазмоз, в том числе у человека; различные виды рода Plasmodium вызывают малярию у людей (P. falciparum, P. vivax) и других животных. Некоторые споровики, например Cryptosporidium parvum, не имеют пластид.

Исследование митохондрий человека, крысы и лягушки значимо для понимания молекулярных механизмов MELAS болезней человека (митохондриальная энцефало-миопатия, лактатацидоз, инсультоподобные эпизоды), болезней, связанных с недостаточностью гормона щитовидной железы, и т.д.

Цели работы

1. Разработать модель взаимодействия и конкуренции РНК-полимераз в митохондриях и пластидах, которая должна предсказывать уровни транскрипции всех генов. На её основе объяснить изменения уровней транскрипции генов: в митохондриях человека с MELAS-мутацией; в митохондриях крысы с эпигенетическими нарушениями, вызванными недостатком тиреоидного гормона; в пластидах растений после нокаутов минорных а-субъединиц или теплового шока.

2. Разработать алгоритм построения сходных по последовательности и минимальных по содержанию паралогов семейств белков (кластеризации данного множества белков). Применить алгоритм к множествам белков, кодируемых в пластидах родофит-ной и хлорофитной ветвей и цветковых растений. На основе полученных семейств: рассмотреть вопрос о присутствии полноценной РНК-полимеразы бактериального типа у споровиков; указать белки, характерные для узких таксономических групп («филогенетические подписи»).

3. Предсказать белковые сайты и вторичные структуры мРНК, ответственные за задержку инициации трансляции до завершения процессинга мРНК в пластидах.

Методы исследования

В работе использованы методы теорий алгоритмов и массового обслуживания, методы моделирования и организации вычислительных экспериментов с использованием известных и оригинальных программ, в том числе для параллельных вычислений на суперкомпьютерах, методы математической биологии и биоинформатики.

Научная новизна

Моделирование взаимодействия РНК-полимераз, по крайней мере на длинных локусах ДНК, ранее не выполнялось. Моделирование основано на новом математическом и алгоритмическом подходе к изучению большой системы одновременно взаимодействующих объектов. Кластеризация получена на основе оригинального алгоритма в теории графов. Все полученные алгоритмы имеют низкую оценку вычислительной сложности, а биоинформатические результаты являются новыми.

Практическая значимость работы

Работа носит теоретический характер. В то же время, исследование может иметь прикладное значение.

Предложенные алгоритмы и их программные реализации могут применяться для исследования широкого класса задач. А именно, в медицинских исследованиях могут

быть полезны разработанные методы количественной оценки влияния мутаций и эпигенетических нарушений на уровни транскрипции генов в митохондриях, предложенные нами объяснения механизма MELAS-синдрома у человека и нарушения метилирования мтДНК у крысы с недостатком гормона щитовидной железы.

Для создания новых видов растений, в том числе с ксенопластидами, могут быть полезны предложенные механизмы отклика на тепловой шок изолированных пластид и на нокауты транскрипционных факторов в пластидах.

Апробация работы

Компьютерные программы тестировались на биологических данных с экспериментально известными ответами, а также в процессе решения биологических задач. Результаты работы опубликованы и докладывались на следующих конференциях:

- Международная конференция "Moscow Conference on Computational Molecular Biology": MCCMB'07 (Москва, 27-31 июля 2007), МССМВ'13 (Москва, 25-28 июля, 2013);

- 32-я, 33-я, 35-я, 37-я конференция «Информационные технологии и системы»: ИТиС'09 (Бекасово, 15-18 декабря 2009), ИТиС'Ю, (Геленджик, 20-24 сентября 2010), ИТиС'12 (Петрозаводск, 19-25 августа 2012), ИТиС'13 (Калининград, 1-6 сентября 2013);

- 7-я международная конференция "Bioinformatics of Genome Regulation and Struc-ture\Systems Biology" BGRS\SB'10 (Новосибирск, 20-27 июня 2010);

- 51-я, 53-я, 54-я научная конференция МФТИ (Москва, 28-30 ноября 2008, 24—29 ноября 2010, 25-26 ноября 2011);

- 3-я Московская международная конференция "Molecular Phylogenetics" (Москва, 31 июля - 4 августа 2012).

- 8-я Международная конференция «Современные информационные технологии и ИТ-образование» (Москва, МГУ им. М. В. Ломоносова, 8-10 ноября 2013).

Работа также докладывалась на научных семинарах механико-математического факультета Московского государственного университета им. М. В. Ломоносова и на семинаре по Математической биологии и биоинформатике Института проблем передачи информации им. А. А. Харкевича РАН.

Публикации

По теме диссертации опубликовано 9 статей и 13 тезисов докладов на конференциях (см. список в конце пункта 2). Все результаты, включённые в диссертацию, получены лично автором.

Структура и объём работы

Работа состоит из введения, трёх глав и списка литературы. Список литературы содержит 127 наименований. Объём работы составляет 112 страниц, включая 21 таблицу и 29 рисунков.

2. Основные результаты и выводы

Разработана математическая и компьютерная модель взаимодействия РНК-полимераз между собой, с вторичными структурами и белковыми факторами в процессах инициации и элонгации транскрипции. Модель применена к локусам пластид и митохондрий, и находится в согласии практически со всеми опытными данными, относящимися к пластидам растений и митохондриям, включая данные об изменениях уровней транскрипции генов после нокаутов а-субъединиц РНК-полимераз и после теплового шока изолированных пластид, данные об относительных количествах РНК и временах их полураспада в митохондриях лягушек, человека здорового и с MELAS-мутацией, крысы здоровой и с пониженным уровнем тиреоидного гормона.

На основе модели предсказаны характеристики транскрипции в митохондриях хордовых животных: доли РНК-полимераз, завершающих транскрипцию на mTERF-зависимом терминаторе в одном и другом направлениях (поляризация); интенсивность связывания регуляторного белка mTERF с сайтом терминации на ДНК; интенсивности инициации транскрипции на промоторах в пластидах растений и митохондриях лягушки, человека, включая случай MELAS-мутации, крысы, включая гипотиреоида. На основе модели предсказаны значения уровней транскрипции всех генов, в то время как в опытах известны лишь их относительные значения и только для некоторых генов.

На основе модели предположен механизм влияния на фенотип MELAS-мутации: снижение концентраций как фенилаланиновой и валиновой тРНК, так и рРНК, а главное - резкое изменение времени полураспада определённых мРНК.

НаГоснове модели показана корреляция между изменениями метилирования сайта связывания mTERF и промоторов с интенсивностями связывания с ними mTERF и РНК-полимераз.

Разработан алгоритм кластеризации множества белковых последовательностей. На его основе получены семейства сходных по последовательности и минимальных по содержанию паралогов белков, кодируемых в пластомах багрянок и видов с пластидами, родственными пластидам багрянок (родофитная ветвь); белков, кодируемых в пластомах рано отделившихся ветвей зелёных водорослей и видов с родственными им пластидами: Viridiplantae, эвгленовые, Bigelowiella nutans (хлорофитная ветвь); белков, ко-

дируемых в пластомах цветковых и отдельно однодольных растений. На этой основе найдены белки, специфичные для пластомов небольших таксономических групп водорослей и простейших.

Полученная кластеризация позволила заключить, что у споровиков Toxoplasma gondii и Plasmodium falciparum присутствует полноценная РНК-полимераза бактериального типа. У Neospora caninum и Plasmodium spp. найдены а- и а-субъединицы, кодируемые в ядре. Напротив, у споровиков таксономической группы Piroplasmida а- и о-субъединицы РНК-полимеразы бактериального типа не найдены, а её субъединицы, обычно кодируемые в пластидах, значительно изменены или фрагментированы. Это п