Бесплатный автореферат и диссертация по биологии на тему
Сравнительно-геномный анализ систем бактериального иммунитета
ВАК РФ 03.00.28, Биоинформатика

Автореферат диссертации по теме "Сравнительно-геномный анализ систем бактериального иммунитета"

На правах рукописи

Сорокин Валерий Андреевич

СРАВНИТЕЛЬНО-ГЕНОМНЫЙ АНАЛИЗ СИСТЕМ БАКТЕРИАЛЬНОГО ИММУНИТЕТА

Специальность 03.00.28 - биоинформатика

1 9 ноя

Автореферат Диссертации на соискание ученой степени кандидата биологических наук

Москва - 2009

Со^л^

Работа выполнена на Факультете биоинженерии и биоинформатики Московского государственного университета имени М.В. Ломоносова и в Учебно-научном центре «Биоинформатика» учреждения Российской академии наук Института проблем передачи информации им. А.А. Харкевича РАН.

Научный руководитель: доктор биологических наук, профессор,

Гельфанд Михаил Сергеевич

Официальные оппоненты: доктор биологических наук,

Карягина Анна Станиславовна, ГУ НИИ эпидемиологии и микробиологии им. Н.Ф.Гамалеи

кандидат физико-математических наук, Макеев Всеволод Юрьевич, ФГУП ГНЦ РФ ТосНИИГенетика"

Ведущая организация: Учреждение Российской академии наук

Институт молекулярной биологии им. В.А.Энгельгардта РАН

Защита диссертации состоится 2009 года в часов на заседании

диссертационного совета Д.002.077.02 при учреждении Российской академии наук Институте проблем передачи информации им. А.А. Харкевича РАН по адресу: 127994, г. Москва, ГСП-4, Большой Каретный переулок, д. 19, стр.1.

С диссертацией можно ознакомиться в библиотеке учреждения Российской академии наук института проблем передачи информации им. A.A. Харкевича РАН.

Автореферат разослан V^QiSfe^) S— 2009 года

Ученый секретарь диссертационного совета доктор биологических наук, профессор

^ ~> Рпж-к-гша Г.И

Общая характеристика работы

Актуальность темы

Данная работа посвящена исследованию двух систем бактериального иммунитета. Актуальность темы следует из двух основных соображений.

Знания, полученные в результате исследований таких систем, могут найти практическое применение в промышленности. Так, в пищевой промышленности бактериальные культуры используются для получения сыров, йогуртов, кефиров и других молочных продуктов, а также различных приправ. Заражение культуры фаговой инфекцией чревато остановкой производства, дезинфекцией всех производственных мощностей, наработкой культуры с нуля и повторным запуском производства. Издержки от этого могут быть очень велики, особенно если принять во внимание масштабность производства. Понимание принципов работы систем бактериального иммунитета - прямой путь к управляемому повышению устойчивости промышленных культур к фаговым инфекциям.

С другой стороны, поскольку взаимодействие фаг-бактерия отличается особой динамичностью, системы бактериального иммунитета представляют собой удобную модель для изучения молекулярной и геномной эволюции. Наряду со сравнительно хорошо изученными системами рестрикции-модификации, построенными на базе систем типа токсин-антитоксин, в настоящей работе рассмотрены и недавно открытые СМБРЯ-системы, которые, как полагают, участвуют в анти-фаговой защите клетки, используя механизм, схожий с механизмом РНК-интерференции в эукариотах. Как будет показано в дальнейшем на примере таких систем, в геномах можно обнаружить следы взаимодействия фаг-бактерия, а именно, ответа бактериальной клетки на внедрение фага.

Системы рестрикции-модификации (РМ-системы), как правило, состоят из двух ферментов, один из которых способен узнавать определенные участки (короткие последовательности) ДНК и химически их модифицировать (метилировать), а другой, узнавая те же самые участки ДНК, способен вносить двуцепочечный разрыв в этот участок ДНК в случае, если участок не подвергся модификации. Система устроена таким образом, что ДНК клетки-хозяина оказывается полностью метилированной, в отличие от последовательностей ДНК внедряющихся фагов, которые эффективно деградируются рестриктазой РМ-системы. Система противофаговой защиты должна обладать сложной системой регуляции, т.к. в противном случае клетке-носителю может быть нанесен непоправимый вред. Одним из компонентов системы регуляции РМ-систем является С-белкок, типичный представитель НТН-семейства (факторы транскрипции с ДНК-связывающим доменом спираль-поворот-спираль). С-белки, наряду с их авторегуляторными сайтами, являлись одним из объектов данного исследования.

Типичная СККРН-система представляет собой кассету, предположительно содержащую информацию о геномах тех фагов, которые уже атаковали клетку, и набор генов, продукты которых позволяют использовать эту информацию для противодействия повторно атакующим клетку фагам. Кассета представляет собой последовательность ДНК, состоящую из коротких (25-45 п.о.) уникальных участков (так называемых спейсеров), которые разделены точными прямыми повторами примерно такой же длины. Показано, что спейсерные последовательности похожи на участки геномов некоторых фагов, а последовательности белков, закодированные в наборе генов, обслуживающих кассету, содержат мотивы, сходные с мотивами ферментов, проявляющих нуклеазную активность. По всей видимости, за счет комплементарного узнавания ДНК внедряющегося фага взаимодействует со спейсерами кассеты, что приводит к ее деградации в результате действия белков, закодированных генами СМБРЯ-системы. Этому процессу предшествует процесс обучения - встраивание элементов генома внедряющегося фага в кассету в виде новых спейсерных последовательностей.

Цель исследования

Целью исследования являлось изучение С-белков и их авторегуляторных сайтов, а также исследование CRISPR-систем в метагеноме методами сравнительной геномики.

Задачи исследования

1. Полномасштабное предсказание новых представителей семейства С-белков и предсказание авторегуляторных сайтов для предсказанных генов С-белков.

2. Классификация сайтов связывания С-белков и выявление их структурных особенностей.

3. Описание генетической структуры локусов предсказанных генов С-белков.

4. Решение проблемы большого числа ложных предсказаний, наблюдаемых при применении известных алгоритмов к предсказанию CRISPR-подобных структур в метагеноме и полномасштабное предсказание CRISPR-подобных структур в метагеномных последовательностях Sorcerer II.

5. Проверка гипотезы о том, что в спейсерных последовательностях CRISPR-кассет популяции бактерий преимущественно содержатся элементы фагов из этой же популяции.

6. Анализ эволюционных событий, наблюдаемых в CRISPR-кассетах.

7. Формирование удобных баз данных, доступных через Интернет и содержащих результаты исследования С-белков и CRISPR-систем. Базы данных должны обладать удобной системой запросов как по идентификаторам, параметрам и ключевым словам, так и по сходству с фрагментами, заданными пользователем.

Научная новизна и практическое значение:

1. В работе идентифицировано 169 новых представителей семейства С-белков. До начала исследования было известно лишь 46 представителей этого семейства.

2. Предсказан 201 авторегуляторный сайт генов С-белков (169 сайтов для ранее неизвестных генов С-белков, 32 для известных генов С-белков, содержащихся в Rebase). До начала исследования число известных сайтов не превышало 30, при этом лишь 8 сайтов содержалось в Rebase.

3. Предсказанные авторегуляторные сайты разбиты на 10 отличающихся структурных групп (мотивов), из которых лишь 3 были описаны ранее.

4. Описаны локусы, содержащие гены С-белков, и показано, что в них часто встречаются гены фаговой активности. Впервые описаны локусы, содержащие пары С-белков из различных подсемейств. Для ряда мотивов описаны дополнительные сайты связывания.

5. Разработана процедура фильтрации ложных предсказаний CRISPR-подобных структур.

6. Показано, что в спейсерных элементах CRISPR-кассет бактерий из фиксированного местообитания значимо чаще встречаются элементы из фагов из того же местообитания.

7. Описаны элементарные эволюционные события, наблюдаемые в выборке предсказанных CRISPR-кассет, и реконструирована эволюционная история родственных CRISPR-кассет.

8. Разработаны удобные базы данных, позволяющие независимым исследователям получить доступ ко всем результатам работы.

Апробация работы

Материалы исследований по теме диссертации были представлены на российских и международных конференциях: XV Международная научная конференция студентов, аспирантов и молодых ученых «Ломоносов-2008», Москва (диплом за лучший доклад); Первый международный форум по нанотехнологиям «Роснанофорум-2008», Москва (диплом за стендовый доклад); Российско-германский симпозиум по системной биологии, 2008, Москва; Berlin Summer Meeting: Computational & Experimental Molecular Biology, 2008, Берлин, Германия; 7th European Conference on Computational Biology (ECCB'08) & 5th BITS Meeting, 2008, Кальяри, Сардиния, Италия; Конференция "Информационные технологии и системы ИТиС'08", 2008, Геленджик; 16th Albany Conversation, 2009, Олбани, США; 17th Annu. Int. Conf. on Intelligent Systems for Molecular Biology and 8th European Conf. On Computational Biology ISMB/ECCB'09,2009, ISMB/ECCB'09,2009, Стокгольм, Швеция.

Объем и структура диссертации

Диссертационная работа изложена на 85 страницах машинописного текста и состоит из введения и четырех разделов. Первый раздел включает обзор литературы по теме диссертации. Второй раздел содержит описание использованных в работе программ и алгоритмов, а также подробное описание разработанных в работе методов. Третий раздел содержит описание проведенных в работе исследований и состоит из двух частей, каждая из которых включает изложение полученных в работе результатов и их обсуждение: первая часть посвящена предсказанию и анализу С-белков и их авторегуляторных сайтов; вторая часть посвящена предсказанию и анализу CRlSPR-систем в метагеноме Sorcerer II. В четвертом разделе содержится описание построенных баз данных.

Список цитируемой литературы, приведенный в конце диссертации, содержит 87 наименований. Работа содержит 14 рисунков и 5 таблиц.

Содержание работы

Первый раздел: Обзор литературы

Первый раздел содержит обзор основных литературных источников, затрагивающих системы рестрикции-модификации и CRISPR-системы. В этом разделе дается классификация РМ-систем, объясняется принцип их работы, а также то, чем обусловлена потребность в сложной системе регуляции транскрипции генов РМ-систем. Кратко дается обзор основных механизмов, реализующих регуляцию транскрипции, один из которых использует отдельный белок-регулятор - С-белок. Далее приводится обзор основных экспериментальных фактов, которые были установлены для С-белков, а также описание работ, посвященных биоинфор-матическому анализу С-белков.

Далее, в первом разделе приводятся основные известные сведения о CRISPR-системах. В частности, описывается функциональное назначение каждой из составных частей CRISPR-системы: лидерной последовательности, кассеты, состоящей из спейсеров и повторов, а также группы cas-генов. Излагаются результаты работ, в которых выдвигается гипотеза об участии CRISPR-систем в противофаговой обороне. Приводятся результаты исследований «динамики» CRISPR-систем, в частности, результаты изучения систем в метагеномных образцах. В завершение, приводится описание крупнейшего на сегодняшний момент метагенома -Sorcerer II, который был объектом исследования.

Второй раздел: Материалы и методы

Этот раздел содержит описание основных источников информации, методов, алгоритмов и программ, использованных в работе.

В качестве источников информации используются база данных Rebase и последовательности метагенома Sorcerer II. Далее следует описание подхода к предсказанию С-белков и их авторегуляторных сайтов, разработанного в данной работе. В контексте подхода описывается применение стандартных биоинформатических инструментов: программ поиска сходных последовательностей BLAST и HMMER, программы множественного выравнивания последовательностей MUSCLE, пакета программ для филогенетического анализа PHYLIP и т.д.

Излагаются базовые принципы работы трех известных алгоритмов, которые были использованы для предсказания CRISPR-кассет в метагеноме Sorcerer II, и описывается подход, разработанный для повышения надежности предсказания. Приводится методика тестирования основной гипотезы: в спейсерных последовательностях бактерий, обитающих в определенной экологической зоне, содержатся элементы геномов сосуществующих с ними фагов.

Третий раздел: Результаты и обсуждение 1. Исследование С-белков

1.1. Предсказание новых С-белков

В качестве отправной точки анализа были выбраны 46 белков из Rebase. С помощью процедуры tblastn (из пакета программ BLAST) для каяедого из 46 С-белков независимо был произведен поиск сходных последовательностей в базе GenBank. Сравнительно строгий по-

рог по е-значению был выбран, чтобы гарантировать отсутствие сходств с другими представителями НТН-семейства (например, фаговыми репрессорами). После ручного анализа результатов было отобрано 245 генов, каждый из которых потенциально мог кодировать С-белок. Для этих генов было проведено уточнение точки начала трансляции с учетом того, что средняя длина С-белка не превосходит 70 аминокислот и различий в паттерне эволюции бе-лок-кодирующих и некодирующих областей.

1.2. Предсказание авторегуляторных сайтов

Поскольку выборка идентифицированных потенциальных С-белков содержала довольно далекие группы С-белков, можно было ожидать, что выборка авторегуляторных сайтов также будет довольно разнородна (действительно, как оказалось в дальнейшем, авторегуля-торные сайты предсказанных С-белков образуют 10 мотивов, каждый из которых имеет свои структурные особенности).

Поэтому было решено начать анализ со сравнительно небольших подгрупп наиболее близких С-белков. Было построено филогенетическое дерево (пакет PHYLIP, процедура proml) всех 291 членов из выборки (245 предсказанных и 46 С-белков из Rebase). Незначительно отличающийся вариант этого дерева, на котором представлены лишь С-белки с предсказанными сайтами связывания, приведен на рис. 1. Анализ дерева выявил несколько обособленных групп белков, которые были проанализированы отдельно.

Для каждого члена группы извлекался 5'-участок, предшествующий предсказанному гену С-белка. Длина участка была фиксирована и составляла 100 пар оснований. Для наиболее близких (в метрике филогенетического дерева) представителей группы строилось выравнивание извлеченных участков. Далее это выравнивание итеративно расширялось за счет 5'-участков других, все более и более далеких членов группы. На каждой итерации качество выравнивания контролировалось вручную. Как только качество признавалось неудовлетворительным, итерации останавливались, и оставшиеся на выравнивании консервативные участки объявлялись предсказанными авторегуляторными сайтами связывания соответствующих гипотетических С-белков.

Как следует из описания процедуры, она чувствительна к правильности предсказания старт-кодона гена гипотетического С-белка. Поэтому, с использованием матрицы весов, построенной на основании уже предсказанных авторегуляторных сайтов, были уточнены имеющиеся предсказания, идентифицирован ряд новых авторегуляторных сайтов, и в ряде случаев уточнена позиция старт-кодона предсказанного гена С-белка.

Всего сайты связывания были предсказаны для 201 (из 291) потенциальных С-белков.

1.3. Сравнение предсказанных сайтов с экспериментально подтвержденными сайтами

Для восьми генов С-белков, содержащихся в Rebase, сайты связывания были определены экспериментально. Согласно литературным данным, еще для 24 белков сайты были определены биоинформатическими методами. Все предсказания, сделанные в результате анализа, совпадали с уже известными сайтами. Однако, поскольку полученная выборка авторегуляторных сайтов была на порядок больше, это позволило обнаружить существенно больше элементов структуры сайтов, чем бьио охарактеризовано до настоящего анализа.

1.4. Анализ структуры предсказанных сайтов связывания

Известные к моменту начала работы сайты можно было разделить на три большие структурные группы: группа сайтов, подобных сайту С-белка C.PvuII, сайт С-белка C.EcoRV и сайт С-белка С.ЕсоОЮ91.

Структура сайтов первой группы была частично описана в литературе (Mruk I. et al., 2007): типичный мотив представляет собой два палиндрома, разделенных консервативной четырехнуклеотидной спейсерной последовательностью. Два палиндрома представляют собой непосредственно места связывания димеров С-белка, при этом с одним плечом палиндрома (С-боксом) связывается один (из двух белков димера) С-белок. Парам консервативных динукпеотидов, расположенным по краям сайта, не было уделено внимания, хотя данная

структурная особенность вызывает интерес. Два других сайта содержали один палиндром, при этом палиндромы отличались как между собой, так и от палиндромов группы сайтов, похожих на сайт белка С.РуиП.

Рис.1 Филогенетическое дерево предсказанных С-белков, для которых был предсказан авторегупяторный сайт. Принадлежность авторегуляторного сайга к одному из 10 мотивов указана цветом.

Набор предсказанных в диссертации сайтов был дополнительно разделен на подгруппы с помощью процедуры О^егТгее-КБ (предоставлена Е. Ставровской). Процедура выявила 10 явно различающихся кластеров (в дальнейшем именуемых мотивами), в которые входил 181 сайт (из 201 предсказанного сайта). Изображение мотивов приведено на рис, 2.

Мотивы 7 и 8 соответствуют сайтам связывания, подобным сайтам связывания С-белков С.ЕсоЯУ и С.ЕсоОЮ91. Однако, мотивы содержат соответственно 13 и ¡4 позиций, что соответствует дополнительным консервативным позициям, составляющим сайт: две позиции было обнаружено для мотива 7, и одна позиция была обнаружена для мотива 8. Кроме этого, в мотивах 7 и 8 разделитель между плечами палиндрома составляет всего одну позицию, а в ранее предсказанных сайтах разделитель бьш существенно длиннее.

Мотивы 1-6 обладают рядом общих структурных элементов. Архитектура «усредненного» мотива описывается следующей формулой:

г-х-ы-х*-[ст-ядро]-х-п-х*-г*,

/

где Ъ - краевые консервативные комплементарные нуклеотиды, Х-М-Х* и х-п-х* - копии палиндрома, звездочка * означает комплементарность элемента структуры, а нижний регистр букв означает тот факт, что 3' копия гораздо больше похожа на общий консенсус, нежели 5' копия.

Мотивы 1, 2, 4 точно подходят под описание, задаваемое этой формулой. Мотив 3 не содержит тройных краевых нуклеотидов (г), мотивы 5 и 6, напротив, не содержат копий палиндромов (Х-Ы-Х*), но содержат внешние консервативные комплементарные нуклеотиды. Все известные на момент начала исследования С-белки с сайтами, похожими на сайты С-белка С.РуиП, соответствовали мотиву 2.

палиндром шлжадром (пар* овоксо»)

мотав 1 ~ --------

,А сСАтСА!

ЩуАМо!

шЛ

Рис.2а Профили мотивов 1-6 предсказанных авторегуляторных сайтов. Окрашенными прямоугольниками обозначены С-боксы. Палиндромные элементы структуры обозначены стрелками.

Мотив 9 представляет собой короткую консервативную последовательность. Её длина (10 п.о.), а также отсутствие какой-либо симметрии, характерной для сайтов связывания, не позволяет предполагать в ней полноценный авторегуляторный сайт связывания и, возможно, указывает на то, что эти сайты являются ошибочно предсказанными.

Мотив 10 содержит один палиндром, отличающийся от палиндромов всех остальных предсказанных сайтов С-белков.

1.5. Предсказание дополнительных (проксимальных) сайтов связывания

Кристаллографический анализ С-белков C.Ahdl и С.Bell показал, что С-белки существуют в форме димеров (Sa-waya M.R. et а)., 2005, McGeehan J.E. et al., 2005). Кроме этого, все экспериментально изученные С-белки имели пары сайтов связывания (проксимальный и дисталь-ный) непосредственно перед CR-опероном, что обеспечивало сначала активацию, а затем репрессию транскрипции этого оперона.

Сайты, принадлежащие мотивам 1-4, уже содержат в себе два участка связывания С-белка. В соответствии с теорией, левый (дистальный) участок связывания обладает большим сродством к общему консенсусу, нежели правый (проксимальный) участок сайта.

Рис.26 Профили отгибов 7-10 предсказанных авторе^- Мотивы 7, 8 и 10 состоят из ОДНОГО

ляторных сайтов. Окрашенными прямоугольниками обо- четко выраженного палиндрома, что явля-значены c-боксы. палиндромные элемента структуры ется недостаточным для реализации акти-обозначены стрелками. вационно-репрессионного механизма. Бы-

ло проведено дополнительное исследование с использованием позиционных весовых матриц, построенных по уже идентифицированным сайтам, которое позволило обнаружить для каждого авторегуляторного сайта из мотивов 7, 8 и 10 дополнительные проксимальные сайты связывания. Однако, в отличие от мотивов 1-4, где проксимальные и дистальные сайты располагались на фиксированном расстоянии друг от друга, расстояние между соответствующими сайтами мотивов 7, 8 и 10 не было фиксированным, что является принципиальным отличием мотивов 7, 8 и 10 от мотивов 1-4.

1.6. Дополнительные исследования предсказанных генов С-белков и их авторегу-ляторных сайтов

Был проведен ряд дополнительных исследований, связанных с предсказанными генами С-белков и их авторегуляторными сайтами. Во-первых, исследовалась возможность дополнительной регуляции активности РМ-систем через трансляцию CR-оперонов с безлидерных матриц. Наличие этого механизма было продемонстрировано в литературе на примере РМ-системы PvuII, для которой расстояние между предсказанным сайтом (принадлежащим к мотиву 2) и старт-кодоном гена С-белка составляет 18 п.о. В результате исследования распределения расстояний между предсказанными авторегуляторными сайтами, принадлежащими к C.PvuII-подобным мотивам 1-6, и старт-кодонами предсказанных генов С-белков, был обнаружен пик, соответствующий расстоянию в 17-18 п.о. Дополнительный анализ таких случаев не выявил в разделяющих 17-18 нуклеотидах присутствия последовательности Шайна-Дапьгарно (AGGAG), что может означать, что трансляция CR-оперонов идет с безлидерных РНК-матриц.

Во-вторых, исследовалось геномное окружение предсказанных генов С-белков на предмет наличия в нем генов, сходных с генами РМ-активности (метилазы, рестриктазы), а также генов плазмидно-фаговой активности (гены межбактериального транспорта, гены мобильных элементов и т.д.) В окрестности 3000 п.о. относительно старта трансляции предсказанного гена С-белка были вручную предсказаны все открытые рамки считывания длиной не менее 100 аминокислот. Размер окна (3000 п.о. в обе стороны) выбирался таким образом,

птпчыдрои (гщя С

мотив 7 -1 Ш

янпхеш С-бвпксж w

Rebase. 3

мотив 8 (

14 »#!,.,:!

палиндром (п«рв С-бо*сов)

МОТИВ 10 f ^ 1 (

I

I

мотав 9

чтобы примерно соответствовать размеру типичных известных РМ-систем: ВатН1~2.3 тыс. п.о.; Руи11~1.8 тыс. п.о.; АЬс11~3.5 тыс. п.о.

Потенциальные белки, кодируемые открытыми рамками считывания, были исследованы на предмет сходства с белками из базы данных ОепВапк (процедура Ь^р), а также с белковыми семействами из базы Pfam (процедура ЬттзеагсЬ). В диссертации приводится подробное описание результатов. Кратко они представлены в табл. 1.

В-третьих, в ходе исследования было обнаружено семь случаев, когда в одном локусе (на расстоянии менее 3000 п.о.) содержалось два предсказанных С-белка. В то время как пять пар могут объясняться обычной дупликацией одиночного гена С-белка (на филогенетическом дереве, приведенном на рис. 1, участники пяти пар находятся по соседству друг с другом), для двух оставшихся пар картина значительно более сложная. Во-первых, авторегуля-торные сайты для участников двух пар принадлежат структурно разным мотивам, и, во-вторых, гены соответствующих С-белков на филогенетическом дереве не находятся по соседству друг с другом.

сколько локусов содержит... хотя бы один ген РМ активности хотя бы один ген фаговой активности хотя бы по одному гену РМ и фаговой активности всего локусов

предсказанные С-белки 39 (23%) 115(68%) 27(16%) 169 (100%)

С-белки из Rebase 32 (100%) 26 (78%) 26 (81%) 32(100%)

Табл.1 Статистика анализа геномного окружения предсказанных С-белков и С-белков из Rebase.

Вероятнее всего, эти две пары являются следствием недавних «перетасовок» генетического материала, когда мобильные элементы (гены, похожие на гены мобильных элементов, были обнаружены неподалеку от генов С-белков обоих пар), захватывая части РМ-систем и перемещаясь по геному, смешивают захваченные куски геномов.

CRT

2. Исследование CRISPR-снстем

2.1. Создание первоначального набора CRISPR-кассет

Основной идеей исследования был анализ CRISPR-систем, предсказанных в метагеноме Sorcerer II. В диссертации приводится подробное обоснование, согласно которому исследование CRISPR-систем представляет особый интерес в метагеномных последовательностях.

Метагеном Sorcerer II, расположенный в свободном доступе на сайте CAMERA, состоял из 3081849 последовательностей ДНК (контигами). Совокупная длина метагенома составляла около 4.5 млрд. п.о.

Для предсказания CRISPR-кассет в метагеноме использовались три алгоритма: CRT, PILER-CR и CRISPRFinder. Несмотря на то, что все три программы разработаны для предсказания CRISPR-: кассет, предсказанные наборы кассет перекрыва-

/ лись лишь незначительно (см. рис. 3).

Размеры соответствующих наборов отличались как количественно, так и качественно. Так, алгоритм CRISPRFinder трактовал некоторые артефакты сборки контигов как CRISPR-подобные структуры.

Был разработан специальный алгоритм, который позволил из полного набора кассет выявить Рис.3 Диаграмма, демонстрирующая степень 190 CRISPR-кассет, являющихся наиболее вероят-

iS^E^SESE^T ными Формирование набора на-

геному Sorcerer Ц. Числа означают количество чаЛОСЬ СО 170 CRISPR-кассет, обнаруженных тре-предсказаний. мя программами одновременно. После этого к ним

были добавлены 10 СИБРЯ-кассет, которые были обнаружены в контигах, содержащих последовательности, похожие на гаг-гены. Наконец, все обнаруженные СЯКРЯ-кассеты бьии сгруппированы (кластеризованы) по последовательности повторов и 10 кассет, которые попали в кластеры, содержащие ранее отобранные СИКРЯ-кассеты, также были добавлены в набор предсказаний повышенной надежности. В результате, окончательная выборка состояла из 190 кассет.

2.2. Исследование построенного набора CRISPR-кассет

Кроме описательного анализа полученного набора, CRISPR-кассеты исследовались на предмет проверки следующей гипотезы: в спейсерных последовательностях обнаруженных CRISPR-кассет содержатся элементы геномов фагов из той же географической области.

Эту гипотезу удалось подтвердить с помощью специально разработанной процедуры. Процедура использует тот факт, что каждому контигу приписана метка, обозначающая определенную географическую область, в которой был собран данный образец. Если спейсерная последовательность, найденная в одном контиге, похожа на участок какого-то другого кон-тига (который может являться элементом генома некультивируемого в лабораторных условиях фага, поэтому неизвестного на сегодняшний день), то с большой вероятностью метки, приписанные обоим контигам, должны совпадать. Для контроля проводились процедуры перемешивания меток с сохранением всех суммарных распределений (число меток на контиг, чисто меток на область и т.д.). В результате было показано, что статистическая значимость сделанного наблюдения составляет по крайней мере 1е-04.

Наряду с этим, в диссертации уделяется внимание таксономическому составу контигов, в которых бьии предсказаны CRISPR-кассеты. Предсказание таксономической принадлежности контига осуществлялось, в основном, через анализ сходных с участками контига последовательностей из GenBank, для которых аннотация известна. С помощью этой методики удалось осуществить предсказание таксономической группы для 46% контигов, содержащих предсказанные CRISPR-кассеты. В двух кластерах (26 и 40) таксономические группы существенно различались, что может указывать на горизонтальный перенос CRISPR-систем из одного вида в другой. Так, в кластере 26 кассета cl 105 была приписана к Betaproteobacteria, а кассета с0309 - к Cyanobacteria. В кластере 40 кассета с0368 была приписана к Gammaproteo-bacteria, а с 1199 - к Chlamydia.

2.3. Исследование эволюции CRISPR-кассет

Кластеры CRISPR-кассет дают возможность изучить эволюцию CRISPR-кассет. В самом деле, если две кассеты обладают похожими повторами, то вероятно, что кассеты произошли от одной общей предковой CRISPR-кассеты. В этом случае различия между спей-серными последовательностями CRISPR-кассет дают возможность изучить набор элементарных событий, которые меняют спейсерный состав CRISPR-кассет.

В результате ручного анализа было выявлено шесть классов элементарных событий: 1) простая вставка/делеция, 2) вставка/делеция двух и более смежных спейсеров, 3) смежная дупликация одного спейсера, 4) несмежная дупликация одного спейсера, 5) смежная дупликация нескольких последовательных спейсеров, 6) несмежная дупликация нескольких последовательных спейсеров. Наряду с этими классами было выявлено четыре сложных случая.

Иллюстрация самого простого из элементарных событий - вставка/делеция одного с0293 спейсера, приведена на рис. 4.

Наиболее интересным представляется Рис. 4 Схематичное изображен простой встав- чствертый сложный случай, который проил-ки/делеции. Прямоугольники обозначают спеисе- ,. ..

люстрирован парой кассет с1575-с1340 на рис. 5.

ры, идентичные спенсеры соединены линиями.

Копии двух смежных спейсеров (02 и 03 в кассете с1575) размещаются на расстоянии трех (спейсеры 21, 20 в кассете с 1340) или пяти (спейсеры 09 и 10 в кассете с1575) спейсе-Рис. 5 Схематичное изображение четвертого слож- ров ОТ оригинальных спейсеров, соответственного случая. Прямоугольники обозначают спеисе- н0. Здесь неявно предполагается, ЧТО ненары, идентичные спейсеры соединены линиями. блюдаемая часть кассеты с1340 содержит спейсеры 25 и 26, которые идентичны спейсерам 02 и 03 кассеты с 1575. Основанием для такого сильного предположения может служить тот факт, что последовательность из трех спейсеров (04-06 в с 1575 и 22-24 в с 1340) идентична в обеих кассетах.

Четвертый раздел: Описание созданных баз данных

Четвертый раздел работы содержит краткое описание двух построенных в работе баз данных, содержащих все основные результаты исследований и доступных через Интернет. Одна база данных содержит результаты исследования С-белков: последовательности С-белков, координаты и ориентацию предсказанных генов в GenBank последовательности, координаты и ориентацию предсказанных авторегуляторных сайтов, последовательности, координаты и ориентацию предсказанных близлежащих генов, их функциональную аннотацию, предсказанную исходя из результатов поиска сходных последовательностей в базах GenBank и Pfam. В базе реализовано графическое представление локуса каждого предсказанного гена С-белка, на котором графически маркируется информация о предсказанной функциональной аннотации.

Вторая база данных содержит результаты исследования CRISPR-систем в метагеноме Sorcerer II. Интерфейс базы позволяет сортировать по широкому набору параметров и визуально отображать предсказанные в данной работе кассеты. На базе алгоритма BLAST реализован механизм поиска последовательностей, сходных со спейсерами и повторами предсказанных кассет, а также сходных с участками контигов, в которых были предсказаны CRISPR-кассеты. Наконец, на базе алгоритма HMMER реализован поиск последовательностей, сходных с кластерами повторов, построенных в данной работе.

Выводы

1. Предсказано 169 потенциальных новых членов семейства С-белков и соответствующих им авторегуляторных сайтов. Для 26 известных С-белков предсказаны неизвестные ранее авторегуляторные сайты. Для 8 С-белков независимое предсказание авторегуляторного сайта совпало с сайтом, определенным экспериментально.

2. Предложены 10 четко отличающихся по последовательности мотивов авторегуляторных сайтов, которые содержат предсказанные в данной работе авторегуляторные сайты. Все известные на момент начала исследования сайты соответствуют усеченным версиям трех мотивов из десяти, т.е. остальные семь мотивов авторегуляторных сайтов были впервые описаны в данной работе.

3. Показано, что в распределении расстояния между сайтами мотивов 1-6 и началом гена потенциального С-белка наблюдается ярко выраженный пик, соответствующий 17-18 п.о. В участках, разделяющих сайты и старт-кодоны, не выявлено последовательностей Шай-на-Дальгарно. Это указывает на возможность использования РМ-системами безлидерных транскриптов для отсрочки трансляции рестриктазы.

4. Впервые описано семь локусов, в которых находятся два потенциальных С-белка. При этом филогенетический анализ показывает, что в пяти локусах пара С-белков возникла из-за дупликации, а в остальных двух локусах - в результате горизонтального переноса.

5. Было исследовано геномное окружение потенциальных С-белков. В 23% случаев по соседству с генами С-белков были обнаружены гены РМ-активности, а в 68% случаев по соседству были обнаружены гены фаговой активности.

6. Разработан метод идентификации надежно предсказанных кассет в метагеномных данных большого объема.

7. Подтверждена гипотеза о том, что в спейсерных последовательностях кассет из данной экологической ниши находятся элементы геномов сосуществующих в этой экологической нише фагов.

8. Проанализированы эволюционные события, наблюдаемые в популяции предсказанных CRISPR-кассет, которые образуют в шесть классов элементарных событий.

9. Все результаты оформлены в виде баз данных, доступных через сеть Интернет. В базе реализован поиск сходных последовательностей для фрагмента, указанного пользователем, а также гибкая система запросов по широкому набору параметров.

Список работ, опубликованных по теме диссертации

[1] Artamonova I.I., Gelfand M.S., Sorokin V.A. A recently discovered type of the prokaryotic immunity, the CRISPR system, in metagenomes. Российско-германский симпозиум по системной биологии. 2008. Москва.

[2] Сорокин В., Гельфанд М.С. Предсказание и анализ тонкой структуры сайтов С-белков бактериальных систем рестрикции-модификации. XV Международная научная конференция студентов, аспирантов и молодых ученых «Ломоносов-2008», Москва (диплом за лучший доклад).

[3] Сорокин В. Метагеномный анализ CRISPR-систем прокариотического иммунитета. Первый международный форум по нанотехнологиям «Роснанофорум-2008». Москва (диплом за стендовый доклад).

[4] Artamonova I.I., Gelfand M.S., Sorokin V.A. Metagenomic evidence of the CRISPR systems, the recently discovered type of the prokaryotic immunity. Berlin Summer Meeting «Computational & Experimental Molecular Biology», 2008, Berlin, Germany

[5] Artamonova I.I., Gelfand M.S., Sorokin V.A. Prokaryotic immunity systems of the CRISPR type in metagenomes. 7th European Conference on Computational Biology (ECCB'08) & 5th BITS Meeting, 2008, Cagliari, Sardinia, Italy.

[6] Артамонова И.И., Гельфанд M.C., Сорокин B.A. CRISPR-системы в метагеномах. Конференция «Информационные технологии и системы ИТиС'07», 2008. Геленджик, Россия.

[7] Sorokin V., Severinov К., Gelfand M.S. Systematic prediction of control proteins and their DNA binding sites //Nucleic Acids Research. 2009. V.37. N. 2. P. 441-451

[8] Artamonova I.I., Sorokin V.A., Gelfand M.S. Evolutionary dynamics of CRISPR-cassettes in the metagenome Sorcerer IIII Journal of Biomolecular Structure and Dynamics. 2009. C. 26. N. 6 (Proc. 16th Albany Conversation). P. 883.

[9] Artamonova I.I., Sorokin V.A., Gelfand M.S. Browsing CRISPR-cassettes in the Sorcerer II metagenome. 17th Annu. Int. Conf. on Intelligent Systems for Molecular Biology and 8th European Conf. On Computational Biology ISMB/ECCB'09,2009, Stockholm, Sweden.

Подписано в печать 31.10.2009 г. Усл. печ. л. 1 Тираж 100 экз. Заказ № 2960 Отпечатано в типографии «АллА Принт» Тел. (495) 621-86-07, факс (495) 621-70-09 www.allaprint.ru

Содержание диссертации, кандидата биологических наук, Сорокин, Валерий Андреевич

Содержание.

Введение

Глава 1. Обзор литературы.

1.1. С-белки.

1.1.1. Системы рестрикции модификации.

1.1.2. РМ-системы второго типа.

1.1.3. РМ-системы других типов.

1.1.4. Процесс внедрения РМ-систем второго типа в клетку.

1.1.5. Регуляция транскрипции РМ-систем.

1.1.6. Регуляция транскрипции РМ-систем с участием С-белков.

1.1.7. НТН-домены метилаз и С-белки.

1.1.8. Предыдущие исследования: биоинформатический анализ С-белков и их авторегуляторных сайтов.

1.2. CRISPR-системы.

1.2.1. Общее устройство CRISPR-систем.

1.2.2. Повторы.

1.2.3. Спейсеры.

1.2.4. Лидерная последовательность.

1.2.5. cay-гены.

1.2.6. Участие CRISPR-систем в защите клетки от фаговых атак.

1.2.7. Предполагаемый механизм действия CRISPR-систем.

1.2.8. Исследование эволюции CRISPR-систем.

1.2.9. Повторы кассет как свидетельство общего происхождения.

1.2.10. Принципы работы и использования алгоритмов.

1.2.11. PILER-CR.

1.2.12. CRT.

1.2.13. CRISPRFinder.

1.2.14. Sorcerer II.

Глава 2. Материалы и методы.

2.1. Исходная информация для исследования.

2.1.1. Rebase.

2.1.2. Sorcerer II.

2.2. Предсказание потенциальных С-белков.

2.3. Предсказание авторегуляторных сайтов для предсказанных С-белков.

2.4. Исследование геномного окружения потенциальных генов С-белков.

2.5. Поиск потенциальных CRISPR-кассет.

2.6. Предсказание элементов cas-генов.

2.7. Построение кластеров из повторов.

2.8. Исследование сходства фланков потенциальных CRISPR-кассет.

2.9. Исследование спейсерного состава потенциальных CRISPR-кассет.

2.10. Проверка гипотезы о содержании в спейсерных последовательностях сосуществующих фагов.

2.11. Исследование кластеров.

2.12. Исследование таксономии.

Глава 3. Результаты и обсуждение.

3.1. Полномасштабное предсказание и анализ автор егуляторных сайтов связывания С-белков.

3.1.1. Общая идея исследования.

3.1.2. Предсказание потенциальных С-белков.

3.1.3. Особенности предсказания автор егуляторных сайтов.

3.1.4. Предсказание авторегуляторных сайтов.

3.1.5. Сравнение экспериментально подтвержденных сайтов и гипотетических сайтов, обнаруженных в результате анализа.

3.1.6. Анализ структуры предсказанных сайтов связывания.

3.1.7. Мотивы 7 и 8.

3.1.8. Мотивы 1-6.

3.1.9. Мотив 9.

3.1.10. Мотив 10.

3.1.11. Дополнительные сайты связывания.

3.1.12. Классификация предсказанных авторегуляторных сайтов.

3.1.13. Экспериментальные свидетельства значимости консервативных элементов предсказанных сайтов.

3.1.14. Безлидерные транскрипты.

3.1.15. Анализ соседних рамок считывания (геномный контекст).

3.1.16. «Двойные» РМ-системы.

3.2. Исследование CRISPR-систем в метагеноме.

3.2.1. Общая идея исследования.

3.2.2. Создание первоначального набора CRISPR-кассет.

3.2.3. Конструирование набора надежных кассет: исходный набор.

3.2.4. Расширение исходного набора за счет кассет, соседствующих с cas-генами.

3.2.5. Расширение исходного набора за счет кассет, ко-кластеризующихся с ранее отобранными по последовательностям повторов.

3.2.6. Сходство спейсерных последовательностей с элементами фаговых геномов.

3.2.7. Описание полученной выборки.

3.2.8. Сравнение встречаемости кассет в метагеномах и в полностью секвенированных геномах.

3.2.9. Исследование сходства спейсеров, обнаруженных в пределах метагенома.

3.2.10. Кластеризация повторов.

3.2.11. Таксономия.

3.2.12. Анализ таксономических групп кассет в кластерах.

3.2.13. Эволюция CRISPR-кассет.

3.2.14. Сложные случаи.

Глава 4. Базы данных.

4.1. Описание базы данных С-белков.

4.2. Описание базы данных CRISPR-кассет.

Выводы

Благодарности.

Введение Диссертация по биологии, на тему "Сравнительно-геномный анализ систем бактериального иммунитета"

Бактерий можно обнаружить практически в любой точке земного шара. В любом бактериальном сообществе есть организмы, способные паразитировать на бактериях — бактериофаги или просто фаги.

В ходе эволюции бактерии выработали различные системы защиты от паразитов. Данная работа посвящена исследованию систем бактериального «иммунитета».

Наряду со сравнительно хорошо изученными системами рестрикции-модификации, относящимися к системам типа токсин-антитоксин, в этой работе будут рассмотрены и недавно открытые CRISPR-системы, которые также предположительно участвуют в антифаговой защите клетки, используя механизм, схожий с механизмом РНК-интерференции в эукариотах.

Подробно механизмы действия обеих систем будут описаны ниже в соответствующих разделах, здесь мы остановимся лишь на описании базовых принципов их работы.

Системы рестрикции-модификации (РМ-системы), как правило, состоят из двух ферментов, один из которых способен узнавать определенные участки (короткие последовательности) ДНК и химически их модифицировать (метилировать), а другой, узнавая те же самые участки ДНК, способен вносить двуцепочечный разрыв в этот участок ДНК в случае, если участок не подвергся модификации. Система устроена таким образом, что ДНК клетки-хозяина оказывается полностью метилированной, в отличие от ДНК последовательностей внедряющихся фагов, которые эффективно деградируются ферментом РМ системы. Как будет показано в дальнейшем, система анти-фаговой защиты должна обладать сложной системой регуляции, т.к. в противном случае клетке-носителю может быть нанесен непоправимый вред. Одним из компонентов системы регуляции РМ систем является С-белок, типичный представитель НТН-семейства (НТН расшифровывается как helix-turn-helix, спираль-поворот-спираль). С-белки, наряду с их авторегуляторными сайтами, являлись одним из объектов данного исследования.

Типичная CRISPR-система представляет собой кассету, предположительно содержащую информацию о геномах тех фагов, которые уже атаковали клетку, и набор генов, продукты которых позволяют использовать эту информацию для противодействия вновь атакующим клетку фагам. Кассета представляет собой последовательность ДНК, состоящую из коротких (25-45 п.о.) уникальных участков (так называемых спейсеров), которые разделены точными прямыми повторами примерно такой же длины. Показано, что спей-серные последовательности похожи на участки геномов некоторых фагов, а последовательности белков, закодированных в наборе генов, обслуживающих кассету, содержат мотивы, сходные с мотивами ферментов, проявляющих нуклеазную активность. По всей видимости, ДНК внедряющегося фага за счет комплементарного узнавания взаимодействует со спенсерами кассеты, что приводит к её деградации в результате действия белков, закодированных генами CRISPR-системы. Этому процессу предшествует процесс обучения — встраивание элементов генома внедряющегося фага в кассету в виде новых спейсерных последовательностей.

Отдельно стоит остановиться на методике исследования. Работа была проведена исключительно биоинформатическими методами: совокупность математических, статистических и алгоритмических методов применялась к расшифрованным в виде строки нук-леотидов последовательностям ДНК. Подобно многим другим биоинформатическим работам, существенной стороной данной работы является масштабность: например, в результате исследования число потенциально известных С-белков увеличилось с 46 до 201, а число предсказанных авторегуляторных сайтов - с 32 до 201. В свою очередь, за счет такого увеличения числа изучаемых объектов удалось сделать выводы, к которым невозможно было придти, имея более ограниченный набор предсказанных С-белков. Экспериментальное исследование двухсот систем заняло бы много лет, поэтому выбор методики исследования представляется вполне обоснованным.

С другой стороны, как будет показано в дальнейшем, изучение CRISPR-систем представляет особый интерес в экосистемах, которые не могут быть воспроизведены в лабораторных условиях. Поэтому для исследования CRISPR-систем также был выбран биоин-форматический подход: с помощью ряда алгоритмов и методик были обработаны около 4.6 трлн. пар оснований метагенома — набора образцов генетического материала организмов, формирующих экосистемы, которые существуют в Мировом Океане.

Однако, несмотря на то, что выбор методики в целом представляется оправданным, у биоинформатического подхода есть существенный недостаток. Все результаты работы являются не более чем предсказаниями, требующими экспериментальной проверки (верификации). Вместе с тем, хотя любое конкретное (микро) предсказание может оказаться ошибочным, глобальные утверждения, описывающие общие для множества микрорезультатов черты, представляются достоверными.

Наконец, следует отметить практический аспект изучения систем бактериального иммунитета. Ряд отраслей пищевой промышленности использует бактериальные культуры для получения йогуртов, кефиров и других молочных продуктов. Заражение культуры фаговой инфекцией чревато остановкой производства, дезинфекцией всех производящих мощностей, наработкой культуры с нуля и повторным запуском производства. Издержки от этих действий могут быть очень велики, особенно если принять во внимание масштабность производства. Понимание принципов работы систем бактериального иммунитета — один из путей к управляемому повышению устойчивости промышленных культур к фаговым инфекциям.

Заключение Диссертация по теме "Биоинформатика", Сорокин, Валерий Андреевич

Выводы

1. Предсказано 169 потенциальных новых членов семейства С-белков и соответствующих им авторегуляторных сайтов. Для 26 известных С-белков предсказаны неизвестные ранее авторегуляторные сайты. Для 8 С-белков независимое предсказание авторегуляторного сайта совпало с сайтом, определенным экспериментально.

2. Предложены 10 четко отличающихся по последовательности мотивов авторегуляторных сайтов, которые содержат предсказанные в данной работе авторегуляторные сайты. Все известные на момент начала исследования сайты соответствуют усеченным версиям трех мотивов из десяти, т.е. остальные семь мотивов авторегуляторных сайтов были впервые описаны в данной работе.

3. Показано, что в распределении расстояния между сайтами мотивов 1-6 и началом гена потенциального С-белка наблюдается ярко выраженный пик, соответствующий 17-18 п.о. В участках, разделяющих сайты и старт-кодоны, не выявлено последовательностей Шайна-Дальгарно. Это указывает на использование РМ-системами безлидерных транскриптов для отсрочки трансляции рестриктазы.

4. Впервые описано семь локусов, в которых находятся два потенциальных С-белка. При этом филогенетический анализ показывает, что в пяти локусах пара С-белков возникла из-за дупликации, а в остальных двух локусах - в результате горизонтального переноса.

5. Было исследовано геномное окружение потенциальных С-белков. В 23% случаев по соседству с генами С-белков были обнаружены гены РМ-активности, а в 68% случаев были обнаружены гены фаговой активности.

6. Разработан метод идентификации предсказанных кассет в метагеномных данных большого объема.

7. Подтверждена гипотеза о том, что в спейсерных последовательностях кассет из данной экологической ниши находятся элементы сосуществующих в этой экологической нише фаговых последовательностей.

8. Проанализированы эволюционные события, наблюдаемые в популяции предсказанных CRISPR-кассет, которые классифицированы в шесть классов элементарных событий.

9. Все результаты оформлены в виде баз данных, доступных через сеть Интернет. Реализован поиск сходных последовательностей для фрагмента, указанного пользователем, а также гибкая система запросов по широкому набору параметров.

Благодарности

Я благодарен Гельфанду Михаилу Сергеевичу за руководство, постоянную помощь и поддержку в работе, Артамоновой Ирене Игоревне за полезные консультации, помощь и поддержку в исследованиях CRISPR-систем, Северинову Константину Викторовичу за полезные консультации, помощь и поддержку в исследованиях С-белков, а также Дмитрию Равчееву, Дмитрию Виноградову, Ермаковой Екатерине и всем сотрудникам лаборатории за доброе отношение и творческую атмосферу в коллективе.

Кроме этого я благодарен Александру Евгеньевичу Горбапене, Андрею Михайловичу Леонтовичу и Владимиру Константиновичу Николаеву за первый бесценный опыт работы в биоинформатической группе.

Я благодарен Гнучеву Николаю Васильевичу, Лидии Павловне Сащенко, а также Денису Яшину и Юрию Шаталову за бесценный опыт работы в биохимической и молеку-лярно-биологической лаборатории.

Список работ, опубликованных по теме диссертации

1] Artamonova I.I., Gelfand M.S., Sorokin V.A. A recently discovered type of the prokary-otic immunity, the CRISPR system, in metagenomes. Российско-германский симпозиум по системной биологии. 2008. Москва.

2] Сорокин В., Гельфанд М.С. Предсказание и анализ тонкой структуры сайтов С-белков бактериальных систем рестрикции-модификации. XV Международная научная конференция студентов, аспирантов и молодых ученых «Ломоносов-2008»,. Москва (диплом за лучший доклад).

3] Сорокин В. Метагеномный анализ CRISPR-систем прокариотического иммунитета. Первый международный форум по нанотехнологиям «Роснанофорум-2008». Москва (диплом за стендовый доклад).

4] Artamonova I.I., Gelfand M.S., Sorokin V.A. Metagenomic evidence of the CRISPR systems, the recently discovered type of the prokaryotic immunity. Berlin Summer Meeting «Computational & Experimental Molecular Biology», 2008, Berlin, Germany

5] Artamonova I.I., Gelfand M.S., Sorokin V.A. Prokaryotic immunity systems of the CRISPR type in metagenomes. 7th European Conference on Computational Biology (ECCB'08) & 5th BITS Meeting, 2008, Cagliari, Sardinia, Italy.

6] Артамонова И.И., Гельфанд M.C., Сорокин B.A. CRISPR-системы в метагеномах. Конференция «Информационные технологии и системы ИТиС'07», 2008. Геленджик, Россия.

7] Sorokin V., Severinov К., Gelfand M.S. Systematic prediction of control proteins and their DNA binding sites // Nucleic Acids Research. 2009. V.37. N. 2. P. 441-451

8] Artamonova I.I., Sorokin V.A., Gelfand M.S. Evolutionary dynamics of CRISPR-cassettes in the metagenome Sorcerer II // Journal of Biomolecular Structure and Dynamics. 2009. C. 26. N. 6 (Proc. 16th Albany Conversation). P. 883.

9] Artamonova I.I., Sorokin V.A., Gelfand M.S. Browsing CRISPR-cassettes in the Sorcerer II metagenome. 17th Annu. Int. Conf. on Intelligent Systems for Molecular Biology and 8th European Conf. On Computational Biology ISMB/ECCB'09, 2009, Stockholm, Sweden.

Библиография Диссертация по биологии, кандидата биологических наук, Сорокин, Валерий Андреевич, Москва

1. Bertani G., Weigle J. J. Host controlled variation in bacterial viruses. J. Bacteriol. 1953, 65, 113-21.

2. Lurlia S. E., Human M. L. A nonhereditaxy, host-induced variation of bacterial viruses. J. Bacteriol. 1952, 64, 557-69.

3. Bickle T.A., Krueger D.H. Biology of DNA restriction. Microbiol Rev. 1993, 57, 434-50.

4. King G., Murray N.E. Restriction enzymes in cells, not eppendorfs. Trends Microbiol. 1994, 2, 465-9.

5. Peakman L.J., Szczelkun M.D. S-Adenosyl homocysteine and DNA ends stimulate promiscuous nuclease activities in the Type III restriction endonuclease EcoPI. Nucleic Acids Research 2009, 37, 3934-3945.

6. Kobayashi I. Restriction-modification systems as minimal forms of life. In Pingoud,A. (ed.), Restriction Endonucleases. Nucleic Acids and Molecular Biology 2004,14, 19-62.

7. Kobayashi I. Behavior of restriction-modification systems as selfish mobile elements and their impact on genome evolution. Nucleic Acids Research 2001, 29, 3742-56.

8. Nakayama Y., Kobayashi I. Restriction-modification gene complexes as selfish gene entities: roles of a regulatory system in their establishment, maintenance, and apoptotic mutual exclusion. Proc. Natl Acad. Sci. 1998, 95, 6442-7.

9. Bcletskaya I.V., Zakharova M.V., Shlyapnikov M.G., Semenova L.M., Solonin A.S. DNA methylation at the CfrBI site is involved in expression control in the CfrBI restriction-modification system. Nucleic Acids Research 2000, 28, 3817-22.

10. Zakharova M., Minakhin L., Solonin A., Severinov K. Regulation of RNA polymerase promoter selectivity by covalent modification of DNA. J. Mol. Biol. 2004, 335, 103-11.

11. Christensen L.L., Josephsen J. The methyltransferase from the LlaDII restriction-modification system influences the level of expression of its own gene. J. Bacteriol. 2004, 186, 287-95.

12. Lubys A., Janulaitis A. Cloning and analysis of the plasmid-borne genes encoding the Bsp6I restriction and modification enzymes. Gene 1995,157, 25-9.

13. Kita K., Kotani H., Sugisaki H., Takanami M. The Fokl restriction-modification system I. Organization and nucleotide sequences of the restriction and modification genes. J. Biol. Chem. 1989,264, 5751-6.

14. Posfai J., Bhagwat A.S., Posfai G., Roberts R.J. Predictive motifs derived from cytosine me-thyltransfcrases. Nucleic Acids Research 1989, 17, 2421-35.

15. Suzuki M., Yagi N. DNA recognition code of transcription factors in the helix-turn-helix, probe helix, hormone reccptor, and zinc finger families. Proc. Natl Acad. Sci. 1994, 91, 1235761.

16. Brennan R.G., Roderick S.L., Takeda Y., Matthews B.W. Protein-DNA conformational changes in the crystal structure of a lambda Cro-operator complex. Proc. Natl Acad. Sci. 1990, 87,8165-9.

17. Jordan S.R., Pabo C.O. Structure of the lambda complex at 2.5 A resolution: Details of the repressor-operator interactions. Science 1988, 242, 893-9.

18. Som S., Friedman S. Regulation of EcoRII methyltransferase: Effect of mutations on gene expression and in vitro binding to the promoter region. Nucleic Acids Research 1994, 22, 534753.

19. Som S., Friedman S. Characterization of the intergenic region which regulates the Mspl restriction-modification system. J. Bacteriol. 1997,179, 964—7.

20. Butler D., Fitzgerald G.F. Transcriptional analysis and regulation of expression of the ScrFI restriction-modification system of Lactococcus lactis subsp. Cremoris UC503. J. Bacteriol. 2001,183, 4668-73.

21. Knowle D., Lintner R., Touma Y. M., Blumenthal R. M. Nature of promoter activated by C. PvuII, an unusual regulatory protein conserved among restriction-modification systems. J. Bacteriol. 2005,187,488-97.

22. Sawaya M.R., Zhu Z., Mersha F., Chan S.H., Dabur R., Xu S.Y., Balendiran,G.K. Crystal structure of the restrictionmodification system control element C.Bcll and mapping of its binding site. Structure 2005,13, 1837^47.

23. McGeehan J.E., Streeter S.D., Papapanagiotou I., Fox G.C., Kneale G.G. High-resolution crystal structure of the restriction-modification controller protein C.Ahdl from Aeromonas hy-drophila. J. Mol. Biol. 2005, 346, 689-701.

24. Mruk I., Rajesh P., Blumenthal R.M. Regulatory circuit based on autogenous activation-repression: roles of C-boxes and spacer sequences in control of the PvuII restriction-modification system. Nucleic Acids Research 2007, 35, 6935—52.

25. Bart A., Dankert J., van der Ende,A. Operator sequences for the regulatory proteins of restriction modification systems. Mol. Microbiol. 1999, 31, 1277-8.

26. Bogdanova E., Djordjevic M., Papapanagiotou I., Heyduk Т., Kneale G., Severinov K. Transcription regulation of type II restriction-modification system AhdI. Nucleic Acids Research 2008, 36, 1429-42.

27. Semenova E., Minakhin L., Bogdanova E., Nagornykh M., Vasilov A., Heyduk Т., Solonin A., Zakharova M., Severinov K. Transcription regulation of the EcoRV restriction modification system. Nucleic Acids Research 2005, 33, 6942-51.

28. Zheleznaya L.A., Kainov D.E., Yunusova A.K., Matvienko N.I. Regulatory С protein of the EcoRV modification-restriction system. Biochemistry (Mosc). 2003, 68, 125-32.

29. Cesnaviciene E., Mitkaite G., Stankevicius K., Janulaitis A., Lubys A. Esp 13961 restriction-modification system: Structural organization and mode of regulation. Nucleic Acids Research 2003, 31, 743^49.

30. Rimseliene R., Vaisvila R., Janulaitis A. The eco72IC gene specifies a trans-acting factor which influences expression of both DNA methyltransferase and endonuclease from the Eco72I restriction-modification system. Gene 1995,157, 217-9.

31. Anton B.P., Heiter D.F., Benner J.S., Hess E.J., Greenough L., Moran L.S., Slatko B.E., Brooks J.E. Cloning and characterization of the Bglll restriction-modification system reveals a possible evolutionary footprint. Gene 1997,187, 19-27.

32. Aldert В., Jacob D., van der Ende A. Operator sequences for the regulatory proteins of restriction-modification systems. Molecular Microbiology 1999, 31, 1275-81.

33. Roberts R.J., Vincze Т., Posfai J., Macelis D. REBASE — enzymes and genes for DNA restriction and modification. Nucleic Acids Research 2007, 35, 269-70.

34. Sorek R., Kunin V., Hugenholtz P. CRISPR — a widespread system that provides acquired resistance against phages in bacteria and archaea. Nat. Rev. Microbiol. 2008, 6, 181-6.

35. Kunin V., Sorek R., Hugenholtz P. Evolutionary conservation of sequence and secondary structures in CRISPR repeats. Genome Biol. 2007, 8, R61.

36. Grissa I., Vergnaud G., Pourcel C. The CRISPRdb database and tools to display CRISPRs and to generate dictionaries of spacers and repeats. BMC Bioinformatics 2007, 8, 172.

37. Bolotin A., Quinquis В., Sorokin A., Ehrlich S.D. Clustered regularly interspaced short palindrome repeats (CRISPRs) have spacers of extrachromosomal origin. Microbiology 2005, 151, 2551-61.

38. Haft D.H., Selengut J., Mongodin E.F., Nelson K.E. A guild of 45 CRISPR-associated (Cas) protein families and multiple CRISPR/Cas subtypes exist in prokaryotic genomes. PLoS Comput. Biol. 2005,1, e60.

39. Haft, D. H., Selengut, J., Mongodin, E. F„ Nelson, К. E. A guild of 45 CRISPR-associated (Cas) protein families and multiple CRISPR/Cas subtypes exist in prokaryotic genomes. PLoS Comput. Biol. 1, e60 (2005).

40. Jansen R., Embden J. D., Gaastra W., Schouls L. M. Identification of genes that are associated with DNA repeats in prokaryotes. Mol. Microbiol. 2002, 43, 1565-75.

41. Makarova К. S., Aravind L., Grishin N. V., Rogozin I. В., Koonin E. V. A DNA repair system specific for thermophilic Archaea and bacteria predicted by genomic context analysis. Nucleic Acids Research 2002, 30, 482-96.

42. Mojica F. J., Diez-Villasenor C., Garcia-Martinez J., Soria E. Intervening sequences of regularly spaced prokaryotic repeats derive from foreign genetic elements. J. Mol. Evol. 2005, 60, 174-82.

43. Pourcel C., Salvignol G., Vergnaud G. CRISPR elements in Yersinia pestis acquire new repeats by preferential uptake of bacteriophage DNA, and provide additional tools for evolutionary studies. Microbiology 2005,151, 653-63.

44. Barrangou R., Fremaux C., Deveau H., Richards M., Boyaval P., Moineau S., Romero D.A., Horvath P. CRISPR provides acquired resistance against viruses in prokaryotes. Science 2007, 315, 1709-12.

45. Deveau H., Barrangou R., Garneau J.E., Labonte J., Fremaux C., Boyaval P., Romero D.A., Horvath P., Moineau S. Phage response to CRISPR-encoded resistance in Streptococcus thermo-philus. J. Bacteriol. 2007,190, 1390-400.

46. Horvath P., Romero D.A., Cout6-Monvoisin A.C., Richards M., Deveau H., Moineau S., Boyaval P., Fremaux C., Barrangou R. Diversity, activity and evolution of CRISPR loci in Streptococcus thermophilus. J. Bacteriol. 2007,190, 1401-12.

47. Lillestol R. K., Redder P., Garrett R. A., Brugger, K. A putative viral defence mechanism in archaeal cells. Archaea 2006, 2, 59-72.

48. Ebihara A., Yao M., Masui R., Tanaka I., Yokoyama S., Kuramitsu S. Crystal structure of hypothetical protein TTHB192 from Thermus thermophilus HB8 reveals a new protein family with an RNA recognition motif-like domain. Protein Sci. 2006,15, 1494—9.

49. Hannon G. J. RNA interference. Nature 2002, 418, 244-51.

50. Tyson G. W., Banfield J. F. Rapidly evolving CRISPRs implicated in acquired resistance of microorganisms to viruses. Environ. Microbiol. 2007, doi: 10.1111/j.1462-2920.2007.01444.x.

51. Godde J. S., Bickerton A. The repetitive DNA elements called CRISPRs and their associated genes: evidence of horizontal transfer among prokaryotes. J. Mol. Evol. 2006, 62, 718-729.

52. Greve В., Jensen S., Brugger K. Zillig, W., Garrett, R.A. Genomic comparison of archaeal conjugative plasmids from Sulfolobus. Archaea 2004,1, 231-9.

53. Heidelberg J.F., Nelson W.C., Schoenfeld Т., Bhaya D. Germ warfare in a microbial mat community: CRISPRs provide insights into the co-evolution of host and viral genomes. PLoS ONE 2009, 4, e4169.

54. Benson D.A., Karsch-Mizrachi I., Lipman D.J., Ostell J., Rapp B.A., Wheeler D.L. Genbank. Nucleic Acids Research 2000, 28, 15-8.

55. Andersson A.F., Banfield J.F. Virus population dynamics and acquired virus resistance in natural microbial communities. Science 2008, 320, 1047-50.

56. Edgar R.C. PILER-CR: fast and accurate identification of CRISPR repeats. BMC Bioinfor-matics 2007, 8, 18.

57. Kunin V., Sorek R., Hugenholtz P. Evolutionary conservation of sequence and secondary structures in CRISPR repeats. Genome Biol. 2007, 8, R61.

58. Bland C., Ramsey T.L., Sabree F., Lowe M., Brown K., Kyrpides N.C., Hugenholtz P. CRISPR recognition tool (CRT): a tool for automatic detection of clustered regularly interspaced palindromic repeats. BMC Bioinformatics 2007, 8, 209.

59. Grissa I., Vergnaud G., Pourcel C. CRlSPRFinder: a web tool to identify clustered regularly interspaced short palindromic repeats. Nucleic Acids Research 2007, 35, 52-7.

60. CAMERA Community Cyberinfrastructure for Advanced Marine Microbial Ecology Research and Analysis http://camera.calit2.net/.

61. Altschul S.F., Madden T.L., Schaffer A.A., Zhang J., Zhang Z., Miller W., Lipman D.J. Gapped BLAST and PSIBLAST: a new generation of protein database search programs, Nucleic Acids Research 1997, 25, 3389^102.

62. Edgar R.C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research 2004, 32, 1792-7.

63. Felsenstein J. PHYLIP Phylogeny Inference Package (Version 3.2). Cladistics 1989, 5, 164-6.

64. HMMER: biosequence analysis using profile hidden Markov models http://hmmer.janelia.org/.

65. Stavrovskaia E.D., Makeev V.I., Mironov A.A. ClusterTree-RS: the binary tree algorithm for identification of co-regulated genes by clustering regulatory signals. Mol. Biol. 2006, 40, 524— 32.

66. Bateman A., Coin L., Durbin R., Finn R.D., Hollich V., Griffiths-Jones S., Khanna A., Marshall M., Moxon S., Sonnhammer E.L., Studholme D.J., Yeats C., Eddy S.R. The Pfam protein families database. Nucleic Acids Research 2004, 32, 138—41.

67. Sorokin V., Severinov K., Gelfand M.S. Systematic prediction of control proteins and their DNA binding sites. Nucleic Acids Research 2008,1,11.

68. Bogdanova E., Zakharova M., Streeter S., Taylor J., Heyduk Т., Kneale G., Severinov K. Transcription regulation of restriction-modification system Espl396I. Nucleic Acids Research 2009,37,3354-66.

69. Knowle D., Lintner R.E., Touma Y.M., Blumenthal R.M. Nature of the promoter activated by C.PvuII, an unusual regulatory protein conserved among restriction-modification systems. J. Bacteriol. 2005,187,488-97.

70. Bujnicki J. Sequence permutations in the molecular evolution of DNA methyltransferases BMCEvolBiol. 2002,12, 2-3.

71. Price C., Bickle T.A. A possible role for DNA restriction in bacterial evolution. Microbiol. Sci. 1986, 3, 296-9.

72. Barcus V.A., Murray N.E. Barriers to recombination: restriction. Cambridge: Univ. Press 1995,31-58.

73. Kawai M., Nakao K., Uchiyama I., Kobayashi I. How genomes rearrange: genome comparison within bacteria Neisseria suggests roles for mobile elements in formation of complex genome polymorphisms. Gene 2006,383, 52-63.

74. Grissa I., Vergnaud G., Pourcel C. The CRISPRdb database and tools to display CRISPRs and to generate dictionaries of spacers and repeats. BMC Bioinformatics 2007, 8, 172.

75. Crooks G.E., Hon G., Chandonia J.M., Brenner S.E. WebLogo: a sequence logo generator. Genome Res. 2004,14, 1188-90.