Бесплатный автореферат и диссертация по биологии на тему
Анализ транскриптома Mycobacterium avium методом широкомасштабного секвенирования
ВАК РФ 03.01.03, Молекулярная биология

Автореферат диссертации по теме "Анализ транскриптома Mycobacterium avium методом широкомасштабного секвенирования"

Федеральное государственное бюджетное учреждение науки Институт биоорганической химии им. академиков М.М. Шемякина и Ю.А. Овчинникова Российской академии наук

На правах рукописи

Игнатов Дмитрий Васильевич

Анализ транскриптома Mycobacterium avium методом широкомасштабного секвенирования

Специальность 03.01.03 - Молекулярная биология

АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата биологических наук

1 4 МОЯ 2013

Москва - 2013

005538144

Работа выполнена в лаборатории структуры и функций генов человека Федерального государственного бюджетного учреждения науки Институт биоорганической химии им. академиков М.М. Шемякина и Ю.А. Овчинникова Российской академии наук

Научный руководитель:

доктор биологических наук Татьяна Леодоровна Ажикина

Официальные оппоненты: Арсений Сумбатович Капрельянц

доктор биологических наук, профессор, руководитель Лаборатории биохимии стрессов микроорганизмов Федерального государственного бюджетного учреждения науки Институт биохимии им. А.Н.Баха Российской академии наук

Сергей Михайлович Деев

доктор биологических наук, профессор, член-корреспондент РАН, руководитель Лаборатории молекулярной иммунологии Федерального государственного бюджетного учреждения науки Институт биоорганической химии им. академиков М.М. Шемякина и Ю.А. Овчинникова Российской академии наук

Ведущая организация:

Федеральное государственное бюджетное учреждение «Центральный научно-исследовательский институт туберкулёза» Российской академии медицинских наук

Защита состоится 4 декабря 2013 г. в 10 часов на заседании диссертационного совета Д 002.019.01 при Федеральном государственном бюджетном учреждении науки Институт биоорганической химии им. академиков М.М. Шемякина и Ю.А. Овчинникова Российской академии наук

по адресу: 117997, ГСП-7, г. Москва, В-437, ул. Миклухо-Маклая 16/10.

С текстом диссертации можно ознакомиться в библиотеке Федерального государственного бюджетного учреждения науки Институт биоорганической химии им. академиков М.М. Шемякина и Ю.А. Овчинникова Российской академии наук

Автореферат разослан

2013 г.

Учёный секретарь диссертационного совета доктор физ.-мат. наук

В.А. Олейников

Характеристика работы

Актуальность проблемы

Инфекционные заболевания, несмотря на все усилия, предпринимаемые мировым врачебным и научным сообществами, остаются серьёзной проблемой, унося каждый год миллионы человеческих жизней. Особую актуальность проблема инфекционных заболеваний приобретает в последнее время, что связано с рядом факторов, среди которых можно выделить увеличение плотности и мобильности населения, возникновение штаммов патогенов, обладающих множественной лекарственной устойчивостью, появление и распространение новых заболеваний за счет расширения ареала обитания человека и создания в ходе хозяйственной деятельности новых ниш обитания микроорганизмов. Таким образом, в настоящее время особо необходима интенсификация исследований в области профилактики и лечения инфекционных заболеваний.

Одним из способов исследования физиологии патогенных микроорганизмов является изучение их транскриптомов. Важную информацию о приспособлении микроорганизмов к условиям окружающей среды предоставляет изучение транскрипции белок-кодирующих генов. Также в последние годы было обнаружено, что большую роль в регуляции экспрессии генов прокариот играет некодирующий транскриптом. Некодирующие транскрипты представлены 5'- и 3'- нетранслируемыми областями мРНК, антисмысловыми РНК и межгенными малыми РНК. Малые РНК были обнаружено у многих видов бактерий. Эти некодирующие транскрипты модулируют широкий спектр физиологических ответов, играя важную роль в регуляции транскрипции, трансляции и стабильности мРНК (Waters, 2009). Считается, что малые РНК позволяют бактериям быстро реагировать на изменения окружающей среды, вызывая глобальные изменения в экспрессии генов, что особенно важно для внутриклеточных патогенных бактерий, которым необходимо регулировать экспрессию генов в ответ на быстро меняющиеся условия среды хозяина, такие как температура и pH (Lease, 2004). Было показано, что опосредованная малыми РНК регуляция экспрессии генов играет центральную роль в вирулентности ряда бактерий, например Chlamydia trachomatis, Clostridium perfringens, Pseudomonas aeruginosa, Salmonella typhimurium, Staphylococcus aureus, Streptococcus pyogenes, Vibrio cholerae и Yersiniapestis (Toledo-Arana, 2007). Регуляторные РНК потенциально могут быть

использованы в качестве лекарственных мишеней в лечении и профилактике заболеваний.

Род Mycobacterium включает в себя более 60 видов. М. tuberculosis и М. leprae являются возбудителями опасных заболеваний человека, и именно на них сосредоточено основное внимание исследователей. Непатогенные и условно-патогенные представители этого рода изучены гораздо слабее. Среди них особый интерес вызывает М. avium. Этот вид разделяют на 4 подвида, занимающих разные экологические ниши: М. avium avium (МАА), М. avium hominissuis (МАН), М. avium silvaticum (MAS) и М. avium paratuberculosis (MAP). МАА и MAS являются специализированными патогенами, вызывающими заболевание лёгких у птиц. MAP также является патогеном и вызывает болезнь Джонса, хронический энтерит жвачных животных. МАН - это свободноживущий микроорганизм, который способен вызывать заболевания у людей с нарушенным иммунитетом. МАН вызывает диссеминированные инфекции у больных СПИДом и лёгочные инфекции у детей и пожилых людей (Тигеппе, 2009).

На сегодняшний день знание об экспрессии генов М. avium ограничено. Несмотря на активные геномные исследования представителей M.avium, транскриптомные исследования не интенсивны, и, как правило, нацелены на исследование транскрипции отдельных групп генов в стрессовых условиях. Все транскриптомные данные относятся только к белок-кодирующим генам, данных о некодирующем транскриптоме М. avium нет. Основным методом исследования экспрессии генов М. avium была гибридизация на ДНК-чипах, имеющая существенные ограничения. Появление секвенаторов следующего поколения позволяет проводить исследование транскриптомов путём прямого секвенирования кДНК. Такой подход, названный RNA-seq, обладает рядом преимуществ по сравнению с микроэрреями. RNA-seq позволяет находить и картировать новые некодирующие РНК, а также точно картировать границы уже известных транскриптов. Сравнение некодирующих РНК М. avium и М. tuberculosis позволит выявить различия между этими видами микобактерий. Ввиду большой значимости некодирующих РНК, эти различия могут объяснить различия в физиологии и патогенезе между факультативным патогеном М. avium и высокоспециализированным патогеном М. tuberculosis.

Цели и задачи работы

Целью настоящей работы являлось изучение транскритома М. avium при росте в культуре: определение уровней экспрессии белок-кодирующих генов, а также поиск и картирование новых некодирующих транскриптов.

Были поставлены следующие задачи:

1. Провести поиск транскрибирующихся малых РНК методом клонирования и секвенирования фракции коротких РНК.

2. Исследовать транскриптом М. avium на полногеномном уровне методом RNA-seq. Найти и картировать 5'- нетранслируемые области мРНК, антисмысловые РНК и малые межгенные РНК. Оценить уровни экспрессии кодирующих и некодирующих транскриптов.

3. Провести сравнение межгенных малых РНК, кодируемых геномами М. avium и М. tuberculosis. Изучить экспрессию генов некоторых межгенных малых РНК М. avium в модели лёгочной инфекции.

Научная новизна и практическая ценность работы

Впервые проведено полное количественное и качественное описание транскриптома бактерии Mycobacterium avium штамм ТМС724 в средне-логарифмической фазе роста в культуре. Применен подход RNA-seq, заключающийся в синтезе кДНК на матрице всей РНК М. avium и секвенировании кДНК методом широкомасштабного секвенирования на платформе Illumina. Для анализа некодирующего транскриптома М. avium был также применен метод клонирования и секвенирования фракции короткой РНК.

Биоинформатическая обработка данных позволила выявить и охарактеризовать точки начала транскрипции и структуру 5'-областей нескольких сотен транскриптов М. avium, новые антисмысловые РНК и межгенные малые РНК. Было обнаружено, что некоторые межгенные малые РНК транскрибируются на уровне, превосходящем уровень транскрипции высокоэкспрессирующихся белок-кодирующих генов.. Сравнение наборов межгенных малых РНК, кодируемых М. avium и M. tuberculosis, позволило выявить межгенные малые РНК, специфичные для каждого этих двух микроорганизмов. Эти различия могут объяснить различия в физиологии между двумя видами микобактерий, в том числе их разную вирулентность.

К практическим результатам работы относится полностью разработанный алгоритм обработки данных широкомасштабного секвенирования бактериального транскриптома. Для обработки данных RNA-seq и их визуализации были использованы специальные программы, в том числе написанные для этих целей скрипты на языке программирования PERL.

Таким образом, впервые проведенная детальная характеристика транскриптома М. avium ТМС724 вносит вклад в транскриптомику бактерий рода Mycobacterium. Полученные данные могут быть использованы для описания метаболических процессов инфекционного процесса и, возможно, выявления потенциальных мишеней для диагностики и терапии.

Апробация работы

По материалам диссертации было опубликовано 3 печатные работы. Материалы диссертации были доложены на 3 конференциях: Научная конференция по биоорганической химии и биотехнологии «X чтения памяти академика Юрия Анатольевича Овчинникова» (Москва, 2011); XXIV Зимняя молодёжная научная школа «Перспективные направления физико-химической биологии и биотехнологии» (Москва, 2012); 22nd IUBMB & 37th FEBS Congress «From single molecules to systems biology» (Seville, 2012).

Структура диссертации

Диссертация изложена на 94 листах машинописного текста, имеет традиционную структуру и состоит из следующих разделов: введения, обзора литературы, экспериментальной части, изложения результатов и их обсуждения, выводов, списка цитируемой литературы, включающего 157 ссылок, и 2 приложений.

Основные экспериментальные данные и разработки, представленные в диссертации, получены лично автором.

Содержание работы

1. Малые РНК М. avium. выявленные секвенироваиием фракции коротких РНК и поиском гомологов у М. tuberculosis

К настоящему времени малые РНК в роде Mycobacterium были выявлены у Mycobacterium tuberculosis (Arnvig, 2009) и М. bovis (DiChiara, 2010). Оверэкспрессия некоторых из этих малых РНК привела к понижению жизнеспособности М tuberculosis, что свидетельствует об их важной физиологической роли. Поскольку никакой информации о малых РНК M.avium не было известно, на первом этапе был предпринят поиск малых РНК, экспрессирующихся в М. avium ТМС724, находящейся в средне-логарифмической фазе роста в культуре. Этот штамм М. avium был выбран, так как он используется при моделировании лёгочной инфекции у мышей (Kondratieva, 2007), что в дальнейшем позволило изучить экспрессию некоторых малых РНК in vivo.

На первом этапе работы для поиска малых РНК М. avium ТМС724 были применены два подхода. Первый из них заключался в клонировании фракции коротких РНК и последующем секвенировании ряда клонов. Второй состоял в поиске малых РНК М. avium, гомологичных ранее описанным малым РНК М. tuberculosis.

РНК, выделенная из М. avium ТМС724, была обеднена по содержанию 16S и 23S рРНК. Затем было проведено электрофоретическое разделение выделенной РНК в полиакриламидном геле и выделение фракции РНК со следующими диапазонами длин: 20-70, 80-100, 150-180 нукпеотидов. Эти фракции не включали в себя высокопредставленные тРНК и 5S рРНК, поэтому построенная из них библиотека кДНК была обогащена целевыми малыми РНК.

Чтобы сохранить информацию о цепи генома, с которой происходила транскрипция молекулы РНК, синтез кДНК проводили по следующей схеме: фрагменты РНК были полиаденилированы, синтез первой цепи кДНК проводили с олиго-dT затравки, а использование технологии SMART позволило при последующей амплификации получить набор фрагментов кДНК с полноразмерным 5'-концом. Полученная библиотека коротких фрагментов кДНК была клонирована, были определены нуклеотидные последовательности 43 клонов. Три последовательности представляли собой кандидаты в малые РНК. Они были картированы в два отдельных межгенных локуса, получивших название по соседним генам: igMAV_l034-1035 (2 клона) и igMAV_1415-1416 (1 клон). Координаты 5'- и 3'- концов этих малых РНК были определены методами быстрой амплификации 5'- и 3'- концов кДНК (RACE).

У М. tuberculosis к настоящему моменту описано 20 межгенных малых РНК. Геномы М. tuberculosis и М. avium обладают большим количеством гомологичных генов. Мы предположили, что некоторые из малых РНК М. tuberculosis имеют гомологи у М. avium. Были выбраны 2 гена межгенных малых РНК тсгЗ и С8, экспрессирующиеся у М. tuberculosis на достаточно высоком уровне в средне-логарифмической фазе роста, и определены локусы генома М. avium, гомологичные этим генам: igMAV_1531-1532 и igMAV_0380-0381 соответственно. Эти гомологичные локусы включали в себя несколько генов и межгенных локусов, то есть выбранные малые РНК располагались в консервативных участках генома. Экспрессия выбранных малых РНК у М. avium была подтверждена методом ПЦР, а координаты 5'- и 3'-концов были определены при помощи метода RACE.

igMAV_l 034-1035 MAVJ035

MAY 1034

283 нт N4 ' 584 нт

MAV_1415 igMAV_1415-1416 MAVJ416

145 нт

MAV_1531 igMAV_1531-1532 MAV_1532

MAY 0380

igMAV_0380-0381

MAY 0381

Рис 1: Локусы, кодирующие малые РНК: ¡gMAV_1034-l 035, igMAV_1415-1416, igMAV_1531-1532 и igMAV_0380-0381.

Для всех 4 выявленных межгенных малых РНК были проведены ПЦР для проверки того, являются ли они независимыми транскриптами, или котранскрибируются с соседними генами. Было обнаружено, что igMAV_1531-1532 котранскрибируется с расположенным по соседству геном 165 рРНК (МАУ_1532) и

является процессированной 5'- некодирующей областью гена 16S рРНК. Остальные межгенные малые РНК являются независимыми транскриптами (рис.1).

Таким образом, в пилотных экспериментах было показано наличие малых РНК М. avium, высокоэкпрессирующихся в средне-логарифмической стадии роста в культуре.

2. Транскриптом Д/. avium при росте в культуре, определенный методом RNA-seq1

2.1. RNA-seq и картирование прочтений2

Для подробного описания транскриптома М. avium ТМС724 при росте в культуре был использован метод RNA-seq. Этот метод заключается в синтезе кДНК на матрице всей РНК, выделенной из бактериальной культуры, и массированном секвенировании кДНК с помощью секвенаторов следующего поколения. Перед синтезом кДНК РНК М. avium была обеднена по содержанию 16S и 23S рРНК, что позволило увеличить количество прочтений, представляющих интересующие нас локусы, кодирующие мРНК и некодирующие РНК. Для синтеза кДНК был использован протокол, сохраняющий информацию о том, с какой цепи генома происходила транскрипция, и показавший хорошую техническую воспроизводимость (Levin, 2010). Вначале РНК была фрагментирована с помощью нагревания в присутствии дивалентных катионов. Фрагменты длиной 60-200 нт. были обработаны фосфатазой для удаления 5'-концевых моно- и трифосфатов и З'-концевых монофосфатов. Затем монофосфаты были добавлены на 5'-концы фрагментов с помощью полинуклеотидкиназы. К полученным фрагментам последовательно лигировали 5'-концевой РНК адаптер и З'-концевой ДНК адаптер. Затравка обратной транскрипции производилась с праймера, комплементарного ДНК адаптеру. Для амплификации кДНК проводили ПЦР с праймерами к адаптерам на концах фрагментов. Фрагменты кДНК разделяли в полиакриламидном геле и выделяли фракцию длиной 65-80 нт. Секвенирование проводили на секвенаторе следующего поколения Illumina GAIIx3.

1 Выращивание M. avium было проведено в Центральном научно-исследовательском институте туберкулёза РАМН.

2 Прочтением (read) называют нуклеотидную последовательность, полученную в результате секвенирования одного фрагмента кДНК.

3 Секвенирование проведено в Инновационно-технологическом центре «Биологически-активные соединения» РАН

Результаты RNA- % от общего % от кодирующих

seq, млн количества регионов

прочтении

Всего 28,2

Локус рРНК 18,8 67

Кодирующие регионы 3,6 13

Антисенс к кодирующим 0,2 0,7 5,4

регионам

Межгенные регионы 4,4 16 123,1

Табл. 1: Статистика картирования. В первой колонке указано число прочтений, картированных в локус рРНК, кодирующие и межгенные регионы. Во второй колонке указано отношение числа прочтений, картированных в эти локусы, к общему числу картированных прочтений. В третьей колонке указано отношение числа прочтений, картированных в кодирующие регионы в антисмысловой ориентации и межгенные регионы, к числу прочтений, картированных в кодирующие регионы.

В результате секвенирования было получено 42,2 млн прочтений, каждое длиной 65-76 нт. Геном штамма М. avium ТМС724 (МАА ТМС724) не отсеквенирован полностью, а представлен набором из 258 контигов (www.ncbi.nlm.nih.gov/genbank/), поэтому прочтения, полученные в результате RNA-seq, картировали на геном М. avium hominissuis 104 (МАН104). Статистика картирования приведена в табл. 1. Всего было картировано 28,2 млн. прочтений. 67% из них представляли последовательности рРНК. Интересно, что в межгенные локусы картировалось больше прочтений, чем в локусы белок-кодирующих генов, что указывает на чрезвычайно высокий уровень экспрессии межгенных некодирующих РНК. Также определённое количество прочтений картировалось в антисмысловой ориентации к белок-кодирующим генам, представляя антисмысловые РНК. На основании картированных прочтений был построен транскрипционный профиль, визуализированный с помощью геномного браузера.

Был обнаружен ряд локусов генома МАН104, на которые не было картировано ни одного прочтения. Выравнивание геномов МАН104 и контигов генома МАА ТМС724 показало, что эти локусы соответствуют фрагментам генома, отсутствующим у МАА ТМС724, но присутствующим у МАН104. Всего было обнаружено 25 таких локусов, суммарно составляющих 750 ООО нуклеотидов и включающих 808 генов. Анализ этих локусов и фланкирующих их геномных последовательностей показал, что по крайней мере некоторые из этих локусов были вероятно приобретены путём горизонтального переноса. Об этом свидетельствует их соседство с генами тРНК, а также наличие в их составе генов, кодирующих сайт-специфические рекомбиназы и фаговые интегразы.

2.2. Экспрессия мРНК и точки начала транскрипции (ТНТ)

Полученные данные секвенирования были использованы для определения уровня транскрипции всех белок-кодирующих генов. В качестве меры уровня транскрипции использовалось значение RPKM (Reads per kilobase per million). RPKM нормализует количество прочтений, картированных на какой-либо ген, на длину этого гена и на суммарное количество прочтений в эксперименте. Было обнаружено, что распределение значений RPKM для всех генов носит непрерывный характер, то есть, несмотря на большие различия значений RPKM, практически все гены транскрибируются. Тем не менее, 71 ген имеют значение RPKM = 0. Среди них 53 гена кодируют транспозазы, представленные несколькими одинаковыми копиями. Алгоритм картирования не учитывает прочтения, одновременно картирующиеся в несколько одинаковых локусов генома, что объясняет зафиксированное нами отсутствие экспрессии. 6 других генов с RPKM = 0 (MAV 0763, MAV 2077, MAV 2417, MAV_2855, MAV_4320 и MAV_4779) содержат короткие открытые рамки считывания, кодирующие предполагаемые белки. Эти белки не имеют гомологов у других организмов, поэтому гены MAV 0763, MAV_2077, MAV_2417, MAV 2855, MAV_4320 и MAV 4779 вероятно являются ошибками аннотации генома М. avium.

Были определены функциональные категории белков с повышенной и пониженной экспрессией в логарифмической фазе роста. Для этого выбрали 10% генов с наивысшим уровнем экспрессии и разделили их по функциональным категориям, согласно информации с сайта www.cmr.jcvi.org. Если количество высокоэкспрессирующихся генов в какой-либо функциональной категории составляло больше или меньше 10% от всех генов, относящихся к этой функциональной категории, то считали, что эта функциональная категория повышенно или пониженно экспрессируется. Статистическую достоверность такого повышения или понижения проверяли критерием Фишера. Результаты анализа представлены на рисунке 2.

Статистически достоверно повышена экспрессия генов, участвующих в синтезе белков, транскрипции и процессинге белков, и понижена экспрессия генов, кодирующих транспортные белки, белки, участвующие в промежуточном метаболизме, и белки с неизвестной функцией. В целом, такая картина свойственна бактериям в логарифмической фазе роста, когда системы транскрипции и синтеза белков необходимы для быстро делящихся клеток. С другой стороны, в богатой питательными веществами среде нет нужды в транспортных белках и ферментах промежуточного метаболизма.

Transport and binding proteins' Unknown function' Central intermediary metabolism* Mobile and extrachromosomal element functions Fatty acid and phospholipid metabolism Amino acid biosynthesis Cell envelope DNA metabolism Cellular processes Energy metabolism

Purines, pyrimidines. nucleosides, and nucleotides Biosynthesis of cofactors, prosthetic groups, and carriers Signal transduction Regulatory functions Protein fate' Transcription* Protein synthesis"

-3 -2 -1 0 1 2 3 4 5

Рисунок 2. Распределение функциональных категорий среди высокоэкспрессирующихся генов. Столбцы показывают уровни повышенной и пониженной представленности каждой функциональной категории среди 450 генов с наивысшим уровнем транскрипции. Звёздочкой отмечены функциональные категории, повышенная или пониженная представленность которых статистически достоверна.

Визуализированный с помощью геномного браузера Artemis транскрипционный профиль показал, что в определённых точках генома наблюдается резкое повышение уровня транскрипции (рис. 3-А). Часто такие резкие повышения расположены рядом с 5'-концами аннотированных генов. Мы предположили, что точки, в которых происходят такие резкие повышения, являются точками начала транскрипции (ТНТ) соответствующих генов. Для того чтобы картировать эти точки был применён компьютерный алгоритм, который учитывал изменение уровня транскрипции до и после повышения, высоту резкого повышения и расстояние до ближайших резких повышений. Резкие повышения, расположенные перед 5'-концами аннотированных генов, рассматривали как предполагаемые ТНТ этих генов. В общей сложности, предполагаемые ТНТ были картированы для 844 генов. Однако такой метод анализа не гарантировал того, что все выявленные ТНТ являются истинными, а не 5'-концами продуктов деградации. Чтобы подтвердить это, нами был проведён поиск консенсусных последовательностей перед выявленными ТНТ с помощью программы MEME (www.meme.nbcr.net). Такая последовательность была обнаружена для 652 генов и представляет собой -10 последовательность промотора, расположенную на расстоянии 5-8 нт от ТНТ.

Рисунок 3: Точки начала транскрипции и антисмысловые РНК. Локусы генома и транскрипционные профили визуализированы в геномном браузере Artemis. Транскрипция с прямой и обратной цепей генома показана соответственно красной и зелёной линиями. Гены представлены в виде синих прямоугольников со стрелками, направленными вправо и влево для генов, кодируемых соответственно прямой и обратной цепями генома. (А) Геномный локус, включающий гены MAV_0130-MAV_0137. ТНТ генов MAV 0130, MAVJH35 и MAV_0136 показаны стрелками. (В) asMAV_0554. Эта антисмысловая РНК к гену lysSтранскрибируется на более низком уровне, чем lysS. (С) asMAV_3303. Уровень транскрипции этой антисмысловой РНК гораздо выше, чем acnA. (D) asMAV_1569-1571. Эта антисмысловая РНК транскрибируется на достаточно высоком уроне в антисмысловой ориентации к 3 генам.

Были исключены из рассмотрения ТНТ, на соответствующем расстоянии от которых не было обнаружено -10 последовательности. 5 случайно выбранных ТНТ были подтверждены методом RACE.

Было обнаружено, что 33% из выявленных ТНТ совпадают со старт-кодонами. Таким образом, гены с такими ТНТ являются безлидерными, то есть не содержащими 5'-НТО. Безлидерные мРНК у бактерий могут играть важную роль в адаптации к стрессу. У Streptomyces coelicolor, также относящейся к актинобактериям, безлидерные мРНК составляют около четверти всех мРНК. Таким образом, большое количество безлидерных мРНК может являться отличительной особенностью актинобактерий.

Длина 5'-НТО других мРНК варьируется от 3 до 728 нт, имея среднее значение 83 нт. 5'-НТО могут содержать последовательности, играющие роль в регуляции экспрессии генов. Так в 5'-НТО пяти мРНК были обнаружены рибопереключатели, относящиеся к типам SAM-IV и Ykok. Рибопереключатели SAM-IV специфически связывают 5-аденозилметионин, служащий кофактором многих ферментов, осуществляющих реакции метилирования. Лидерная последовательность Ykok изменяет свою конформацию в зависимости от концентрации Mg2+ в среде и контролирует экспрессию транспортёров ионов магния у бактерий.

2.3. Некодирующие РНК М. avium, выявленные с помощью RNA-seq

Некодирующие РНК составляют значительную долю транскриптома М. avium. Нами обнаружено и картировано несколько десятков антисмысловых РНК и несколько межгенных малых РНК.

Антисмысловые РНК. Антисмысловые РНК кодируются локусами, частично или полностью расположенными в антисмысловой ориентации к другим генам. Алгоритм поиска точек начала транскрипции показал, что часть из них расположена в пределах белок-кодирующих генов в антисмысловой ориентации к ним. Эти ТНТ соответствуют антисмысловым РНК. Всего было выявлено 87 таких транскриптов. Длина этих транскриптов значительно варьировала. Медиана их длин соответствует 281 нт. Некоторые из них расположены в антисмыловой ориентации к одному гену, например asMAV_0554 или asMAV_3303 (рис. 3-В и 3-С).

Другие располагаются в антисмысловой ориентации к нескольким генам, например asMAVl 569-1571 (рис. 3-D). Необходимо отметить, что многие антисмысловые РНК имеют достаточно высокий уровень транскрипции, а транскрипт

аяМ А У_ 1569-1571 располагается в антисмысловой ориентации сразу к 3 генам и значительно превосходит их по уровню транскрипции.

Межгенные малые РНК. Визуализация транскрипционного профиля позволила выявить десять межгенных малых РНК (Табл. 2). Каждая из них транскрибируется на более высоком уровне, чем любой из соседних генов. Суммарная транскрипция межгенных малых РНК превосходит транскрипцию белок-кодирующих генов.

Название Гомолог y M. tuberculosis Длина, нт Тип RPKM

igMAV_0468-0469 MTS2823: rv3661-rv3662c 305 неизвестен 672182,73

¡gMAV_0469-0470 MTS2822 (Bll, mprl9): rv3660c-rv3661 112 6CRNA 590414,35

igMAV_2215-2217 rnpB: rv2226-rv2227 404 rnpB 417173,33

igMAV_1415-1416* MTS0997: rvl264-rvl265 137 неизвестен 357426,83

igMA V_03 80-0381 C8: tRNA-ser-rv3722c 96 4.5S RNA 263130,70

igMAV1034-1035* Нет гомолога 130 неизвестен 142981,81

igMAV_2868-2869* Гомолог не выявлен (rvl846c-1847) 99 неизвестен 6035,19

igMAV_2936-2937 Нет гомолога 207 неизвестен 1305,38

igMAV_4536-4537 Нет гомолога 74 неизвестен 1011,07

igMAV_4914-4915 MTS0194: rv0243-rv0244c 123 неизвестен 458,49

Таблица 2. Межгенные малые РНК. Малые РНК, экспрессия которых подтверждена Нозерн-блоттингом, отмечены звёздочкой. Указаны гомологи каждой малой РНК у М. tuberculosis и фланкирующие их гены. Координаты малых РНК указаны по геному М. avium 104 (МАН104), а их тип указан согласно базе данных RFAM (rfam.sanger.ac.uk).

Экспрессия всех десяти межгенных малых РНК была подтверждена ПЦР в реальном времени, а экспрессия трёх из них была подтверждена Нозерн-блоттингом. Координаты 5' и 3' концов малых РНК igMAV_0380-0381, igMAV_1034-1035 и igMAV_1415-1416 были определены двумя методами: RACE и анализом транскрипционного профиля. Координаты, определённые этими двумя методами совпадают за исключением 3' конца igMAV_1415-1416. Это может объясняться тем, что транскрипт igMAV_1415-1416 представлен в клетке несколькими деградировавшими формами и не имеет чёткого 3' конца.

Малая РНК igMAV_1531-1532, выявленная секвенированием фракции коротких РНК, не была обнаружена при анализе данных RNA-seq. Этот транскрипт является процессированной 5'-НТО гена 16S рРНК и согласно транскрипционном профилю является частью высокоэкспрессирующихся генов рРНК.

Только для двух выявленных межгенных малых РНК удалось установить функцию. Поиск в базе данных RFAM показал, что ген igMAV_03 80-03 81 кодирует 4.5 S РНК, являющуюся РНК-компонентом бактериальной сигнал-распознающей частицы. У прокариот этот рибонуклеопротеин узнает специфические белки и определяет их локализацию в плазматической мембране. Ген igMAV_2215-2217 кодирует РНК-компонент РНКазы Р. Это рибозим, наиболее изученная функция которого заключается в процессинге незрелых тРНК.

2.4. Межгенные малые РНК М. avium и М. tuberculosis

Для поиска гомологов выявленных межгенных малых РНК М. avium использовался алгоритм blastn (blast.ncbi.nlm.nih.gov), а также база данных Tuberculist (tuberculist.epfl.ch), содержащая информацию о выявленных на сегодняшний день межгенных малых РНК М. tuberculosis. Было обнаружено, что 6 из 10 межгенных малых РНК М. avium имеют гомологи у М. tuberculosis (Табл. 1). Для малой РНК igMAV_2868-2869 не было обнаружено гомологов, однако ген igMAV_2868-2869 расположен в межгенном локусе, фланкированном генами, консервативными у М. avium, М. tuberculosis (rv 1846-1847) и некоторых других микобактерий.

Нами было проведено выравнивание последовательностей этого межгенного локуса в геномах М. avium, М. tuberculosis и М. ulcerans с помощью программы UGENE (ugene.unipro.ru) и обнаружено, что последовательность, кодирующая малую РНК, консервативна у этих 3 видов микобактерий (Рис. 4-А). В то же время, участки, фланкирующие ген малой РНК, вариабельны. С помощью вебсервера WAR (genome.ku.dk/resources/war) было проведено выравнивание последовательностей малой РНК у этих 3 видов микобактерий и построена предполагаемая консенсусная вторичная структура этой малой РНК (Рис. 4-В). Комплементарные участки формируют двухцепочечную структуру с очень низкой свободной энергией. Вероятно, вторичная структура важна для осуществления функций igMAV_2868-2869 в клетке. Перед геном малой РНК были обнаружены -10 и -35 промотерные последовательности. Тем не менее, экспрессия этой малой РНК не была пока обнаружена у М. tuberculosis экспериментально возможно потому, что она экспрессируется в каких-то особых, пока не изученных условиях.

в

•А,

J«*

Рисунок 4. Межгенная малая РНК ¡gMAV_2868-2869 и её предсказанные гомологи у М. tuberculosis и М. ulcerans. (А) Выравнивание межгенного локуса MAV_2868-MAV_2869 и его гомологов у М. ulcerans (MUL_3032-3033) и М. tuberculosis (rv 1846с-1847). Показаны только регионы, кодирующие малую РНК и её промотерную область. Тёмно-серым цветом показаны участки малой РНК, формирующие двухцепочечную структуру. (В) Предсказанная консенсусная вторичная структура igMAV_2868-2869.

6 из 10 межгенных малых РНК М. avium экспрессируются на очень высоком уровне. Это igMAV_0468-0469, ¡gMAV_0469-0470, igMAV_2215-2217, igMAV_1415-1416, igMAV_0380-03 81 и igMAV1034-1035. Из них только igMAV1034-1035 не имеет гомолога у М. tuberculosis. По-видимому igMAV1034-1035 вовлечена в физиологические процессы, присущие М. avium, но не М. tuberculosis.

Также был проведён поиск межгенных малых РНК М. tuberculosis, не имеющих гомологов у М. avium. Для этого последовательности малых РНК М. tuberculosis выравнивали на геном М. avium с помощью алгоритма blastn. Дополнительным критерием при поиске было наличие гомологов белок-кодирующих генов, фланкирующих малую РНК. Было обнаружено, что у М. avium отсутствуют несколько малых РНК, характерных для М. tuberculosis. Это MTS479, MTS1082, MTS1338 и

MTS2975. Среди них наибольший интерес представляют MTS479 и MTS1338 (Arnvig, 2011). Известно, что экспрессия MTS479 повышается в условиях, моделирующих кислотный стресс, с которым бактерия сталкивается при попадании в фагосому макрофагов. Экспрессия MTS1338 повышается в стационарной фазе. Кроме того, MTS1338 находится под контролем двухкомпонентной сигнальной системы DosRS. Гены, контролируемые DosRS, входят в состав так называемого DosR регулона и активируются в условиях анаэробной среды. С анаэробной средой микобактерии также сталкиваются при попадании в фагосому макрофага. Эти данные указывают на то, что малые РНК MTS479 и MTS1338 играют важную роль в патогенезе М. tuberculosis и являются потенциальными факторами вирулентности. Отсутствие генов, кодирующих эти малые РНК, у условно-патогенного М. avium также может свидетельствовать об их важной роли в патогенезе.

2.5. Экспрессия igMAV_0468-0469 и igMAV_0469-0470 при развитии инфекции

Для моделирования лёгочной инфекции, вызываемой М. avium, использовалась мышиная модель. Заражению подвергались мыши линий I/St и В6. Мыши линии В6 восприимчивы к инфекции, вызываемой М. avium, а мыши линии I/St - устойчивы. Это выражается в большем количестве бактерий в лёгких мышей В6 и значительном поражении самих лёгких. Иммунный ответ у мышей этих линий также происходит по-разному: у мышей В6 происходит инфильтрация лёгких нейтрофилами, приводящая к образованию некротических гранулём и гибели животных. У мышей I/St формируются мелкие не-некротические гранулёмы, поражение лёгких умеренное и не приводит к гибели. Интересно, что мыши I/St, устойчивые к М. avium, оказались восприимчивы к М. tuberculosis. И наоборот, мыши В6, восприимчивые к М. avium, оказались устойчивы к М. tuberculosis. Такая перекрёстная устойчивость связана с различиями в физиологии этих двух микобактерий.

Были выбраны две малые межгенные РНК с наивысшим уровнем экспрессии in vitro (igMAV_0468-0469 и igMAV_0469-0470), и методом количественной ПЦР исследована их экспрессия при заражении мышей I/St и В6 на 13 неделе инфекции (рис. 5). Экспрессия igMAV_0468-0469 и igMAV_0469-0470 была достаточно высокой в культуральной среде, немного ниже в лёгких мышей восприимчивой линии (В6), и значительно понижена в лёгких мышей устойчивой линии (I/St).

О-ч о

С/5 se

■"d чэ

3 1

я я

ю-2

igMAV 0468-0469

I Культура і I/St (устойчивая) «Вб (восприимчивая)

igMAV 0469-0470

КОЕ/лёгкое

Культура 0.12±0.02 (3.68±0.89)*10"i

I/St (3.38±0.12)*10"J (1.46±0.18)*10"3 1*10"

В6 (3.73±0.47)*10"' (1,43±0.11 )* 10"2 1*10"

Рисунок 5. Экспрессия igMAV_0468-0469 и igMAV_0469-0470 у М. avium из культуры и лёгких мышей устойчивой и восприимчивой линий. На диаграмме показано количество малой РНК относительно 16S РНК в логарифмической шкале. Эти данные и доверительный интервал для них указаны в таблице. Также в таблице указано количество КОЕ на лёгкое для М. avium при заражении мышей I/St и В6 на 13 неделе инфекции.

Интересно, что гомолог igMAV_0468-0469 у М. tuberculosis (MTS2823) имеет иной профиль экспрессии. В лёгких мыши устойчивой к туберкулёзу линии (В6) MTS2823 показала уровень экспрессии гораздо выше, чем в культуре (Arnvig, 2011). Это может объясняться различиями в регуляции MTS2823. Регуляция экспрессии этой малой РНК пока не изучена. Однако полученные данные свидетельствуют о различной регуляции экспрессии этой малой РНК у М. avium и М. tuberculosis.

Заключение

Mycobacterium avium - это широко распространенные в окружающей среде микобактерии, которые становятся внутриклеточными патогенами человека в отсутствие нормального Т-клеточного иммунитета. Баланс между защитным иммунным ответом и патологическими процессами в легочной ткани при этой инфекции сходен с патогенезом туберкулеза, поэтому можно предположить, что в основе заболеваний, вызываемых этими микобактериями, лежат не только сходные защитные механизмы иммунной системы, но и сходные механизмы преодоления этой защиты самими патогенами. Нами впервые получена полная характеристика как белок-кодирующего, так и некодирующего транскриптома М. avium при росте в культуре. Полученные данные являются основой для исследования транскриптома М. avium in vivo, что необходимо для понимания патогенеза инфекционного заболевания.

Выводы

1. С помощью метода RNA-seq впервые осуществлена детальная характеристика транскриптома М. avium в средне-логарифмической фазе роста в культуре.

2. На полногеномном уровне определена транскрипционная активность белок-кодирующих генов М. avium. Установлено, что в средне-логарифмической фазе роста повышена экспрессия генов, продукты которых участвуют в синтезе белков, транскрипции и процессинге белков, и понижена экспрессия генов, кодирующих транспортные белки, белки, участвующие в промежуточном метаболизме, и белки с неизвестной функцией.

3. Картированы точки начала транскрипции 652 генов, для которых установлена последовательность 5'- областей. Обнаружено, что около трети генов кодируют безлидерные транскрипты, а в составе 5'-нетранслируемых областей пяти генов идентифицированы рибопереключатели разных типов.

4. Анализ данных RNA-seq и секвенирования фракции коротких РНК позволили выявить несколько десятков антисмысловых РНК и 10 межгенных малых РНК. Установлено, что 6 межгенных малых РНК транскрибируются на уровне, превосходящем уровень транскрипции высокоэкспрессирующихся белок-кодирующих генов.

5. Выявлены существенные различия в спектрах межгенных малых РНК, кодируемых М. avium и М. tuberculosis: найдены три межгенные малые РНК, специфичные для М. avium;, установлено, что гомологи двух генов малых РНК М. tuberculosis MTS479 и MTS1338 отсутствуют в геноме М. avium.

6. Проведен сравнительный анализ транскрипции генов малых РНК igMAV_0468-0469 и igMAV_0469-0470 в культуре и легочной ткани зараженных мышей, а также в легочной ткани двух линий мышей, отличающихся устойчивостью к инфекции. Для обеих РНК показано, что количество малых РНК в культуре выше, чем в легочной ткани, а в легочной ткани мышей, чувствительных к инфекции выше, чем в легочной ткани мышей, устойчивых к инфекции

Основные результаты диссертации изложены в следующих работах:

1. Ignatov D., Malakho S., Majorov К., Skvortsov Т., Apt A., Azhikina T. RNA-Seq Analysis of Mycobacterium avium Non-Coding Transcriptome. // PLoS One. 2013. 8: e74209.

2. Игнатов Д.В., Мефодьева Л.Г., Майоров К.Б., Скворцов Т.А., Ажикина Т.Л. Новые малые РНК Mycobacterium avium. И Биоорганическая химия. 2012. Том 38, № 4, Год: 2012, с. 509-512

3. Ignatov D., Kondratieva Е., Azhikina Т., Apt A. Mycobacterium avium- triggered diseases: pathogenomics. // Cell. Microbiol. 2012. 14: 808-818.

4. Ignatov, D., Malakho, S., Majorov, K., Skvortsov, Т., Azhikina, T. RNA-seq for detailed analysis of Mycobacterium avium transcriptome. // FEBS Journal. Special Issue: 22nd IUBMB & 37th FEBS Congress. 2012, 279(S1): 509-510.

5. Игнатов Д.В., Малахо С.Г., Майоров К.Б., Ажикина Т.Л. Применение секвенирования следующего поколения для детального анализа транскриптома Mycobacterium avium. II XXIV Зимняя молодёжная научная школа «Перспективные направления физико-химической биологии и биотехнологии». Москва, 2012. Сборник тезисов с. 16.

6. Игнатов Д.В., Мефодьева Л.Г., Скворцов Т.А., Ажикина Т.Л. Поиск транскрибирующихся малых РНК Mycobacterium avium. II Научная конференция по биоорганической химии и биотехнологии «X чтения памяти академика Юрия Анатольевича Овчинникова». Москва, 2011. Сборник тезисов, том 2, с. 29.

Заказ № 113-Р/10/2013 Подписано в печать 28.10.13 Тираж 75 экз. Усл. пл. 1,0

ООО "Цифровичок", тел. (495) 797-75-76 www.cfr.ru; е-таИ: info@cfr.ru

Текст научной работыДиссертация по биологии, кандидата биологических наук, Игнатов, Дмитрий Васильевич, Москва

Федеральное государственное бюджетное учреждение науки Институт биоорганической химии им. академиков М.М. Шемякина и Ю.А. Овчинникова Российской академии наук

На правах рукописи

04201364851

Игнатов Дмитрий Васильевич

Анализ транскриптома Mycobacterium avium методом широкомасштабного секвенирования

Специальность 03.01.03 - Молекулярная биология

ДИССЕРТАЦИЯ на соискание учёной степени кандидата биологических наук

Научный руководитель: доктор биологических наук Ажикина Т.Л.

Москва 2013

Оглавление

Список сокращений......................................................................................................................1

Обзор литературы. Использование широкомасштабного секвенирования для изучения бактериального транскриптома...................................................................................................2

Введение....................................................................................................................................2

Методология RNA-seq..............................................................................................................4

Технологические платформы ССП.....................................................................................4

Подготовка РНК к секвенированию.................................................................................11

Модификации RNA-seq......................................................................................................14

Синтез и амплификация кДНК..........................................................................................18

Обработка данных ШЧА-вед..............................................................................................26

Примеры использования RNA-seq........................................................................................33

Экспрессия мРНК...............................................................................................................33

Некодирующий транскриптом..........................................................................................34

Исследование некодирующего транскриптома микобактерий......................................39

Заключение..............................................................................................................................41

Материалы и методы...............................................................................................................42

Материалы и лабораторное оборудование...........................................................................42

Оборудование......................................................................................................................42

Расходные материалы.........................................................................................................42

Коммерческие наборы и ферменты...................................................................................43

Химические реактивы........................................................................................................43

Буферные и другие растворы.............................................................................................44

Олигонуклеотиды...............................................................................................................44

Методы и протоколы..............................................................................................................46

/

Электрофоретическое разделение фрагментов нуклеиновых кислот в агарозном геле ...............................................................................................................................................46

Трансформация компетентных клеток вектором, несущим вставку, и высев клеток на

селективную среду..............................................................................................................46

Выделение плазмид............................................................................................................47

Определение нуклеотидной последовательности вставок рекомбинантных клонов библиотек.............................................................................................................................47

Выращивание М. avium и заражение мышей...................................................................47

Выделение РНК из М. avium..............................................................................................48

Выделение геномной ДНК из М. avium............................................................................48

Разделение фрагментов РНК в денатурирующем полиакриламидном геле.................49

Синтез кДНК из коротких фрагментов РНК....................................................................49

5' SMART-RACE, 3' RACE и проверка на котранскрипцию для межгенных малых РНК.......................................................................................................................................50

Подготовка РНК к секвенированию на Illumina..............................................................51

Обработка данных секвенирования РНК..........................................................................51

Нозерн-блоттинг.................................................................................................................52

RLM-RACE..........................................................................................................................53

Количественная ПЦР в реальном времени.......................................................................53

Программное обеспечение.....................................................................................................54

Результаты и обсуждение........................................................................................................55

Введение..................................................................................................................................55

Малые РНК М. avium, выявленные клонированием коротких фрагментов и поиском гомологов у М. tuberculosis....................................................................................................56

Транскриптом М. avium при росте в культуре, определённый методом RNA-seq...........59

Транскрипция с межгенных участков превышает транскрипцию белок-кодирующих генов в средне-логарифмической фазе роста...................................................................59

Геном М. avium hominissuis 104 содержит 25 полиморфизмов протяженных последовательностей (LSP), отсутствующих у М. avium ТМС724................................ 61

76% генов М. avium транскрибируется на значимом уровне.........................................63

Треть из выявленных ТНТ соответствуют безлидерным транскриптам.......................65

Рибопереключатели М. avium ...........................................................................................66

Некодирующие РНК М. avium, выявленные с помощью RNA-seq................................68

Межгенные малые РНК М. avium и М. tuberculosis.........................................................73

Экспрессия igMAV_0468-0469 и igMAV_0469-0470 при развитии инфекции...........75

Выводы.......................................................................................................................................78

Список литературы.....................................................................................................................79

Приложение 1: Скрипты............................................................................................................86

Приложение 2: Антисмысловые РНК.......................................................................................92

Яу

Список сокращений

АФС - аденозин-5 '-фосфосульфат дНТФ - дезоксинуклеозидтрифосфат ДСН - дуплекс-специфичная нуклеаза кДНК - комплементарная ДНК мРНК - матричная РНК ОНП - однонуклеотидный полиморфизм ОРС - открытая рамка считывания ССП - секвенатор следующего поколения ТНТ - точка начала транскрипции

dRNA-seq - differential RNA-seq

FRT-seq - flowcell reverse transcription sequencing

LSP - large sequence polymorphism

RACE - rapid amplification of cDNA ends

RNA-seq - sequencing of RNA

SMRT - single molecule real-time sequencing

TAP - tobacco acid pyrophosphatase

TEX - terminal exonuclease

Обзор литературы. Использование широкомасштабного секвенирования для изучения бактериального транскриптома

Введение

Транскриптом - это полный набор транскриптов, находящихся в клетке в определённый момент времени. У бактерий качественный и количественный состав транскриптома во многом определяются условиями внешней среды. Изучение транскриптома необходимо для выявления и описания функциональных элементов генома, таких как промоторы, точки начала транскрипции, единицы транскрипции, регуляторные некодирующие области и нетранслируемые области. Кроме того, анализ транскриптома может использоваться для выявления молекулярных механизмов, участвующих в регуляции жизнедеятельности бактериальной клетки [1].

Детальный анализ транскриптомов многих видов бактерий стал возможным благодаря появлению микроэрреев, а затем методов широкомасштабного секвенирования. Эти исследования сформировали новую область молекулярной биологии, названную транскриптомикой [2]. Транскриптомика наряду с другими «омиками», такими как геномика, протеомика и метаболомика, являются частью системной биологии [3]. Системная биология нацелена на всеобъемлющее описание всех компонентов и процессов в биологической системе и последующий анализ поведения этой системы как единого целого [4]. Отличительной особенностью системной биологии является огромное количество информации, для анализа которой необходимы компьютерные алгоритмы обработки и визуализации данных [3]. Бактериальная транскриптомика не является исключением: значительную часть методологии исследования транскриптома составляет биоинформатическая обработка данных.

На сегодняшний день для широкомасштабного исследования транскриптомов в-основном используются две технологии: микроэрреи и секвенаторы следующего поколения (ССП). Исследование транскриптомов с помощью ССП получило название КЫА-зец («секвенирование РНК»), Несмотря на такое название, секвенируется не РНК, а кДНК, построенная на матрице РНК [5]. В эксперименте с помощью микроэрреев также сначала синтезируется кДНК, которая затем гибридизуется с микроэрреем [6]. Первые ССП были разработаны несколькими фирмами в 5 - 2007 годах [5]. Как микроэрреи,

так и ССП, представлены нескольким технологическими платформами, которые достаточно сильно различаются между собой [5, 7]. RNA-seq обладает рядом преимуществ по сравнению с микроэрреями: позволяет определить границы транскриптов с точностью до одного нуклеотида, способен выявлять ОНП и обладает большей точностью в измерении уровней транскрипции. Кроме того, RNA-seq может использоваться для исследования транскриптома даже тех организмов, для которых неизвестна последовательность генома [2]. Благодаря этим преимуществам RNA-seq стал мощным инструментом для изучения физиологии микроорганизмов.

Данный литературный обзор посвящен использованию RNA-seq для изучения транскриптомов прокариот и архей. В первой части обзора речь пойдет о технологической стороне экспериментов RNA-seq. Будут описаны платформы ССП, методы подготовки образцов РНК к секвенированию, процесс секвенирования и стратегии обработки результатов. Также будет рассказано о модификациях RNA-seq, позволяющих изучить те или иные особенности транскриптома. Вторая часть обзора будет посвящена научным открытиям, сделанным с помощью RNA-seq, основным из которых является обнаружение широко распространённых некодирующих РНК у бактерий.

Методология 1ША-8ед

Технологические платформы ССП

Ключевым принципом работы ССП является параллельное секвенирование большого числа молекул нуклеиновых кислот. Процесс секвенирования можно разделить на два этапа: (1) подготовка матрицы для секвенирования; (2) секвенирование и фиксирование информации о нуклеотидной последовательности. Коммерческие платформы ССП используют различные технологические решения для осуществления этих этапов [5]. Именно этими решениями определяются особенности данных, получаемых разными ССП, такие как длина секвенированного фрагмента, суммарное количество секвенированных нуклеотидов, а также типичные ошибки в определении последовательности.

Подготовка матрицы для секвенирования._Для проведения параллельного секвенирования сотен тысяч или миллионов последовательностей, необходимо физически отделить молекулы с разными последовательностями друг от друга. Это достигается путём компартментализации молекул ДНК. При этом считывание информации о последовательности ДНК проводится независимо для каждого компартмента. В зависимости от технологии ССП, в одном компартменте могут секвенироваться либо клонально-амплифицированные фрагменты с одинаковой последовательностью, либо одна молекула ДНК. Технологические платформы, основанные на секвенировании клонально-амплифицированных фрагментов, относят ко второму поколению секвенаторов, а платформы, секвенирующие одну молекулу ДНК, относят к третьему поколению секвенаторов. При этом к первому поколению относят автоматические секвенаторы, основанные на принципе Сэнгера [5]. При секвенировании клонально-амплифицированных фрагментов, сигнал детекции каждого из секвенированных нуклеотидов суммируется из множества сигналов от каждой индивидуальной молекулы ДНК. Такой сигнал проще зафиксировать, чем сигнал от индивидульной молекулы. Однако, на каждом цикле определения нового нуклеотида, в части молекул происходит ошибочное включение или пропуск одного или нескольких нуклеотидов. Такое нарушение фазы приводит к накоплению уровня шума по мере секвенирования фрагмента. Этот эффект является причиной ошибок, а также ограничивает максимальный

размер секвенированной последовательности. Секвенаторы третьего поколения имеют более совершенные системы детекции сигнала, что поволяет им секвенировать одну единственную молекулу. Они лишены вышеуказанного недостатка секвенаторов второго поколения, а также требуют меньшего количества матрицы для секвенирования. Однако, эти технологии ещё недостаточно проработаны, и на сегодняшний день секвенаторы второго поколения занимают доминирующие позиции на рынке [8].

Представителями второго поколения ССП являются технологические платформы фирм Illumina (приборы Genome Analyzer Их, HiSeq2000, MiSeq), Roche (GS FLX Titanium, GS Junior) и Life Sciences (SOLiD и Ion Torrent PGM). Коммерческая платформа третьего поколения производится фирмой Pacific Biosciences (PacBio RS) [9].

Клональная амплификация фрагментов ДНК является ключевым этапом при подготовке образцов для секвенаторов 2 поколения. Для клональной амплификации используются два основных метода: эмульсионная ПЦР и твердофазная амплификация.

Для проведения эмульсионной ПЦР к фрагментам ДНК лигируются адаптеры, позволяющие амплифицировать всю библиотеку последовательностей с помощью универсальных праймеров. Затем фрагменты ДНК денатурируются в липидной эмульсии и гибридизуются с олигонуклеотидами, закреплёнными на специальных шариках. Условия подобраны таким образом, что формируются липидные капли, в которые заключено по одному шарику и одному гибридизованному фрагменту ДНК (рис. 1А). Затем следуют несколько циклов ПЦР, в которой матрицей служит фрагмент библиотеки, а праймером - олигонуклеотид, закреплённый на шарике. При этом липидная мембрана не даёт матрицам мигрировать от одного шарика к другому. После амплификации к каждому шарику оказываются прикреплены одинаковые фрагменты ДНК, комплементарные изначальному фрагменту библиотеки [10]. Эмульсионная ПЦР используется в приборах GS FLX Titanium и GS Junior (Roche), и в приборах Ion Torrent PGM и SOLiD (Life Sciences). В приборах GS FLX Titanium, GS Junior и Ion Torrent PGM шарики помещаются в лунки диаметром несколько микрометров, размещённые на специальных плашках [5, 11]. В каждой лунке оказываются идентичные последовательности, размещенные на одном шарике. В приборе SOLiD шарики закрепляются на поверхности стеклянной подложки на, расстоянии, достаточном, чтобы сигнал от разных шариков не перекрывался [12].

А.

ПЦР-эмульсия

\ Ш

Б.

% „

/

ДНК

фрагмент с адаптерами

Цикл ПЦР-амплификации

Шарик с продуктами ПЦР

Мостиковая амплификация

% Л - ^ ф-

I l Ni

Рис. 1. Принципы эмульсионной ПЦР и твердофазной амплификации [5].

При твердофазной амплификации к библиотеке фрагментов также лигируются адаптеры. Амплификация происходит на слайде, на котором с высокой плотностью расположены прямые и обратные праймеры для амплификации библиотеки (рис.1 Б). Фрагменты библиотеки гибридизуются с олигонуклеотидами на слайде. При этом концентрация фрагментов подобрана таким образом, чтобы расстояние между отдельными гибридизовавшимися фрагментами было достаточно велико. Затем следуют несколько раундов мостиковой амплификации, в результате которой образуются кластеры, каждый из которых состоит из множества идентичных молекул. Кластеры разделены пространствами, достаточными для того, чтобы сигналы, генерирующиеся при включении нуклеотидов, не перекрывались [5]. Этот принцип амплификации реализован в приборах фирмы Illumina.

Секвенирование и фиксирование информации о нуклеотидной последовательности. Для определения нуклеотидных последовательностей подготовленных фрагментов ДНК используется несколько различных подходов. Основные из них: циклическая обратимая терминация, секвенирование с помощью

лигирования, пиросеквенирование, ионное полупроводниковое секвенирование и мономолекулярное секвенирование в реальном времени.

Циклическая обратимая терминация. Метод циклической обратимой терминации используется в приборах фирмы Illumina. На каждом цикле секвенирования происходит определение одного нуклеотида из последовательности. В начале цикла ДНК-полимераза добавляет модифицированный нуклеотид, комплементарный матрице. Модифицированные нуклеотиды несут блокирующую группу на 3' конце, что обеспечивает включение только одного нуклеотида на каждом цикле, а также флуоресцентную группу, специфичную для каждого из четырёх азотистых оснований. После отмывки от не включившихся нуклеотидов, происходит сканирование флуоресценции со слайда, на котором расположены кластеры фрагментов ДНК. При этом, каждый из кластеров испускает флуоресценцию с длиной волны, соответствующей включенному нуклеотиду. Блокирующая группа и флуорофор удаляются, происходит промывка, и полимераза готова включить следующий нуклеотид [13]. Методики подготовки фрагментов ДНК и их секвенирования, применяемые в секвенаторах Illumina, обеспечивают большое количество прочтений длиной до 150 нуклеотидов при невысокой стоимости и среднем количестве ошибок (табл.1).

Секвенирование с помощью лигирования применяется в приборе SOLiD. Этот метод основан на способности ДНК-лигазы лигировать 5' и 3' концы двух олигонуклеотидов, гибридизовавшиеся на одноцепо�