Бесплатный автореферат и диссертация по биологии на тему
Функциональный анализ метагенома кишечника человека
ВАК РФ 03.01.09, Математическая биология, биоинформатика

Автореферат диссертации по теме "Функциональный анализ метагенома кишечника человека"

На правах рукописи

Тяхт Александр Викторович

ФУНКЦИОНАЛЬНЫМ АНАЛИЗ МЕТАГЕНОМА КИШЕЧНИКА ЧЕЛОВЕКА

03.01.09 - математическая биология, биоинформатика

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата биологических наук

Москва 2014

3 МАР 2015

005560029

005560029

Работа выполнена в Федеральном государственном бюджетном учреждении науки «Научно-исследовательский институт физико-химической медицины Федерального медико-биологического агентства»

Научный руководитель: доктор биологических наук, профессор,

член-корреспондент РАН Говорун Вадим Маркович

Официальные оппоненты: Летаров Андрей Викторович,

кандидат биологических наук, ФГБУН Институт микробиологии им. С.Н. Виноградского РАН, лаборатория вирусов микроорганизмов, зав. лабораторией

Марданов Андрей Владимирович, доктор биологических наук, Учреждение Российской академии наук Центр "Биоинженерия" РАН, лаборатория систем молекулярного клонирования, научный сотрудник

Ведущая организация: Федеральное государственное бюджетное учреждение науки Институт биоорганической химии им. академиков М.М. Шемякина и Ю.А. Овчинникова Российской академии наук

Защита состоится «26» марта 2015 г. в 11 часов на заседании диссертационного совета Д 001.010.01 при Федеральном государственном бюджетном научном учреждении «Научно-исследовательский институт биомедицинской химии имени В.Н. Ореховича» по адресу: 119121, Москва, ул. Погодинская, д. 10, стр. 8.

С диссертацией можно ознакомиться в библиотеке и на сайте ИБМХ ЬПр/ЛутулЬтс. msk.ru

Автореферат разослан_2015 г.

Ученый секретарь диссертационного совета, кандидат химических наук

Карпова Е.А

Актуальность исследования

Микробное сообщество (микробиота) кишечника человека играет важную роль в поддержании гомеостаза его организма, в том числе участвуя в усвоении питательных веществ и синтезе витаминов, защите от патогенов, регуляции иммунитета. Микробиота влияет на эндокринные функции и регулирует высшую нервную деятельность. Действителы1ый прорыв в научном понимании важности микробмотм произошел в течение последних 20 лет благодаря развитию молскулярно-генстических методов в биологии, среди которых - метагеномное ДНК-секвенирование, позволяющее наиболее исчерпывающе оценить структуру микробного сообщества и его метаболический потенциал. Стремительный рост глобального объема метагеиомных данных требует разработки удобных программных средств для эффективного анализа на параллельных вычислительных системах.

В то время как таксономический состав микробиоты дает ответ на вопрос "какие виды содержатся в сообществе", он не отвечает на вопрос "что они делают". Поскольку близкие виды могут содержать довольно значительно различающиеся наборы генов, более важным становится выяснение функционального состава -количественное профилирование относительной представленности генов, их групп и путей метаболизма, в которые вовлечены продукты этих генов. Набор белков, кодируемых специфичной группой генов, может сильно влиять на роль конкретной бактерии в экологии всего сложного сообщества - например, будет ли она патогеном или пробиотиком. Среди целевых групп генов, представляющих особый интерес для исследования с биомедицинской точки зрения, на первом месте стоят детерминанты устойчивости к антибиотикам. По оценкам Всемирной Ассоциации здравоохранения, антибиотикорезистентность (АР) бактерий-возбудителей заболеваний - угроза здоровью всего человечества. Благодаря горизонтальному переносу в микробиоте кишечника гены АР могут передаваться от комменсальиых бактерий к патогенам. Эта возможность позволяет рассматривать мнкробиоту человека как резервуар генов АР, в котором могут формироваться новые устойчивые виды бактерий-возбудителей социально-значимых заболеваний.

Изучение микробиоты важно с точки зрения выработки эффективных подходов к профилактике и лечению инфекционных заболеваний. Помимо специфичных групп генов, на более высоком уровне иерархии, объединение уровней относительной представленности генов по метаболическим путям позволяет отмечать крупномасштабные изменения совокупного метаболического потенциала микробиоты в зависимости от характера питания, образа жизни, лекарственной терапии и других внешних факторов.

Важность микробиоты для здоровья человека обусловила тот факт, что, вслед за подробным описанием структуры и функций его микробиоты в норме, были исследованы ассоциации состава микробиоты с различными заболеваниями. В результате были выявлены потенциальные микробиотные маркеры заболеваний -как на уровне бактериальных родов и видов, так и генов. В данной работе для демонстрации возможностей разработанного программного комплекса и выявления функциональных особенностей микробиоты были выбраны две группы социально значимых заболевании, актуальные для здравоохранения и медицины будущего: воспалительные заболевания кишечника и хроническая обструктивная болезнь легких.

Воспалительные заболевания кишечника (ВЗК), основными из которых являются язвенный колит и болезнь Крона, в настоящее время привлекают пристальное внимание исследователей метагенома. Несмотря на высокий уровень жизни и гигиены, заболеваемость ВЗК в развитых странах мира стремительно растет с середины 20 века. Их этиология до конца не ясна, генетическая составляющая объясняет лишь ее меньшую часть. Патогенез связывается с изменениями в микробиоте, при этом не выявлено бактерии-возбудителя и случаи заражения неизвестны. Имеются данные об отдельных бактериях, относительная представленность которых имеет положительную и отрицательную корреляцию с заболеванием, однако механизм нарушения микробной экологии до конца не прояснен.

Хроническая обструктивная болезнь легких (ХОБЛ) является четвертой ведущей причиной смерти в мире. В то время как микробиота кишечника напрямую не вызывает заболевание, острые приступы ХОБЛ ассоциированы с бактериальными инфекциями нижних дыхательных путей. Типичная схема лечения

при обострении включает прием антибиотиков, побочный ущерб от которого включает в себя нарушение баланса кишечной микробиоты и рост относительной представленности генов АР в ее метагеноме. В связи с возможностью миграции бактерий, а также горизонтального переноса бактериальных генов между микробиотами разных частей тела, микробиота кишечника предположительно может играть роль в развитии обострения и формирования резистентности у патогенов в дыхательных путях. Метагеномный анализ микробиоты при ХОБЛ может указать как на глобальные особенности метаболического состава, которые обуславливают изменения во взаимодействии бактерий с организмом хозяина, так и на специфичные группы генов, в частности, определяющие антибиотикорезистентность.

Цель исследования

Выполнить функциональный анализ микробиоты кишечника человека по образцам, полученным от пациентов с патологиями ЖКТ (воспалительные заболевания кишечника - болезнь Крона, язвенный колит) и легких (хроническая обструктивная болезнь легких) и от группы здорового населения Российской Федерации.

Задачи исследования

Для достижения названной цели были поставлены следующие задачи:

1. Разработать алгоритм высокопроизводительного анализа функционального состава микробиоты кишечника на основании данных полногеномного секвенирования.

2. Реализовать его в виде программного комплекса на параллельной вычислительной системе. Создать базу данных для хранения результатов экспериментов по полногеномному секвенированию, а также графический интерфейс к ней.

3. Разработать Интернет-ресурс для функционального анализа микробиоты.

4. Применить созданный вычислительный конвейер для анализа микробиоты кишечника здорового населения РФ.

5. Применить созданный вычислительный конвейер для выявления особенностей функционального состава микробиоты пациентов с воспалительными заболеваниями кишечника и хронической обструктивной болезнью легких.

Личный вклад автора

1. Создание схемы алгоритма анализа функционального состава.

2. Написание и тестирование программного кода, реализующего алгоритм, в том числе для базы данных и Интернет-ресурса.

3. Проведение вычислительных экспериментов по оптимизации работы программного комплекса на параллельной вычислительной системе.

4. Обработка метагеномных данных с помощью программного комплекса.

5. Осуществление статистического анализа и визуализации данных.

Научная новизна и практическая значимость

Созданный программный комплекс для хранения и автоматического анализа метагеномных данных по микробиоте кишечника человека - эффективное средство для массового автоматического анализа данных метагеномного секвенирования. В настоящее время он используется для централизованной обработки метагеномных наборов данных, получаемых в ходе нескольких биомедицинских проектов по изучению связи микробиоты с заболеваниями в НИИ физико-химической медицины, Казанском (Приволжском) федеральном университете (КФУ) и Московском физико-техническом институте на вычислительных кластерах НИИ ФХМ и КФУ (к настоящему моменту проанализировано более 400 метагеномов). Созданный на базе программного комплекса Интернет-ресурс являлся одним из первых общедоступных сайтов, предназначенных для сравнительного анализа полногеномных данных по микробиоте кишечника человека; в частности, впервые была включена поддержка формата данных платформ секвенирования 801л0 4, 5500, 5500\У.

С использованием разработанных алгоритмов и программных средств, был проведен полногеномный анализ микробиоты кишечника человека: для пациентов с ХОБЛ - впервые в мире, для пациентов с ВЗК - впервые в Российской Федерации; были выявлены особенности функционального состава,

4

ассоциированные с патогенезом. Была определена относительная представленность генов антибиотикорезистентности в микробиоте здорового населения Российской Федерации, а также у больных с ХОБЛ, схема лечения которых включает антимикробную терапию; были выявлены значимые отличия микробиоты пациентов от контрольной группы.

Апробация работы

Результаты работы были представлены на конференциях: European Conference on Computational Biology (Швейцария, 2012), International Human Microbiome Congress (Франция, 2012), "Постгеномные методы анализа в биологии, лабораторной и клинической медицине" (Казань, 2012, 2014), "Высокопроизводительное секвенирование в геномике" (Новосибирск, 2013).

Публикации

По материалам диссертации опубликовано 9 печатных работ, из них 4 работы -в рецензируемых научных изданиях и 5 - в материалах международных научных конференций.

Структура и объем работы

Работа состоит из следующих разделов: введение, обзор литературы, материалы и методы, результаты, обсуждение, заключение, выводы, список литературы (содержит 134 источника) и приложение. Работа изложена на 131 странице, содержит 11 таблиц и 17 рисунков.

Методы

Сбор образцов

В соответствии с единым протоколом и на основании информированного согласия, были собраны образцы микробиоты кишечника от 3 групп индивидуумов. В контрольную группу вошли 96 человек, предварительно охарактеризованных как здоровые. Сбор образцов производился на территории Российской Федерации с широкой географией охвата. Группа «ХОБЛ» включала 12 пациентов с хронической обструктивной болезнью легких. От каждого

5

индивидуума из этих двух групп было получено по одному образцу кала. Группа «ВЗК» включала 5 пациентов с болезнью Крона и 2 пациента с неспецифическим язвенным колитом. От них было забрано 10 образцов - как кала, так и содержимого различных отделов кишечника.

Забор кала осуществляли в индивидуальный пластиковый контейнер, избегая попадания в образцы мочи и туалетной бумаги. Образец весом 10-20 г подвергали немедленной заморозке и хранили при -20°С. Пиобоподготовка

Для выделения ДНК и пробоподготовки всех образцов использовался одинаковый метод. К замороженной навеске образца микробиоты (150 мг) добавляли кремниево-циркониевые бусины (BioSpec Products, США) диаметром 0,1 мм (300 мг) и 0,5 мм (100 мг), а затем 1200 мкл теплого лизирующего буфера (500 мМ NaCl, 50 мМ Tris-HCl, рН 8,0, 50 мМ EDTA, 4% SDS), перемешивали на вортексе до однородного состояния и гомогенизировали с помощью MiniBeadBeater (BioSpec Products, США) в течение 3 мин. Полученный лизат инкубировали при 70°С в течение 15 мин, после чего образцы центрифугировали 20 мин при 14000 об/мин. Надосадочную жидкость отбирали в новые пробирки и ставили в лёд. К осадку повторно добавляли лизирующий буфер и повторяли процесс гомогенизации. Надосадочные жидкости объединяли, добавляли 2 объема 96% этанола и 1/10 объема 3 М ацетата натрия. Инкубировали при -20°С не менее часа. После этого образцы центрифугировали при 14000 об/мин 20 мин. Сформировавшийся осадок дважды промывали 80% этанолом, сушили на воздухе и растворяли в деионизованной воде. Секвенирование

Подготовка фрагментной библиотеки ДНК и полногеномное секвенирование на платформах SOLiD 4 и Ion Torrent PGM (Life Technologies) были произведены в соответствие с инструкциями от производителей с применением фирменных наборов. Средняя длина ридов для двух платформ составила 50 и 407-424 п.н., соответственно.

Для контрольной группы, секвенирование было осуществлено на платформе SOLiD 4; итоговое число наборов ридов составило 96 шт. Для группы «ВЗК», для 4 из 10 образцов секвенирование было осуществлено на двух платформах (SOLiD 4 и

Ion Torrent), для остальных - на платформе SOLiD 4. Для группы «ХОБЛ», для каждого из 12 образцов было осуществлено секвенирование на платформе SOLiD 4 и в итоге получено 12 наборов ридов. Внешние источники метагеномных данных

Для сравнительного анализа были привлечены внешние полногеномные данные по микробиоте кишечника: наборы ридов, полученные на платформе Illumina для образцов кала от здорового населения Дании (п = 85), США (п = 137) и Китая (п = 69).

Предобработка и картирование ридов

В целях предварительной фильтрации и профилирования состава метагенома производилось картирование ридов на референсные последовательности с помощью программ Bowtie2 для ридов с Ion Torrent и Bowtie для ридов с SOLiD 4 и Illumina.

Для ридов с секвенатора SOLiD 4, отбрасывались низкокачественные риды (со средним значением баллов качества QV < 15). С целью минимизации влияния ошибок секвенирования, оставшиеся риды подвергались коррекции с помощью программы SAET. Далее риды подвергались обрезанию по качеству: все позиции начиная с 5' удалялись вплоть до первой высококачественной позиции (QV > 30). Все риды, длина которых после фильтраций стала меньше 30 п.н., отсеивались. С целью отсеивания ридов генома человека, риды картировались на геном человека версии hgl8, и для дальнейшего анализа использовались некартировавшиеся риды. Определение функционального состава

Метагеномные риды картировались на неизбыточный каталог из 3,3 млн. последовательностей генов микробиоты кишечника. Результат картирования сохранялся в файле формата ВАМ. С помощью программного пакета BEDtools для каждого гена вычислялась суммарная длина картировавшихся на него ридов (глубина покрытия). Относительная представленность гена вычислялась по формуле:

Л длин картировавшихся ридов/ , .2 /длина гена ,

относительная представленность гена = 10 х (-)

общая длина картировавшихся ридов образца (п

Относительная представленность групп генов по номенклатурам КО (KEGG Orthology) и GO (Gene Ontology) вычислялась путем суммирования относительной представленности генов, входящих в каждую из групп.

Определение таксономического состава метагеномов проводилось аналогичным образом с использованием референсного каталога из 353 геномов микроорганизмов, встречающихся в кишечнике человека. Аппаратные средства и языки програмлшрования

Анализ метагеномных данных производился на вычислительном кластере НИИ ФХМ на десяти 24-ядерных узлах с 64 Гб ОЗУ и двух 48-ядерных узлах с 256 Гб ОЗУ (общая производительность 3 терафлопс); операционная система Centos 6.0, планировщик Sun Grid Engine (SGE).

Для хранения и обработки промежуточных и конечных результатов обсчета метагеномных данных использовалась база данных под управлением СУБД Oracle (версия llg). Программные модули анализа и связки между ними были реализованы на языках программирования R (статистический анализ и визуализация), bash, Python, Perl, Microsoft C# .NET и PL/SQL (процедуры базы данных), Java. Графические интерфейсы были реализованы на языке JavaScript с помощью библиотеки Sencha Ext JS. Статистический анализ

Для выявления значимого повышения или понижения относительной представленности группы генов между двумя группами образцов использовался односторонний критерий Манна-Уитни. Поправка на множественные сравнения производилась с помощью метода Бенджамини-Хохберга (FDR). Уровень значимости: откорректированное р-значение < 0,05. Полученные р-значения использовались для выявления метаболических путей KEGG, относительная представленность генов которых значимо различается между двумя группами образцов, с помощью R пакета piano.

Выявление новых генов, не входящих в уеференсный каталог генов

Риды были подвергнуты сборке de novo при помощи программного пакета SOLiD denovo tools v2.2. В контигах с использованием программы MetaGeneMark были найдены открытые рамки считывания, которые затем были транслированы в аминокислотные последовательности. Последовательности длиной более 100

аминокислот были выравнены на транслированный референсный каталог генов с помощью алгоритма BLASTP. Новыми считались последовательности, для которых не нашлось схожих последовательностей из каталога генов (e-value > 0,001). Отдельно аналогичным образом были подвергнуты сборке de novo и проанализированы риды, не картировавшиеся на каталог генов. Расширение каталога генов путем добавления генов из специфических геномов

Нуклеотидные последовательности генов из специфических геномов были переведены в аминокислотное представление, сопровождены GO аннотацией и приведены к неизбыточному набору с помощью алгоритма BLASTP. Те из генов, для которых в каталоге генов не нашлось схожих последовательностей (критерий сходства: не менее 80% равенства последовательности на не менее чем 80% длины), были добавлены в каталог.

В число геномов, использованных для расширения каталога генов, вошел геном бактерии Escherichia coli, изолированной из образца содержимого подвздошной кишки от пациента с болезнью Крона (код пациента MPG005). Геном был секвенирован на платформе Ion Torrent, сборки de novo была произведена с помощью программы Newbler.

Профилирование относительной представленности генов-детерминант устойчивости к антибиотикам

В качестве референсной базы были взяты 7461 аминокислотная последовательность генов антибиотикорезистентности из базы данных ARDB, определяющих устойчивость к 83 семействам антибиотиков. Картирование ридов осуществлялось с помощью программы RAPSearch. За критерий успешного выравнивания рида на референсную последовательность было принято 80% тождество аминокислотной последовательности рида с аминокислотной последовательностью референсного гена в более чем 16 аминокислотных позициях.

С помощью ПЦР в режиме реальном времени по специфичным праймерам в НПФ "Литех" в образцах микробиоты была произведена качественная детекция присутствия 10 бактериальных генов антибиотикорезистентности к макролидам, цефалоспоринам, бета-лактамным антибиотикам, ванкомицину, тейкопланину, линкозамидам и стрептограминам.

Результаты

Нами был разработан алгоритм для биоинформатического анализа метагеномных данных, позволяющий оценить функциональный состав микробиоты кишечника человека. На вход алгоритм принимает метагеномные данные полногеномного типа. Основные модули алгоритма: предобработка ридов, картирование ридов на референсные последовательности, анализ полученного покрытия, занесение информации о покрытии в БД, вычисление и выгрузка из БД значений признаков в файл (рис. 1). На выходе алгоритм выдает функциональный состав метагеномов в виде признаковых матриц относительной представленности таксонов и генов.

выравнивание

(Bowtie)

Рисунок 1. Схема алгоритма для анализа метагеномных данных.

Модуль предобработки включает в себя два подмодуля - отсеивание низкокачественных ридов (реализовано с помощью программного пакета SOCS) и отсеивание ридов, относящихся к геному человека (реализовано с помощью программного пакета Bowtie). На основании доли отсева модуль предобработки позволяет оценить корректность входных ридов: в норме для метагенома образцов кала здорового человека отсев по баллам качества составляет 15-25% ридов, а на геном человека отображается порядка 0,1-3% ридов.

В связи с особенностью формата ридов, получаемых на платформе SOLiD (риды представляются при помощи двухосновного кодирования, англ. 2-base coding), для данного формата особенно важным становится минимизация числа ошибочных прочтений. Поэтому в модуль предобработки был включен алгоритм

Статистика выравнивания (BEDtools)

Референсный набор геномов

Референсный каталог генов

коррекции позиций в ридах на основании анализа ¿-мерного спектра, реализованный в виде общедоступного программного пакета SAET. Данный программный пакет позволяет производить эффективное распараллеливание задачи коррекции ридов между множеством вычислительных ядер, что является преимуществом при реализации алгоритма на параллельной вычислительной системе.

Для метагеномных данных в объеме порядка 108 ридов на образец эффективным подходом к профилированию состава микробиоты является картирование на специализированные референсные каталоги. Основными требованиями к данному шагу алгоритма являются максимальная скорость картирования при минимальном использовании оперативной памяти вычислительной системы. Поэтому для реализации модуля картирования был выбран алгоритм, основанный на расширенном преобразовании Барроуза-Уилера с обратным отслеживанием, разрешающем точечные несовпадения, реализованный в виде общедоступного программного пакета Bowtie. Ранее было показано, что данный алгоритм картирования превосходит аналоги как по скорости работы, так и по экономии оперативной памяти.

В качестве референсного набора был использован представительный каталог генов микробиоты, полученный при анализе большой выборки населения Западной Европы. Его преимуществом является наличие COG и КО аннотации для значительной части генов, что позволяет эффективно понизить размерность пространства при анализе на три порядка путем перехода от относительной представленности генов к относительной представленности функциональных групп.

Результат работы модуля картирования поступает на вход модуля анализа статистики выравнивания, с помощью которого определяется глубина покрытия референсной последовательности каждого гена. Для реализации данного шага алгоритма был использован модуль genomeCoverageBed из программного пакета BEDtools с помощью сценариев среды bash.

Модуль загрузки в БД помещает значения глубины покрытия в базу данных Oracle. С учетом функциональной аннотации генов каталога, модуль выгрузки из БД формирует признаковые вектора относительной представленности

функциональных групп генов согласно номенклатурам COG, GO, а также KEGG Orthology. Каждый вектор описывает функциональный состав отдельно взятого метагенома и используется для дальнейшего статистического анализа.

С целью эффективного использования конвейером вычислительных ресурсов были изучены ресурсоемкость и масштабируемость входящих в него модулей. Для детального анализа был выбран модуль картирования, работа которого занимает 50-80% от общего времени работы алгоритма. Было измерено время работы программы Bowtie на различном числе вычислительных ядер (3-192 ядер) при различном объеме входных данных (файлы размером от 1 до 3,8 Гб), см. рис. 2. Результат показал, что данный модуль поддается эффективному разбиению на параллельно исполняемые секции. Таким образом, оптимизация логики выделения ядер модулям позволяет эффективно разделять ресурсы кластера между отдельными цепочками анализа при совместном обсчете множества метагеномов.

Число ядер

Рисунок 2. График зависимости времени выполнения от количества потоков и объема входных данных в модуле картирования.

С учетом обнаруженных особенностей использования ресурсов алгоритм был реализован в виде автоматизированного программного комплекса (вычислительного конвейера) с графическим интерфейсом на высокопроизводительном вычислительном кластере НИИ ФХМ (совместно с Зелениным A.C., Попенко A.C. и Беленикиным М.С.). Конвейер позволяет обрабатывать данные в формате большинства платформ, используемых для метагеномного секвенирования (SOLiD 4, SOLiD 5500, Illumina, 454, Ion Torrent).

Особенностью, отсутствующей у аналогов, является поддержка цветового формата платформ SOLiD.

После ввода пользователем данных, анализ происходит пошагово с автоматической передачей выходных данных от предыдущего модуля на вход следующему. Рациональное распределение ресурсов (вычислительных ядер и оперативной памяти) между задачами и их синхронизация были организованы с помощью программного планировщика задач Sun Grid Engine. Для обеспечения эффективного доступа к этой информации была разработана база данных на СУБД Oracle, схема которой приведена на рис. 3.

read.setjd

location

nreads

set size

solid runjd ifk

sample id ifk)

tag

unmapped hmp

I !

-+-Г

metag id name

description

rel_coverage

1

pqs_coverag£

rel_coverage_id

mapp1ng.runjd (fk) read_setjd (fk) fastajtem id (fk) bp coverage bp coverage norm ref_name bp_coverage_norm new

pos.coveragejd

mapping_run_id read_set_id (fk) fastajtem jd (fk) pos.cove rage pos_coverage_norm ref_name

~t—___I___

L----I

--J-J

pos.genome.coverage

genome .coverage

genome_coverage jd

run jo organism id (fk) bp_coverage bp_coverage_norm read setjd(fk)

full content_length_without f

pos_genome_coverage_id

mapping run id organism jd (fk) pos gen coverage pos.gen coverage.norm read.set jo \fk)

full content_length_without_n

vpilng_rl^ls

mapping_run_id

mapping program version paramstring ref_groupjd (fk)

cogs_transport

REFJjROUPJD

trans.cogjd

cog protein description transport type

cogjinterest

ref_groups_content

cogjnt.desgription в

cfrgswj3rqups

ref.contigs

fastajtem 10 (fk) content .length, without.n organism jd

cogjd

item.description coojntjd (fk)

bgi.geneset

fastajt6ms

organ ism jd

name

taxonomv

taxo

tax1

TAX2

tax3

tax-»

tax5

TAX6

tax7

name2

ref_group_id organ ism j-ength rdps

finaljjEnus

fastajhlejd

data_source_id

filename

insert_date

fastajtem jd

filejd (fk)

item.content

item name

short name

content jjlngth

content_length_without к

bgiskegoaso

kegg2go id \

крпл ^р H KEGÜJC |-go_name в kegg namt I

keggjd (fk) - - - - i

gojd fk) fi

bgi_geneset_kegg_lnk

fastajtemjd |fk) cg.groups string kegg_groups_string taxonomy.string

tax3 tax-» tax5 TAX6 tax? TAX8

6gi_geneset_c0gs_l;

gene.kegg.lnkjp

I GENE_COG_LNK.ID

mkjd 8 (fk)

Рисунок 3. Схема базы данных для хранения информации о покрытии референсных последовательностей метагеномными ридами.

С целью упрощения пользования вычислительным комплексом был создан интуитивный графический интерфейс, доступный по локальной сети через веб-браузер и состоящий из двух частей (Jsub и Conveyor). Интерфейс Jsub (рис. 4) позволяет пользователю осуществлять структурный ввод, отображение и редактирование информации о метагеномных наборах ридов. Данные организованы в следующую иерархию: проект (серия запусков секвенатора в рамках исследования группы образцов) - запуск (один запуск секвенатора) - набор

13

ридов (один или более метагеномов, полученных в результате запуска секвенатора). Дополнительно, каждый набор ридов привязан к одному биологическому образцу. После того, как файлы с ридами привязаны к конкретным проектам, запускам и биологическим образцам, пользователь может приступать непосредственно к анализу их состава, воспользовавшись интерфейсом Conveyor. В данном интерфейсе пользователь выбирает один или несколько наборов ридов, указывает формат данных секвенирования и запускает анализ на счет. Происходит формирование последовательной цепочки вычислительных задач и их постановка в очередь планировщика.

rfid яь referent« analyst

s.k.ed.»4.f3.d1.ciíiki

Рисунок 4. Графический интерфейс ЛиЬ для организации наборов метагеномных данных.

Для обеспечения доступности разработанных средств метагеномного анализа мировому научному сообществу, описанный вычислительный конвейер с дополнительными автоматическими функциями статистического анализа и визуализации был реализован в виде общедоступного Интернет-ресурса MALINA (адрес в сети Интернет: http://malina.metagenome.ru). Подав на вход метагеномные риды, пользователь после обработки данных конвейером получает признаковые матрицы как функционального, так и таксономического состава микробиоты. Дополнительно генерируется статистика сравнения данных пользователя с ранее опубликованными массивами метагеномных данных по микробиоте кишечника населения стран мира включая РФ (перечень значимо отличающихся признаков,

кластерный анализ), а также наглядные графики (ящики с усами, гистограммы, MDS).

Разработанный программный комплекс для профилирования функционального состава метагеномов были применен для описания функционального состава микробиоты кишечника здоровых людей. Анализ относительной представленности групп генов показал, что при общем числе GO групп в каталоге генов равным 2896, число GO с ненулевой представленностью в каждом образце составило 1449 ±41, среднее ± стандартное отклонение (1669 - по всем образцам). Ядро GO групп (набор групп с ненулевой представленностью во всех образцах) достаточно обширно, его размер составляет 1136 групп. Среди наиболее представленных групп, часть относится к универсальным процессам, происходящим в клетке (синтез белка, трансляция ДНК, клеточное дыхание и т.п.), а некоторые подчеркивают специфику кишечной микробиоты - например, расщепление полисахаридов.

С целью описания новых генов микробиоты кишечника населения РФ (не идентифицируемых с помощью картирования на референсный каталог генов), была проведена сборка de novo ридов каждого образца. В полученных контигах общей длиной 3,4 млрд. п.н. (35,8 ± 15,8 млн. п.н. на образец) были найдены 41474 последовательности генов без близких сходств в каталоге. Таким образом, новые гены составили 1,26% от общего числа генов в каталоге. Проведенная с помощью Интернет-ресурса KAAS функциональная аннотация этих генов позволила отнести к группе КО лишь 231 ген (0,6% от общего числа новых генов). Среди найденных 166 групп, около половины из них не входят в референсный каталог генов. Таксономический анализ показал, что среди данных генов присутствуют гены бактерий родов Escherichia, Enlerococcus, Citrobacter, Morganella, простейшего Blastocysts hominis, гены которых, очевидно, незначительно представлены в референсном каталоге генов.

Результаты, полученные для контрольной группы, были использованы для сравнительного анализа метагеномов как пациентов с ХОБЛ, так и с ВЗК, что позволило выявить характерные особенности микробиоты при данных заболеваниях.

Для группы «ВЗК», сравнение функционального состава микробиоты кишечника с группой контроля на уровне метаболических путей КЕвв выявило 17 и 5 путей, относительная представленность генов которых значимо повышена и понижена у группы пациентов по сравнению с контрольной группой, соответственно. Некоторые из обнаруженных различий указывают на аномалии в составе микробиоты: так, у группы «ВЗК» повышена представленность генов путей биосинтеза липополисахаридов. Липополисахариды - компонент клеточной стенки грамотрицательных бактерий, способный индуцировать хроническое воспаление, причем у ЛПС бактерий семейства ЕтегоЬайспасеае этот потенциал обычно выше на 2-3 порядка по сравнению с Вас!егп1с1ех врр. Учитывая повышенную относительную представленность ЕШегоЬайепасеае у группы «ВЗК», можно говорить о провоспалительном характере микробиоты этой группы. Повышение общей относительной представленности пути метаболизма рибофлавина (12 из 23 генов), очевидно, также отражает активизацию воспалительных процессов: при воспалении повышается производство реактивных форм кислорода, а рибофлавин необходим для перевода из окисленной в восстановленную форму глутатиона, позволяющего бактериям выживать при окислительном стрессе. Любопытным наблюдением стало повышение представленности генов пути биосинтеза фолиевой кислоты (11 из 24 генов). В связи с тем, что у пациентов с ВЗК наблюдается недостаточность фолата, интересной представляется гипотеза, что такая представленность данного пути у пациентов отражает некий компенсаторный механизм отбора организмом-хозяином микробиоты с увеличенным потенциалом синтеза фолата в условиях, когда хозяину данного вещества не хватает.

На метагеномах группы «ВЗК» был продемонстрирован новый алгоритмический подход к увеличению доли идентифицированных ридов и уточнения функционального состава. Каталог генов был расширен за счет добавления генов бактерий, ассоциированных с патологиями и недостаточно представленных в оригинальном каталоге (табл. 1). Всего было добавлено 31245 генов (0,9% от общего числа генов в каталоге). Среди прочих, в анализ был включен геном бактерии Е. соИ, изолированной от пациента К_55 из группы «ВЗК». Анализ метагеномов группы «ВЗК» с помощью расширенного каталога показал увеличение доли идентифицированных ридов в 1,002-1,07 раз. Это

указывает на перспективность метода расширения каталога для увеличения точности оценки состава микробиоты при заболеваниях.

Таблица 1. Геномы, использованные для расширения референсного каталога генов.

Геном микроорганизма Количество генов, вошедших в расширенный каталог

Escherichia coli (изолят от пациента К 55) 1209

Candida albicans WO-1 6056

Candida dubliniensis CD36 1333

Citrobacter freundii ATCC 8090 2967

Clostridium difficile 630 3597

Enterobacter cloacae subsp. cloacae ATCC 13047 2491

Enterococcus faecalis V583 3132

Enterococcus faecium Aus0085 3013

Klebsiella pneumoniae 342 1676

Pseudomonas aeruginosa PAOl 5771

Общин итог 31245

Для второй группы пациентов - «ХОБЛ» - сравнение функционального состава

микробиоты кишечника с группой контроля выявило 4 и 17 путей KEGG,

относительная представленность генов которых значимо повышена и понижена у

группы пациентов по сравнению с контрольной группой, соответственно. Было

проведено сопоставление этих отличий с ранее опубликованными результатами

исследований функционального состава микробиоты при ВЗК и метаболических

заболеваниях (атеросклероз, диабет 2 типа). С одной стороны, среди функций,

повышенных в микробиоте относительно контрольной группы, присутствуют

некоторые черты микробиоты ВЗК - например, повышение пути бактериальной

секреции (45 из 74 генов), в частности, системы секреции II типа, участвующей в

выделении токсинов и присущей адгезивно-инвазивной Е. coli (АЕ1С),

ассоциированной с болезнью Крона. Это подкрепляется повышенной

относительной представленностью рода Escherichia/Shigella у группы «ХОБЛ»

(11,5 ± 25,6% от общей представленности бактерий). Мы обнаружили, что у

группы «ВЗК» наблюдается пониженная относительная представленность путей

17

синтеза аминокислот: валина, лейцина и изолейцина (16 из 22 генов), лизина (19 из 40) - что, по-видимому, обусловлено доступностью этих веществ бактериям ввиду разрушения тканей стенки кишечника при воспалении и, следовательно, с ростом ауксотрофных бактерий. С другой стороны, интересно, что изменения микробиоты при ХОБЛ оказались противоположными основным признакам микробиоты при метаболических заболеваниях: понижены уровни путей синтеза пептидогликана (19 из 37 генов) (в противоположность микробиоте при атеросклерозе), метаболизма глицеролипидов и метана (в отличие от диабета 2 типа).

В метагеномах группы «ХОБЛ», а также контрольной группы был оценен уровень относительной представленности генов антибиотикорезистентности. В результате анализа было обнаружено значительное разнообразие набора генов АР между образцами. Ненулевое покрытие ридами получили 2020 аминокислотных последовательностей генов устойчивости к 65 семействам антибиотиков. В среднем, наиболее представленными оказались семейства тетрациклина, макролидов, бацитрацина, ванкомицина и другие (рис. 5).

§ -ю -

г -12 -

| -14 -

то

1 "16~

I -18 -

I -20 -

| -22 -

Вй

-6-

00 вВ вЕ

□ контроль

□ ХОБЛ

ВВ

Рисунок 5. Семейства антибиотиков с наиболее высокой средней относительной представленностью относящихся к ним генов АР (в двоичном логарифмическом масштабе).

С целью валидации результатов по генам АР, полученных из метагеномных данных, пс образцам группы «ХОБЛ» был произведен поиск маркеров устойчивости к антибиотикам I формате ПЦР реального времени. Между двумя методами было выявлено частичное

сходство результатов: в частности, результат был положительным по генам ErmB и MefA и отрицательным по генам КРС, VIM и СТХ-М согласно обоим методам во всех образцах. Для генов МесА и ТЕМ метагеномный подход оказался более чувствительным, позволив обнаружить их присутствие в 4 и 3 образцах, соответственно - при том, что результаты по ПЦР были отрицательными по всей группе. Наиболее сильными различия между методами оказались для генов VanA, VanB: положительный результат согласно метагеномному подходу и отрицательный результат согласно ПЦР по всей группе. Среди предполагаемых причин различий между методами - недостаточность глубины покрытия генов АР метагеномными ридами (иногда лишь порядка 1-10 ридов), а также различие в метрике сходства: при метагеномном анализе с базой сравниваются аминокислотные последовательности ридов, что более чувствительно по сравнению с ПЦР детекцией, основанной на нуклеотидном сходстве. Несмотря на расхождения, значительный набор генов АР, выявленный в ходе метагеномной оценки резистома, представляет собой потенциальные кандидатные цели для разработки новых ПЦР наборов для массового диагностического применения.

Заключение

Метагеномное профилирование микробиоты - перспективный подход к характеризации структуры и функций микробного сообщества, который в перспективе может перейти в разряд диагностических средств медицины, в том числе персонализованной. В данной работе были созданы средства высокопроизводительного анализа, позволяющие обрабатывать большие объемы метагеномных данных, что делает их эффективной основой биомедицинских проектов. Осуществленные с их помощью анализы данных секвенирования микробиоты населения РФ в норме и при заболеваниях указали на ряд существенных изменений, связанных с воспалительным процессом и окислительным стрессом, у пациентов с различными патологиями.

Выводы

1. Разработан алгоритм высокопроизводительного анализа функционального состава микробиоты кишечника на основании данных полногеномного секвенирования.

2. Алгоритм реализован в виде программного комплекса на параллельной вычислительной системе. Разработана база данных для хранения входных данных и результатов анализа, а также графический интерфейс к ней.

3. Разработан Интернет-ресурс для функционального анализа микробиоты.

4. Проведен сравнительный анализ микробиоты кишечника у здорового населения РФ и пациентов с воспалительными заболеваниями кишечника и хронической обструктивной болезнью легких. В ходе этого этапа у пациентов выявлены особенности микробиоты, ассоциированные с патогенезом.

Публикации по теме работы

Статьи в научных ясурналах

1. Tyaklit А.V., Kostryukova E.S., Popenko A.S., Belenikin M.S., Pavlenko A.V., Larin А.К., Karpova I.Y., Selezneva O.V., Semashko T.A., Ospanova E.A., Babenko V.V., Maev I.V., Clieremushkin S.V., Kuclieryavyy Y.A., Shcherbakov P.L., Grinevich V.B., Efimov O.I., Sas E.I., Abdulkhakov R.A., Abdulkhakov S.R., Lyalyukova E.A., Livzan M.A., Vlassov V.V., Sagdeev R.Z.,Tsukanov V.V., Osipenko M.F., Kozlova I.V., Tkachev A.V., Sergienko V.l., Alexeev D.G., Govorun V.M. Human gut microbiota community structures in urban and rural populations in Russia. // Nat. Commun. 2013. Vol. 4. eP. 2469.

2. Tyaklit A.V., Popenko A.S., Belenikin M.S., Altukhov I.A., Pavlenko A.V., Kostryukova E.S., Selezneva O.V., Larin A.K., Karpova I.Y., Alexeev D.G. MALINA: a web service for visual analytics of human gut microbiota whole-genome metagenomic reads. // Source Code Biol. Med. 2012. Vol. 7. № 1. eP. 13.

3. Алексеев Д.Г., Кострюкова E.C., Попенко A.C., Русаловский И.В., Тяхт A.B. Потенциальные возможности использования распределенных вычислительных систем при решении концептуальных проблем построения информационных комплексов обработки данных высокопроизводительного геномного

секвепирования и глубокого протеомного профилирования. // Информатизация и связь 2012. № 8. С. 10-14.

4. Tyakht A.V., Alexeev D.G., Popenko A.S., Kostryukova E.S., Govorun V.M. Rural and urban microbiota: To be or not to be? // Gut Microbes. 2014. T. 5. № 3. P. 351356.

Материалы конференций

5. Тяхт А.В. Метагеномный анализ микробиоты населения РФ. // 111 Международная научно-практическая конференция «Постгеномные методы анализа в биологии, лабораторной и клинической медицине», Казань, 22-24 ноября 2012 г. С. 101.

6. Tyakht A.V., Kostryukova E.S., Popenko A.S., Alexeev D.G., Govorun V.M. Special traits of Russian gut microbiome: functional analysis and cross-national comparative study. // Международная конференция "Высокопроизводительное секвенирование в геномике", Новосибирск, 21-25 июля 2013 г. С. 49.

7. Tyakht A.V., Popenko A.S., Belenikin M.S., Altukhov I.A., Ischenko D.S., Alexeev D.G., Govorun V.M. Fine-level genotype variation and novel community types revealed by continent-wide human gut metagenomic study. // 11th European Conference on Computational Biology, Базель, 9-12 сентября 2012 г. K35.

8. Tyakht A.V. Examining composition of Russian human gut microbiota by assessing relative abundance of functional and taxonomical units. // International Human Microbiome Congress, Париж, 19-21 марта 2012 г. P.163.

9. Тяхт А.В., Манолов А.С., Каныгииа А.В., Коварский Б.А., Ракитнна Д.Л., Кострюкова Е.С., Алексеев Д.Г., Говорун В.М. Системный подход к выявлению роли энтеробактерий в патогенезе болезни Крона. // IV Международная научно-практическая конференция "Постгеномные методы анализа в биологии, лабораторной и клинической медицине", Казань, 29 октября-1 ноября 2014 г. С. 194.

Подписано в печать 16.02.2015 г. Формат А5 Бумага офсетная. Печать цифровая. Тираж 100 Экз. Заказ №2189-2-15 Типография ООО "Ай-клуб" (Печатный салон МДМ) 119146, г. Москва, Комсомольский пр-кт, д.28 Тел. 8-495-782-88-39