Разработка алгоритмов протеогеномного профилирования микроорганизмов

Алексеев, Дмитрий Глебович

Бесплатный автореферат и диссертация по биологии на тему
Разработка алгоритмов протеогеномного профилирования микроорганизмов
ВАК РФ 03.01.09, Математическая биология, биоинформатика

Автореферат диссертации по теме "Разработка алгоритмов протеогеномного профилирования микроорганизмов"

005013509

Алексеев Дмитрий Глебович

РАЗРАБОТКА АЛГОРИТМОВ ПРОТЕОГЕНОМНОГО ПРОФИЛИРОВАНИЯ МИКРООРГАНИЗМОВ

03.01.09 - математическая биология, биоинформатика

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата биологических наук

1 5

( ' г// Г

Москва 2012

005013509

Работа выполнена в Учреждении Федерального медико-биологического агенства Научно-исследовательском институте физико-химической медицины (НИИ ФХМ ФБМА)

Научный руководитель

д.б.н., проф., чл.-корр. РАМН Говорун Вадим Маркович

Официальные оппоненты:

Лисица Андрей Валерьевич д.б.н., чл.-корр. РАМН, ФГБУ «ИБМХ» РАМН, завлаб.

Николаев Евгений Николаевич д.ф-м.н., проф.,ФГБУН ИНЭПХФ РАН, завлаб.

Ведущая организация

МГУ имени М.В. Ломоносова, химический факультет

Защита состоится «12» апреля 2012 г. в 12:30 на заседании диссертационного совета Д 001.010.01 при Федеральном государственном бюджетном учреждении «Научно-исследовательский институт биомедицинской химии имени В.Н.Ореховича» Российской академии медицинских наук (ФГБУ «ИБМХ» РАМН) по адресу: 119121, Москва, ул. Погодинская, 10, стр.8.

С диссертацией можно ознакомиться в библиотеке ФГБУ «ИБМХ» РАМН

Автореферат разослан «_

2012 г.

Ученый секретарь диссертационного совета, кандидат химических наук

Е.А.Карпова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Приближение к точке технологической сингулярности (Kurzweil 2005), охватившее сегодня все области человеческих знаний, во многом влияет и на исследования в области молекулярной биологии. Взрывообразное накопление данных в областях ге^омики, транскриптомики, протеомики и метаболомики не дает возможности перейти от редукционного подхода, направленного на отдельные компоненты, к системному, позволяющему охватить весь набор компонентов и их свойств.

Одной из отправных точек в исследовании живой системы является структура генома и его максимально полное описание - аннотация. Технологии, позволяющие получить геномную последовательность, получили повсеместное распространение и появилась возможность исследовать геном любого живого существа и даже отдельной клетки. При таких возможностях точность, полнота и скорость аннотации становится узким местом в исследованиях. Несмотря на большой арсенал развитых вычислительных методов создания геномных аннотаций, они принципиально являются лишь предсказательными.

Протеогеномика как предложенный в 2008 году набор подходов, основанных на использовании протеомных данных для улучшения геномной аннотации, позволяет существенно улучшить качество аннотации геномов. С учетом разнообразия царств Бактерий и Архей использование протеогеномной аннотации, возможно, является единственным способом получения корректного представления о связи генотипа и фенотипа. Было показано, что синтез наблюдений за относительно просто устроенными бактериальными клетками позволяет не только скорректировать представления о взаимоотношениях генов и их продуктов, но и получить представления о структуре системы в целом. Естественно, что появляющиеся в последнее время работы по созданию синтетической бактериальной клетки могут быть продолжены, только если создаваемая система будет полностью описана и смоделирована. Несмотря на актуальность и с учетом новизны названной области, сегодня не существует единого программного решения, которое бы объединяло все задачи , связанные с совместным использованием геномных и протеогеномных данных.

Цели исследования

Разработать подходы и алгоритмы протеогеномного профилирования бактериальных геномов, воплотить их в виде программного обеспечения и использовать для профилирования Mycoplasma gallisepticum, Acholeplasma laidlawii, Spiroplasma melliferum, Desulfurococcus kamchatkensis и Helicobacter pylori.

Задачи исследования

Для достижения названной цели были поставлены следующие задачи:

1) Разработка эффективных алгоритмов использования данных протеомных экспериментов для протеогеномного профилирования.

2) Использование алгоритмов для улучшения аннотации геномов Mycoplasma gallisepticum, Acholeplasma laidlawii, Spiroplasma melliferum и Desulfurococcus kamchatkensis.

3) Использование алгоритмов и оценка достоверности идентификаций при работе с изолятами и штаммами, для которых геномы не секвенированы или существует только частичная последовательность.

4) Использование алгоритмов для системного анализа и улучшения протеогеномной аннотации на основе сравнения протеогеномных профилей бактерий.

Научная новизна

С использованием современных методов и технологий разработаны оригинальные методики и алгоритмы обработки экспериментальных данных исследования геномов и протеомов бактерий. Комплекс подходов позволил впервые объединить в единое аналитическое пространство разрозненные данные частичного секвенирования ДНК и масс-спектрометрического анализа белков и далее, используя разработанный алгоритм протеогеномного сравнения, выявить межвидовые и межштаммовые различия.

Впервые проведено уточнение геномной аннотации для Mycoplasma galliseplicum S6, Acholeplasma laidlawii PG-8A, Spiroplasma melliferum KC-3 и Desulfurococcus kamchatkensis 1221n. По результатам уточнения удалось аннотировать новые белки, подтвердить или реаннторировать сайты начала транскрипции, проверить ряд предсказанных из строения генома явлений на белковом уровне. Ни для самцх указанных штаммов, ни для близкородственных штаммов такие исследования ранее не проводились.

Проведенный с использованием разработанной методики анализ ряда бактерий позволил получить уникальные результаты по более точной оценке минимального функционального ядра молликут, исчерпывающему протеому представителя Архей, предположительным механизмам патогенеза насекомых у спироплазм и возможной особенности проявления вирулентности и способности к трансформации у бактерий вида Helicobacter pylori.

Практическая значимость.

Комплекс протеогеномного профилирования успешно используется в настоящее время в качестве основной информационной платформы в ряде международных и российских проектов, охватывающих как исследования бактериальной направленности (например, Метагеном и метапротеом микробиоты кишечника человека), так и исследования протеомов эукариот.

Предложенная методика протеогеномной аннотации, апробированная на различных представителях бактериального и архейного царств, может быть использована для протеогеномной аннотации любого бактериального или архейного генома. Предложенное использование системы с рядом дополнительных экспериментальных подходов (обогащение пептидной фракции протеома N-концевыми пептидами) позволит аннотировать большую часть экспрессируемых белков с точки зрения сайта начала транскрипции.

Система позволяет использовать данные современных экспериментальных установок с учетом их индивидуальных особенностей (точность, масштаб получаемых экспериментальных данных и т.п.). Использование любого

современного оборудования возможно за счет применения унифицированных стандартных форматов обмена данными.

Апробация работы.

Результаты работы были представлены на следующих российских и международных конференциях: Итоговая научная конференция НИИ ФХМ 2010, Молодежная конференция НИИ ФХМ2011, BGRS2010 Novosibirsk, XXII Симпозиум «Современная химическая физика» 2010 г. Туапсе, Постгеномные методы анализа в биологии, лабораторной и клинической медицины - 2010г. Москва, Постгеномные методы анализа в биологии, лабораторной и клинической медицины - 2011 г. Новосибирск, lscb Students council 2011 - Vienna , HUPO 2011 World Congress - Geneve , MCCMB'l 1 - Moscow .

Публикации. Материалы диссертационной работы отражены в 5 публикациях в рецензируемых российских и международных журналах и в 2 сборниках трудов конференций.

Структура и объем диссертации.

Диссертационная работа состоит из 4 глав (Обзор литературы, Материалы и методы, Результаты, Обсуждение), заключения и списка литературы содержащего 147 ссылок. Работа изложена на 105 страницах, содержит 25 рисунков и 5 таблиц.

Содержание работы. 1 Обзор литературы.

В обзоре литературы рассматривается основные методы и подходы, используемые при геномной аннотации и протеомной идентификации бактерий. Внимание уделяется уникальной ситуации, сложившейся в области бактериальной и архейной геномики - на сегодняшний день получено до 10 тысяч полных и частичных последовательностей разнообразных видов, при этом большая часть этих данных получена в последние годы (рис. 1).

Рисунок 1 Экспоненциальный рост количеств геномов (зеленый) и родов (синий) со временем. График составлен по статистическим данным Genbank.

Анализируются основные подходы к геномной аннотации вычислительными методами - автоматизированные системы аннотации, которые используют ah initio предсказательные методики и методики, основанные на сравнении. Рассматриваются основные типы алгоритмов, предназначенных для идентификации белков по масс-спектру. Рассматриваются примеры оценки достоверности эвристических и вероятностных алгоритмов. На основе анализа литературы делается вывод о целесообразности использования нескольких алгоритмовфговсЬ et al. 2008)(Карр et al. 2005)(Colinge and Masselot 2004)(Nesvizhskii 2007) идентификации для достижения целей диссертационной работы.

M ASCOT Spectrum Mill

/ 2 ____ ' I 46

6 » " 22 \ 335 ,70 12

'25 7

■n

SEQUF.ST. 22 / 4 ° \ Xriandem

/ \ \

Рисунок 2 Диаграмма Венна отражающая количество пептидов идентифицированное наиболее распространенными алгоритмами.

В частности, выбор основывается на исследовании Броша и коллег(Вго8сЬ et al. 2008), где было показано, что алгоритм Mascot подходит для спектров снятых на ионных ловушках, в то время как алгоритм X'.tandem показывает результаты лучше при использовании спектров с высокой точностью (менее 10 ррт).

В обзоре рассматривается несколько работ посвященных протеогеномному профилированию бактерий и архей. Перед проеогеномикой исследователями ставится ряд первоочередных задач:

1) Подтверждение предсказанных генов

2) Исправление предсказанных сайтов начала и окончания транскрипции

3) Идентификация не аннотированных генов

Рассматриваются примеры успешного применения технологии протеогеномного сравнения (сравнения, использующего похожести геномов для улучшения протеомной идентификации или построения системного анализа бактериальной клетки) на примере нескольких видов Shewanella(Gupta et al. 2008) или всего рода Микобактерий(Оа1Пеп et al. 2009).

Один из актуальных вопросов современной теоретической биологии - вопрос о минимальной клетке - или минимальном количестве генов, достаточных для существования автономно реплицирующейся формы жизни. В обзоре литературы

подробно разбираются методы и подходы позволяющие теоретически или экспериментально подойти к решению этого вопроса

Приводится пример ряда работ последнего времени, расширивших горизонты представлений о сложности устройства бактериальной клетки. Так, было показано богатство некодирующих РНК в работах с транскриптомами Bacillus subtillis (Rasmussen, Nielsen, and Jarmer 2009), Mycoplasma pneumonia (Giiell et al. 2009) и Helicobacter pylori (Sharma et al. 2010), при этом наблюдается тренд: при совершенствовании технологий профилирования количество наблюдаемых некодирующих РНК растет от 209 для технологии РНК-чипов до почти 1000 при использовании глубокого сиквенирования, при этом возможно, что при приближении экспериментальных технологий к изучению единичной клетки количество наблюдаемых РНК, не кодирующих белковые продукты, может превысить количество генов. Кроме того, рассматриваются работы по идентификции белкового комплексообразования, где, на примере М. Pneumonia (Kühner et al. 2009), удалось обнаружить не только обилие комплексов, охватывающих почти все основные функциональные белки клетки, но и неожиданные комплексы, в которых взаимодействовали белки метаболизма и белки синтеза белка. Такие факты наводят исследователей на мысль, что количество контактов между компонентами реальной клетки выходит за рамки известных функциональных. Более того в работе по Bacillus subtillis (Commichau et al. 2007) с использованием дву-гибридной дрожжевой системы подтверждено взаимодействие между ферментами гликолиза енолазой и фос-фруктокиназой и ферментами, участвующими в процессинге РНК, являющимися жизненно важными. Такая находка заставляет авторов высказать предположение о том, что повсеместное присутствие генов гликолиза связанно именно с взаимодействием с жизненно важными генами и возможной транскрипционной модуляцией активностей участников контакта в таких комплексах, и, кроме всего прочего, структурной функцией.

Кроме того, в обзоре литературы представлено краткое описание исследуемых видов бактерий: нескольких миколпазм, Desulfurococcus kamchatkensis и Helicobacter pylori.

2 Методы

В данном разделе рассматриваются методы, технологии и алгоритмы, использованные для создания платформы протеогеномного профилирования микроорганизмов.

2.1 Создание экспериментальной базы данных

Все экспериментальные данные были размещены в реляционной базе данных, основанной на СУБД Oracle llg. Настройка связей при нормализации и выделение ключевых сущностей при построении структур базы данных позволяет удерживать все экспериментальные данные в едином информационном поле и совместно использовать разнородные экспериментальные данные. Кроме того, для ускорения взаимодействия с публичными хранилищами данных были созданы усеченные реплики данных в экспериментальной базе данных. Подобное решение позволяет производить сравнения любых наборов экспериментальных данных с использованием простых SQL запросов. В процессе работы часть таблиц была денормализована для повышения производительности. Общая схема БД содержит более 200 таблиц, на схеме приведены основные сущности.

2.2 Программные пакеты для протеомного анализа и параметры обработки спектров.

Для первичной обработки спектров использовались пакеты Bruker Data Analysis,

Agilent Mass Hunter. Полученные данные о спектрах развала были экспортированы в формат Mascot generic для последующей обработки.

Для идентификации использовался пакет идентификации Mascot 2.1.04 и пакет X!Tandem release 2008.02.11. Для обоих пакетов в случае работы со спектрами ионных ловушек использовалась точность 0,5 Да для родительского иона и 0,5 Да для спектра распада, в случае работы со спектрами Q-TOF точность 5 ррш для родительского иона и 0,5 Да для спектра распада.

2.3 Программы для сравнения геномов и картирования ридов

Для выравнивания геномов и контигов с последующим обнаружением

полиморфизмов использовался пакет Mummer 3.0(Delcher et al. 2002).

Для выравнивания геномных ридов на геномы использовался пакет Bowtie build 0.12.5(Langmead et al. 2009). Обнаружение полиморфизмов производилось при помощи пакета SAM tools(L¡ et al. 2009).

Обнаружение аминокислотных полиморфизмов и создание на основе данных белковых баз данных для поиска производилось с помощью собственного ПО, реализованного в виде веб-сервиса с использованием технологий ASP.NETh extJS.

2.4 Объединение сторонних программ в Автоматизированный программный конвейер

Объединение программ в конвейер производилось на основе принципов

построения распределенных систем с использованием веб-серверных технологий apache (для платформ на основе ядра linux) и IIS (для платформ на основе windows). Очереди задач с отсроченным исполнением по мере освобождения ресурсов создавались с применением технологии системных служб. Обработка форматов производилась с использование языка скриптов perl и С#.

2.5 Разработка пользовательских интерфейсов

Пользовательский веб-интерфейс разработан для наиболее часто используемых

функций (регистрация экспериментов, просмотр результатов протеомных поисков, объединение в проекты и протеомное сравнение, сравнение геномов, картирование ридов и проч.) на основе технологий ASP.NETh extJS.

2.6 Статистический анализ

Статистический анализ производился с использованием пакета R(Ihaka and Gentleman 2007) version 2.14.1, для удобства использовалась надстройка RStudio v0.95.

Многофакторный анализ использования кодонов производился с использованием пакета CodonW ("http://codonw.sourceforge.net" n.d.)

2.7 Программирование алгоритмов

Алгоритмы были запрограммированы с использованием встроенного языка анализа данных pl/sql внутри экспериментальной базы данных. Подход был выбран в связи с высокой эффективностью индексирования больших объемов данных в промышленных СУБД, при этом вычислительная сложность алгоритмов была

невысокой, что позволило реализовать алгоритмы внутри БД без ущерба для общей производительности.

2.8 Протеомные эксперименты

Для получения исчерпывающего протеома нами (Совместно с Деминой И.А.) была разработана следующая схема фракционирования, примененная во всех экспериментах.

Рисунок 3 Схема фракционирования белковых смесей примененная в протеомных экспериментах для получения исчерпывающего протеома

Описание анализа приведено подробно в работе по Б.теШ/егит (А1ехееу еХ а1. 2012).

2.9 Получение культур клеток

Культуры клеоток было получены в лаборатории протеомного анализа НИИ ФХМ, в кратце:

Культуру клеток M. gallisepticum S6 выращивали на жидкой среде, содержащей 2% триптозы, 0.5% глюкозы, 0.5% NaCl, 0.13% KCl, 0.3-0.5% Трис, 5% (v/v) дрожжевого диализата, 10% (v/v) сыворотки лошади, pH 7.2, при 37оС в течение 18 ч. A. laidlawii PG-8A выращивалась на жидкой модифицированной среде Эдвардса при 37оС в течение 18 ч.Для мониторинга роста культур использовался краситель феноловый красный.

Культура клеток. S. melliferum КСЗбыла получена от профессора Вроблески (Université de Rennes, France). S. melliferum KC3 была выращена на среде SP4 как описано ранее(Ти!1у et al. 1977). Сбор культуры проводился в log фазе, контроль производился по pH (7.2-7.0).

Культура клеток D. kamchatkensis была получена от проф. Бонч-Осмоловской (Институт микробиологии им. С. Н. Виноградского РАН, Москва)

Культуры клеток Н. pylori были выращены на среде с кровяным агаром 2-3 дня в микроаэробном окружении (5% О2, 10% СО2, и 85% N2) при 37°С.

2.10 Геномные эксперименты

Эксперименты по геномному секвенированию были проведены в лаборатории Постегномных методов исследований НИИ ФХМ, в кратце применялись следующие методики:

Секвенирование по Сангеру. Библиотеки заданной длинны (2 kb) были проведены через клонирование с вектором pCR4Blunt-Topo, далее выращены в Escherichia coli ТОРЮ и секвенированы при помощи BigDye Terminator v3.1 Cycle Sequencing Kit (Applied Biosystems, USA).

Секвенирование на SOLiD. Получали библиотеки спаренных фрагментов для SOLiD™ 4 system (Applied Biosystems, USA) со вставками примерно 2.5 КБ или 5.5 КБ. Для библиотек получали фрагменты длиной 50 нуклеотидов с F3 и R3 метками на концах.

2.10.1 Методы сборки

Для длинных геномных прочтений, полученных по методу Сангера, сборка геномов производилась с использованием пакетов: Phred(Ewing et al. 1998) - для

отбора качественных прочтений, LUCY(Chou and Holmes 2001) - для удаления последовательностей векторов, TIGR Assembler(Sutton et al. 1995) - для непосредственной сборки, и BAMBUS(Pop, Kosack, and Salzberg 2004) - для создания скаффолдов по данным о парности ридов в библиотеке.

2.10.2 Аннотация

Исходный набор ОРС возможно кодирующих белки определялся пакетом Artemis(Rutherford et al. 2000). Предсказанные ОРС длиннее чем 100 ао. были использованы для поиска гомологов с помощью программы BLASTP(Altschul et al. 1990) в неизбыточном наборе генов NCBI и далее были вручную аннотированы с использованием информации о гомологии. Для аннотации использовался пакет визуализации UGENE("Unipro UGENE: an open-source bioinformatics toolkit; http://ugene.unipro.ru" n.d.). Ортологи были определены с использованием критерия взаимного наилучшего совпадения^. S. A. Myers et al. 2006). Начала трансляции были определены из выравниваний BLASTP. Серверы TMHMM(Krogh et al. 2001) и HMMTOP(Tusnady and Simon 2001) были использованы для определения трансмембранных доменов. Рибосомальная и транспортные РНК были идентифицированы с помощью BLASTN(Altschul et al. 1990) и tRNA-Scan-SE(Lowe and Eddy 1997), соответственно. Метаболическая реконструкция производилась с использованием KEGG("(http://www.genome.jp/kegg/pathway.html)" n.d.).

2.11 Источники геномных данных

Для работы с геномами были использованы следующие версии геномов, доступные в NCBI.

Таблица 2. Использованные в работе версии геномов.

Организм Версия генома в NCBI

Mycoplasma gallisepticum str. R(low) CP00I872.1 .

Mycoplasma gallisepticum str. F СР001873.1

Mycoplasma gallisepticum str. R(high) NC_004829.2

Helicobacter pylori 26695 NC_000915.1

Helicobacter pylori J99 NC_000921.1

Mycoplasma mobile 163K NC_006908.1

Геномы, сиквенированные и аннотированные в ходе работы, были размещены в СепЬапк под следующими идентификаторами

Таблица 3. Идентификаторы размещенных геномных данных.

Организм Идентификатор в Genbank

Acholeplasma laidlawii strain PG-8A NC_010163.1

Mycoplasma gallisepticum S6 AFFR00000000.1

Spiroplasma melliferum KC-3 AGBZO1000000

Для работы с геномом S.citri GII3-3X была использована версия генома, полученная Карле и коллегами(Саг1е et al. 2010), на сегодняшний день она доступна только на сайте лаборатории aBTopoB("Spiroplasma citri genome" n.d.)

3 Результаты и обсуяедение

Нами был разработан набор оригинальных алгоритмов и автоматизированный программный конвейер (АПК) для обработки данных протеомных экспериментов, позволяющий решать полный цикл задач протеогеномного профилирования. АПК позволяет использовать данные протеомных и геномных экспериментов и получать на выходе биологические выводы в виде таблиц, графиков и диаграмм.

АПК включает в себя набор программных средств, созданных другими исследователями для обработки данных, набор собственных алгоритмов, разработанных нами на основе методов, изложенных в обзоре литературы, а также несколько алгоритмов, разработанных на основе собственных оригинальных подходов к анализу. Интеграция алгоритмов основана на использовании общей экспериментальной базы данных (БД), предоставляющей пользователям доступ к данным при помощи графического интерфейса и языка запросов.

АПК способен обрабатывать два принципиально различных вида исходных экспериментальных данных- данные геномных экспериментов и данные протеомных экспериментов. Данные протеомных экспериментов представляют

собой спектры, записанные в формате специфическом для используемого оборудования или стандартизованном формате xml, а данные геномных экспериментов представлены короткими прочтениями (ридами) и соответствующими им значениями качества, длина прочтений варьиует от 1000 нуклеотидов (для ридов, полученных капиллярным сиквенированием) до 50 нуклеотидов (для ридов, полученных на платформа АВ Solid 4).

/ Экспериментальные \ Протеомные данные

Геномная ( последовательность [ и аннотация \

Поисковые машины Mascot X-Tandem!

Повторный поиск с учетом всех рамок Mascot X-Tandem!

Поиск с прицелом на N-Концевые пептиды Mascot X-Tandem!

Алгоритм избвления от избыточности

Алгоритм поиска ПТМ по похожести спектров

Получение масс-листов

Геномные ^ данные у

Сборка

Картирование

Составление эффективной БД

Экспериментальная j БД

Поиск ПТМ

Mascot X-Tandem I

Сравнение с БД ПТМ для других бактерий

Учет нетриптических ____пептидов ____

Поиск полутриптических пептидов Mascot X-Tandem!

Протеогеномное сравнение

Рисунок 4 Схема автоматизированной системы обработки протеогеномных данных

Среди разработанных алгоритмов стоит выделить несколько алгоритмов, впервые реализованных в виде программного обеспечения - это алгоритм учета неспецифичности трипсина, алгоритм учета геномных данных, алгоритм избавления от избыточности в протоемных идентификациях и алгоритм протеогеномного сравнения.

С использованием алгоритмов была произведена реаннотация геномов, общий результат представлен в сводной таблице 3.

Таблица 3. Статистика по протеомным экспериментам.

Штамм Экспериментов MS MS/MS спектров Обнаружено белков % от общего Новых белков Старт сайты

M.gallisepticum S6 1000 I млн. 481 68% 0 32

A.laidlawii PG-8A 2000 2 млн. 876 64% 30 40

S.mell:ferum КСЗ 1500 2 млн. 521 44% 50 10

D.kamchatkensis 1221n 400 600 тыс. 625 41% 0 10

H.pylory 26695 400 100 тыс 707 47% 0 0

H.pylorym 200 50 тыс 550 36% 0 0

H.pylori A45 200 50 тыс 604 40% 0 0

Был разработан комплекс подходов, позволяющий работать с лабораторными штаммами и клиническими изолятами, геномы которых не известны. Проведена оценка диапазона межштаммового различия, допустимого для сохранения высокой достоверности протеомных идентификаций, которая для гомоморфных частей геномов может быть выражена следующей формулой:

ОП на белок / 6 (ср. число пеп. на белок) * 2 (идент. пептидов) * % по 2м. пептидам (Формула 1.), где

- ОП на белок - количество однонуклеотидных полиморфизмов на белок,

- 6 (ср. число пеп. на белок) - среднее число пептидов на белок (6 - среднее число),

- 2 (идент. пептидов) - минимальное число пептидов для идентификации белка,

% по 2м. пептидам - процент белков идентифицированный по 2-ум пептидам

Далее была проведена экспериментальная проверка оценки, в двух случаях -работа с лабораторным штаммом Mycoplasma gallisepticum S6h клиническим изолятом Helicobacter pylori А45. Полученные результаты позволяют говорить о минимум 90% успешной идентификации, проверка была произведена после получения данных о геномах указанных штаммов. Так же на примере частично последовательности генома была показана возможность учета данных частичного генома для улучшения белковых идентификаций.

Был произведен системный анализ на основе протеогеномного сравнения нескольких трех наборов протеогеномных данных:

1) Mycoplasma gallisepticum, Acholeplasma laidlawii, Mycoplasma mobile

2) Spiroplasma melliferum, Spiroplasma citri

3) 3 штамма Helicobacter pylori: J99, A45, 26695

На основе данных о протеогеномном сравнении Mycoplasma gallisepticum, Acholeplasma laidlawii, Mycoplasma mobile, выращенных на одинаковой среде , выявленное сходство было положено в основу создания представления об общем протеомном ядре- 212 COG. Далее было показано, что на основе имеющихся данных по комплексообразованию у молликут протеомное ядро включает в себя большую часть известных комплексов, при этом среднее количество партнеров у представителей выше, чем среднее по геному. Таким образом, с учетом представлений о пространственной структуре клетки была предложена модель, согласно которой протеомное ядро является основой белкового взаимодействия в клетке, а специфические клеточные функции, разнящиеся от штамма к штамму, имеют единичные контакты с представителями ядра.

Рисунок 5 Схема взаимодействия белков протеомного ядра находящегося в Mycoplasma pneumonia, построенного на основе данных о комплексообразовании.

Протеогеномное сравнение Spiroplasma melliferum и Spiroplasma citri позволило выявить ряд особенностей в составе протеома S. melliferum КСЗ, которые, по нашему мнению, ассоциированы с высокой патогенностью данного вида для насекомых.

Отличия между протеомами двух видов заключаются в ряде белков, которые в составе генома S. melliferum включены в предположительные мобильные элементы (рис. 7). По-видимому, горизонтальный перенос этих белков позволил S.melliferum обрести отличительные фенотипические свойства за счет генов экзотоксинов и утилизации хитина, которые определили его патогенность.

Plectovirus genes SpV1-R8A2B, SpV1-C74 and SVTS2 are organized in clusters with other genes inside.

Рисунок 7 Пример организации мобильного островка плектовирусной природы. Вирусные гены окружают смысловые гены и возможно способствуют горизонтальному переносу.

Протсогеномное сравнение 2 лабораторных штаммов и одного клинического изолята Н.pylori позволило выявить большое разнообразие в белковой представленности для разных штаммов, при этом для клинического изолята наблюдаются уникальные экспрессируемые белки:

Таблица 4. Уникально экспрессирующиеся белки в клиническом изоляте А45.

regulatory protein DniR связан с повышенын синтезом dissimilatory nitrite reductase

NifU-like protein индуцируется желчным и желче-кислотным стрессом

hypothetical protein HP 1453

siderophore-mediated iron transport protein (tonB) фак-rop вирулентности

hypothetical protein HP0838

glutamylglutaminyl-tRNA synthetase гомологична glutamvl-tRNA synthetase hp0476

hypothetical protein HP0573

cyclopropane fatty acid synthase (cfa) устойчивость к кислоте и бутанолу

hypothetical protein HP0309

collagenase (prtC) Эпителиальный клеточный сиганллинт при возникновении инфекции

lipopolysacelwride 1,2-glucosyltransfarase (rfaJ) Синтез ЛПС

hypothetical protein HP0080 Внешний мембранный

hypothetical protein HP0018

Часть уникальных белков клинического изолята напрямую или опосредованно ассоциирована с вирулентностью и способностью к трансформации, а о других ничего не известно. Для получения более подробной картины нами предложен оригинальный метод количественного сравнения, основанный на высокой представленности аминокислотных полиморфизмов между геномами хеликобактера.

3.1 Заключение

В ходе выполнения диссертационной работы (2006-2011 гг.) мы столкнулись с необходимостью учета новой информации о механизмах функционирования наиболее просто устроенных микроорганизмов, к числу которых относятся микоплазмы. Появились новые данных о повсеместной представленности некодирующих РНК у бактерий, в том числе и у бактерий с так называемым «сверхплотным» кодированием как, например, у H.pylori, для которых определяется не менее 1000 некодирующих транскриптов. Появились исследования о существенно ранее не описанных биохимических ферментативных комплексах в клетке Mycoplasma pneumonia и других бактерий. Появление таких данных обусловило целесообразность и актуальность тщательной реаннотации геномов изучаемых микроорганизмов, для чего нами были использованы протеомные технологии. Реципрокные взаимосвязи между протеомом (комплиментарность, стехиометрия, ПТМ и т.д.) и транскрипционной активностью генома и его структурной вариабельностью предоставляет в настоящее время недостающую основу для синтетической биологии и определения действительной модели жизни.

Выводы

1) Эффективные алгоритмы, использующие данные протеомных экспериментов для протеогеномного профилирования, были разработаны. Алгоритмы позволяют учитывать данные множества поисковых машин, осуществлять поиск ПТМ и N-концевых пептидов, производить реаннтацию геномов и осуществлять проетогеномное сравнение.

2) С использованием алгоритмов были улучшены аннотации геномов Mycoplasma gallisepticum, Acholeplasma laidlawii, Spiroplasma melliferum и Desulfurococcus kamchatkensis.

3) Алгоритмы были использованы для протеогеномного профилирования изолятов и штаммов, для которых геномы не секвенированы или существует только частичная последовательность, была разработана методика оценки достоверности такого профилирования.

4) Алгоритмы позволяют произвести системный анализ и улучшить протеогеномную аннотацию на основе сравнения протеогеномных профилей бактерий и получить биологически релевантные выводы.

Список работ опубликованных по теме диссертации:

1. Alexeev D, Kostijukova Е, Aliper A, Popenko A, Bazaleev N, Tyakht A, Selezneva O, Akopian T, Prichodko E, Kondratov I, Chukin M, Demina I, Galyamina M, Kamashev D, Vanyushkina A, Ladygina V, Levitskii S, Lazarev V, Govorun V. Application of Spiroplasma melliferum Proteogenomic Profiling for the Discovery of Virulence Factors and Pathogenicity Mechanisms in Host-associated Spiroplasmas// Journal of proteome research, 2011. V.l 1(1) P. 224-36.

2. Lazarev VN, Levitskii SA, Basovskii YI, Chukin MM, Akopian ТА, Vereshchagin VV, Kostijukova ES, Kovaleva GY, Kazanov MD, Malko DB, Vitreschak AG, Sernova NV, Gelfand MS, Demina IA, Serebryakova MV, Galyamina MA, Vtyurin NN, Rogov SI, Alexeev DG, Ladygina VG, Govorun VM. Complete Genome and Proteome of Acholeplasma laidlawii// Journal of bacteriology, 2011. V.193(18), P.4943-53.

3. Fisunov GY, Alexeev DG, Bazaleev NA, Ladygina VG, Galyamina MA, Kondratov IG, Zhukova NA, Serebryakova MV, Demina IA, Govorun VM. Core proteome of the minimal cell: comparative proteomics of three mollicute species// PloS one, 2011 V. 6(7).

4. Дёмина И.А., Серебрякова M.B., Ладыгина В.Г., Галямина М.А., Жукова

H.A., Алексеев Д.Г., Фисунов Г.Ю., Говорун В.М. Сравнительная протеомная характеристика микоплазм (молликут)// Биоорганическая химия. 2011. Т. 37. № 1.С. 70-80.

5. Momynaliev, К. Т., Kashin, S. V., Chelysheva, V. V., Selezneva, О. V., Demina,

I. A., Serebryakova, M. V., Alexeev, D. Functional divergence of Helicobacter pylori related to early gastric cancer// Journal of proteome research, 2010. V. 9(1), P. 254-67.

6. Alexeev, Bazaleev, Govorun Semantic relationships derived from experemental analysis experience help to proceed and visualize experimental data. Proceedings of International Conference on Bioinformatics of Genome Regulation and Structure (BGRS' 2010) Novosibirsk, Russia, June 20—27, 2010. P.25

7. Altukhov, Ischenko, Alexeev, Bazaleev, Uvarovskiy, Tyakht Web-application for comparative structural and functional analysis ofprokaryotic genomes sequencing

data. Proceedings of Moscow Conference on Computational Molecular Biology Moscow, RussiaJuly 21-24, 2011, P.36.

Подписано в печать: 02.03.2012 Объем: 1,5 усл.п.л. Тираж: 100 экз. Заказ № 63 Отпечатано в типографии «Реглет» 119526, г. Москва, Страстной бульвар, д. 6, стр. 1 (495) 978-43-34; www.reglet.ru

Текст научной работыДиссертация по биологии, кандидата биологических наук, Алексеев, Дмитрий Глебович, Москва

61 12-3/746

Федеральное государственное бюджетное учреждение науки «Научно-исследовательский институт Физико-химической медицины Федерального медико-биологического агентства»

Надравах рукописи

¡гл)

АЛЕКСЕЕВ Дмитрий Глебович

РАЗРАБОТКА АЛГОРИТМОВ ПРОТЕОГЕНОМНОГО ПРОФИЛИРОВАНИЯ МИКРООРГАНИЗМОВ

03.01.09 - математическая биология, биоинформатика

ДИССЕРТАЦИЯ на соискание ученой степени кандидата биологических наук

Научный руководитель д.б.н., проф., чл.-корр. РАМН Говорун Вадим Маркович

Москва-2012

«И предал я сердце мое тому, чтобы познать мудрость и познать безумие и глупость; Узнал, что и это — томление духа. Потому что во многой мудрости много печали; И кто умножает познания, умножает скорбь».

Экклезиаст. Глава 1.

«На самом деле, закономерность явлений природы - самое загадочное из всего того, что нам приходится наблюдать в жизни. Откуда порядок? Почему порядок, а не хаос и беспорядочность? И если бы гипотеза закономерности не приносила с собой столько практических выгод, люди никогда бы не соблазнились возводить ее в сан вечной и непререкаемой истины.»

Лев Шестов. Апофеоз беспочвенности

«Я думаю, что ни одно волнение не сравнимо с тем, что испытывает сердце изобретателя, когда он видит как творение его мозга претворяется жизнь... Такие эмоции заставляют человека забыть о еде, сне, друзьях, любви, обо всем.»

Никола Тесла 1896

Оглавление

ВВЕДЕНИЕ...................................................................................................................7

Цели исследования.......................................................................................................^

Задачи исследования....................................................................................................8

1. Обзор литературы...............................................................................................^

1.1 Инструменты бактериальной протеогеномики с точки зрения биоинформатики.....................................................................................................^

1.1.1 Ассемблеры и недостатки аннотации..................................................11

1.1.2 Алгоритмы идентификации белков по масс-спектрам........................14

1.1.3 Протеогеномные подходы в аннотации бактериальных и архейных геномов и характеризации микроорганизмов...................................................18

1.1.4 Протеогеномика и минимальная клетка..............................................21

1.2 Геномы микробов...........................................................................................28

1.2.1 Микоплазмы..........................................................................................29

1.2.2 Хеликобактер (разнообразие и организация молекулярной машины)32

1.2.3 Археи (протеогеномная аннотация): что известно и почему это необходимо для науки.........................................................................................33

1.3 Заключение.....................................................................................................34

2. Методы................................................................................................................36

2.1 Создание экспериментальной базы данных..................................................36

2.2 Программные пакеты для протеомного анализа и параметры обработки

то

спектров..................................................................................................................

2.3 Программы для сравнения геномов и картирования ридов.........................38

2.4 Объединение сторонних программ в Автоматизированный программный конвейер..................................................................................................................38

2.5 Разработка пользовательских интерфейсов..................................................39

2.6 Статистический анализ..................................................................................40

2.7 Программирование алгоритмов.....................................................................40

2.8 Протеомные эксперименты............................................................................40

2.9 Получение культур клеток.............................................................................42

2.10 Геномные эксперименты.............................................................................42

2.10.1 Методы сборки......................................................................................43

2.10.2 Аннотация.............................................................................................43

2.11 Источники геномных данных.....................................................................44

3. Результаты...........................................................................................................46

3.1 Разработка эффективных алгоритмов использования данных протеомных экспериментов для протеогеномного профилирования........................................46

3.1.1 Разработка принципов обработки экспериментальных данных протеомных экспериментов...............................................................................49

3.1.2 Работа с И-концевыми пептидами.......................................................50

3.1.3 Учет неспецифичности трипсина........................................................51

3.1.4 Использование данных геномных экспериментов..............................52

3.1.5 Обнаружение по сттрансляционных модификаций.............................53

3.1.6 Алгоритм избавления от избыточности...............................................54

3.1.7 Протеогеномное сравнение..................................................................55

3.2 Использование алгоритмов для улучшения аннотации геномов Mycoplasma gallisepticum, Acholeplasma laidlawii, Spiroplasma melliferum и Desulfurococcus kamchatkensis..........................................................................................................56

3.2.1 Улучшение аннотации Mycoplasma gallisepticum................................56

3.2.2 Улучшение аннотации Acholeplasma laidlawii.....................................57

3.2.3 Улучшение аннотации Spiroplasma Melliferum....................................57

3.2.4 Улучшение аннотации Desulfurococcus kamchatkensis........................58

3.3 Использование алгоритмов и оценка достоверности идентификаций при работе с изолятами и штаммами, для которых геномы не секвенированы или существует только частичная последовательность...............................................60

3.3.1 Работа со штаммами для которых геномы не секвенированы............60

3.3.2 Работа со штаммами, для которых геномы имеют частичную последовательность............................................................................................65

3.4 Использование алгоритмов для системного анализа на основе сравнения протеогеномных профилей бактерий....................................................................67

3.4.1 Протеогеномное сравнение Mycoplasma gallisepticum, Acholeplasma laidlawii, Mycoplasma mobile..............................................................................67

3.4.2 Протеогеномное сравнение Spiroplasma melliferum и Spiroplasma citri 76

3.4.3 Протеогеномное сравнение 3 штаммов Helicobacter pylori: J99, A45, 26695 83

Обсуждение результатов....................................................................................87

4.1 Разработанные алгоритмы и их эффективность в протеогеномной аннотации................................................................................................................88

4.2 Протеогеномное сравнение микоплазм.........................................................90

4.3 Протеогеномное сравнение спироплазм....................................................... 93

4.4 Протеогеномное сравнение Helicobacter pylori............................................96

4.5 Заключение.....................................................................................................97

Выводы........................................................................................................................98

Список литературы.....................................................................................................99

ВВЕДЕНИЕ

Актуальность проблемы. Приближение к точке технологической сингулярности [Kurzweil, 2005], охватившее сегодня все области человеческих знаний, во многом влияет и на исследования в области молекулярной биологии. Взрывообразное накопление данных в областях геномики, транскриптомики, протеомики и метаболомики не дает возможности перейти от редукционного подхода, направленного на отдельные компоненты, к системному, позволяющему охватить весь набор компонентов и их свойств.

Протеогеномика как предложенный в 2008 году набор подходов,

основанных на использовании протеомных данных для улучшения геномной

аннотации, позволяет существенно улучшить качество аннотации геномов. С

учетом разнообразия царств Бактерий и Архей использование протеогеномной

аннотации, возможно, является единственным способом получения корректного

представления о связи генотипа и фенотипа. Было показано, что синтез

наблюдений за относительно просто устроенными бактериальными клетками

позволяет не только скорректировать представления о взаимоотношениях генов и

их продуктов, но и получить представления о структуре системы в целом.

Естественно, что появляющиеся в последнее время работы по созданию

синтетической бактериальной клетки могут быть продолжены, только если

создаваемая система будет полностью описана и смоделирована. Несмотря на актуальность и с учетом новизны названной области, сегодня не существует единого программного решения, которое бы объединяло все задачи , связанные с совместным использованием геномных и протеогеномных данных.

Цели исследования

Задачи исследования

Для достижения названной цели были поставлены следующие задачи:

Научная новизна

С использованием современных методов и технологий разработаны

оригинальные методики и алгоритмы обработки экспериментальных данных

исследования геномов и протеомов бактерий. Комплекс подходов позволил

впервые объединить в единое аналитическое пространство разрозненные данные

частичного секвенирования ДНК и масс-спектрометрического анализа белков и далее, используя разработанный алгоритм протеогеномного сравнения, выявить межвидовые и межштаммовые различия.

Впервые проведено уточнение геномной аннотации для Mycoplasma gallisepticum S6, Acholeplasma laidlawii PG-8A, Spiroplasma melliferum KC-3 и Desulfurococcus kamchatkensis 122 In. По результатам уточнения удалось аннотировать новые белки, подтвердить или реаннотировать сайты начала транскрипции, проверить ряд предсказанных из строения генома явлений на белковом уровне. Ни для самих указанных штаммов, ни для близкородственных штаммов такие исследования ранее не проводились.

Проведенный с использованием разработанной методики анализ ряда бактерий позволил получить уникальные результаты по более точной оценке минимального функционального ядра молликут, исчерпывающему протеому представителя Архей, предположительным механизмам патогенеза спироплазм и возможной особенности проявления вирулентности и способности к трансформации у бактерий вида Helicobacter pylori.

Практическая значимость.

Аппаратно программный комплекс протеогеномного профилирования успешно используется в настоящее время в качестве основной информационной платформы в ряде международных и российских проектов, охватывающих как исследования бактериальной направленности (например, метагеном и метапротеом микробиоты кишечника человека), так и исследования протеомов эукариот.

Предложенная методика протеогеномной аннотации, апробированная на

различных представителях бактериального и архейного царств, может быть

использована для протеогеномной аннотации любого бактериального или

архейного генома. Предложенное использование системы с рядом

дополнительных экспериментальных подходов (обогащение пептидной фракции

протеома N-концевыми пептидами) позволит аннотировать большую часть сайтов начала транскрипции экспрессируемых генов.

Система позволяет использовать разноплановые экспериментальные данные (масс-спектрометры и сиквенсы) с учетом их индивидуальных особенностей (точность, масштаб получаемых экспериментальных данных и т.п.). Использование данных полученных при помощи разных видов масс-спектрометров и сиквенаторов достигается за счет применения унифицированных форматов обмена данными.

Апробация работы.

Результаты работы были представлены на следующих российских и международных конференциях: Итоговая научная конференция НИИ ФХМ 2010, Молодежная конференция НИИ ФХМ 2011 , В GRS 2010 Novosibirsk , XXII Симпозиум «Современная химическая физика» 2010 г. Туапсе, Постгеномные методы анализа в биологии, лабораторной и клинической медицины - 2010г. Москва, Постгеномные методы анализа в биологии, лабораторной и клинической медицины - 2011г. Новосибирск, Iscb Students council 2011 - Vienna ,HUPO 2011 World Congress - Geneve , MCCMB'l 1 ~ Moscow .

Структура и объем диссертации.

1. Обзор литературы

1.1 Инструменты бактериальной протеогеномнки с точки зрения биоинформатики

Впервые термин «протеогеномика» был использован в 2008 году в статье Чарльза Ансонга и коллег «Протеогеномика: роли и обязанности протеомики в геномной aHHOTau;HH»[Ansong и др., 2008], авторы впервые обобщили набор подходов, основанных на использовании протеомных данных, и предложили использовать их для улучшения геномной аннотации.

Необходимость применения методов протеогеномики для создания геномной аннотации обоснована тем, что использование методов ab initio предсказания белков по кодирующей последовательности или методов предсказания кодирующих регионов генома по экспериментально найденным РНК, по сути своей, обосновывают высокую вероятность существования белкового продукта, но не являются достаточными свидетельствами его экспрессии. Использование же данных, свидетельствующих о наличии в исследуемых образцах полипептидных цепочек соответствующих исследуемым регионам геномов, напротив, позволяет с уверенностью утверждать о наличии продукта гена.

Кроме того взрывообразно увеличивающийся поток информации о структуре геномов про- и эукариотического происхождения после введения в практику сиквенирования методов второго поколения актуализировал вопрос о коррекции и дополнении этих данных за счет транскриптомных и протеомных подходов.

1.1.1 Ассемблеры и недостатки аннотации

На сегодняшний день количество геномов прокариот, полные последовательности которых хранятся в мировом репозитории геномных данных genbank, превысило 1750 (стоит заметить, что число драфт-версий геномов, собранных не полностью, около 3000, а открытые архивы геномных данных

содержат данные об еще примерно десяти тысячах). При этом экспоненциальный рост количества данных, начавшийся в начале XXI века продолжается (рис. 1.).

время

Рисунок 1. Экспоненциальный рост количеств геномов (зеленый) и родов (синий) со временем. График составлен по статистическим данным СепЬапк.

Основной целью, которую преследует расшифровка большого количества геномов, является определение множества фенотипов исследуемых бактерий. Естественно, что сама геномная последовательность еще не говорит о фенотипе, необходимым шагом к его получению является аннотация генома. Аннотация генома на сегодняшний день включает не только описание расположения генов по геному, но так же и характеризацию множества геномных элементов (сайтов связывания, нетранслируемых областей, регуляторных элементов, некодирующих РНК), однако наличие белковой экспрессии с участков геномов и ее количественная характеризация по прежнему остается основной задачей аннотации.

Белок-кодирующие гены в геномной ДНК идентифицируются с помощью

большого разнообразия вычислительных инструментов - автоматизированных

систем аннотации, который используют ab initio предсказательные методики и

методики основанные на сравнении. TIGR CMR[Peterson и др., 2001],

GenDB[Meyer и др., 2003] and BASys[Domselaar Van и др., 2005], пожалуй,

является самыми часто используемыми программами геномной аннотации. В

типичной геномной ДНК используются алгоритмы, такие как GLIMMER[Delcher и

др., 1999] или CRITICA[Badger, Olsen, 1999] для предсказания возможных белок-

кодирующих областей. Ab initio предсказание генов использует статистические

свойства генов - такие, как GC богатые регионы, использование кодонов или

специальные информационные свойства k-меров. Кроме того, последовательность

ДНК сравнивается с последовательностями в базах данных существующих белков